Mine-resource-barn 是基于 Python 的爬虫软件,基于此你可以自己创建一个具有最新时效的资源库!
1.程序允许你在合适的请求凭此下,最多允许你建立 Minebbs 上最新两个月的资源库,获取的资源库是一个 .xlsx 工作簿 (包含标签、二级分类、资源名、作者、首发日期、最近更新日期、售价、下载量、评价状况、资源超链接),工作簿含有多个表单,分别对应 Minebbs 资源中心的资源分类,而爬取的资源也将自动分类。你完全可以按照自己的需求对资源库进行重新排序,完成快速检索。
2.食用方法,下载并解压,对 config.data 进行简单配置,双击运行 Mine-resource-barn.exe 即可开启自建进程...
关于 config.data 的配置说明
3.只是作者在学习 Xpath 解析时的一次小练习,请勿反编译程序或对网站进行恶意请求,出问题概不负责...
4.一些效果图
1.程序允许你在合适的请求凭此下,最多允许你建立 Minebbs 上最新两个月的资源库,获取的资源库是一个 .xlsx 工作簿 (包含标签、二级分类、资源名、作者、首发日期、最近更新日期、售价、下载量、评价状况、资源超链接),工作簿含有多个表单,分别对应 Minebbs 资源中心的资源分类,而爬取的资源也将自动分类。你完全可以按照自己的需求对资源库进行重新排序,完成快速检索。
2.食用方法,下载并解压,对 config.data 进行简单配置,双击运行 Mine-resource-barn.exe 即可开启自建进程...
关于 config.data 的配置说明
代码:
{'month': 10, 'day': 20, 'request_interval': 30, 'User-Agent': 'null'}
# month 和 day,即你要爬取资源的截止时间,请以当前时间为基准,不要设定超过 2 个月的截止时间,否则会被程序阻止
# 事实具有最新时效的资源,在时间跨度上不会很大
# request_interval 即资源爬取时的请求间隔(这里是请求每一页的间隔)
# 为了不给网站带来不必要的压力,间隔时间小于 30s 会被程序阻止,如果在爬取大量资源信息时,建议设置的更长
# User-Agent 是必填项,这会让你更像浏览器发出的请求
# 获取方式 -- 浏览任意页面 - f12 - 标头 - 下拉找到 User-Agent - 将对应的值复制到 config.data 中
3.只是作者在学习 Xpath 解析时的一次小练习,请勿反编译程序或对网站进行恶意请求,出问题概不负责...
4.一些效果图