Mini-Spider是一个实用的爬虫工具,它的意义在于快速获得你所要的资源,而不用去关注诸如爬虫构造、数据存储、网络环境、语言实现等一系列的事情。现在你只需要简单的几个命令,就可以创建一个爬虫,并完成你的任务!
使用mini-spider,你仅需要两步即可创建属于你自己的爬虫!(大部分时候)
- 网页自动提取资源并根据算法分类(包括完整url和所有html标签内容)
- 根据资源自动生成提取器
- 自定义提取器以及Host数据
- 自动将提取内容加入相应数据库
- 自动分类下载,断点续传
- 数据库导入和导出
简单地说,你只需要几个命令就可以爬取你想要的资源!
安装前注意:
-
只依赖于python 3.x ,不兼容pyhon 2.x
-
本项目不需要任何第三方依赖。
下载整个项目,切换到本目录,在终端中执行
$ python3 setup.py install
或者,使用pip下载
$ pip3 install mini-spider
这里演示使用三个命令创建爬虫,后使用两个命令完成全部任务。
示例目标:提取这里作者发布的所有图片
Ver 0.0.4 : 基本功能测试阶段。