这个项目主要用Scrapy抓取目标网站,每个目录下都抓取特定的网站。由于网站类型不同,因此每个特定的spider都有不一样的功能,不同的配置,不同过滤数据的方式。当然了,参照这个仓库的例子,你完全可以定制你自己的爬虫,抓取你自己想要的网站。
下面,是我写这个项目时用到的版本:
Python : 2.7.12
Scrapy : 1.1.0
numpy : 1.11.1
对应的目录有相应的运行说明
- 代理IP抓取目标网站
- 定制自己的请求客户端
- 一个项目下的pipelines只过滤相应的Item
这个项目只是一个开始,还有非常多要完善的地方。如果大家对这个项目有兴趣的话,可以联系我,我们一起完善这个项目。