一个分布式爬虫
用 multiprocessing 实现分布式
用 pybloom 实现 Bloom Filter 用于对url去重
window10
python 3.6.4
下载 pybloom https://github.com/jaybaird/python-bloomfilter
下载 bitarray https://www.lfd.uci.edu/~gohlke/pythonlibs/#bitarray
安装:
1.将pybloom拷贝到工程目录下
2.pip install [存放路径\bitarray-0.8.3-cp36-cp36m-win_amd64.whl]
运行 run_spider.py
1. 运行 url_manager.py
2. 运行 url_set.py [起始页码] [结束页码]
3. 运行 url_get.py