googlecommonspider's Introduction

谷歌图片通用爬虫

安装

需要python 3.6

使用pip安装selenium, requests

pip3 install selenium requests

下载chrome驱动

Download ChromeDriver from chromium.org

使用

chromedriver的处理

请将下载好的chrome驱动程序放在与main.py的同级目录下，对于windows开发者，请保证chrome驱动程序的文件名为chromedriver.exe。对于其他系统的开发者，在保证驱动程序和脚本在同级目录的前提下，修改main.py第37行，将“chromedriver.exe”修改为您下载好相应的chromedriver的文件名。

配置下载网址

本爬虫是基于google图片搜索而构建的爬虫，因此先在google中输入要查找的图片关键字，例如“蔬菜”。点击图片分类，google会跳转到“蔬菜”关键字的图片搜索页面，接着复制当前网址，在main.py第40行的url_list的列表中删除默认的两个dict（这两个是配置demo示范，分别爬取的是“蔬菜”和“不新鲜的蔬菜”，需要删去换成自己需要爬取的网址），将刚复制的网址粘贴上去。下面是具体参数的解释：

{
    "url": "你要爬取的网址，需要粘贴上去的内容。",
    "dir": "爬取结果图片保存的文件夹，例如示例中写的是fresh，则结果就会保存在result/fresh下"
}

配置代理

由于在国内，又是针对google图片进行爬取，代理必不可少。main.py的第18行是requests库需要的代理，main.py的26行是selenium需要的代理，请根据本机情况自行填写代理地址。

运行

以上全部配置完成即可运行，结果会保存在与main.py的同级目录下的 “result/您配置的保存文件夹”中。

运行：

python main.py

依赖

selenium github

requests github

license

MIT

Recommend Projects

wmy0132 / googlecommonspider Goto Github PK

googlecommonspider's Introduction

谷歌图片通用爬虫

安装

使用

chromedriver的处理

配置下载网址

配置代理

运行

依赖

license

googlecommonspider's People

Contributors

Watchers

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent