kekewind / 1688-selenium-spider Goto Github PK

View Code? Open in Web Editor NEW

1688爬虫，通过搜索关键词采用selenium爬取指定页数的商品信息。喜欢的话点个星星(＾Ｕ＾)ノ~ＹＯThe 1688 crawler uses selenium to crawl a specified number of pages of product information by searching for keywords.

Python 100.00%

1688-selenium-spider's Introduction

1688爬虫(基于selenium)

阿里巴巴爬虫通过搜索关键词采用selenium+selenium日志hook(亮点：自行查找相关功能,实现所有请求包括ajax动态请求的监听)爬取指定页数的商品信息，包括公司名，五项评分，综合评分，价格，所有宝贝图的图片，以及产品的规格，尺寸暂时没写，不足之处：验证码，已经写了ip切换的功能，暂时没找到合适的ip池，需要的自行根据代码将注释取消启用，并且修改ip.txt的内容即可，ip通过http https 地址+端口直连的方式连接。在爬取频繁之后，一般是十个商品会出现一次验证码，目前采用的方式是在电脑人工切换ip刷新页面。数量不多的话影响不大。

""" author:wes; createtime:2022.03.22

项目概述：爬取1688关键词名称和对应的产品数量，单页60个产品的数据。对于每个产品： A.标题(以及红标题)和链接 B.五项评分评分和综合评分 C.复购率 D.成交额 E.价格 F.企业名称 G.页面链接 """ """ author:wes; updatetime:2022.04.22 第三版更新说明：优化了程序，使之能完整的运行未来可以继续优化的步骤：效率高于扫码登录的更优方式，ip验证问题（遇到ip验证需要人力解决）

""" """ 第二版更新说明: 修改了退换体验分数为空时存表为-1的错误修改了成交额显示错误的问题美化了下代码

"""

1.项目名称：1688.com 的关键词商品信息爬虫

2.需求分析

A.分析商品页ajax链接（下的）存储到{keyword}_{sort_type}.csv 中 (此功能在py爬虫文件均自动重新生成)

3.主要代码实现

4.其他描述： A.直接运行主文件

5.测试： cookies容易失效，后续考虑多账号轮番登录，登录暂时需要人工

配置：略安装包：目录下 requirements.txt文件打开当前目录的dos窗口输入 pip install -r requirements.txt

本代码仅供个人参考交流探讨更优方案等。

Recommend Projects

kekewind / 1688-selenium-spider Goto Github PK

1688-selenium-spider's Introduction

1688爬虫(基于selenium)

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent