Anti - crawling website crack Demo, we hope to update together
Author | Zok |
---|---|
[email protected] | |
BLOG | www.zhangkunzhi.com |
Introduce | 数据解密、反爬处理、模拟登陆、POST登陆 |
最近在做MT和DP的整站爬取,所以经常更新一些拆分开来的小demo
- 大众点评-字体解密
- 大众点评-坐标解密
- bilibili-视频下载器
- GitHub-post自动登陆
- 淘宝-自动登陆-新浪入口
- 淘宝-自动登陆-淘宝账号
- 淘宝-pyppeteer过webdriver检测
- 淘宝-mitmproxy过webdriver检测
- 百度-翻译
- 天眼查-登陆
- 51job-查岗位
- 美团-爬用户评论
- 美团-解析餐馆数据
- 美团-餐饮页token生成
- 美团-三级区域解析器
- 美团-休闲会所店铺信息解析器
- 美团-全国区域scrapy爬虫
├── DianPing // -----大众点评-----
│ ├── parse_address_poi.py // 坐标加密
│ └── parse_font_css.py // CSS字体解密
├── GitHub // ------GitHub-----
│ └── login.py // GitHub自动登陆
├── JingDong // -------京东-------
├── BaiDu // -------百度-------
│ └── translation.py // 百度翻译
├── MeiTuan // -------美团-------
│ ├── parse_comments.py // 获取用户评论数据
│ ├── create_food_token.py // 餐饮页Token生成器
│ ├── parse_play_areas.py // 三级区域解析器(休闲板块)
│ ├── parse_play_info.py // 休闲会所商铺数据解析
│ ├── get_login_cookies.py // 基于pyppeteer登陆并获取cookies
│ └── parse_restaurant_info.py // 解析餐馆数据
├── TaoBao // -------淘宝-------
│ ├── login_for_sina.py // 淘宝自动登陆-新浪入口
│ ├── auto_login_pyppeteer.py // 淘宝自动登陆-淘宝账号
│ ├── login_for_pyppeteer.py // 利用pyppeteer过webdriver检测
│ └── login_for_mitmproxy.py // 利用mitmproxy过webdriver检测
├── TianYanCha // -------天眼查-------
│ └── login.py // 自动登陆,并获取企业信息
├── BiliBili // -------BiliBili-------
│ └── login.py // 视频下载器
├── MeiTuanArea // -------基于美团全国区域采集器-------
└── 51Job // -------51job-------
└── select_job.py // 编码转换,岗位查询
- 美团三级区域解析器
- 美团休闲娱乐商铺信息
- TB过检测登陆
- 美团餐饮数据解析
- 51job查岗位
- 美团评论解析