爬取微信公众号文章
注意,除非你要断点续传,否则删除目录下conf.ini和url.json再启动!!!!
1、下载并解压Chrome.rar;
2、运行main.exe;
3、填入信息,点击“启动”即可。
爬取微信公众号有三种方法:
- 第一种:用搜狗微信公众号搜过,这个只能收到前10条;
- 第二种:用fiddler或手机抓包,从访问链接去获得appmsg_token,发现虽然这个值就在html页面里,但只有抓包的数据里含有效值,直接访问的是空的,而且还有时效性。这样,每次都要抓包获取,就很麻烦。
- 第三种:就是这种用公众号搜公众号的,虽然速度慢点,但便捷了不少。
通过selenium登录获取token和cookie,再自动爬取和下载
- 使用前提:
1、申请一个免费的微信公众号,个人订阅号即可(https://mp.weixin.qq.com)
- 下载文章文字内容到txt
- 下载文章图片
- 保存HTML文件,并将图片链接指向本地
- 添加按时间范围下载
- 添加cookie登陆,不成功才selenium浏览器登陆
- 增加记住密码功能
- 修复一些问题,如requests卡死
- 添加按关键词下载
- 多线程优化下载速度
- 增加断点续传功能(可能存在bug,欢迎提issue)
- 拟增加备用公众号功能(暂未完成)
- 下载PDF格式
- 爬取间隔太快,容易遇到“访问频繁”或“freq_control”,这时候可以删除cookie.json,再重新运行软件,换个号继续运行;
欢迎关注微信公众号:xfxuezhang