dataabc / weibo-follow Goto Github PK

View Code? Open in Web Editor NEW

178.0 178.0 51.0 31 KB

爬取关注列表中微博账号的微博

Python 100.00%

weibo-follow's People

Contributors

Stargazers

Watchers

Forkers

cufelouis suchaoxiao stillrainy hui5238 barnett2010 coolsnake archenemy61 hyb121 jiyangcd shr670377723 happyhengheng anndawn zhangyunfang pretenderss dongdiwen wwhlion q629988171 ccc008 huning2009 ljjsimon slx-a fanjindong wdq233 jliu0185 ciring lnb11855 summer0059 sanmulaila xrz369 qcmuu zhanshen081 terazadl gcxfd griffith123 xmingpyccnu use073 asdlei99 blwuer rabbitzzh 274843301 yeemu aureosun liuliurui6 maplecap tiratown wutao0914 xuaidong marshallcao pxxy-qiuwang silverbullet233 leo-lee15

weibo-follow's Issues

概率出现"Max retries exceeded with url:XXXX"的错误

在headers中添加上'Connection': 'close'能解决

想问一下作者，爬取了用户的关注列表以后，所有的关注用户都在user_id_list.txt里面，怎么能划分出来他们是那些用户的关注列表呢？

能否支持没有有效cookie时爬取

我严格按照cookie获取的方式，但是依然有问题，并且在weiboSpider检查了一下确实是cookie无效导致的。所以请问能否提供支持没有有效cookie时爬取的版本？

请问我的weibo-follow一直无法安装是怎么回事？

windows系统。git那一步成功了，然后进入weibo-follow目录进行pip xxxx requirement.txt那一步，结果迟迟安不上去···求问这是咋回事（图的顺序可能不一定准，但可以涵盖所有信息）

想了解迪丽热巴关注了哪些账号

大佬，如果只需要下载关注列表，不需要下载列表里的人的微博
要如何修改脚本。
只要得到微博名微博id 微博首页链接等简单信息
weibo.cn/1669879400/follow

问题：“cookie无效或提供的user_id无效”

运行时报错，显示cookie无效或提供的user_id无效

请问这里的json我是填错了吗？还是哪里可能出现的问题？我看网上有的cookie的格式和我这个不太一样，我这个只有sub,subp,SSOLoginState,_T_WM及M_WEIBOCN_PARAMS五个key-vale的形式
感谢！

请问把sleep()的间隔秒数调短一些是否有被封ip的风险呢？

sleep(random.randint(6, 10))
6-10秒的间隔有些过于长了，需要爬大量的数据所用的时间有点久。

页面限制

想问下是否可以从m.weibo.cn这个站点获取关注/粉丝列表，因为weibo.cn这个站点限制只能爬20页，但是m.weibo.cn相比于weibo.cn可以获取多得多的页面。

可否增加一项user.csv输出功能？

大佬。
目前的weibo_follow.py可以获得user_id_list.txt。
可不可以增加一项输出，获取id的详细信息，单独输出user.csv。
像weibocrawler存出的user.csv一样。

file_path = file_dir + os.sep + 'users.csv' result_headers = [ '用户id', '昵称', '性别', '生日', '所在地', '学习经历', '公司', '注册时间', '阳光信用', '微博数', '粉丝数', '关注数', '简介', '主页', '头像', '高清头像', '微博等级', '会员等级', '是否认证', '认证类型', '认证信息' ]

请问一下大大，我如果想爬取粉丝列表和关注列表，要怎么修改。。

运行了停不下来

原本200多个id，现在已经循环到三万多了，也有重复的😄
不是一次200吗？现在不知道到哪了😂

请问出现is_exist = info[0].xpath("div/span[@class='ctt']") IndexError: list index out of range是因为什么

把代码放在阿里云服务器上报错，但是在本地是可以运行的(由于是小白不太懂怎么弄，还希望作者大大帮助）

某些用户（签约自媒体）用户ID抓取不到，抓取的是字符串，和昵称不同

例如：
https://weibo.com/huangzhangjinster?from=myfollow_all&is_all=1
https://weibo.cn/prospectstreet
因为不是ID，不知道是否影响其他的抓取任务（weiboSpider-master）

你好，出现xpath问题

你好，运行的时候出现以下errors：
Error: 'NoneType' object has no attribute 'xpath'
Traceback (most recent call last):
File "D:\github_clone\weibo-follow\weibo_follow.py", line 132, in start
self.get_follow_list() # 爬取微博信息
File "D:\github_clone\weibo-follow\weibo_follow.py", line 84, in get_follow_list
page_num = self.get_page_num()
File "D:\github_clone\weibo-follow\weibo_follow.py", line 58, in get_page_num
if selector.xpath("//input[@name='mp']") == []:
AttributeError: 'NoneType' object has no attribute 'xpath'
请问如何解决？谢谢！

想要随机获取列表中的x个人

您好，请问，如果我有一个很长的user_id_list，但是为了节约时间我不需要把他们的关注列表全都爬下来，只想要随机获取每个id关注的10个人，或者可以指定是他们关注列表里每一页的前2个人。请问可以怎样通过修改代码实现呢？
谢谢您！

“cookie无效或提供的user_id无效”问题

大佬大佬，前面都按步骤之后，在cmd里一输入python weibo_follow.py后，就出现

cookie和不同的id已经试过很多遍了，为什么会这样呀，跪求大佬指导

请问大佬，有没有爬取微博转发路径的功能？

假如有个微博正文Z 由三个用户A、B、C转发，然后进一步转发至 a1, b1,b2,b3, c1,c2,

Z -> A -> a1
Z -> B -> b1,b2,b3
Z -> C -> c1,c2

因此，传播影响力最大的用户可能是B

我想画类似于上图的传播路径，也愿意得出来那些影响力最大的用户B。
貌似大佬的repo中没有这种功能的项目。如果有，请您提醒我一下；如果没有，请您指教通过什么样的改进能实现这样的功能。

崔凯(2020)的一文《破圈：粉丝群体爱国主义网络行动的扩散历程》中，他们成功获取了微博Z https://m.weibo.cn/detail/4405680359897741 的转发路径。不知以下的方法是否能落实到weibo-follow项目中。

“我们通过转发内容是否存在其他用户昵称可以判定是否转发自其他用户，由此可以形成一整条转发的关系数据，最终获取数据量为228665的数据集。”

谢谢！

59行偶尔报错

('Error: ', AttributeError("'NoneType' object has no attribute 'xpath'",))
Traceback (most recent call last):
File "weibo_follow.py", line 135, in start
self.get_follow_list() # 爬取微博信息
File "weibo_follow.py", line 85, in get_follow_list
page_num = self.get_page_num()
File "weibo_follow.py", line 59, in get_page_num
if selector.xpath("//input[@name='mp']") == []:
AttributeError: 'NoneType' object has no attribute 'xpath'

不做任何改动，有时候过了几分钟再运行就好了，但是运行到某一处又会报这个错误然后停下来

想要爬取关注关系

想要爬取很多用户的关注关系，就目前返回的结果是没有关系链条（边）的，例如我在txt里面列了100个user id，我分想分别爬取这100个人的关注，如“黄渤”关注“央视新闻”，“胡歌”关注“央视新闻”。但返回的结果来看，这100个人的关注者都混在一块了。请问有好的方法可以解决我这个需求吗？谢谢~

关于提示cookies无效时

大佬：

我获取了一个微博号的1000个关注id，
再从这1000个关注，去获取他们每个人的关注。
脚本从这开始运行。一开始没有异样，然后就挂机了，
等第二天去检查时，发现获取了3万8千条结果。

然后cmd窗口显示：
用户关注页数1
cookie无效或提供的user_id无效。

猜大概是这个原因，导致某个时间点开始，之后的id全部没有获取，跳过了。

所以想求个新功能，当脚本提示cookies无效时，脚本自动暂停。

这样的话，当去检查时，就可以更新cookie。。再接着爬了。

依赖安装失败

pip install lxml == 4.3.4
报错说可能pip版本不对？
Try to run this command from the system terminal. Make sure that you use the correct version of 'pip' installed for your Python interpreter located at 'D:\360MoveData\Users\Lenovo\Desktop\SummerProject\weibo-follow\venv\Scripts\python.exe'.