dataabc / weibo-follow Goto Github PK
View Code? Open in Web Editor NEW爬取关注列表中微博账号的微博
爬取关注列表中微博账号的微博
在headers中添加上'Connection': 'close'能解决
我严格按照cookie获取的方式,但是依然有问题,并且在weiboSpider检查了一下确实是cookie无效导致的。所以请问能否提供支持没有有效cookie时爬取的版本?
如题
看来这个办法不行了
大佬,如果只需要下载关注列表,不需要下载列表里的人的微博
要如何修改脚本。
只要得到 微博名 微博id 微博首页链接 等简单信息
weibo.cn/1669879400/follow
程序没报错,我cookie,UA也都改了,运行后没有结果输出。
sleep(random.randint(6, 10))
6-10秒的间隔有些过于长了,需要爬大量的数据所用的时间有点久。
想问下是否可以从m.weibo.cn这个站点获取关注/粉丝列表,因为weibo.cn这个站点限制只能爬20页,但是m.weibo.cn相比于weibo.cn可以获取多得多的页面。
大佬。
目前的weibo_follow.py可以获得user_id_list.txt。
可不可以增加一项输出,获取id的详细信息,单独输出user.csv。
像weibocrawler存出的user.csv一样。
file_path = file_dir + os.sep + 'users.csv' result_headers = [ '用户id', '昵称', '性别', '生日', '所在地', '学习经历', '公司', '注册时间', '阳光信用', '微博数', '粉丝数', '关注数', '简介', '主页', '头像', '高清头像', '微博等级', '会员等级', '是否认证', '认证类型', '认证信息' ]
原本200多个id,现在已经循环到三万多了,也有重复的😄
不是一次200吗?现在不知道到哪了😂
例如:
https://weibo.com/huangzhangjinster?from=myfollow_all&is_all=1
https://weibo.cn/prospectstreet
因为不是ID,不知道是否影响其他的抓取任务(weiboSpider-master)
你好,运行的时候出现以下errors:
Error: 'NoneType' object has no attribute 'xpath'
Traceback (most recent call last):
File "D:\github_clone\weibo-follow\weibo_follow.py", line 132, in start
self.get_follow_list() # 爬取微博信息
File "D:\github_clone\weibo-follow\weibo_follow.py", line 84, in get_follow_list
page_num = self.get_page_num()
File "D:\github_clone\weibo-follow\weibo_follow.py", line 58, in get_page_num
if selector.xpath("//input[@name='mp']") == []:
AttributeError: 'NoneType' object has no attribute 'xpath'
请问如何解决?谢谢!
您好,请问,如果我有一个很长的user_id_list,但是为了节约时间我不需要把他们的关注列表全都爬下来,只想要随机获取每个id关注的10个人,或者可以指定是他们关注列表里每一页的前2个人。请问可以怎样通过修改代码实现呢?
谢谢您!
假如有个微博正文Z 由三个用户A、B、C转发,然后进一步转发至 a1, b1,b2,b3, c1,c2,
Z -> A -> a1
Z -> B -> b1,b2,b3
Z -> C -> c1,c2
因此,传播影响力最大的用户可能是B
我想画类似于上图的传播路径,也愿意得出来那些影响力最大的用户B。
貌似大佬的repo中没有这种功能的项目。如果有,请您提醒我一下;如果没有,请您指教通过什么样的改进能实现这样的功能。
崔凯(2020)的一文《破圈:粉丝群体爱国主义网络行动的扩散历程》中, 他们成功获取了微博Z https://m.weibo.cn/detail/4405680359897741 的转发路径。不知以下的方法是否能落实到weibo-follow项目中。
“我们通过转发内容是否存在其他用户昵称可以判定是否转发自其他用户,由此可以形成一整条转发的关系数据,最终获取数据量为228665的数据集。”
谢谢!
('Error: ', AttributeError("'NoneType' object has no attribute 'xpath'",))
Traceback (most recent call last):
File "weibo_follow.py", line 135, in start
self.get_follow_list() # 爬取微博信息
File "weibo_follow.py", line 85, in get_follow_list
page_num = self.get_page_num()
File "weibo_follow.py", line 59, in get_page_num
if selector.xpath("//input[@name='mp']") == []:
AttributeError: 'NoneType' object has no attribute 'xpath'
不做任何改动,有时候过了几分钟再运行就好了,但是运行到某一处又会报这个错误然后停下来
想要爬取很多用户的关注关系,就目前返回的结果是没有关系链条(边)的,例如我在txt里面列了100个user id,我分想分别爬取这100个人的关注,如“黄渤”关注“央视新闻”,“胡歌”关注“央视新闻”。但返回的结果来看,这100个人的关注者都混在一块了。请问有好的方法可以解决我这个需求吗?谢谢~
大佬:
我获取了一个微博号的1000个关注id,
再从这1000个关注,去获取他们每个人的关注。
脚本从这开始运行。一开始没有异样,然后就挂机了,
等第二天去检查时,发现获取了3万8千条结果。
然后cmd窗口显示:
用户关注页数1
cookie无效或提供的user_id无效。
猜大概是这个原因,导致某个时间点开始,之后的id全部没有获取,跳过了。
所以想求个新功能,当脚本提示cookies无效时,脚本自动暂停。
这样的话,当去检查时,就可以更新cookie。。再接着爬了。
pip install lxml == 4.3.4
报错说可能pip版本不对?
Try to run this command from the system terminal. Make sure that you use the correct version of 'pip' installed for your Python interpreter located at 'D:\360MoveData\Users\Lenovo\Desktop\SummerProject\weibo-follow\venv\Scripts\python.exe'.
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.