🐷 要有飞起来的信念,找到属于自己的风口
- 🧐 对写好代码很感兴趣,有一点点geek精神,会这些ops,php,swoole,python,nodejs。
- 🕷
胖鼠采集
是我的第一个开源作品,很高兴它有2000+活跃使用的鼠友、5万+的插件下载量、 - 🏃 户外运动只存在于我的大脑中,目前很宅,以后要实现运动的愿望。
- ⏰ 2022年我计划尝试不一样的生活,也尝试输出一些知识文章,认识更多朋友。
胖鼠采集 WordPress优秀开源采集插件
License: GNU General Public License v3.0
如题。在window和linux下都出现。
Neef help dowloading fatcolkec? And repository please.ty
也许作者可以考虑整合上爬虫,毕竟采集这货最怕的就是反爬虫
我使用手动发布和快捷发布,文章都可以正常显示图片。
但是使用自动发布的文章,图片都无法正常显示。
是否自动发布不能保存图片?
感谢作者!
wordpress版本:5.4.2版本
插件版本:2.2.4版本
采集范围是:#review
采集content的选择器是:#sf_description,html,a -img
最后只能得到:<i id="revintroline">aaaaaaaaaaaaa</i>
,而无法得到该标签下面的兄弟元素,兄弟元素是text,不是标签。
哎,github竟然不支持插入html代码,噗。
简书采集某个人的全部文章,拥有搜索功能,这样就是一个强大的搜索库了
或者开放自定义字段采集,正想自己改,能否告知一下行数?谢谢🙏
WordPress 已经锁区了,科学上网还要折腾
还有别的方法安装吗?
wordpress版本:5.4.2版本
插件版本:2.2.4版本
在数据桶配置中,发布分类设置为其他后,点击【保存发布配置】之后,分类设置就又成了【未分类】
无法采集audio标签内容~
自动发布有问题到了时间不能自动发布,但WP-Cron手动点击有效(PS我自己手动刷新过了还是不能同步)
rt
我试用了除微信公众号,简书外的其他网页文章,微博文章,小红书文章都没法采集,请问需要怎么设置呢?
比如针对微信公众号的设置一套模板
针对简书的设置一套模板
针对zendesk的设置一套模板,这样大家就直接用了,你这样,虽然做的很好,可能有很大的门槛的,对于技术小白,实在不会用的
试了胖鼠,感觉非常方便,比一些付费的插件好用多了,希望插件功能越来越强大
想用宝塔来配置,不知行不行
文章里的视频可以采集过来wp的文章吗?
采集规则需要替换成自定义的属性,有办法实现吗?
尝试使过滤和替换,都失败。
1.过滤只能删除
2.关键词替换,好像不能有空格和换行符。
比如: 替换成
需要怎么实现?
微信的图片是不能正常显示的,是否可以把图片保存到本地呢 ?
最初安装插件后测试过,一切正常。一段时间没用之后,再次点击胖鼠的侧边栏之后出现以下报错:
Fatal error: Uncaught Error: Call to undefined method GuzzleHttp\Client::request() in /www/wwwroot/evolutionofear.com/wp-content/plugins/fat-rat-collect/includes/fatrat-validation.php:111 Stack trace: #0 /www/wwwroot/evolutionofear.com/wp-content/plugins/fat-rat-collect/includes/fatrat-validation.php(99): FRC_Validation->validation_request('/validation/ann...') #1 /www/wwwroot/evolutionofear.com/wp-content/plugins/fat-rat-collect/includes/fatrat-spider.php(578): FRC_Validation->announcement() #2 /www/wwwroot/evolutionofear.com/wp-includes/class-wp-hook.php(286): frc_spider('') #3 /www/wwwroot/evolutionofear.com/wp-includes/class-wp-hook.php(310): WP_Hook->apply_filters('', Array) #4 /www/wwwroot/evolutionofear.com/wp-includes/plugin.php(465): WP_Hook->do_action(Array) #5 /www/wwwroot/evolutionofear.com/wp-admin/admin.php(253): do_action('%e8%83%96%e9%bc...') #6 {main} thrown in /www/wwwroot/evolutionofear.com/wp-content/plugins/fat-rat-collect/includes/fatrat-validation.php on line 111
The site is experiencing technical difficulties. Please check your site admin email inbox for instructions.
其他子页面均正常。卸载后重装也不能解决。
采集掘金列表, 掘金反爬虫导致无法获取列表的相关ul & li的dom
链接: https://juejin.im/welcome/frontend
是否能有后台采集或多线程采集的机制。
针对微信公众号或者简书的,能不能举个例子?
就是有一些模板配置之类的东西?现在你们做的东西太程序员化了
采集英文网站自动翻译,例用翻译api
抓到的数据内img标签src为 src="//img.jbzj.com/file_images/article/202101/202101081123011.png" ,无法下载到本地保存,不知道是不是因为没有 https的问题,望解答,谢谢
超时! 亲不必惊慌, 胖鼠为你保驾护航. 此异常一般是你的网络太差或服务器带宽小,文章中图片过多,下载图片太慢,时间久了就超时了(但是采集任务仍在后台运行哦), 你可以新开窗口去数据中心看一下. 是不是已经采集成功一部分了? 可以修改(php.ini)请求超时时间选项可优化。或者重新点击一次运行即可(推荐),但是多等一会再点哦(30秒左右吧), 因为上一个后台任务还没结束, 又点了一次 文章滤重功能可能会失效造成文章重复采集哦, 没有其他影响 = - =!
请问这个怎么解决!!!
你好!感谢提供采集插件!
我计划采集这个网站的文章:
http://www.guandian.cn/news/
根据操作方法论,我依次执行了采集规则编写:
但我发现并不能成功采集到文章,请问我的问题出现在什么地方?
谢谢!
首先非常感谢作者, 这个插件相当强大!
请问, 作者是否有计划提供一个API, 可以通过访问该API并传入文章链接, 来触发抓取呢?
比如:
第一步: 访问该API, 传入文章链接
第二部: 胖鼠采集收到请求, 开始抓取传入的链接的文章内容
该功能可以说非常常用! 因为有了该API接口, 胖鼠采集将与其他系统丝滑对接!
再次感谢作者!
Hello KitePig:
之前一直使用插件没有出现问题。
最近不管解析哪个网站,都会出现问题:“错误: 网络连接失败, 请求超时, 如异常持续, 请联系胖鼠排查原因!”
请问,该如何排除?
作者大大好,其他字段如 日期/作者 回头考虑怎么开放给大家用 好几年了~大大还没开放么,要是开放了,感觉就不需要用AutoBlog了
跟新失败,并显示如下:
更新失败: 502 Bad Gateway 502 Bad Gateway nginx
现在的规则是域名+采集到的a标签的链接 比如 http://aaa.com/bbb.html
我遇到了有些站点域名后面加了目录 然后再加采集到的a标签的链接 才是真正的详情页地址 http://aaa.com/111112/bbb.html
例如
https://www.bing.com/search?q=%E7%99%BE%E5%88%86%E5%8F%B7%E7%BC%96%E7%A0%81
填入采集地址后,保存,百分号编码部分会消失
若直接填入汉字,可以正常工作
Hi, KitePig:
内容过滤似乎是无效的?
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.