Giter Site home page Giter Site logo

leo1024 / spider-flow Goto Github PK

View Code? Open in Web Editor NEW

This project forked from emaisi/spider-design

0.0 0.0 0.0 8.64 MB

可视化爬虫以流程图的方式,在界面自定义爬虫,是一个高度灵活可配置的爬虫平台。基于spider-flow,整合各种插件

License: MIT License

Java 99.99% Dockerfile 0.01%

spider-flow's Introduction

2023-03-08

  • 把spider-spider 修改为 spider-design
  • 并设置版本为0.6.0

2023-03-07

  • 新增spider-design-elasticsearch插件
  • 使用maven的revision

2023-03-06

  • 新增spider-design-plugin插件模块
  • 把mailbox、minio、mongodb、ocr、oss、redis、selenium、translate插件移入spider-design-plugin插件

2023-03-03

  • 配置中中文乱码问题,把配置文件properties修改为yml
  • fix升级版本后阿里云翻译翻译报错
  • 翻译接口调整为翻译内容为空时候不调用翻译接口
  • 调整翻译接口的命名
  • 翻译报错添加日志打印

2023-03-02

  • 新增URL函数${url.completeUrl(strVar,'./a.html')}
  • 新增string函数${string.defaultIfEmpty(str1,str2)}
  • 引用hutool工具包
  • 翻译新增使用默认平台功能。
  • 把commons-io、commons-codec工具包替换为hutool工具包
  • 升级mongodb到3.12.12
  • 升级springboot版本,从2.0.7.RELEASE升级到2.7.9
  • 升级mybatis.plus到3.5.3.1
  • 升级guava到31.1-jre
  • 升级连接池druid到1.2.16
  • 升级fastjson到1.12.83
  • 升级transmittable到2.14.2
  • 升级selenium版本到4.8.1

2023-03-01

  • 升级为0.5.1版本
  • 新增spider-design-translate翻译插件

2022-11-11

  • 升级mysql驱动版本为8.0.31

  • 整合插件

翻译插件

minio插件

Selenium插件

Redis插件

OSS插件

Mongodb插件

IP代理池插件

OCR识别插件

电子邮箱插件

介绍 | 特性 | 插件 | DEMO站点 | 文档 | 更新日志 | 截图 | 其它开源 | 免责声明

介绍

平台以流程图的方式定义爬虫,是一个高度灵活可配置的爬虫平台

特性

  • 支持Xpath/JsonPath/css选择器/正则提取/混搭提取
  • 支持JSON/XML/二进制格式
  • 支持多数据源、SQL select/selectInt/selectOne/insert/update/delete
  • 支持爬取JS动态渲染(或ajax)的页面
  • 支持代理
  • 支持自动保存至数据库/文件
  • 常用字符串、日期、文件、加解密等函数
  • 支持插件扩展(自定义执行器,自定义方法)
  • 任务监控,任务日志
  • 支持HTTP接口
  • 支持Cookie自动管理
  • 支持自定义函数

插件

项目部分截图

爬虫列表

爬虫列表

爬虫测试

爬虫测试

Debug

Debug

日志

日志

其它开源项目

免责声明

请勿将spider-design应用到任何可能会违反法律规定和道德约束的工作中,请友善使用spider-design,遵守蜘蛛协议,不要将spider-design用于任何非法用途。如您选择使用spider-design即代表您遵守此协议,作者不承担任何由于您违反此协议带来任何的法律风险和损失,一切后果由您承担。

spider-flow's People

Contributors

emaisi avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.