Giter Site home page Giter Site logo

spiders's Introduction

说明

这个仓库是我平时写的一些爬虫或者自动下载器之类的。 全部项目基于 python 3.6.0+ 写成并运行,不保证其他版本能正常运行。

bilibili_ass_danmu_getter

根据 av 号或者正版番组的番组号,下载 b 站的弹幕并转化为 ass 格式,方便直接用播放器播放。

  • xml 转 ass 部分的代码使用了 danmu2ass 的代码。
  • 目前支持单P 一般视频、多P 一般视频,单集正版番组,多集正版番组下载。
  • 更改了原 xml 转 ass 的弹幕位置算法和显示效果,看起来更舒服。

NetMusic

调用网易云音乐的一些 api,目前可以实现的是搜索和歌词。

steam

调用 steam 的 api,查询软件/游戏的售价/打折情况。

  • 使用 MySQL 储存数据。
  • 使用多线程。
  • 可视化进度条

zhuangbi.info

爬取 zhuangbi.info 的表情包

  • 储存图片使用其标题,结合 everything 斗图好帮手。
  • 使用多线程。
  • 可视化进度条

ZhihuDaily

目前只实现了爬取标题,以后会添加一点内容。

weiboAlbum

针对一个用户的相册进行爬取。目前只能爬取 24 张图片,待完善。

需要说明的是,为了避免登陆验证,用户需要在 weiboAlbum 的目录下建立一个config.json,保存用户的 headers,一般只需要 Cookie 和 User-Agent 就可以了。

例如

{
    "headers" : {
        "Cookie":"I'm Cookie",
        "User-Agent":"I'm User-Agent"
    }
}

这样。

Pixiv

爬取 Pixiv 图片

  • 搜索关键字(建议加上 1000users入り 之类的tag)
  • 爬取某一个画师
  • 单张插画
  • 多张集合
  • 暂不支持动画

用法:

py ./main.py [-d]
    -d: 开启 debug

需要主意的是,需要在目录下建立config.json,形式如下

{
    "headers":{
        "Cookie":"Copy your cookie here",
        "Host":"www.pixiv.net",
        "User-Agent":"your UA"
    }
}

没有过多增加鲁棒性,所以有时候会有服务器断开连接的情况。重新跑一次(不会重复下载存在的文件)一般能解决问题。

spiders's People

Contributors

gwy15 avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar

Forkers

taolity javakenny

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.