Giter Site home page Giter Site logo

-scrapy-'s Introduction

《精通scrapy网络爬虫》

example文件夹内容: 第一章至第七章代码

practise文件夹内容:书本中的练习

toscrape_book 文件夹内容:第八章 代码(ps在原代码基础增加了:去掉重复、以xls格式导出,选择器用的是css)

matplotlib_examples 文件夹内容 :第九章 案例中下载matplotlib网站文件

so_image 文件夹内容:第9章 第二节 下载360图片 (为什么只下载到第一页呢???没实现翻页)

scrapy_10 文件夹内容:第10章 代码

browse_cookie 文件夹内容 :第10章 第4节 内容

splash_example 文件夹内容:第11章 代码 分别是项目实战:爬取toscrape中的名人名言 、爬取京东商城中的书籍信息

toscrape_book 文件夹内容:第八章 代码 包含 第 12 章 数据存储代码(里面还有个异步存储数据的小例子。)

proxy_example 文件夹内容:第13章 使用 HTTP 代理 代码

1.spiders 蜘蛛

2.items.py 数据保存

3.pipelines.py 数据处理

4.settings.py 设置

5.my_exporters.py 自定义的数据导出格式

常用命名:

scrapy crawl < spider > --运行爬虫

scrapy crawl < spider > -o < file > --运行爬虫导出数据

scrapy startproject < name > --创建一个爬虫项目

scrapy genspider [options] < name > < domain > --创建一个爬虫(在startproject里创建)

scrapy shell [url|file] --测试

帮助

scrapy -h

Use "scrapy -h" to see more info about a command

小技巧:

cd 用法 CD [/D] [drive:][path]

cd /d d:\project\toscrape_book

cd toscrape_book\spiders

使用 /D 开关,除了改变驱动器的当前目录之外, 还可改变当前驱动器。


url 过滤 两种方法能够使 requests 不被过滤:

  1. 在 allowed_domains 中加入 url
  2. 在 scrapy.Request() 函数中将参数 dont_filter=True 设置为 True

-scrapy-'s People

Contributors

zkzhang1986 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.