先上代码，然后在慢慢逼逼

==先从小说网站开始练手，然后爬电影网站，可以下最新的电影，这是我的需求。哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈==

演示：

大致流程

1 获取 URLs 列表(请求资源 http模块) 2 根据 URLs 列表获取相关页面源码(可能遇到页面编码问题，iconv-lite 模块) 3 源码解析，获取小说信息( cheerio 模块) 4 保存小说信息到 txt 文件，并且加适当修饰以及章节信息(写文件 fs)

具体

根据小说的导航页，获取到当前章节，然后获取链接

首选通过 http.get() 方法获取页面源码获取到源码，打印发现中文乱码，查看发现 ==charset = 'gbk'==，需要进行转码使用 iconv-lite 模块进行转码，中文显示正常后开始解析源码，获取需要的 URL，为了更方便地解析，需要引进 cheerio 模块，cheerio 可以理解为运行在后台的 jQuery，用法与 jQuery 也十分相似，熟悉 jQuery 的同学可以很快的上手

// 请求标题
let titleRequest = (url) => {
    return new Promise((resolve, reject) => {
        //采用http模块向服务器发起一次get请求
        http.get(url, function (res) {
            let html = '';        //用来存储请求网页的整个html内容
            //监听data事件，每次取一块数据
            res.on('data', function (chunk) {
                html += iconv.decode(chunk, 'GBK');
            });
            //监听end事件，如果整个网页内容的html都获取完毕，就执行回调函数
            res.on('end', function () {
                let $ = cheerio.load(html); //采用cheerio模块解析html
                // 总的长度
                endNumber = $('#list a').length;
                let title = $('#list a').eq(number).text();
                let mainUrl = baseUrl + $('#list a').eq(number).attr('href');
                let item = {
                    // 小说标题
                    title: title,
                    // 小说详情
                    mainUrl: mainUrl,
                    //i是用来判断获取了多少篇文章
                    i: number
                }
                // console.log(item);     //打印新闻信息
                resolve(item);
            });
        }).on('error', function (err) {
            console.log(err);
            reject(err);
        });
    });
};

将源码加载进 cheerio，分析了源码后得知所有章节信息都存于被 div 包裹的 a 标签中，通过 cheerio 取出符合条件的 a 标签组，进行遍历，获取章节的 title 和 URL，保存为对象，存进数组，(因为链接中存储的 URL 不完整，所以存储时需要补齐) 然后在写一个获取详情的爬虫

// 请求内容
let mainRequest =  (mainUrl) => {
    return new Promise((resolve, reject) => {
        //采用http模块向服务器发起一次get请求
        http.get(mainUrl, function (res) {
            let html = '';        //用来存储请求网页的整个html内容
            //监听data事件，每次取一块数据
            res.on('data', function (chunk) {
                html += iconv.decode(chunk, 'GBK');
            });
            //监听end事件，如果整个网页内容的html都获取完毕，就执行回调函数
            res.on('end', function () {
                let $ = cheerio.load(html); //采用cheerio模块解析html
                let detail = $('#content').text().replace(/\s+/g,"\r\n\r\n　　　　");
                // console.log(detail);     // 打印详情
                resolve(detail);
            });
        }).on('error', function (err) {
            console.log(err);
            reject(err);
        });
    });
}

下面是所有代码

const http = require('http');
const fs = require('fs');
const cheerio = require('cheerio');
const iconv = require('iconv-lite');
let baseUrl='http://www.biquge.com.tw';// 笔趣阁公共地址
let url='http://www.biquge.com.tw/3_3142/';// 笔趣阁 《我当方士那些年》 首页  ===== 要变小说，只需要更改此处地址就可以
let urlOne = 'http://www.biquge.com.tw/3_3142/1788029.html'; // 笔趣阁 《我当方士那些年》 第一章地址 测试用
let number = 0; // 请求次数
let endNumber = 0; // 总数  或者可以控制爬取次数。

// 开始请求，并且写入数据
let startRequest =  async function(url) {
    let title = await titleRequest(url);
    let detail = await mainRequest(title.mainUrl);
    console.log(`开始爬取 ${title.title}`);
    number++;
    await savedContent('./data/', `${number} ${title.title}`, detail);
    console.log(`写入 ${title.title}`);
    if (number <= endNumber) {
        startRequest(url);
    } else {
        console.log('===========================全部完成===========================');
    }
};


// 在本地存储
let savedContent = (path, title, detail) => {
    fs.appendFile(path + title + '.txt', detail, (err) => {
        if (err) {
            console.log(err);
        }
    });
}
// 请求标题
let titleRequest = (url) => {
    return new Promise((resolve, reject) => {
        //采用http模块向服务器发起一次get请求
        http.get(url, function (res) {
            let html = '';        //用来存储请求网页的整个html内容
            //监听data事件，每次取一块数据
            res.on('data', function (chunk) {
                html += iconv.decode(chunk, 'GBK');
            });
            //监听end事件，如果整个网页内容的html都获取完毕，就执行回调函数
            res.on('end', function () {
                let $ = cheerio.load(html); //采用cheerio模块解析html
                // 总的长度
                endNumber = $('#list a').length;
                let title = $('#list a').eq(number).text();
                let mainUrl = baseUrl + $('#list a').eq(number).attr('href');
                let item = {
                    // 小说标题
                    title: title,
                    // 小说详情
                    mainUrl: mainUrl,
                    //i是用来判断获取了多少篇文章
                    i: number
                }
                // console.log(item);     //打印新闻信息
                resolve(item);
            });
        }).on('error', function (err) {
            console.log(err);
            reject(err);
        });
    });
};

// 请求内容
let mainRequest =  (mainUrl) => {
    return new Promise((resolve, reject) => {
        //采用http模块向服务器发起一次get请求
        http.get(mainUrl, function (res) {
            let html = '';        //用来存储请求网页的整个html内容
            //监听data事件，每次取一块数据
            res.on('data', function (chunk) {
                html += iconv.decode(chunk, 'GBK');
            });
            //监听end事件，如果整个网页内容的html都获取完毕，就执行回调函数
            res.on('end', function () {
                let $ = cheerio.load(html); //采用cheerio模块解析html
                let detail = $('#content').text().replace(/\s+/g,"\r\n\r\n　　　　");
                // console.log(detail);     // 打印详情
                resolve(detail);
            });
        }).on('error', function (err) {
            console.log(err);
            reject(err);
        });
    });
}
// 开始执行
startRequest(url);

::: hljs-center

2.8更新

:::

::: hljs-center

=====================================================================

:::

** 本来是获取一次标题，然后在获取一次内容，这样每一章都要去请求两次，所以导致速度比较慢。现在修改为，标题就一次性全部获取，保存起来，然后去在一次次去获取内容，这样标题请求一次就好了，省了一半的请求，速度能不快嘛。直接贴关键代码，剩下的自己去对比吧**

请求标题的时候，修改了一下

// 请求标题
let titleRequest = (url) => {
    return new Promise((resolve, reject) => {
        //采用http模块向服务器发起一次get请求
        http.get(url, function (res) {
            let html = '';        //用来存储请求网页的整个html内容
            //监听data事件，每次取一块数据
            res.on('data', function (chunk) {
                html += iconv.decode(chunk, 'GBK');
            });
            let allData = [];
            //监听end事件，如果整个网页内容的html都获取完毕，就执行回调函数
            res.on('end', function () {
                let $ = cheerio.load(html); //采用cheerio模块解析html
                $('#list a').each(function(index, item){
                    let title = $(this).text();
                    let mainUrl = $(this).attr('href');
                    let itemData = {
                        // 小说标题
                        title: title,
                        // 小说详情
                        mainUrl: baseUrl + mainUrl,
                        //i是用来判断获取了多少篇文章
                        i: number
                    };
                    allData.push(itemData);
                });
                // console.log(allData);     //打印新闻信息
                resolve(allData);
            });
        }).on('error', function (err) {
            console.log(err);
            reject(err);
        });
    });
};

然后是总的请求修改了一下

// 开始请求，并且写入数据
let startSave = async function (){
    // 获取所有标题以及内容的地址，整合成一个json，这样标题获取一次就好了，和上次比，少了好多好多请求。
    let urlArr = await titleRequest(url);
    for(let i = 0; i < urlArr.length; i++) {
        number++;
        console.log(`开始爬取 ${urlArr[i].title}`);
        // 开始获取单章内容
        let mainDetail = await mainRequest(urlArr[i].mainUrl);
        console.log(`写入 ${urlArr[i].title}`);
        await savedContent('./data/', `${number} ${urlArr[i].title}`, mainDetail);
    }
    console.log('===========================全部完成===========================');
};

这里就不上全部代码了，可以去git库看。

::: hljs-center

年轻就是折腾，来加我啊

:::

wenghaoping / nodewebcrawler Goto Github PK

nodewebcrawler's Introduction

先上代码，然后在慢慢逼逼

演示：

大致流程

具体

下面是所有代码

2.8更新

请求标题的时候，修改了一下

然后是总的请求修改了一下

nodewebcrawler's People

Contributors

Stargazers

Watchers

Forkers

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent