这个爬虫可以用于从汽车之家批量获取关于某一车型的评论,可以用于进一步的自然语言分析
最初开始做这个爬虫是因为想要了解一下一款车型的口碑如何,后来干脆整理了一下做成了一个通用的爬虫,大家如果有自己感兴趣的车型的话只需要替换代码中的车辆代码即可,代码示例中以宝马5系和奔驰E级用于测试和分析。
本爬虫用python编写,在python3.5上测试运行正常,使用到的包如下:
from selenium import webdriver
from bs4 import BeautifulSoup
import json
import time
除此之外,本爬虫调用了chrome webdriver用于爬虫工作,可根据自己需求换为firefox或是phantomjs。
运用本爬虫,可获得以下数据:相关车型论坛中的评论数据,相关车型的口碑数据,相关车型的各单项评分。
感谢@qjing666在这个爬虫中的工作和努力。