本项目采用C# WinForm开发,主要功能是采集新浪微博的微博,进行分析处理,提取热点信息。
###主要功能模块
- 数据采集:通过Sina API以特定时间间隔进行微博抓取
- 数据分析:使用盘古分词工具,将微博进行分词,方便之后的统计;采用聚类算法,分析出热度最高的微博
- 数据展示:通过联动列表,展示分析结果,即为热度最高的几条微博
###其他模块
- 微博发布设备词典管理:对发布设备进行统计所用词典
- 分词词典管理:微博文本分词所用词典
- 微博发布设备分析:对发布设备进行统计
- 微博表情符号分布分析:对表情符号进行统计分析,通过调用Excel中的统计图功能,抽取其生成的图片作为分析结果
###功能截图
图1 设备分析 |
图2 表情分析 |
图3 表情分析-大图 |