Giter Site home page Giter Site logo

caodaoxi's Projects

ailearning icon ailearning

AiLearning: 机器学习 - MachineLearning - ML、深度学习 - DeepLearning - DL、自然语言处理 NLP

distributed_spider_pku_java icon distributed_spider_pku_java

1. 主要分为三个模块,一个爬虫抓取模块,一个是数据处理模块,一个是用户模块。 2. 爬虫抓取模块主要是从直播吧、新浪体育、网易体育上爬取有关足球的新闻和用户关于足球的评论,利用集群HADOOP抓取网页,分析得出URL集,提取特征URL 3. 网页linux脚本过滤得到原始网页,然后二次过滤得到文本,并使用分布式储存。 4. 处理模块主要是根据训练集规则一和规则二,得到分词器,然后对文本进行操作,得出训练结果。 5. 通过特征脚本得到训练结果的特征词分类,然后提取出球队模糊集和球星模糊集。 6. 过滤得到球队精确集和球星精确集,并存入MYSQL数据库。 7. 从数据库中提取球星和球队的信息进行图表分析,并动态显示WIKI信息,调入显示模块中和用户进行交换

esper icon esper

Esper Complex Event Processing and Event Series Analysis

flink-recommandsystem-demo icon flink-recommandsystem-demo

:helicopter::rocket:基于Flink实现的商品实时推荐系统。flink统计商品热度,放入redis缓存,分析日志信息,将画像标签和实时记录放入Hbase。在用户发起推荐请求后,根据用户画像重排序热度榜,并结合协同过滤和标签两个推荐模块为新生成的榜单的每一个产品添加关联产品,最后返回新的用户列表。

hadoop-lzo icon hadoop-lzo

Refactored version of code.google.com/hadoop-gpl-compression for hadoop 0.20

hadoop_study icon hadoop_study

定期更新Hadoop生态圈中常用大数据组件文档 重心依次为: Flink Solr Sparksql ES Scala Kafka Hbase/phoenix Redis Kerberos (项目包含hadoop思维导图 印象笔记 Scala版本简单demo 常用工具类 去敏后的train code 持续更新!!!)

pku_distributed_spider icon pku_distributed_spider

你还在懊恼今年世界杯没有看懂么?你还在耿耿于怀别人的鄙视么?你还在搞不清哪个球员是哪个球队么?你还是一个伪球迷而不是懂球帝么?欧洲杯已悄悄走进,亚洲杯已就在眼前,欧冠正在开打,是时候行动了,“我们让你成为懂球帝”让你告别伪球迷,成为懂球帝。你还不知道梅西C罗,你还不懂DC天使,一直念叨的弟媳奉贤,一直想知道的莱万门卫,就连郜林斯曼你都不知道,太out了!亚洲杯**能走多远,欧洲杯谁能问鼎,欧冠哪家笑到最后,皆在“懂球帝”。当然我们也可以预测14年的金球奖到底花落谁家,谁是大家最喜欢的球星等等内容。 看完广告语,让我们来看看此项目到底是如何让你成为懂球帝的。 首先,我们从直播吧、新浪体育、网易体育等主流体育信息网站爬取关于足球的新闻信息以及用户的主要评论,从中根据需求提取主要信息,比如球队名称,球星,国家队等。然后进行数据的处理和分析,绘出曲线图等数据分析图,以此来预测欧冠冠军,金球奖得主,欧洲杯冠军,最喜欢球星等等内容。同时,对于选择出来的信息,比如球星,我们会对球星的主要信息进行深度搜索,让大家更加了解他的生活,比如卡卡为何离婚,C罗有几个女友等。 具体技术实现: 1.主要分为三个模块,一个爬虫抓取模块,一个是数据处理模块,一个是用户模块。 2.爬虫抓取模块主要是从直播吧、新浪体育、网易体育上爬取有关足球的新闻和用户关于足球的评论,利用集群HADOOP抓取网页,分析得出URL集,提取特征URL 3.网页linux脚本过滤得到原始网页,然后二次过滤得到文本,并使用分布式储存。 4.处理模块主要是根据训练集规则一和规则二,得到分词器,然后对文本进行操作,得出训练结果。 5.通过特征脚本得到训练结果的特征词分类,然后提取出球队模糊集和球星模糊集。 6.过滤得到球队精确集和球星精确集,并存入MYSQL数据库。 7.从数据库中提取球星和球队的信息进行图表分析,并动态显示WIKI信息,调入显示模块中和用户进行交换。

spring-boot-demo icon spring-boot-demo

spring boot demo 是一个用来深度学习并实战 spring boot 的项目,目前总共包含 65 个集成demo,已经完成 53 个。 该项目已成功集成 actuator(监控)、admin(可视化监控)、logback(日志)、aopLog(通过AOP记录web请求日志)、统一异常处理(json级别和页面级别)、freemarker(模板引擎)、thymeleaf(模板引擎)、Beetl(模板引擎)、Enjoy(模板引擎)、JdbcTemplate(通用JDBC操作数据库)、JPA(强大的ORM框架)、mybatis(强大的ORM框架)、通用Mapper(快速操作Mybatis)、PageHelper(通用的Mybatis分页插件)、mybatis-plus(快速操作Mybatis)、BeetlSQL(强大的ORM框架)、upload(本地文件上传和七牛云文件上传)、redis(缓存)、ehcache(缓存)、email(发送各种类型邮件)、task(基础定时任务)、quartz(动态管理定时任务)、xxl-job(分布式定时任务)、swagger(API接口管理测试)、security(基于RBAC的动态权限认证)、SpringSession(Session共享)、Zookeeper(结合AOP实现分布式锁)、RabbitMQ(消息队列)、Kafka(消息队列)、websocket(服务端推送监控服务器运行信息)、socket.io(聊天室)、ureport2(**式报表)、打包成war文件、集成 ElasticSearch(基本操作和高级查询)、Async(异步任务)、集成Dubbo(采用官方的starter)、MongoDB(文档数据库)、neo4j(图数据库)、docker(容器化)、JPA多数据源、Mybatis多数据源、代码生成器、GrayLog(日志收集)、JustAuth(第三方登录)、LDAP(增删改查)、动态添加/切换数据源、单机限流(AOP + Guava RateLimiter)、分布式限流(AOP + Redis + Lua)、ElasticSearch 7.x(使用官方 Rest High Level Client)、HTTPS。

springall icon springall

循序渐进,学习Spring Boot、Spring Boot & Shiro、Spring Batch、Spring Cloud、Spring Cloud Alibaba、Spring Security & Spring Security OAuth2,博客Spring系列源码:https://mrbird.cc

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.