liaohuijun Goto Github PK
Type: User
Type: User
使用poi操作excel,解析、生成excel
Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台,它能够基于同一个Flink运行时(Flink Runtime), 提供支持流处理和批处理两种类型应用的功能。现有的开源计算方案,会把流处理和批处理作为两种不同的应用类型,因为他们它 们所提供的SLA是完全不相同的:流处理一般需要支持低延迟、Exactly-once保证,而批处理需要支持高吞吐、高效处理,所以在实 现的时候通常是分别给出两套实现方法,或者通过一个独立的开源框架来实现其中每一种处理方案。例如,实现批处理的开源方案有 MapReduce、Tez、Crunch、spark,实现流处理的开源方案有Samza、Storm。
mumu-flume是一个apache flume客户端调用测试项目,通过这个项目了解flume工作原理和使用方式。flume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
hazelcast是一个开源的基于内存的数据网格缓存系统,将数据都缓存在内存(in heap)中,从而加快数据的存取,而且hazelcast可以通过简单的API操作来进行数据CURD,就好像操作map、list、set等接口一样简单,并且提供了非常丰富的功能,例如分布式ILock、IAtomicLong、IAtomicReference、ICountDownLatch、ISemaphore、IDGenerator、ITopic、IQueue等数据模型。
mumu-hbase项目是一个初步了解和学习hbase的demo项目,通过这个项目了解到hbase列数据库是由表、列族、列限定符、时间戳、列值组成的半结构化、疏散列的数据库,用户可以动态的添加列,可以使一个表达到亿行百万列,而不影响查询能力,这是由于hmast + hregionserver + memstore + blockcache 架构支撑的。同时通过mumu-hbase项目了解到hbase的基本使用方法,包括表、列族、列、过滤器、协处理器等功能。hbase不仅支持原生hbase API调用,还支持REST、AVRO、THRIFT等第三方客户端调用。
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。
mumu-hessian是一个研究hessian远程服务(rpc)、序列化的学习项目,通过这个项目了解hessian的基本使用方法和架构**。通过hessian可以将服务接口暴露出来供客户端调用,其间通过二进制协议(binary-rpc)来传输数据。而且hessian自带了性能非常优异的序列化组件,通过自带的序列化组件大大减少了网络传输的数据量。
Apache Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一种快速、可扩展的、设计内在就是分布式的,分区的和可复制的提交日志服务。
mumu-kite是一个demo项目,主要通过这个项目来了解kite到底是干什么的和怎么使用kite。kite是专门来操纵大数据集的,可以通过kite将数据存储到hdfs、local、hive、hbase中,并且还提供了partition分区机制,加快数据访问速度。并且kite支持avro、parquet、csv、json等几种存储数据的方式。
mumu-mahout是一个学习项目,主要通过这个项目来学习mahout的功能和使用方式。mahout是一款开源的机器学习算法,主要包括协同过滤推荐、聚类、分类等三大块内容。 推荐可以基于用户的推荐和基于物品的推荐,可以给用户推荐一些数据,智能化数据。
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",是它们的主要**,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。
mumu-morphlines是一个kite morphlines测试程序,主要通过这个项目来了解和学习kite morphlines的使用方式和工作原理。morphlines是一款数据转换工具集,可以通过morphlines 来抽取、转换、加载(ETL)数据,列如可以抽取日志数据。同时morphlines可以配合flume、hadoop、solr来将非结构化的数据转换为结构化的数据,并且将数据保存在solr中供客户端进 行检索使用。
mumu-rpc-motan是一个以weibo montan为基础的测试程序,了解motan rpc架构设计和编程**。同时也是想要多了解一些rpc框架,为项目做好rpc技术选型的准备。
Neo4j 是一个高性能的 NoSQL 图形数据库。Neo4j 使用图(graph)相关的概念来描述数据模型,把数据保存为图中的节点以及节点之间的关系。很多应用中数据之间的关系,可以很直接地使用图中节点和关系 的概念来建模。对于这样的应用,使用 Neo4j 来存储数据会非常的自然,要优于使用关系数据库
mumu-netty是一个关于netty的学习项目,通过该项目学习netty的框架**和基本操作步骤。netty是一款nio异步非阻塞框架,通过netty可以提高io性能。
Parquet是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发
mumu-pig是apche pig的一个测试项目,主要通过这个项目来学习pig编程和一些使用方法。apache pig是一款脚本执行mapreduce的程序。可以通过编写脚本文件来运行mapreduce程序。pig自带了很多内置函数,供用户使用。而且pig还提供了自定义函数(UDF),方便用户编写自定义函数来执行脚本文件。
ProtocolBuffer是用于结构化数据串行化的灵活、高效、自动的方法,有如XML,不过它更小、更快、也更简单。你可以定义自己的数据结构,然后使用代码生成器生成的代码来读写这个数据结构。你甚至可以在无需重新部署程序的情况下更新数据结构。
RabbitMQ是一个由erlang开发的AMQP(Advanced Message Queue )的开源实现。AMQP 的出现其实也是应了广大人民群众的需求,虽然在同步消息通讯的世界里有很多公开标准(如 COBAR的 IIOP ,或者是 SOAP 等),但是在异步消息处理中却不是这样,只有大企业有一些商业实现(如微软的 MSMQ ,IBM 的 Websphere MQ 等),因此,在 2006 年的 6 月,Cisco 、Redhat、iMatix 等联合制定了 AMQP 的公开标准。
Riak是以 Erlang 编写的一个高度可扩展的分布式数据存储,Riak的实现是基于Amazon的Dynamo论文,Riak的设计目标之一就是高可用。Riak支持多节点构建的系统,每次读写请求不需要集群内所有节点参与也能胜任。提供一个灵活的 map/reduce 引擎,一个友好的 HTTP/JSON 查询接口。Riak 非常易于部署和扩展。可以无缝地向群集添加额外的节点。link walking 之类的特性以及对 Map/Reduce 的支持允许实现更加复杂的查询。除了 HTTP API 外,Riak 还提供了一个原生 Erlang API 以及对 Protocol Buffer 的支持。
rocketmq 是由阿里巴巴开源出来的一个分布式消息服务器,rocketmq是在kafka的基础上进行重构,然后开发出来支撑阿里巴巴双十一高并发量的消息服务器。现在阿里巴巴已经将项目托管到apache基金会。 相较于ActiveMQ、kafka、RabbitMQ等开源消息服务器,rocketmq增加了许多特性,如:消息事务、消息安序发送、消息快速存储等。如果想要了解更多请访问Why RocketMQ。
spring session可以管理web项目创建的HttpSession。当用户打开浏览器浏览的时候在web服务器就会创建HttpSession,保存着浏览器数据和服务器之间的凭证信息(登录认证信息)。当单台部署web项目的时候,servlet自带的HttpSession完全够用,但是随着项目越做越大,项目需提供更好的可利用性和并发量,就需要将项目部署到多个机器而形成集群(nginx反向代理、squid缓存等),但是这时候就会出现session共享问题,因为session只保存在服务器内存上,所以需要spring-session来同意管理项目的session,将session保存在缓存服务器上(redis、mongo、gemfire、hazelcast等),从而实现项目集群。
mumu-spark是一个学习项目,主要通过这个项目来了解和学习spark的基本使用方式和工作原理。mumu-spark主要包括弹性数据集rdd、spark sql、机器学习语言mlib、实时工作流streaming、图形数据库graphx。通过这些模块的学习,初步掌握spark的使用方式。
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.