liaohuijun,github

Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台，它能够基于同一个Flink运行时（Flink Runtime），提供支持流处理和批处理两种类型应用的功能。现有的开源计算方案，会把流处理和批处理作为两种不同的应用类型，因为他们它们所提供的SLA是完全不相同的：流处理一般需要支持低延迟、Exactly-once保证，而批处理需要支持高吞吐、高效处理，所以在实现的时候通常是分别给出两套实现方法，或者通过一个独立的开源框架来实现其中每一种处理方案。例如，实现批处理的开源方案有 MapReduce、Tez、Crunch、spark，实现流处理的开源方案有Samza、Storm。

mumu-flume

mumu-flume是一个apache flume客户端调用测试项目，通过这个项目了解flume工作原理和使用方式。flume是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。

mumu-hazelcast

hazelcast是一个开源的基于内存的数据网格缓存系统，将数据都缓存在内存(in heap)中，从而加快数据的存取，而且hazelcast可以通过简单的API操作来进行数据CURD，就好像操作map、list、set等接口一样简单，并且提供了非常丰富的功能，例如分布式ILock、IAtomicLong、IAtomicReference、ICountDownLatch、ISemaphore、IDGenerator、ITopic、IQueue等数据模型。

mumu-hbase

mumu-hbase项目是一个初步了解和学习hbase的demo项目，通过这个项目了解到hbase列数据库是由表、列族、列限定符、时间戳、列值组成的半结构化、疏散列的数据库，用户可以动态的添加列，可以使一个表达到亿行百万列，而不影响查询能力，这是由于hmast + hregionserver + memstore + blockcache 架构支撑的。同时通过mumu-hbase项目了解到hbase的基本使用方法，包括表、列族、列、过滤器、协处理器等功能。hbase不仅支持原生hbase API调用，还支持REST、AVRO、THRIFT等第三方客户端调用。

mumu-hdfs

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。

mumu-hessian

mumu-hessian是一个研究hessian远程服务（rpc）、序列化的学习项目，通过这个项目了解hessian的基本使用方法和架构**。通过hessian可以将服务接口暴露出来供客户端调用，其间通过二进制协议（binary-rpc）来传输数据。而且hessian自带了性能非常优异的序列化组件，通过自带的序列化组件大大减少了网络传输的数据量。

mumu-kafka

Apache Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发，之后成为Apache项目的一部分。Kafka是一种快速、可扩展的、设计内在就是分布式的，分区的和可复制的提交日志服务。

mumu-kite

mumu-kite是一个demo项目，主要通过这个项目来了解kite到底是干什么的和怎么使用kite。kite是专门来操纵大数据集的，可以通过kite将数据存储到hdfs、local、hive、hbase中，并且还提供了partition分区机制，加快数据访问速度。并且kite支持avro、parquet、csv、json等几种存储数据的方式。

mumu-mahout

mumu-mahout是一个学习项目，主要通过这个项目来学习mahout的功能和使用方式。mahout是一款开源的机器学习算法，主要包括协同过滤推荐、聚类、分类等三大块内容。推荐可以基于用户的推荐和基于物品的推荐，可以给用户推荐一些数据，智能化数据。

mumu-mapreduce

MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Reduce（归约）"，是它们的主要**，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce（归约）函数，用来保证所有映射的键值对中的每一个共享相同的键组。

mumu-memcached

mumu-morphlines

mumu-morphlines是一个kite morphlines测试程序，主要通过这个项目来了解和学习kite morphlines的使用方式和工作原理。morphlines是一款数据转换工具集，可以通过morphlines 来抽取、转换、加载(ETL)数据，列如可以抽取日志数据。同时morphlines可以配合flume、hadoop、solr来将非结构化的数据转换为结构化的数据，并且将数据保存在solr中供客户端进行检索使用。

mumu-motan

mumu-rpc-motan是一个以weibo montan为基础的测试程序，了解motan rpc架构设计和编程**。同时也是想要多了解一些rpc框架，为项目做好rpc技术选型的准备。

mumu-neo4j

Neo4j 是一个高性能的 NoSQL 图形数据库。Neo4j 使用图（graph）相关的概念来描述数据模型，把数据保存为图中的节点以及节点之间的关系。很多应用中数据之间的关系，可以很直接地使用图中节点和关系的概念来建模。对于这样的应用，使用 Neo4j 来存储数据会非常的自然，要优于使用关系数据库

mumu-netty

mumu-netty是一个关于netty的学习项目，通过该项目学习netty的框架**和基本操作步骤。netty是一款nio异步非阻塞框架，通过netty可以提高io性能。

mumu-parquet

Parquet是面向分析型业务的列式存储格式，由Twitter和Cloudera合作开发

mumu-pig

mumu-pig是apche pig的一个测试项目，主要通过这个项目来学习pig编程和一些使用方法。apache pig是一款脚本执行mapreduce的程序。可以通过编写脚本文件来运行mapreduce程序。pig自带了很多内置函数，供用户使用。而且pig还提供了自定义函数（UDF）,方便用户编写自定义函数来执行脚本文件。

mumu-protobuf

ProtocolBuffer是用于结构化数据串行化的灵活、高效、自动的方法，有如XML，不过它更小、更快、也更简单。你可以定义自己的数据结构，然后使用代码生成器生成的代码来读写这个数据结构。你甚至可以在无需重新部署程序的情况下更新数据结构。

mumu-rabbitmq

RabbitMQ是一个由erlang开发的AMQP（Advanced Message Queue ）的开源实现。AMQP 的出现其实也是应了广大人民群众的需求，虽然在同步消息通讯的世界里有很多公开标准（如 COBAR的 IIOP ，或者是 SOAP 等），但是在异步消息处理中却不是这样，只有大企业有一些商业实现（如微软的 MSMQ ，IBM 的 Websphere MQ 等），因此，在 2006 年的 6 月，Cisco 、Redhat、iMatix 等联合制定了 AMQP 的公开标准。

mumu-redis

mumu-riak

Riak是以 Erlang 编写的一个高度可扩展的分布式数据存储，Riak的实现是基于Amazon的Dynamo论文，Riak的设计目标之一就是高可用。Riak支持多节点构建的系统，每次读写请求不需要集群内所有节点参与也能胜任。提供一个灵活的 map/reduce 引擎，一个友好的 HTTP/JSON 查询接口。Riak 非常易于部署和扩展。可以无缝地向群集添加额外的节点。link walking 之类的特性以及对 Map/Reduce 的支持允许实现更加复杂的查询。除了 HTTP API 外，Riak 还提供了一个原生 Erlang API 以及对 Protocol Buffer 的支持。

mumu-rmi

mumu-rocketmq

rocketmq 是由阿里巴巴开源出来的一个分布式消息服务器，rocketmq是在kafka的基础上进行重构，然后开发出来支撑阿里巴巴双十一高并发量的消息服务器。现在阿里巴巴已经将项目托管到apache基金会。相较于ActiveMQ、kafka、RabbitMQ等开源消息服务器，rocketmq增加了许多特性，如：消息事务、消息安序发送、消息快速存储等。如果想要了解更多请访问Why RocketMQ。

mumu-security

mumu-session

spring session可以管理web项目创建的HttpSession。当用户打开浏览器浏览的时候在web服务器就会创建HttpSession，保存着浏览器数据和服务器之间的凭证信息（登录认证信息）。当单台部署web项目的时候，servlet自带的HttpSession完全够用，但是随着项目越做越大，项目需提供更好的可利用性和并发量，就需要将项目部署到多个机器而形成集群（nginx反向代理、squid缓存等），但是这时候就会出现session共享问题，因为session只保存在服务器内存上，所以需要spring-session来同意管理项目的session，将session保存在缓存服务器上（redis、mongo、gemfire、hazelcast等），从而实现项目集群。

mumu-sms

mumu-spark

mumu-spark是一个学习项目，主要通过这个项目来了解和学习spark的基本使用方式和工作原理。mumu-spark主要包括弹性数据集rdd、spark sql、机器学习语言mlib、实时工作流streaming、图形数据库graphx。通过这些模块的学习，初步掌握spark的使用方式。

liaohuijun Goto Github PK

liaohuijun's Projects

Recommend Projects

Recommend Topics

Recommend Org