Giter Site home page Giter Site logo

bigdata-notes's Introduction

BigData-Notes


大数据入门指南

Hadoop Hive Spark Storm Flink HBase Kafka Zookeeper Flume Sqoop Azkaban Scala

如果需要离线阅读,可以在公众号上发送 “bigdata” 获取《大数据入门指南》离线阅读版!

✒️ 前 言

  1. 大数据学习路线
  2. 大数据技术栈思维导图
  3. 大数据常用软件安装指南

一、Hadoop

  1. 分布式文件存储系统 —— HDFS
  2. 分布式计算框架 —— MapReduce
  3. 集群资源管理器 —— YARN
  4. Hadoop 单机伪集群环境搭建
  5. Hadoop 集群环境搭建
  6. HDFS 常用 Shell 命令
  7. HDFS Java API 的使用
  8. 基于 Zookeeper 搭建 Hadoop 高可用集群

二、Hive

  1. Hive 简介及核心概念
  2. Linux 环境下 Hive 的安装部署
  3. Hive CLI 和 Beeline 命令行的基本使用
  4. Hive 常用 DDL 操作
  5. Hive 分区表和分桶表
  6. Hive 视图和索引
  7. Hive 常用 DML 操作
  8. Hive 数据查询详解

三、Spark

Spark Core :

  1. Spark 简介
  2. Spark 开发环境搭建
  3. 弹性式数据集 RDD
  4. RDD 常用算子详解
  5. Spark 运行模式与作业提交
  6. Spark 累加器与广播变量
  7. 基于 Zookeeper 搭建 Spark 高可用集群

Spark SQL :

  1. DateFrame 和 DataSet
  2. Structured API 的基本使用
  3. Spark SQL 外部数据源
  4. Spark SQL 常用聚合函数
  5. Spark SQL JOIN 操作

Spark Streaming :

  1. Spark Streaming 简介
  2. Spark Streaming 基本操作
  3. Spark Streaming 整合 Flume
  4. Spark Streaming 整合 Kafka

四、Storm

  1. Storm 和流处理简介
  2. Storm 核心概念详解
  3. Storm 单机环境搭建
  4. Storm 集群环境搭建
  5. Storm 编程模型详解
  6. Storm 项目三种打包方式对比分析
  7. Storm 集成 Redis 详解
  8. Storm 集成 HDFS/HBase
  9. Storm 集成 Kafka

五、Flink

  1. Flink 核心概念综述
  2. Flink 开发环境搭建
  3. Flink Data Source
  4. Flink Data Transformation
  5. Flink Data Sink
  6. Flink 窗口模型
  7. Flink 状态管理与检查点机制
  8. Flink Standalone 集群部署

六、HBase

  1. Hbase 简介
  2. HBase 系统架构及数据结构
  3. HBase 基本环境搭建 (Standalone /pseudo-distributed mode)
  4. HBase 集群环境搭建
  5. HBase 常用 Shell 命令
  6. HBase Java API
  7. HBase 过滤器详解
  8. HBase 协处理器详解
  9. HBase 容灾与备份
  10. HBase的 SQL 中间层 —— Phoenix
  11. Spring/Spring Boot 整合 Mybatis + Phoenix

七、Kafka

  1. Kafka 简介
  2. 基于 Zookeeper 搭建 Kafka 高可用集群
  3. Kafka 生产者详解
  4. Kafka 消费者详解
  5. 深入理解 Kafka 副本机制

八、Zookeeper

  1. Zookeeper 简介及核心概念
  2. Zookeeper 单机环境和集群环境搭建
  3. Zookeeper 常用 Shell 命令
  4. Zookeeper Java 客户端 —— Apache Curator
  5. Zookeeper ACL 权限控制

九、Flume

  1. Flume 简介及基本使用
  2. Linux 环境下 Flume 的安装部署
  3. Flume 整合 Kafka

十、Sqoop

  1. Sqoop 简介与安装
  2. Sqoop 的基本使用

十一、Azkaban

  1. Azkaban 简介
  2. Azkaban3.x 编译及部署
  3. Azkaban Flow 1.0 的使用
  4. Azkaban Flow 2.0 的使用

十二、Scala

  1. Scala 简介及开发环境配置
  2. 基本数据类型和运算符
  3. 流程控制语句
  4. 数组 —— Array
  5. 集合类型综述
  6. 常用集合类型之 —— List & Set
  7. 常用集合类型之 —— Map & Tuple
  8. 类和对象
  9. 继承和特质
  10. 函数 & 闭包 & 柯里化
  11. 模式匹配
  12. 类型参数
  13. 隐式转换和隐式参数

十三、公共内容

  1. 大数据应用常用打包方式

📑 后 记

资料分享与开发工具推荐


bigdata-notes's People

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

bigdata-notes's Issues

启动报错

  • [ ]
    截屏2021-07-20 下午5 17 54
    截屏2021-07-20 下午5 19 47
    截屏2021-07-20 下午5 59 09
    截屏2021-07-20 下午5 59 48
    截屏2021-07-20 下午6 00 03
    截屏2021-07-20 下午6 00 18
    按照配置好的,然后启动就报错,本人初学Hadoop,大佬指正一下!谢谢

对spark-submit上传jar的疑问

在Spark部署模式与作业提交.md一文中提到的:

需要注意的是:在集群环境下,application-jar 必须能被集群中所有节点都能访问,可以是 HDFS 上的路径;也可以是本地文件系统路> 径,如果是本地文件系统路径,则要求集群中每一个机器节点上的相同路径都存在该 Jar 包。

如果application-jar指定的是本地文件系统路径,那么spark会不会自动分发jar到每一台机器上。我在跑spark任务的时候,都是把jar上传到一台机器上就可以跑了,所以看到这里不免疑问。

HBase集群环境搭建-文中部分路径错误修改

/etc/profile

export HBASE_CLASSPATH=usr/app/hadoop-2.6.0-cdh5.15.2/etc/hadoop

export HBASE_CLASSPATH=/usr/app/hadoop-2.6.0-cdh5.15.2/etc/hadoop

hbase-env.sh

export HBASE_CLASSPATH=usr/app/hadoop-2.6.0-cdh5.15.2/etc/hadoop

export HBASE_CLASSPATH=/usr/app/hadoop-2.6.0-cdh5.15.2/etc/hadoop

组件下载

为什么那个hadoop的CDH版本不再拥有下载权限了?

📚 零难度上手!稳定快速的科学上网解锁

科学上网/翻墙梯子 ChatGPT可用机场

【超值推荐】2023年必备神器,主用机场之一WgetCloud机场,多线BGP中转+双程CN2高品质线路,不怕高峰期不稳定。这家机场在香港还有自己的机房,超安心。而且,WgetCloud的运营人员在机场行业打拼已有5年,技术可靠无需担心。团队成员还都在海外哦,安全性满分!

【最新技术】WgetCloud机场使用Shadowsocks协议,最近还新增了SSR、V2ray、Trojan协议的支持,各大平台软件对SS协议支持都超友好。同时,支持所有主流的代理订阅格式——Clash、Shadowrocket、Quantumult X、Surge 4。机场还用分组制管理线路节点,单组用户人数满400后就不再增加人数,再加上动态限速,线路稳定到家。

通过下面链接注册新用户全员无门槛8折优惠券:

WgetCloud官网链接

以下为晚高峰测速:

image

基于Zookeeper搭建Kafka高可用集群

基于Zookeeper搭建Kafka高可用集群,start 报错, Client port found: 2181. Client address: localhost. Error contacting service. It is probably not running. 可能的原因之一是版本是要下载***-bin.tar.gz 。

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.