Giter Site home page Giter Site logo

moran1607 / bigdataguide Goto Github PK

View Code? Open in Web Editor NEW
2.5K 46.0 837.0 127.12 MB

大数据学习,从零开始学习大数据,包含大数据学习各阶段学习视频、面试资料

Java 100.00%
hadoop zookeeper hive flume kafka hbase spark flink scala bigdata

bigdataguide's Introduction

大数据学习指南

大数据学习指南,从零开始学习大数据开发,包含大数据学习各个阶段资汇总

公众号

关注我的公众号:旧时光大数据,回复相应关键字,获取更多大数据干货、资料

“大数据学习路线”中我自己看过的视频、文档资料可以直接在公众号获取云盘链接

更新中。。。

牛客网面经

大数据面试题

大数据面试题 V4.0》已出,公众号回复:大数据面试题

知识星球

知识星球内容包括学习路线学习资料(根据编程语言(Java、Python、Java+Scala)分了三大版本)、项目(50+个大数据项目)、面试题(700+道真实大数据面试题、Java基础、计算机网络、Redis)、1000+篇大数据真实面经、600+篇Java后端真实面经(已按公司分类)、自己整理的视频学习笔记

知识星球资料介绍

概述

大数据简介

大数据相关岗位介绍

大数据学习路线

学习路线中的视频、文档资料可以关注公众号:旧时光大数据,回复相应关键字获取云盘链接

大数据学习路线(包含自己看过的视频链接)

编程语言

编程语言部分建议先JavaSE,Spark和Flink之前学习Scala,如果时间紧迫,就找个Java版的Spark或Flink教程,Python看个人或工作,不过有Java基础,Python会快很多(别问我怎么学,问就是使劲拼命学 [ 吃瓜.jpg ])

一、JavaSE(二选一)

刘意2019版

尚硅谷宋红康版

二、Scala(二选一)

如果时间短,建议直接看配套Spark的那种三五天的,可以快速了解

韩顺平老师版

清华硕士武晟然老师版

三、Python

推荐黑马的Python视频,通俗易懂,而且文档比较齐全,有Java基础再看Python的话,上手很快

黑马Python版视频

Python文档and笔记

Linux

完全分布式集群搭建文档

关于VM、远程登录工具的安装暂时可以参考我的博客,找到相应步骤进行操作即可

集群搭建

大数据框架组件

一、Hadoop

  1. Hadoop——分布式文件管理系统HDFS
  2. Hadoop——HDFS的Shell操作
  3. Hadoop——HDFS的Java API操作
  4. Hadoop——分布式计算框架MapReduce
  5. Hadoop——MapReduce案例
  6. Hadoop——资源调度器YARN
  7. Hadoop——Hadoop数据压缩

二、Zookeeper

  1.Zookeeper——Zookeeper概述
  2.Zookeeper——Zookeeper单机和分布式安装
  3.Zookeeper——Zookeeper客户端命令
  4.Zookeeper——Zookeeper内部原理
  5.Zookeeper——Zookeeper实战

三、Hive

  1.Hive——Hive概述
  2.Hive——Hive数据类型
  3.Hive——Hive DDL数据定义
  4.Hive——Hive DML数据操作
  5.Hive——Hive查询
  6.Hive——Hive函数
  7.Hive——Hive压缩和存储
  8.Hive——Hive实战:统计影音视频网站的常规指标
  9.Hive——Hive分区表和分桶表
  10.Hive——Hive调优

四、Flume

  1.Flume——Flume概述
  2.Flume——Flume实践操作
  3.Flume——Flume案例

五、Kafka

  1.Kafka——Kafka概述
  2.Kafka——Kafka深入解析
  3.Kafka——Kafka API操作实践
  3.Kafka——Kafka对接Flume实践

六、HBase

  1.HBase——HBase概述
  2.HBase——HBase数据结构
  3.HBase——HBase Shell操作
  4.HBase——HBase API实践操作

七、Spark

Spark基础

  1.Spark基础——Spark的诞生
  2.Spark基础——Spark概述
  3.Spark基础——Spark运行模式
  4.Spark基础——案例实践

Spark Core

  1.Spark Core——RDD概述
  2.Spark Core——RDD编程(一)
  3.Spark Core——RDD编程(二)
  4.Spark Core——键值对RDD数据分区器
  5.Spark Core——数据读取与保存

Spark SQL

  1.Spark SQL——Spaek SQL概述
  2.Spark SQL——Spaek SQL编程
  3.Spark SQL——Spaek SQL数据的加载与保存
  4.Spark SQL——Spaek SQL实战

Spark Streaming

  1.Spark Streaming——Spark Streaming概述
  2.Spark Streaming——Dstream基础
  3.Spark Streaming——Dstream的转换&输出

八、Flink

  1.Flink——Flink核心概述
  2.Flink——Flink部署
  3.Flink——Flink运行架构
  4.Flink——Flink流处理API
  5.Flink——Flink中的Window
  6.Flink——时间语义与Wartermark
  7.Flink——ProcessFunction API(底层API)
  8.Flink——状态编程和容错机制
  9.Flink——Table API 与SQL
  10.Flink——Flink CEP

数据仓库

数据仓库总结

大数据项目

基本上选择三到四个即可,B站直接搜索项目名字,都有视频
详细说明公众号(旧时光大数据)回复“大数据项目”即可

读书笔记

《阿里大数据之路》读书笔记

第一章 总述

第二章 日志采集

第三章 数据同步

第四章 离线数据开发

面试题

陆续更新中。。。。。全量面试题(700+道牛客网面经原题)见知识星球

一、Hadoop

1、Hadoop基础

介绍下Hadoop
Hadoop小文件处理问题
Hadoop中的几个进程和作用
Hadoop的mapper和reducer的个数如何确定?reducer的个数依据是什么?

2、HDFS

HDFS读写流程
HDFS的block为什么是128M?增大或减小有什么影响?

3、MapReduce

介绍下MapReduce
MapReduce优缺点
MapReduce工作原理(流程)
MapReduce压缩方式

4、YARN

介绍下YARN

二、Zookeeper

介绍下Zookeeper是什么?
Zookeeper有什么作用?优缺点?有什么应用场景?
Zookeeper架构

三、Hive

说下为什么要使用Hive?Hive的优缺点?Hive的作用是什么?
Hive的用户自定义函数实现步骤与流程
Hive分区和分桶的区别
Hive的cluster by 、sort by、distribute by 、order by 区别?
Hive count(distinct)有几个reduce,海量数据会有什么问题?

四、Flume

介绍下Flume
Flume结构

五、Kafka

介绍下Kafka,Kafka的作用?Kafka的组件?适用场景?
Kafka实现高吞吐的原理?
Kafka的一条message中包含了哪些信息?
Kafka的消费者和消费者组有什么区别?为什么需要消费者组?
Kafka的ISR、OSR和ACK介绍,ACK分别有几种值?
Kafka怎么保证数据不丢失,不重复?
Kafka的单播和多播
说下Kafka的ISR机制

六、HBase

介绍下HBase架构
HBase为什么查询快
HBase的大合并、小合并是什么?
HBase的rowkey设计原则
HBase的一个region由哪些东西组成?
HBase读写数据流程
HBase的RegionServer宕机以后怎么恢复的?
HBase的读写缓存

七、Spark

说下对RDD的理解?RDD特点、算子?
Spark小文件问题
Spark的内存模型
Spark的Job、Stage、Task分别介绍下,如何划分?
Spark的RDD、DataFrame、DataSet、DataStream区别?
RDD的容错
说下Spark中的Transform和Action,为什么Spark要把操作分为Transform和Action?
Spark的任务执行流程
Spark的架构

八、Flink

介绍下Flink
Flink架构

九、数仓面试题

数据仓库和数据中台区别

十、综合面试题

Spark和MapReduce之间的区别?各自优缺点?
Spark和Flink的区别

牛客网面经

大数据面经

阿里面经

阿里巴巴 二面凉经
阿里云大数据平台三面+HR面【已OC】
阿里-数据研发-1面2面
4.23阿里数开一面
分享一个大数据的面经
十余家公司大数据开发面经
大数据面经好少啊,我来写点
提前批面经(Java_大数据)
阿里-数据技术与产品部(两次简历面)
阿里云一二三面凉经
阿里巴巴淘系大数据研发工程师三面面经
阿里集团大淘宝一面凉经
阿里巴巴 二面凉经

腾讯面经

2022暑假实习 数据开发 字节 腾讯
4.13 腾讯音乐数据工程笔试
2024届秋招总结
5.30腾讯数据开发一面面经
9.20-腾讯云智-数据-二面
【腾讯】后端开发暑期实习面经(已offer)
一面凉经-腾讯技术研究-数据科学
大数据开发实习面经(阿里、360、腾讯)
奇怪的csig数据工程timeline
字节腾讯大数据凉经
百度腾讯提前批阿里校招面经
腾讯 TEG 后台开发 大数据方向 一面总结
腾讯 偏大数据开发三面面经
腾讯 偏大数据开发二面面经
腾讯 偏大数据开发一面面经
腾讯 数据科学暑期实习 一面
腾讯-数据科学(IEG)+数据工程
腾讯CSIG后台开发一面面经
腾讯CSIG大数据一面面经
腾讯IEG数据中心实习面经
腾讯PCG数据研发暑期实习一面凉经
腾讯TEG-数据平台部-大数据开发实习-一面
腾讯TEG-数据平台部-大数据开发实习-二面(等凉)
腾讯TEG大数据一面面经
腾讯teg大数据 凉
腾讯云智 数据工程 面经
腾讯云智暑期实习-数据工程 一面
腾讯大数据开发一面凉经
腾讯大数据开发实习
腾讯微保实习一面(数据开发工程师)
腾讯微保实习二面(数据开发工程师)
腾讯微信读书 数据科学 暑期实习 一面【放弃笔试但被捞】
腾讯数开面筋-全程无八股
腾讯数据工程凉经
腾讯数据工程面经(1)
腾讯数据工程面经(2)
腾讯暑期实习 数据科学一面面经
腾讯秋招大数据运维开发一面
阿里、腾讯大数据提前批面经(已拿offer)
面试复盘|腾讯-腾讯大数据 一面凉经!!!

小米面经

2023-3-27 小米-汽车-大数据开发
小米 大数据 一面 二面(凉经)
小米 大数据开发 一面视频面
小米 大数据开发 已oc
小米、头条、知乎面试题总结
小米凉面
小米大数据一二面
小米大数据一二面面经
小米大数据一二面面经
小米大数据开发一面
小米大数据开发一面凉经
小米大数据开发二面凉经
小米大数据开发实习面经
小米大数据开发岗一面、二面面经
小米大数据开发工程师(base北京)已OC
小米大数据开发面经
小米大数据提前批一面二面面经
小米大数据日常实习一二三面(已oc)
小米大数据日常面经
小米大数据研发(已OC)timeline
小米大数据面经
小米面经,二面等通知中

大数据&后端书籍

PDF书籍(含Hadoop、Spark、Flink等大数据书籍)在公众号回复关键字“大数据书籍”或“Java书籍”自行进百度云盘群保存即可

交流群

交流群建好了,进群的小伙伴可以加我微信:MoRan1607,备注:GitHub

bigdataguide's People

Contributors

moran1607 avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

bigdataguide's Issues

HDFS面试总结二:HDFS中Block size的默认大小

关于block size的默认大小,有的说是64 MB,有的说是128 MB。

那么具体是从哪个版本由64 MB变成128 MB的?有的说是Hadoop 1.X版本是64MB,2.X版本是128MB,有的说Apache Hadoop 是64MB,Clouder Hadoop是128MB。

我闲来无事,为了确认上述问题的答案,从Hadoop的官网上看了各个版本的说明文档中关于 Data Blocks 的说明,发现是从2.7.3版本开始,官方关于Data Blocks 的说明中,block size由64 MB变成了128 MB的。
————————————————
版权声明:本文为CSDN博主「狂奔吧蜗牛」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/xueyao0201/article/details/80591904

感觉错误很多

zookeeper在事务被应用后可以保证客户端读到最新结果?mapreduce是并发计算?读了几页就读不下去了。。。。。

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.