deletee's Issues
awk的基本使用方法 | D.TopZ
http://deletee.top/2019/01/06/awk-basic/
0x0 简介 awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。 awk有3个不同版本: awk、nawk和gawk,未作
数据仓库专题(2)-数据建模 | D.TopZ
http://deletee.top/2018/12/26/data-modeling/
1、为什么需要数据建模?理解关键字:数据建模就是数据组织和存储的方法数据模型是数据组织和存储方法,正如我们希望图书馆的书分门别类的放置。数据模型强调从业务、数据存取和使用角度合理规划数据 那么为什么需要数据建模呢?我们可以从建模有哪些好处理解
数据仓库ETL之数据交换 | D.TopZ
http://deletee.top/2017/06/05/edw-data-exchange/
从1990年数据仓库之父比尔·恩门(Bill Inmon)提出数据仓库的概念,ETL作为数据仓库的核心组件,在传统的数据仓库中是服务于数据采集,数据处理,大数据时代来临,对ETL的理解也由【抽取、转换、加载】升级到【交换】这个层面。如果你也考虑建设企业级数据仓库可以作为参考。
Git简介 | D.TopZ
http://deletee.top/2019/04/11/git-brief/
Git是什么? Git是目前世界上最先进的分布式版本控制系统(没有之一)。 Git有什么特点?简单来说就是:高端大气上档次! 那什么是版本控制系统? 如果你用Microsoft Word写过长篇大论,那你一定有这样的经历: 想删除一个段落,又怕将来想恢复找不回来怎么办?有办法,先把当前文件“另存为……”一个新的Word文件,再接着改,改到一定程度,再“另存为……”一个新文件,这样一直改下去,最后你
2018年,自己做了什么? | D.TopZ
http://deletee.top/2019/01/26/2018-summary/
回想2018年,大部分日常工作是日志收集、数据统计、数据分析等工作,太过零碎有不能好好的展开,所以还是蛮纠结的。所以打算从可以提炼的日常以及唯一一个值得说道的项目:数据仓库机房迁移作为2018年完成的总结。
Hive SQL优化 | D.TopZ
http://deletee.top/2018/12/25/sql-optimization/
0x00 group by 引起的倾斜1|优化措施12set hive.map.aggr = trueset hive.groupby.skewindata = true
Flink学习笔记02->Flink配置文件详解 | D.TopZ
http://deletee.top/2019/08/11/flink-learning-notes-02/#more
前文已经简要的介绍了flink的如何在Mac下运行一个Maven程序,本文主要聊下在Flink conf目录下的各配置的文件以及文件中各种配置的含义,更多更详细的配置信息请点击:传送门 ,下面进入正题…
Flink学习笔记01->Mac下部署flink并构建简单程序 | D.TopZ
http://deletee.top/2019/08/11/flink-learning-notes-01/#more
说在前面的话 随着Flink大数据平台快速发展及日益成熟,公司也逐步利用Flink来解决业务问题,之前也学过Scala,Spark,由于本人在实际工作中应用场景较少,基本上又忘了。本次利用一个月的时间,每天更新一篇自学笔记用以记录及知识分享。
从自动化到智能化,OP&URS 在AIOps探索与实战 | D.TopZ
http://deletee.top/2019/10/26/aiops/
一、运维面临问题与挑战 眼下,随着信息化、数字化的深入发展,技术飞速迭代,应用服务也不断升级,企业面临的运维压力也越来越大,传统运维受到了前所未有的挑战。 (1)运维内容:传统的互联网运维的内容仅是关注软硬件、网络、应用系统及基础设备的运维,而当前将面临数十万台主机、容器,复杂的网络环境,以及复杂的部署环境:私有云、公有云、跨IDC混合部署 (2
数据仓库-50问 | D.TopZ
http://deletee.top/2019/11/23/edw-50FAQ/
很长一段时间没有写博客了,一直以来工作上的事情太多,也将很多学习内容搁置,今天新增一篇博客,用于记录自己对数据仓库的一些理解。 Q1:如何量化评价一个数据仓库的好坏? A1:数据仓库好坏评价可以从两个角度来度量,一个是技术角度(高可用、稳定性、扩展性)
数据仓库专题(1)-数仓概论 | D.TopZ
http://deletee.top/2018/12/20/edw-brief-summary/
通常来讲,大家都知道数据仓库的官方概念数据仓库概念创始人W.H.Inmon在《建立数据仓库》一书中对数据仓库的定义是:数据仓库就是面向主题的、集成的、相对稳定的、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程、数据仓库中的数据面向主题,与传统数据库面向应用相对应。
一起来学Scala(1)-入门概要 | D.Top
http://deletee.top/2019/01/07/scala-programing-brief/#more
为什么要学Scala?Scala是大数据分析平台Spark、Flink 官方支持的语言,在学习Spark和Flink之前,需要学好Scala基础。Scala同样是一门当前热门的语言,Kafka、Spark均由Scala开发,由此学习Scala是学习这些平台比不可少的步骤。
一起来学Scala(4)-循环 | D.TopZ
http://deletee.top/2019/01/22/scala-programing-loop/#more
今天学习的内容是循环,循环语句允许我们多次执行一个语句或语句组,下面是大多数编程语言中循环语句的流程图: Scala中的循环与Java中循环表现不一样,主要体现在写法及卫语句支持。下面看一段伪代码: 1234567for(line <- source.getLines)&#
About Me | D.TopZ
0x0 关于我 deletee 青春猪头好少年,本着学好技术才能吹好牛的指导**,不停de前行,志同道合的朋友一起交流吧. 0x1 技术综合篇 本篇将围绕「数据仓库」的生态进行展开,将涉及如下模块: 0x0 开发语言 0x1 数据仓库 0x2 技术平台 0x3 机器学习 0xF 办公技能 0x2 方法综合篇 本篇将着重
如何使用Hive窗口函数 | D.TopZ
http://deletee.top/2019/01/20/how-to-use-window-func/#more
窗口函数常常用于我们业务中的复杂计算,本文介绍Hive中几个常用的窗口函数,并用案例讲述如何使用。那么我们常用的窗口函数有哪些? 函数名 备注 row_number 分组内根据排列条件从1开始的排序,没有相同的序号 rank 分组内根据排列条件从1开始的排序,排名相等会在名次中留下空位,例如:1,2,2,4 den
大数据50问-第2问:如何理解数据中台 | D.TopZ
http://deletee.top/2019/12/01/bigdata-50FAQ-02/#more
Q2:如何理解数据中台? 突然火爆了概念词”数据中台“,说实话,一听到这词以为某些互联网大佬又在吹概念了, 中台的概念一热,很多似是而非的东西都在往中台的概念上凑,一下子出现很多中台,如业务中台、数据中台、技术中台、算法中台、移动中台等等。特别是很多原来称作平台的,现在也都摇身一变成了中台,赶时髦。那么我们如何理解数据中台?我们提出如下几个问题: 什么是数据中台? 数据中
Git创建与合并分支 | D.TopZ
http://deletee.top/2019/04/11/git-repository/
什么是版本库呢?版本库又名仓库,英文名repository,你可以简单理解成一个目录,这个目录里面的所有文件都可以被Git管理起来,每个文件的修改、删除,Git都能跟踪,以便任何时刻都可以追踪历史,或者在将来某个时刻可以“还原”。 所以,创建一个版本库非常简单,首先,选择一个合适的地方,创建一个空目录: 1234$ mkdir learngit$ cd learngit$ pwd/Users/mi
利用fuse_dfs快速建立hdfs云存储 | D.TopZ
http://deletee.top/2018/08/16/fuse-hdfs/
一、介绍 将HDFS挂载到本地,允许用户像访问本地文件系统一样访问远程文件系统,用户可像读写本地文件一样读写HDFS上的文件,大大简化了HDFS使用,方法较为常用两种方法是:利用fuse_dfs或者利用NFSv3,因NFSv3需对Hadoop集群端进行操作,修改代价太大,本文介绍以fuse_dfs,只需在客户端进行配置即可挂载hdfs。
[转]职场晋升进阶宝典:都是知识点 | D.TopZ
http://deletee.top/2019/01/26/promotion-reply/#more
时间眨眼到了5月,阿里人最近都在忙什么呢?橙子去公司内网看了看,发现“晋升”已经成了热搜词。 晋升,可不是你想象中简单的升职加薪哦。 它既是认可,也是期望。是对过去一段时间内,个人的能力成长和业务产出的认可;也是对今后的责任、付出提出了更高的要求和期望。听说面对压力,不少同学还是挺紧张的,这种关键时候,贴心的橙子自然会想方设法助大家一臂之力咯~你看,我千方百计找到了几大绝招哦!话说这绝招从哪儿学来
利用HFile BulkLoad实现HBase海量数据加载 | D.TopZ
http://deletee.top/2016/07/01/hbase-bulk-load/
在数据仓库开发过程中,我们可能将HBase作为我们数据即服务的持久化存储介质,由此大量的数据模型从数据仓库计算后写入至HBase。通常我们使用HBase提供的API方法,实现了接口调用,但对于海量的数据,接口的调用引起HBase cpu、内存占用过高,影响正常业务使用。于是我们着手研究HFile BulkLoad的方式进行离线数据加载。
大数据50问-第1问:如何评价数据仓库 | D.TopZ
http://deletee.top/2019/11/23/bigdata-50FAQ-01/
Q1:如何量化评价一个数据仓库的好坏? 在网上看到一篇文章关于如何评价数据仓库的,它是这样说的:数据仓库的失败率并非80%都是失败的,很多项目介于成功失败之间;数据仓库项目实施周期比较长,不容易看到成果;因为很大程度上评价成功的标准常常是在既成事实之后采取制定的,实际上大多数用户事先并不清楚自己的目标,从而对数据仓库项目的评价有失偏颇。事实上很多失败的数据仓库在某种程度上也可
大数据50问-第1问:如何评价数据仓库 | D.TopZ
http://deletee.top/2019/11/23/bigdata-50FAQ-01/
Q1:如何量化评价一个数据仓库的好坏? 在网上看到一篇文章关于如何评价数据仓库的,它是这样说的:数据仓库的失败率并非80%都是失败的,很多项目介于成功失败之间;数据仓库项目实施周期比较长,不容易看到成果;因为很大程度上评价成功的标准常常是在既成事实之后采取制定的,实际上大多数用户事先并不清楚自己的目标,从而对数据仓库项目的评价有失偏颇。事实上很多失败的数据仓库在某种程度上也可
数据仓库专题(4)-维度建模 | D.TopZ
http://deletee.top/2018/12/28/dim-modeling/
1、什么是维度建模?理解关键字:维度建模的出发点是实现快速的数据分析与决策,维度建模通常面向业务人员、分析人员使用,相对ER建模来说会更加开放,更容易理解 维度建模是从业务过程中提炼而来,典型维度建表代表星形建模和雪花建模
常用的一些SQL语句 | D.TopZ
http://deletee.top/2019/01/09/useful-sql/
实际工作过程中,经常用的几个SQL,常常因为某些关键字忘记,从而经常需要找工具书或者之前做的工程,本文将自己工作中常常容易忘记的SQL整理出来,方便直接定位。 0x0 建表DDL(指定分隔符、分区)12345678910create table dim.dim_sms_rate_standard( contry_code stri
数据仓库专题(3)-ER建模 | D.TopZ
http://deletee.top/2018/12/27/er-modeling/
1、什么是ER建模?理解关键字:ER模型又称实体-关系模型,遵循3NF建模,采用ER进行数据仓库建模需要从整个企业的角度理清各业务之间的关系,建模的出发点是基于企业数据的整合,建设EDW需要建模人员对企业整体业务有精深的把控 例如:Teradata的 FS-LDM模型,将金融业务分为10大主题,通常是对整体行业发展的沉淀,将成熟的模型做适当的调整即可快速落地实施
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.