阿里巴巴资深大数据工程师:大数据处理实践

编辑时间: 2018-03-29 23:14:01    关键字:

 来自阿里巴巴计算平台事业部高级技术专家少杰带来大数据处理的相关演讲。本文首先浅谈了大数据处理发展历程和MapReduce的诞生,我是大数据爱好者,建了一个大数据资源共享群722680258每天分享大数据搭建学习方法,以确定大数据处理系统的实现模式,接着重点分享了Maxcompute和飞天的架构实践,包括盘古伏羲和SQL查询,最后作了简要总结。

 

 

大数据处理和分布式技术

一.大数据处理

 

 

二.MapReduce

 

 

三.飞天和Maxcompute

 

 

四.盘古

 

 

伍.伏羲

 

 

六.Maxcompute SQL

 

阿里巴巴资深大数据工程师:大数据处理实践

 

七,案例分析

 

 

如图SQL查询,首先会生成一个TOK Tree,将词法解析成具体的TOK;然后生成一个关系代数树;优化后生成一个执行计划,对应了算法选择等。

 

 

执行计划又是如何执行呢?如图两张表,一张表是foo table,一张表是bar table,这两张表对应数据在join时,需要把key对应到join key重新分发到下面一堆机器,保证join key在相同机器上都是独立的,都是经过表名做排序的,每一台机器对应execution plan做出最后结果。

 

 

Maxcompute上还有其它知识组件,包括块数据传输服务Tunnel,流式数据传输服务DataHub

,数据交互工具DataX。Maxcompute在用户终端上也支持ODPS Studio、ODPS Console、pyOdps / Pai等。

 

 

在更高层的调度上,我们支持D2系统,帮助用户实现任务集依赖管理

综上,对大数据处理的原理和系统实现以及Maxcompute进行分析后,得出如下总结概括:

现代大数据处理使用大规模分布式系统搭建的廉价集群。
大数据处理系统不是单一系统,通常是分层的设计。
飞天/Maxcompute是一个全系统栈、多编程模型、广泛接口支持的大数据处理系统

推荐热图

合作推荐

2010-2018 可思数据版权所有 About SYKV | ICP备案:京ICP备14056871号