博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
hadoop Map-Reduce体系架构(3)
阅读量:6219 次
发布时间:2019-06-21

本文共 985 字,大约阅读时间需要 3 分钟。

hot3.png

hadoop Map-Reduce体系架构

1. map-reduce的编程模型

2. 没有reduce的编程模型

3. 复杂的编程模型

4.mapper

Map-Reduce的思想就是“分而治之”

mapper负责“分”,即把复杂的任务分解为若干个“简单的任务”执行

“简单的任务”有几个含义: 1)数据或计算规模相当于缘任务要大大缩小;2)就近计算,即会被分配到存放了所需数据的节点进行计算;3)这些小任务可以并行计算,彼此间几乎没有依赖关系

5.Reducer

对map阶段的结果进行汇总

Reducer的数目由mapred-site.xml配置文件里的项目mapred.reduce.tasks决定。缺省值为1,用户可以覆盖之

6.Shuttler

在mapper和reducer中间的一个步骤(可以没有)

可以把mapper的输出结果按照某种key值重新切分和组合n份

把key值符合某种范围的输出送到特定的reducer那里去处理

可以简化reducer过程

7.M-R的现实例子

流程原理图

Mapper

reducer

运行mapper和reducer

8. 性能优化

究竟需要多少个reducer

输入:大文件优于小文件

减少网络传输:压缩map的输出

优化每个节点能运行的任务数:mapred.tasktracker.map.tasks.maximum和mapred.tasktracker.reduce.tasks.maximum(缺省值均为2)

9.map-reduce工作机制剖析图

10.调度机制

缺省为先入先出作业队列调度

支持公平调度器

支持容量调度器

11.任务执行优化

12.错误处理机制:硬件故障

13.错误处理机制:任务失败

14.hadoop命令大全和hadoop API大全

15.审计日志

把log4j.properties配置文件中的log4j.logger.org.apache.hadoop.fs.FSNamesytem.audit=WARN改为“INFO”可以打开审计日志。每个HDFS事件都会在namenode的log中写入一行记录

16.监控日志

17.第三方工具

Ganglia

Chukwa

Openstack

转载于:https://my.oschina.net/u/1462191/blog/213816

你可能感兴趣的文章
strongswan ikev2 server on ubuntu 14.04
查看>>
Yii用ajax实现无刷新检索更新CListView数据
查看>>
JDBC的事务
查看>>
Io流的概述
查看>>
App 卸载记录
查看>>
php长链接
查看>>
JavaScript变量和作用域
查看>>
Spring Boot 2.0(七):Spring Boot 如何解决项目启动时初始化资源
查看>>
Substring with Concatenation of All Words
查看>>
JS 对象机制深剖——new 运算符
查看>>
直击游戏行业音视频应用——12月2日livevideostack Meet成都沙龙
查看>>
Sphinx
查看>>
【Spring】Spring常用配置-事件(Application Event)
查看>>
Git是个好工具(转)
查看>>
OpenCV轮廓检测,计算物体旋转角度
查看>>
【转载】CodePipeline联动容器的DevOps实践
查看>>
10大托管国家和5大危险电子邮件主题
查看>>
sprintf你知道多少(转)
查看>>
Go嵌入类型及内部提升样例
查看>>
关于js中单双引号以及转义符的理解
查看>>