Hadoop MapReduce Job性能调优——修改Map和Reduce个数

chenwq

浏览: 553721 次
性别:
来自: 济南

最近访客更多访客>>

u012363178

jiumoji

song0394

lgw1860

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Hadoop
MapReduce

map task的数量即mapred.map.tasks的参数值，用户不能直接设置这个参数。Input Split的大小，决定了一个Job拥有多少个map。默认input split的大小是64M（与dfs.block.size的默认值相同）。然而，如果输入的数据量巨大，那么默认的64M的block会有几万甚至几十万的Map Task，集群的网络传输会很大，最严重的是给Job Tracker的调度、队列、内存都会带来很大压力。mapred.min.split.size这个配置项决定了每个 Input Split的最小值，用户可以修改这个参数，从而改变map task的数量。
一个恰当的map并行度是大约每个节点10-100个map，且最好每个map的执行时间至少一分钟。
reduce task的数量由mapred.reduce.tasks这个参数设定，默认值是1。
合适的reduce task数量是0.95或者0.75*( nodes * mapred.tasktracker.reduce.tasks.maximum), mapred.tasktracker.tasks.reduce.maximum的数量一般设置为各节点cpu core数量，即能同时计算的slot数量。对于0.95，当map结束时，所有的reduce能够立即启动；对于1.75，较快的节点结束第一轮reduce后，可以开始第二轮的reduce任务，从而提高负载均衡。

对一个job的map数和reduce数的设定对一个job的运行是非常重要的，并且非常简单。以下是一些设置这几个值的经验总结：
- 如果job的每个map或者 reduce task的运行时间都只有30-40秒钟，那么就减少该job的map或者reduce数，每一个task(map|reduce)的setup和加入到调度器中进行调度，这个中间的过程可能都要花费几秒钟，所以如果每个task都非常快就跑完了，就会在task的开始和结束的时候浪费太多的时间。JVM 的reuse方式也可以解决这个问题。
- 如果某个input的文件非常的大，比如 1TB，可以考虑将hdfs上的每个block size设大，比如设成256MB或者512MB，这样map和reduce的数据可以减小。而且用户还可以通过命令：hadoop distcp -Ddfs.block.size=$[256*1024*1024] /path/to/inputdata /path/to/inputdata-with-largeblocks的方式来将已经存在咋hdfs上的数据进行大块化。然后删除掉原先的文件。
- 只要每个task都运行至少30-40秒钟，就可以考虑将mapper数扩大，比如集群的map slots为100个，那么就不要将一个job的mapper设成101，这样前100个map能够并行完成，而最后一个map要在前100个 mapper结束后才开始，因此在reduce开始运行前，map阶段的时间几乎就要翻倍。
- 尽量不要运行太多的reduce task。对大多数job来说，最好rduce的个数最多和集群中的reduce持平，或者比集群的 reduce slots小。这个对于小集群而言，尤其重要。

参考: http://wiki.apache.org/hadoop/HowManyMapsAndReduces

深度分析如何在Hadoop中控制Map的数量

0
顶

0
踩

分享到：

Hadoop Map&Reduce个数优化设置以及JVM重 ... | Hadoop用于和Map Reduce作业交互的命令

2012-05-20 23:46
浏览 26667
评论(2)
分类:行业应用
查看更多

2 楼 Molisa 2014-03-21

Molisa 写道

mapred.min.split.size指的是block数，不是字节数大小

我的说话有问题，是字节数据，最终会根据

max(minimumSize, min(maximumSize, blockSize))
and by default:
minimumSize < blockSize < maximumSize

计算出一个split size的大小，通常是一个block size的大小，比如64M或者128M

1 楼 Molisa 2014-03-21

mapred.min.split.size指的是block数，不是字节数大小

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Hadoop MapReduce Job性能调优——修改Map和Reduce个数

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Hadoop MapReduce Job性能调优——修改Map和Reduce个数

评论

发表评论

相关推荐

Parallel K-Means Clustering Based on MapReduce

Pagerank在Hadoop上的实现原理

Including external jars in a Hadoop job

[转]BSP模型与实例分析（一）

Hadoop中两表JOIN的处理方法

Hadoop DistributedCache

MapReduce，组合式，迭代式，链式

Hadoop ChainMap

广度优先BFS的MapReduce实现

HADOOP程序日志

TFIDF based on MapReduce

个人Hadoop 错误列表

Hadoop Map&Reduce个数优化设置以及JVM重用

有空读下

Hadoop用于和Map Reduce作业交互的命令

Eclipse：Run on Hadoop 没有反应

Hadoop0.20+ custom MultipleOutputFormat

Custom KeyValueTextInputFormat

Hadoop SequenceFile Writer And Reader

Hadoop Archive解决海量小文件存储

最近访客更多访客>>