Hadoop中两表JOIN的处理方法

博客分类：

Hadoop
MapReduce

1. 概述在传统数据库（如：MYSQL）中，JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作，同样常见且耗时，由于Hadoop的独特设计思想，当进行JOIN操作时，有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法，然后给出了几种针对不同输入数据集的优化方法。 2. 常见的join方法介绍假设要进行join的数据分别来自File1和File2. 2.1 reduce side join reduce side join是一种最简单的join方式，其主要思想如下：在map阶段，map函数同时读取两个 ...

2012-05-29 10:35
浏览 928
评论(0)
分类:行业应用

Hadoop DistributedCache

博客分类：

Hadoop
MapReduce

Hadoop的DistributedCache，可以把HDFS中的文件加载到DistributedCache中，当我们需要这些文件时，DistributedCache自动把这些文件下载到集群中节点的本地存储上（mapred.local.dir）。这样就不需要一一布置第三方的Jar包，并且Hadoop集群增加节点也不需要再上传了。此外DistributedCache对于Read-Only的数据（即边数据）也有用处，这点可以扩展我们编写MapReduce程序的思路。关于的参考可见： 1、http://hadoop.apache.org/common/docs/r0.20 ...

2012-05-27 23:45
浏览 1099
评论(0)
分类:行业应用

MapReduce，组合式，迭代式，链式

博客分类：

Hadoop
MapReduce

1.迭代式mapreduce 一些复杂的任务难以用一次MapReduce处理完成，需要多次 MapReduce 才能完成任务，例如Pagrank，K-means算法都需要多次的迭代，关于 MapReduce 迭代在Mahout中运用较多。有兴趣的可以参考一下Mahout的源码。在MapReduce的迭代思想，类似for循环，前一个 MapReduce的输出结果，作为下一个 MapReduce的输入，任务完成后中间结果都可以删除。

2012-05-27 23:27
浏览 2358
评论(1)
分类:行业应用

Hadoop ChainMap

博客分类：

Hadoop
MapReduce

单一MapReduce对一些非常简单的问题提供了很好的支持。但是如果处理过程变得更加复杂，这种复杂性应该体现为更多地MapReduce工作，而不是更加复杂的map函数和reduce函数。在hadoop 中一个Job中可以按顺序运行多个mapper对数据进行前期的处理，再进行reduce，经reduce后的结果可经个经多个按顺序执行的mapper进行后期的处理，这样的Job是不会保存中间结果的，并大大减少了I/O操作。例如：在一个Job中，按顺序执行 Map1->Map2->Reduce->Map3->Map4 ，在这种链式结构中，要将Map2与Re ...

2012-05-27 23:09
浏览 1954
评论(3)
分类:行业应用

杨氏矩阵查找

博客分类：

algorithm

问题描述：在一个二维数组中，每一行都按照从左到右递增的顺序排序，每一列都按照从上到下递增的顺序排序。请完成一个函数，输入这样的一个二维数组和一个整数，判断数组中是否含有该整数。例如下面的二维数组就是每行、每列都递增排序。如果在这个数组中查找数字6，则返回true；如果查找数字5，由于数组不含有该数字，则返回false。 1 2 8 9 2 4 9 12 4 7 10 13 6 8 11 15 杨氏矩阵的二分查找：首先直接定位到最右上角的元素，如果比要找的数(6)大，则往左走，如果比要找的数(6)小，则往下走，直到找到要找的数 ...

2012-05-26 22:01
浏览 1772
评论(0)
分类:行业应用

广度优先BFS的MapReduce实现

博客分类：

MapReduce
Hadoop

社交网络中的图模型经常需要构造一棵树型结构：从一个特定的节点出发，例如，构造mary的朋友以及mary朋友的朋友的一棵树。为构造这样的一棵树，最简单的方法是使用广度优先算法：经常使用链表来表示图的节点以及节点之间的链接关系，如 frank -> {mary, jill} jill -> {frank, bob, james} mary -> {william, joe, erin} 表示，mary有3个朋友，分别是william，joe和erin 将上述关系形式化表示为 0-> {1, 2} 2-> {3, ...

2012-05-25 21:47
浏览 4286
评论(0)
分类:行业应用

HADOOP程序日志

博客分类：

Hadoop
MapReduce

*.log日志文件和*.out日志文件进入Hadoop_LOG目录，可以看到如下文件：在启动Hadoop集群时，由hadoop-daemon.sh脚本指定一些列环境变量，然后log4j.properties文件读取相应的环境变量产生对应的*.log日志文件。这个日志文件输出类型为org.apache.log4j.DailyRollingFileAppender，它会自动按天更新。 *.out文件则是启动某个程序的标准输出重定向。如：

2012-05-23 19:53
浏览 981
评论(0)
分类:行业应用

TFIDF based on MapReduce

博客分类：

Hadoop
MapReduce

Job1: Map: input: (document, each line of the document) # TextInputformat output: (word@document, 1) Reducer: output: ((word@document), n) n = sum of the values of each key(word@document) the implicit process is: the

2012-05-23 11:58
浏览 922
评论(0)
分类:行业应用

个人Hadoop 错误列表

博客分类：

Hadoop
MapReduce

错误1：Too many fetch-failures Reduce task 启动后第一个阶段是 shuffle ，即向 map 端 fetch 数据。每次 fetch 都可能因为 connect 超时， read 超时， checksum 错误等原因而失败。 Reduce task 为每个 map 设置了一个计数器，用以记录 fetch 该 map 输出时失败的次数。当失败次数达到一定阈值时，会通知 JobTracker fetch 该 map 输出操作失败次数太多了，并打印如下 log ： ...

2012-05-23 11:31
浏览 1456
评论(0)
分类:行业应用

再往前一步，学会更专业地看待问题，尝试去解决问题。

博客分类：

Paper Reading
Data mining related

在科研工作中，有一个很基本的技能，就是对自己和别人的工作进行评估（review）：分析该项工作的长处、不足和改进方案。事实上，整个科学研究都建立在这种评估的体系中。严肃的科学杂志，顶级的国际科研会议，都会对投稿的文章进行严格的评估。在研究生或者博士生的某些课程中，老师会要求学生对已经发表的论文进行评估，并且重点说出这些论文的问题。最开始的时候，一般学生很难发现这些论文的不足之处，因为缺乏足够的理论知识。你不知道这些论文要解决什么问题，你可能也不太清楚解决这些问题所需的技术知识的全部详情，你也可能不清楚如何评价所要解决的问题在文章所提出的方法下得到了解决。实际上，即便是你不清楚这些问 ...

2012-05-22 14:11
浏览 914
评论(0)
分类:行业应用

Hadoop Map&Reduce个数优化设置以及JVM重用

博客分类：

Hadoop
MapReduce

Hadoop与JVM重用对应的参数是mapred.job.reuse.jvm.num.tasks，默认是1，表示一个JVM上最多可以顺序执行的task数目（属于同一个Job）是1。也就是说一个task启一个JVM。比如在集群中配置每个slave节点最多同时运行16个map和2个reduce。那么在map阶段，slave节点会启动最多16个JVM用于map。如下： dm@slave01:/usr/local/hadoop/conf$ jps 4883 Child 4924 Child 4680 Child 4622 Child ...

2012-05-22 11:29
浏览 2392
评论(0)
分类:行业应用

Hadoop MapReduce Job性能调优——修改Map和Reduce个数

博客分类：

Hadoop
MapReduce

map task的数量即mapred.map.tasks的参数值，用户不能直接设置这个参数。Input Split的大小，决定了一个Job拥有多少个map。默认input split的大小是64M（与dfs.block.size的默认值相同）。然而，如果输入的数据量巨大，那么默认的64M的block ...

2012-05-20 23:46
浏览 26676
评论(2)
分类:行业应用

Hadoop用于和Map Reduce作业交互的命令

博客分类：

Hadoop
MapReduce

2012-05-20 16:02
浏览 1202
评论(0)
分类:行业应用

最小堆

博客分类：

algorithm

堆的定义是：n个元素的序列{k1,k2,…,kn}，当且仅当满足如下关系时被成为堆 Ki <= k2i 且 ki <= k2i-1 或者 Ki >= k2i 且 ki >= k2i-1 (i = 1,2,…[n/2]) 当满足(1)时，为最小堆，当满足(2)时，为最大堆。若将此序列对应的一维数组堪称是一个完全二叉树，则2i和2i+1个节点分别是节点i的左右子节点。如下为一个最大堆：下面以最小堆为例说明堆的输出：　　图1为一个最小堆，当最小节点根节点13输出后，将最后一个节点97作为根节点，移到顶端 ...

2012-05-20 11:46
浏览 3634
评论(0)
分类:行业应用

Eclipse：Run on Hadoop 没有反应

博客分类：

MapReduce
Hadoop

原因： hadoop-0.20.2下自带的eclise插件已过时。解决方案: 1、下载正确的插件：https://issues.apache.org/jira/secure/attachment/12460491/hadoop-eclipse-plugin-0.20.3-SNAPSHOT.jar 2、重命名：将下载的插件重命名为"hadoop-0.20.2-eclipse-plugin.jar" 3、替换原来的插件。 4、重启eclipse

2012-05-20 11:46
浏览 1253
评论(0)
分类:行业应用

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Hadoop中两表JOIN的处理方法

Hadoop DistributedCache

MapReduce，组合式，迭代式，链式

Hadoop ChainMap

杨氏矩阵查找

广度优先BFS的MapReduce实现

HADOOP程序日志

TFIDF based on MapReduce

个人Hadoop 错误列表

再往前一步，学会更专业地看待问题，尝试去解决问题。

Hadoop Map&Reduce个数优化设置以及JVM重用

Hadoop MapReduce Job性能调优——修改Map和Reduce个数

Hadoop用于和Map Reduce作业交互的命令

最小堆

Eclipse：Run on Hadoop 没有反应

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>