Mapreduce初学者程序实例

我是mapreduce程序的初学者,如果问题不重要,请原谅我。 我想了解更多关于mapreduce程序。 为了理解编程方法,我想练习除wordcount程序以外的其他程序。 任何人都可以build议好的和简单的mapreduce例子除了wordcount.I使用eclipse juno和cdh4

请帮帮我

Anagram的例子

地理位置示例

专利引用示例

字典应用程序

你可以在这里find最基本的一个:

http://www.drdobbs.com/database/hadoop-writing-and-running-your-first-pr/240153197

它是关于从一个大名单中search一个特定的名字,并展示其工作的好处。

您可以使用文本语料库来做更多的事情,而不是单词计数。 您还可以构build有向图和三拉图来执行预测性文本。 (例如,如果你看到“褐色”,那么在统计上最可能是褐色的)。

你也可以在互联网上search大数据集,然后撰写关于它们的问题。 有一些可用的,如美国人口普查数据集。 或者维基百科数据。 如果你使用的是软件,那么Linux内核源代码树的修订历史可以被挖掘出来,用于各种有趣的数据,比如哪些地方的变化最大,代码改变的频率,地区之间保持静默的时间剧变等

wordcount例子是hadoop mapreduce的hello世界。 先了解一下。 之后,你可以开始扩展和改变它。 我刚刚完成了一个基于wordcount的公司的商业工作,加上业务逻辑和深度优化。