Hadoop-SecondarySort如何实现长尾词排序功能?
- 内容介绍
- 文章标签
- 相关推荐
本文共计950个文字,预计阅读时间需要4分钟。
%E2%80%9CMapReduce%E6%A1%86%E6%9E%B6%E7%9A%84%E7%BB%93%E6%9E%9C%E6%8E%92%E5%BA%8F%E9%9C%80%E8%A6%81%E5%9F%BA%E4%BA%8E%E5%80%BC%E7%9A%84%E9%BB%98%E8%AE%A4%E6%8E%92%E5%BA%8F%E3%80%82%E8%BF%99%E7%A7%8D%E6%8E%92%E5%BA%8F%E9%9C%80%E8%A6%81%E4%BD%BF%E7%94%A8Hadoop%E7%9A%84%E4%BA%8C%E6%AC%A1%E6%8E%92%E5%BA%8F%E3%80%8CSecondary+Sort%E3%80%8D%E6%9D%BF%E5%8F%AF%E4%BB%A5%E6%BB%A1%E8%B6%B3%E5%A4%8D%E6%9D%82%E7%9A%84%E9%9C%80%E6%B1%82%E3%80%82%E5%9C%A8Map%E9%98%B6%E6%AE%B5%E4%B8%AD%EF%BC%8C%E8%BD%BD%E5%8F%82%E6%95%B0%E7%9A%84%E8%BE%93%E5%87%BA%E5%9B%BE%E2%80%9Djob.setInputFormat%E2%80%9D%E2%80%9D。
MapReduce框架对处理结果的输出会根据key值进行默认的排序,这个默认排序可以满足一部分需求。为了满足复杂的需求需要Hadoop二次排序Secondary Sort。
过程
在map阶段,使用job.setInputFormatClass定义的InputFormat将输入的数据集分割成小数据块splites,同时InputFormat提供一个RecordReder的实现。
本文共计950个文字,预计阅读时间需要4分钟。
%E2%80%9CMapReduce%E6%A1%86%E6%9E%B6%E7%9A%84%E7%BB%93%E6%9E%9C%E6%8E%92%E5%BA%8F%E9%9C%80%E8%A6%81%E5%9F%BA%E4%BA%8E%E5%80%BC%E7%9A%84%E9%BB%98%E8%AE%A4%E6%8E%92%E5%BA%8F%E3%80%82%E8%BF%99%E7%A7%8D%E6%8E%92%E5%BA%8F%E9%9C%80%E8%A6%81%E4%BD%BF%E7%94%A8Hadoop%E7%9A%84%E4%BA%8C%E6%AC%A1%E6%8E%92%E5%BA%8F%E3%80%8CSecondary+Sort%E3%80%8D%E6%9D%BF%E5%8F%AF%E4%BB%A5%E6%BB%A1%E8%B6%B3%E5%A4%8D%E6%9D%82%E7%9A%84%E9%9C%80%E6%B1%82%E3%80%82%E5%9C%A8Map%E9%98%B6%E6%AE%B5%E4%B8%AD%EF%BC%8C%E8%BD%BD%E5%8F%82%E6%95%B0%E7%9A%84%E8%BE%93%E5%87%BA%E5%9B%BE%E2%80%9Djob.setInputFormat%E2%80%9D%E2%80%9D。
MapReduce框架对处理结果的输出会根据key值进行默认的排序,这个默认排序可以满足一部分需求。为了满足复杂的需求需要Hadoop二次排序Secondary Sort。
过程
在map阶段,使用job.setInputFormatClass定义的InputFormat将输入的数据集分割成小数据块splites,同时InputFormat提供一个RecordReder的实现。

