如何高效处理海量数据,实现长尾词精准挖掘?
- 内容介绍
- 文章标签
- 相关推荐
本文共计2398个文字,预计阅读时间需要10分钟。
文章目录
一、计算容量
二、
三、解决思路之分别处理/Hash映射
+ Hash计数+ 堆/快速/归并排序一、海量日志数据,提取出某日访问次数最多的那个IP
文章目录
- 一、计算容量
- 二、拆分
- 三、解决思路之分而治之/Hash映射 + Hash统计 + 堆/快速/归并排序
- 1、海量日志数据,提取出某日访问百度次数最多的那个IP
- 2、有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。
- 3、给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?
- 四、解决思路之Bitmap/布隆过滤器
- 1、给40亿个不重复的unsigned int的整数,没排过序的,然后再给一个数,如何快速判断这个数是否在那40亿个数当中?
- 五、解决思路之外排序
- 1、如何排序10亿个数
- 六、海量数据找中位数
一、计算容量
二、拆分
可以将海量数据拆分到多台机器上和拆分到多个文件上:
- 如果数据量很大,无法放在一台机器上,就将数据拆分到多台机器上。这种方式可以让多台机器一起合作,从而使得问题的求解更加快速。
本文共计2398个文字,预计阅读时间需要10分钟。
文章目录
一、计算容量
二、
三、解决思路之分别处理/Hash映射
+ Hash计数+ 堆/快速/归并排序一、海量日志数据,提取出某日访问次数最多的那个IP
文章目录
- 一、计算容量
- 二、拆分
- 三、解决思路之分而治之/Hash映射 + Hash统计 + 堆/快速/归并排序
- 1、海量日志数据,提取出某日访问百度次数最多的那个IP
- 2、有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。
- 3、给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?
- 四、解决思路之Bitmap/布隆过滤器
- 1、给40亿个不重复的unsigned int的整数,没排过序的,然后再给一个数,如何快速判断这个数是否在那40亿个数当中?
- 五、解决思路之外排序
- 1、如何排序10亿个数
- 六、海量数据找中位数
一、计算容量
二、拆分
可以将海量数据拆分到多台机器上和拆分到多个文件上:
- 如果数据量很大,无法放在一台机器上,就将数据拆分到多台机器上。这种方式可以让多台机器一起合作,从而使得问题的求解更加快速。

