面试官:如何高效在短时间内处理30亿数据量?我感到困惑。
- 内容介绍
- 文章标签
- 相关推荐
本文共计4377个文字,预计阅读时间需要18分钟。
场景说明:现有10G文件数据,包含18-70岁之间的整数,分别表示18-70岁人群数量统计。假设年龄范围为18-70岁,计算系统中年龄分布的平均值,并找出重复次数最多的年龄。
场景说明
现有一个 10G 文件的数据,里面包含了 18-70 之间的整数,分别表示 18-70 岁的人群数量统计,假设年龄范围分布均匀,分别表示系统中所有用户的年龄数,找出重复次数最多的那个数,现有一台内存为 4G、2 核 CPU 的电脑,请写一个算法实现。
23,31,42,19,60,30,36,........
模拟数据
Java 中一个整数占 4 个字节,模拟 10G 为 30 亿左右个数据, 采用追加模式写入 10G 数据到硬盘里。每 100 万个记录写一行,大概 4M 一行,10G 大概 2500 行数据。
本文共计4377个文字,预计阅读时间需要18分钟。
场景说明:现有10G文件数据,包含18-70岁之间的整数,分别表示18-70岁人群数量统计。假设年龄范围为18-70岁,计算系统中年龄分布的平均值,并找出重复次数最多的年龄。
场景说明
现有一个 10G 文件的数据,里面包含了 18-70 之间的整数,分别表示 18-70 岁的人群数量统计,假设年龄范围分布均匀,分别表示系统中所有用户的年龄数,找出重复次数最多的那个数,现有一台内存为 4G、2 核 CPU 的电脑,请写一个算法实现。
23,31,42,19,60,30,36,........
模拟数据
Java 中一个整数占 4 个字节,模拟 10G 为 30 亿左右个数据, 采用追加模式写入 10G 数据到硬盘里。每 100 万个记录写一行,大概 4M 一行,10G 大概 2500 行数据。

