入门客AI创业平台(我带你入门,你带我飞行)
博文笔记
  • 当前位置:
  • 入门客AI创业平台
  • >
  • 博文笔记
  • >
  • 定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?

定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?

创建时间:2012-11-10 投稿人: 浏览次数:1930

单位换算: 1G = 1000MB = 1000 * 1000KB = 1000 * 1000 * 1000 byte = 10亿byte = 80亿bit.

文件:50亿*64byte = 320G,就是每个文件有320G。

内存:4G= 320亿bit


如果允许有一定的错误率:可用Bloom filter,原理:http://blog.csdn.net/jiaomeng/article/details/1495500

假设一个结合S={x1, x2 .... xn},使用k个hash函数。使用m位的bit数组。当hash函数个数k=(ln2)*(m/n)时错误率最小。在错误率不大于E的情况 下,m至少要等于n*lg(1/E)才能表示任意n个元素的集合。但m还应该更大些,因为还要保证bit数组里至少一半为0,则m应 该>=nlg(1/E)*lge 大概就是nlg(1/E)1.44倍(lg表示以2为底的对数)。 

声明:该文观点仅代表作者本人,入门客AI创业平台信息发布平台仅提供信息存储空间服务,如有疑问请联系rumenke@qq.com。
  • 上一篇:没有了
  • 下一篇:没有了
未上传头像