入门客AI创业平台(我带你入门,你带我飞行)
博客笔记
02
2007-10
转发代理服务器与反向代理服务器 2007-10-02
  转发代理服务器与反向代理服务器     说到代理服务器,大部分人都应该比较熟悉了。记得在学校的时候因为校园网无法访问国外网站,因此经
20
2014-08
面试--超大文件取交集 2014-08-20
问题:现有两个各有20亿行的文件,每一行都只有一个数字,求这两个文件的交集。  解决: 采用bitset进行问题解决 因为int的最大数是2^32 - 1 == 约4
10
2012-11
定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url? 2012-11-10
单位换算: 1G = 1000MB = 1000 * 1000KB = 1000 * 1000 * 1000 byte = 10亿byte = 80亿bit. 文件:50亿*64byte = 320G,就是每个文件有320G。 内存:4G= 320亿bit 如果
22
2017-06
从两个文件(各含50亿个url)中找出共同的url 2017-06-22
给定a、b两个文件,各存放50亿个url,每个url各占用64字节,内存限制是4G,如何找出a、b文件共同的url? 答案:  可以估计每个文件的大小为5G*64=300G,远大
10
2016-11
大数据处理 2016-11-10
首先分析几道看似相似解法不同的面试题:          一、  题给两个⽂文件,分别有100亿个整数,我们只有1G内存,如何找到两个⽂文件交集!

			
				linux C 遍历目录及其子目录 opendir -> readdir -> closedir
linux C 遍历目录及其子目录 opendir -> readdir -> closedir 2013-01-15
1 在linux下遍历某一目录下内容LINUX下历遍目录的方法一般是这样的 2 打开目录->读取->关闭目录 3 相关函数是opendir -> readdir -> closedir,其原型如下:
05
2017-11
100亿个query,1G内存如何找出这俩个文件的交集?分别给出近似算法和精确算法? 2017-11-05
分析 近似算法   近似算法,用布隆过滤器,对query进行哈希,开70亿个位,刚好差不多比1G小点,再从第一个文件中,读取query,一 个 一 个映射到布隆过
20
2015-08
关于遍历linux的文件目录的坑- readdir 2015-08-20
去年给公司写了一个配置服务器,目的是解决运维的工作量太大,而且传送服务器需要的配置文件需要脚本传送到各个服(每个服ip不一样,需要scp

			
				有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词.
有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词. 2012-12-27
首先,我们看到这个题目应该做一下计算,大概的计算,因为大家都清楚的知道1G的文件不可能用1M的内存空间处理。所以我们要按照1M的上线来计算
09
2016-04
Linux库函数之opendir/closedir/readdir 2016-04-09
 在Linux环境下,有时候需要编写一些实用的工具,比如检索功能,最近在做病毒查杀应用开发,涉及到批量扫描指定目录下文件, 因为要测试大量