海量数据处理的方法总结 - 铜仁市 - Powered by Discuz!NT Archiver

TUhjnbcbe - 2021/8/6 23:04:00

基础知识：

bit：位

byt：字节

1byt=8bit

int类型为4byt，共2位bit，unsigndint也是

2^2byt=4G

1G=2^0=10.7亿

海量数据处理概述：

所谓海量数据处理，就是指数据量太大，无法在较短时间内迅速解决，或者无法一次性装入内存。而解决方案就是：针对时间，可以采用巧妙的算法搭配合适的数据结构，如Bloomfiltr/Hashmap/bit-map/堆/数据库/倒排索引/tri树；针对空间，大而化小，分而治之（hash映射），把规模大化为规模小的，各个击破。所以，海量数据处理的基本方法总结起来分为以下几种：

分而治之/hash映射+hash统计+堆/快速/归并排序；

Tri树/Bloomfiltr/Bitmap

数据库/倒排索引；

双层桶划分；

外排序；

分布式处理之Hadoop/Maprduc。

一、分而治之/hash映射+hashmap统计+快速/归并/堆排序

这种方法是典型的“分而治之”的策略，是解决空间限制最常用的方法，即海量数据不能一次性读入内存，而我们需要对海量数据进行的计数、排序等操作。基本思路如下图所示：先借助哈希算法，计算每一条数据的hash值，按照hash值将海量数据分布存储到多个桶中。根据hash函数的唯一性，相同的数据一定在同一个桶中。如此，我们再依次处理这些小文件，最后做合并运算即可。

问题1：海量日志数据，统计出某日访问百度次数最多的那个IP

解决方式：IP地址最多有2^2=4G种取值情况，所以不能完全加载到内存中进行处理，采用hash分解+分而治之+归并方式：

（1）按照IP地址的Hash(IP)%值，把海量IP日志分别存储到个小文件中。这样，每个小文件最多包含4MB个IP地址；

（2）对于每一个小文件，构建一个IP为ky，出现次数为valu的Hashmap，同时记录当前出现次数最多的那个IP地址

（）然后再在这组最大的IP中，找出那个频率最大的IP

问题2：有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的个词。

解决思想：hash分解+分而治之+归并

（1）顺序读文件中，对于每个词x，按照hash(x)/(*4)存到个小文件中。这样每个文件大概是k左右。如果其中的有的文件超过了1M大小，还可以按照hash继续往下分，直到分解得到的小文件的大小都不超过1M。

（2）对每个小文件，可以采用tri树/hashmap统计每个文件中出现的词以及相应的频率，并使用个节点的小顶堆取出出现频率最大的个词，并把个词及相应的频率存入文件。这样又得到了个文件。

（）下一步就是把这个文件进行归并的过程了

问题：有a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？

解决方案1：如果内存中想要存入所有的url，共需要50亿*64=20G大小空间，所以采用hash分解+分而治之+归并的方式：

（1）遍历文件a，对每个url根据某种hash规则，求取hash(url)/，然后根据所取得的值将url分别存储到个小文件（a0~a）中。这样每个小文件的大约为00M。如果hash结果很集中使得某个文件ai过大，可以在对ai进行二级hash(ai0~ai)，这样url就被hash到个不同级别的文件中。

（2）分别比较文件，a0VSb0，……，aVSb，求每对小文件中相同的url时：把其中一个小文件的url存储到hashmap中，然后遍历另一个小文件的每个url，看其是否在刚才构建的hashmap中，如果是，那么就是共同的url，存到文件中。

（）把个文件中的相同url合并起来

解决方案2：Bloomfiltr

如果允许有一定的错误率，可以使用Bloomfiltr，4G内存大概可以表示40亿bit，n=50亿，如果按照出错率0.01算需要的大概是亿个bit，现在可用的是40亿，相差并不多，这样可能会使出错率上升些，将其中一个文件中的url使用Bloomfiltr映射为这40亿bit，然后挨个读取另外一个文件的url，检查是否与Bloomfiltr，如果是，那么该url应该是共同的url（注意会有一定的错误率）

问题4：有10个文件，每个文件1G，每个文件的每一行存放的都是用户的qury，每个文件的qury都可能重复。要求你按照qury的频度排序。

解决方案1：hash分解+分而治之+归并

（1）顺序读取10个文件a0~a9，按照hash(qury)%10的结果将qury写入到另外10个文件（记为b0~b9）中，这样新生成的文件每个的大小大约也1G

（2）找一台内存2G左右的机器，依次使用hashmap(qury,qury_count)来统计每个qury出现的次数。利用快速/堆/归并排序按照出现次数进行排序。将排序好的qury和对应的qury_cout输出到文件中。这样得到了10个排好序的文件c0~c9。

（）对这10个文件c0~c9进行归并排序（内排序与外排序相结合）。每次取c0~c9文件的m个数据放到内存中，进行10m个数据的归并，即使把归并好的数据存到d结果文件中。如果ci对应的m个数据全归并完了，再从ci余下的数据中取m个数据重新加载到内存中。直到所有ci文件的所有数据全部归并完成。

解决方案2：Tri树

如果qury的总量是有限的，只是重复的次数比较多而已，可能对于所有的qury，一次性就可以加入到内存了。在这种情况下，可以采用tri树/hashmap等直接来统计每个qury出现的次数，然后按出现次数做快速/堆/归并排序就可以了。

问题5：海量数据分布在台电脑中，请高效统计出这批数据的TOP10

解决思想：分而治之+归并

（1）在每台电脑上求出TOP10，采用包含10个元素的堆完成（TOP10小，用最大堆，TOP10大，用最小堆）

（2）求出每台电脑上的TOP10后，把这台电脑上的TOP10合并之后，共0个数据，在采用堆排序或者快排方式求出top10

（注意：该题的TOP10是取最大值或最小值，如果取频率TOP10，就应该先hash分解，将相同的数据移动到同一台电脑中，再使用hashmap分别统计出现的频率）

问题6：在2.5亿个整数中找出不重复的整数，内存不足以容纳这2.5亿个整数

解决方案1：hash分解+分而治之+归并

（1）2.5亿个int类型hash到个小文件中a0~a，如果某个小文件大小还大于内存，进行多级hash

（2）将每个小文件读进内存，找出只出现一次的数据，输出到b0~b

（）最后数据合并即可

解决方案2：2-Bitmap

如果内存够1GB的话，采用2-Bitmap进行统计，共需内存2^2*2bit=1GB内存。2-bitmap中，每个数分配2bit（00表示不存在，01表示出现一次，10表示多次，11无意义），然后扫描这2.5亿个整数，查看Bitmap中相对应位，如果是00，则将其置为01；如果是01，将其置为10；如果是10，则保持不变。所描完成后，查看bitmap，把对应位是01的整数输出即可。（如果是找出重复的数据，可以用1-bitmap。第一次bit位由0变1，第二次查询到相应bit位为1说明是重复数据，输出即可）

二、Tri树+红黑树+hashmap

Tri树、红黑树和hashmap可以认为是第一部分中分而治之算法的具体实现方法之一。

其中，Tri树适合处理海量字符串数据，尤其是大量的字符串数据中存在前缀时。Tri树在字典的存储，字符串的查找，求取海量字符串的公共前缀，以及字符串统计等方面发挥着重要的作用。

用于存储时，Tri树因为不重复存储公共前缀，节省了大量的存储空间；

用于以字符串的查找时，Tri树依靠其特殊的性质，实现了在任意数据量的字符串集合中都能以O(ln)的时间复杂度完成查找（ln为要检索的字符串长度）；

在字符串统计中，Tri树能够快速记录每个字符串出现的次数

问题1：上千万或上亿数据（有重复），统计其中出现次数最多的前N个数据。

解决方案：hashmap/红黑树+堆排序

（1）如果是上千万或上亿的int数据，现在的机器4G内存能存下。所以考虑采用hashmap/搜索二叉树/红黑树等来进行统计重复次数

（2）然后使用包含N个元素的小顶堆找出频率最大的N个数据

问题2：一个文本文件，大约有一万行，每行一个词，要求统计出其中最频繁出现的前10个词，并给出时间复杂度

解决思路：tri树+堆排序

用tri树统计每个词出现的次数，时间复杂度是O(n*ln)（ln表示单词的平均长度）。

然后使用小顶堆找出出现最频繁的前10个词，时间复杂度是O(n*lg10)。

总的时间复杂度，是O(n*l)与O(n*lg10)中较大的那一个。

问题：有一千万个字符串记录（这些字符串的重复率比较高，虽然总数是1千万，但是如果去除重复和，不超过百万个），每个查询串的长度为1-字节。请你统计最热门的10个查询串（重复度越高，说明越热门），要求使用的内存不能超过1G。

解决方案：

内存不能超过1G，每条记录是byt，0W条记录需要要占据2.75G内存，这个条件就不满足要求了，但是去重后只有00W条记录，最多占用0.75G内存，因此可以将它们都存进内存中去。使用tri树（或者使用hashmap），关键字域存该查询串出现的次数。最后用10个元素的最小堆来对出现频率进行排序。总的时间复杂度，是O(n*l)与O(n*lg10)中较大的那一个。

问题4：0万字符串，其中有些是重复的，需要把重复的全部去掉，保留没有重复的字符串。

解决方案：tri树

三、BitMap与BloomFiltr

1、BitMap就是通过bit位为1或0来标识某个状态存不存在。可用于数据的快速查找，判重，删除，一般来说适合的处理数据范围小于8bit*2^2。否则内存超过4G，内存资源消耗有点多。

2、BloomFiltr主要是用于判定目标数据是否存在于一个海量数据集以及集合求交集。以存在性判定为例，BloomFiltr通过对目标数据的映射，能够以O(k)的时间复杂度判定目标数据的存在性，其中k为使用的hash函数个数。这样就能大大缩减遍历查找所需的时间。

问题1：已知某个文件内包含一些电话号码，每个号码为8位数字，统计不同号码的个数。

解决思路：

8位最多，需要M个bit位，不到12M的内存空间。我们把0-的每个数字映射到一个Bit位上，这样，就用了小小的12M左右的内存表示了所有的8位数的电话

问题2：2.5亿个整数中找出不重复的整数的个数，内存空间不足以容纳这2.5亿个整数。

解决方案：使用2-bitmap，详情见上文

问题：给40亿个不重复的unsigndint的整数，没排过序的，然后再给一个数，如何快速判断这个数是否在那40亿个数当中

解决方案：使用Bitmap，申请M的内存，一个bit位代表一个unsigndint值。读入40亿个数，设置相应的bit位，读入要查询的数，查看相应bit位是否为1，为1表示存在，为0表示不存在。

问题4：现有两个各有20亿行的文件，每一行都只有一个数字，求这两个文件的交集。

解决方案：采用bitmap进行问题解决，因为int的最大数是2^2=4G，用一个二进制的下标来表示一个int值，大概需要4G个bit位，即约4G/8=M的内存，就可以解决问题了。

①首先遍历文件，将每个文件按照数字的正数，负数标记到2个bitmap上，为：正数bitmapA_positiv，负数bitmapA_ngativ

②遍历另为一个文件，生成正数：bitmapB_positiv，bitmapB_ngativ

③取bitmapA_positivandbitmapB_positiv得到2个文件的正数的交集，同理得到负数的交集。

④合并，问题解决

这里一次只能解决全正数，或全负数，所以要分两次

问题5：与上面的问题4类似，只不过现在不是A和B两个大文件，而是A,B,C,D….多个大文件，求集合的交集

解决方案：

（1）依次遍历每个大文件中的每条数据，遍历每条数据时，都将它插入BloomFiltr；

（2）如果已经存在，则在另外的集合（记为S）中记录下来；

（）如果不存在，则插入BloomFiltr；

（4）最后，得到的S即为所有这些大文件中元素的交集

四、多层划分

多层划分本质上还是分而治之的思想，重在“分”的技巧上！因为元素范围很大，需要通过多次划分，逐步确定范围，然后最后在一个可以接受的范围内进行。适用用于：第k大，中位数，不重复或重复的数字

问题1：求取海量整数的中位数

解决方案：

依次遍历整数，按照其大小将他们分拣到n个桶中。如果有的桶数据量很小，有的则数据量很大，大到内存放不下了；对于那些太大的桶，再分割成更小的桶；

之后根据桶数量的统计结果就可以判断中位数落到哪个桶中，如果该桶中还有子桶，就判断在其哪个子桶中，直到最后找出目标。

问题2：一共有N个机器，每个机器上有N个数，每个机器最多存N个数，如何找到N^2个数中的中数？

解决方案1：hash分解+排序

按照升序顺序把这些数字，hash划分为N个范围段。假设数据范围是2^2的unsigndint类型。理论上第一台机器应该存的范围为0~(2^2)/N，第i台机器存的范围是(2^2)*(i-1)/N~(2^2)*i/N。hash过程可以扫描每个机器上的N个数，把属于第一个区段的数放到第一个机器上，属于第二个区段的数放到第二个机器上，…，属于第N个区段的数放到第N个机器上。注意这个过程每个机器上存储的数应该是O(N)的。

然后我们依次统计每个机器上数的个数，依次累加，直到找到第k个机器，在该机器上累加的数大于或等于（N^2）/2，而在第k-1个机器上的累加数小于（N^2）/2，并把这个数记为x。那么我们要找的中位数在第k个机器中，排在第（N^2）/2-x位。然后我们对第k个机器的数排序，并找出第（N^2）/2-x个数，即为所求的中位数的复杂度是O（N^2）的。

解决方案2：分而治之+归并

先对每台机器上的数进行排序。排好序后，我们采用归并排序的思想，将这N个机器上的数归并起来得到最终的排序。找到第（N^2）/2个便是所求。复杂度是O（N^2*lgN^2）的

张维鹏

blog.csdn.nt/a/articl/dtails/

预览时标签不可点收录于话题#个上一篇下一篇

铜仁市论坛