Bloom过滤器学习和使用

=Start=

缘由：

对我来说，在无事可做的时候学一些东西是打发时间的最佳方式。而且这个东西可能还有些实际用处。

正文：

参考解答：

1、Bloom-Filter算法简介

Bloom-Filter，即布隆过滤器，1970年由Bloom中提出。它可以用于检索一个元素是否在一个集合中。

Bloom-Filter是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否属于这个集合。它是一个判断元素是否存在集合的快速的概率算法。Bloom-Filter有可能会出现错误判断，但不会漏掉判断。也就是Bloom-Filter判断元素不在集合，那肯定不在。如果判断元素存在集合中，有一定的概率判断错误。因此，Bloom-Filter不适合那些“零错误”的应用场合。而在能容忍低错误率的应用场合下，Bloom-Filter比其他常见的算法（如hash，折半查找）极大节省了空间。

误判——是因为选用的Hash算法存在碰撞的可能。

2、Bloom-Filter算法基本思想

计算某元素x是否在一个集合中，首先能想到的方法就是将所有的已知元素保存起来构成一个集合R，然后用元素x跟这些R中的元素一一比较来判断是否存在于集合R中；我们可以采用链表等数据结构来实现。但是，随着集合R中元素的增加，其占用的内存将越来越大。试想，如果有几千万个不同网页需要下载，所需的内存将足以占用掉整个进程的内存地址空间。即使用MD5，UUID这些方法将URL转成固定的短小的字符串，内存占用也是相当巨大的。

于是，我们会想到用Hash table的数据结构，运用一个足够好的Hash函数将一个URL映射到二进制位数组（位图数组）中的某一位。如果该位已经被置为1，那么表示该URL已经存在。

Hash存在一个冲突（碰撞）的问题，用同一个Hash得到的两个URL的值有可能相同。为了减少冲突，我们可以多引入几个Hash，如果通过其中的一个Hash值我们得出某元素不在集合中，那么该元素肯定不在集合中。只有在所有的Hash函数告诉我们该元素在集合中时，才能确定该元素存在于集合中。这便是Bloom-Filter的基本思想。

原理要点：一是位数组，二是k个独立hash函数。

参考链接：

海量数据处理算法—Bloom Filter
http://en.wikipedia.org/wiki/Bloom_filter
Bloom Filter 算法处理海量数据
BloomFilter + Redis 大数据去重策略的实现
BloomFilter（大数据去重）+Redis（持久化）策略
基于Redis的布隆过滤器(Python实现)# 可以使用
Bloom Filter在Python上的实现与优缺点分析
# 完全满足常规使用的版本
https://github.com/jaybaird/python-bloomfilter
# 更快的版本
https://axiak.github.io/pybloomfiltermmap/
https://github.com/axiak/pybloomfiltermmap

=END=

20 9 月, 2018

Docker

KnowledgeBase, Programing, Tools

BloomFilter, 去重, 算法