当前位置：首页 > 问答 > 正文

Redis过滤器怎么用？快速搞懂那些实用技巧和步骤分享

畅苗
问答
2026-01-01 22:37:45
3

说到Redis过滤器,你可能听过布隆过滤器这个名字，它是Redis里最常用的一种过滤器，我们就以它为主来说说怎么用，这东西听起来好像很高级，但其实它的核心思想特别简单，就是用一个很巧妙的方法帮你快速判断一样东西“一定不存在”或者“可能存在”于一个超级大的集合里，你有上亿个用户ID，现在有个新用户来注册，你需要瞬间判断这个ID有没有被人用过，用Redis过滤器就非常合适。

Redis过滤器到底是个啥？为啥要用它？

你可以把布隆过滤器想象成一个空的布告栏（对应一个很长的二进制数组，初始值都是0）和好几枚不同的印章（对应几个哈希函数），当你要记录一个信息，比如用户ID“Alice”时，你不是直接把“Alice”这个名字贴到布告栏上，而是用那几枚印章分别蘸上墨水，在布告栏的某些特定位置上盖个章（也就是把数组对应位置的值从0变成1）。

之后,当你想查询“Alice”这个ID是否已经存在时，你再用同样的几枚印章去检查布告栏上对应的位置。如果发现有一个位置没有被盖章（值还是0），那你就可以百分百肯定，“Alice”这个ID绝对没有被记录过。如果所有位置都盖了章（值都是1），你只能说“Alice”这个ID“可能”存在，为什么是“可能”呢？因为有可能其他不同的ID（Bob”）凑巧也用它的印章把你检查的这些位置都给盖上了，这就产生了“误判”。

布隆过滤器的最大特点就是：说“没有”就是真的没有，说“有”却不一定是真有，它用微小的误判概率，换来了极高的空间效率和查询速度，它不需要存储元素本身，所以特别节省内存；查询速度极快，和集合大小无关。

根据IBM开发者社区的一篇文章提到,布隆过滤器在缓存穿透、防止重复推荐、恶意网址检测等场景下非常有效。

具体怎么用？一步一步来

Redis过滤器怎么用？快速搞懂那些实用技巧和步骤分享

在Redis中,布隆过滤器并不是原生的数据结构，而是通过Redis Modules的形式提供的，你需要先加载RedisBloom模块才能使用，假设你的Redis已经准备好了这个模块，我们就可以通过Redis的命令行来操作了。

创建过滤器： 使用 BF.RESERVE 命令，这个命令可以让你创建一个自定义参数的布隆过滤器。
- 命令格式： BF.RESERVE {过滤器名称} {误判率} {初始容量}
- 例子： BF.RESERVE my_filter 0.01 1000
- 解释： 我创建了一个名叫“my_filter”的过滤器，我期望它的误判率不超过1%（0.01），我预计最初会往里面放入大概1000个元素，误判率设得越低，需要的内存就越大；初始容量设得越大，避免后期扩容的性能损耗。
添加元素： 使用 BF.ADD 命令。
- 命令格式： BF.ADD {过滤器名称} {元素值}
- 例子： BF.ADD my_filter user123
- 解释： 这就把“user123”这个值添加到了“my_filter”过滤器中，布告栏上对应的几个位置就被“盖章”了，如果你想一次性添加多个，可以用 BF.MADD 命令。
检查元素是否存在： 使用 BF.EXISTS 命令。
- 命令格式： BF.EXISTS {过滤器名称} {元素值}
- 例子： BF.EXISTS my_filter user123
- 解释： 这个命令会返回一个整数结果。返回1，表示“user123”“可能”存在于过滤器中。返回0，表示“user123”“绝对不存在”于过滤器中。

有哪些实用的技巧和需要注意的地方？

选择合适的参数： 这是最关键的一步，在创建过滤器（BF.RESERVE）时，你需要根据业务场景预估两个值：
- 初始容量（capacity）： 你打算往里面放多少元素？这个数最好比你预估的最大值再大一些，比如预估1万，你设成1万2，因为如果实际放入的元素远超容量，误判率会急剧上升。
- 误判率（error rate）： 你能接受多大的误判概率？比如0.01（1%）还是0.001（0.1%）？误判率要求越低，需要的内存也越大，对于“缓存穿透”这种场景，1%的误判率可能完全能接受，因为代价只是多一次数据库查询；但对于一些金融去重场景，可能就需要更低的误判率。
应对数据增长： 布隆过滤器在创建时确定了容量，超过之后性能会下降，RedisBloom模块的布隆过滤器支持自动扩容（在BF.RESERVE命令中加一个参数即可），但这可能会稍微影响性能，所以最好还是提前规划好容量。
经典应用场景：
- 解决缓存穿透： 这是最经典的用法，前端请求一个数据库中肯定不存在的数据（比如不存在的商品ID），导致请求每次都绕过缓存直接打到数据库上，造成压力，我们可以在查询数据库之前，先用布隆过滤器判断一下这个ID是否存在，如果过滤器说“不存在”，我们就直接返回空结果，避免了无效的数据库查询，根据阿里云社区的一篇技术文章，这种方法能有效保护后端数据库。
- 大规模数据去重： 比如爬虫判断一个URL是否已经爬取过；或者新闻App判断一篇新闻是否已经推荐给过用户，因为数据量巨大，直接用Set存储会非常耗内存，用布隆过滤器就能极大节省空间。
- 垃圾邮件过滤： 判断一个邮件地址或邮件内容是否在黑名单中。
重要限制：
- 不能删除元素： 这是传统布隆过滤器的一个硬伤，因为你盖的一个章可能被多个元素共享，如果你把一个元素对应的章擦掉（0变回1），可能会把其他元素的存在性也破坏掉，RedisBloom模块提供了一种叫“布谷鸟过滤器”的结构，支持删除操作，如果需要这个功能可以考虑它。
- 可能存在”： 在使用返回值时，你的程序逻辑必须能够处理那部分“误判”的情况，比如在缓存穿透的例子中，即使过滤器说“存在”（可能是误判），你依然要去查缓存和数据库，只是当过滤器说“不存在”时，你可以直接拦截请求。

Redis的布隆过滤器是一个用空间换时间、允许一定容错率的强大工具，它的使用步骤很简单，就是创建、添加、查询三步，真正的技巧在于根据你的业务需求，合理地设置容量和误判率参数，并理解其“可能存在”的特性来设计代码逻辑，当你遇到海量数据判重或者需要防止无效查询的场景时，它绝对是一个值得优先考虑的解决方案。