上亿级别数据,怎么判断是否存在。数据集合已经存在了,判断某个元素是否存在。
为了解决这个问题,布隆过滤器诞生了。它是一个很长的二机制数组(bitmap)和一些列的随机hash算法映射函数,主要判断一个集合是否在元素中存在。统计结果不算准确。
特点:
高效的插入和查询,占用空间小,返回结果是不确定的一个元素如果判断结果为存在的时候元素不一定存在(hash冲突),但是判断其不存在则一定不存在可以添加元素,但是不能删除元素,因为删除元素会导致错误率增加误判只会发生在没有添加过的元素,添加过的元素一定不会发生误判1、使用场景
解决缓存穿透:key存放到布隆过滤器中,判断key是否存在,不存在直接返回黑名单校验……2、原理
hash冲突:就是不同值通过相同的hash算法计算出相同的hashcode。所以没办法规避hash冲突。
为了减少hash冲突,布隆过滤器使用了多个hash算法。
添加key:
使用多个hash函数对key进行hash运算得到一个整数索引值,对位数组长度进行取模运算得倒一个位置,每个hash算房都会得到一个不同的位置,将这几个位置都置为1就完成add操作。
查询key:
只要其中有一位是0就表示这个key不存在,但是如果都是1,则不一定存在,因为有可能是其它key计算的。
因为没办法确定,这个索引位上的1是否是该key设置的,所以删除会导致误判率。实际元素不能超过布隆过滤器初始化数量,如果超过需要重建
3、优缺点优点:
快速判断元素是否存在,所占空间小
缺点:
存在一定的误判率无法删除元素4、布谷鸟过滤器
主要解决了布隆过滤器无法删除元素的问题。可以理解为布隆过滤器的下一代。
二、缓存预热+缓存雪崩+缓存击穿+缓存穿透 1、缓存雪崩:鬼子进村(大批量key失效、redis挂掉)解决办法:
redis高可用本地缓存+限流&降级开启Redis持久化,可以快速恢复集群注意key的过期时间设置,避免大批量key同时失效(出现概率不大)2、缓存击穿:鬼子炸碉堡(热点KEY失效)
解决办法:
互斥更新,互斥独占锁防止击穿(DCL)热点KEY不设置过期时间双缓存,村两份,在特别高并发的情况下可以,用空间换DB安全,两份缓存差异失效时间3、缓存穿透:特务进城(查询某个为空的数据,每次都访问DB,DB缓存都没有)
解决办法:
使用布隆过滤器,保证查询之前判断KEY是否存在
Guava 谷歌提供的,单机版Redisson RBloomFilter,基于redis的过滤器(为什么不封装成AOP)redis4之后,redis提供了补丁插件RedisBloom空默认值的缓存,但是无法处理恶意攻击,持续的访问不存在的KEY 三、Redis分布式锁
由于单JVM的锁(synchronized和lock)无法适应分布式环境,所以就诞生了分布式锁,分布式锁其实就是借助中间件对资源进行加锁,常用的方式有:
zookeeper 分布式锁redis 分布式锁mysql 分布式锁:但是由于mysql的并发的问题,很少用到这个
分布式锁应该具备的特性:
独占性:同一时间有且只有一个操作者对资源进行操作高可用:能够承受着高并发,并且中间件的可用性必须高防死锁:在操作者无法释放锁的时候,有补偿机制不乱抢:一把锁的使用和解锁必须是用一个操作者,需要使用lua脚本,保证原子性重入性:同一个操作者可以再次获得这个锁锁的续命:使用redisson redis集群异步复制锁丢失:使用redisson
redis实现分布式锁,就是sexnx和expire 两个命令。
官方见识使用redisson来操作分布式锁,并且已经处理好无法释放的补偿机制、缓存续命问题,看门狗线程。
CAP原则:
一致行(C):在分布式系统中,同一时刻个节点数据是否一致可用性(A):保证每个请求不论成功或者失败都有响应分区容忍性(P):系统中任意数据丢失或失败不会影响系统继续运行
redis单机是CP、zookeeper集群是CP、redis集群是AP
1、redisson分布式锁的原理redis需要注意的要点:
不能出现死锁,并且需要补偿机制
增加超时时间增加子线程处理无法删除的key不能出现误删
删除之前一定要确定是否是自己的锁缓存续命
增加子线程,定期检查线程是否还持有锁,如果有则延长过期时间,Redisson增加了“看门狗”redis主从复制丢失
多master节点,这样保证每个master都拥有锁的key,N(部署节点)=2X(宕机节点)+1,redisson提供了,同时想多个主机注册锁的方式