一、概述
ConcurrentHashMap (以下简称C13Map) 是并发编程出场率最高的数据结构之一,大量的并发CASE背后都有C13Map的支持,同时也是JUC包中代码量最大的组件(6000多行),自JDK8开始Oracle对其进行了大量优化工作。
本文从 HashMap 的基础知识开始,尝试逐一分析C13Map中各个组件的实现和安全性保证。
二、HashMap基础知识
分析C13MAP前,需要了解以下的HashMap知识或者约定:
三、C13Map的字段定义
C13Map的字段定义
- //最大容量
- private static final int MAXIMUM_CAPACITY = 1 << 30;
- //默认初始容量
- private static final int DEFAULT_CAPACITY = 16;
- //数组的最大容量,防止抛出OOM
- static final int MAX_ARRAY_SIZE = Integer.MAX_VALUE - 8;
- //最大并行度,仅用于兼容JDK1.7以前版本
- private static final int DEFAULT_CONCURRENCY_LEVEL = 16;
- //扩容因子
- private static final float LOAD_FACTOR = 0.75f;
- //链表转红黑树的阈值
- static final int TREEIFY_THRESHOLD = 8;
- //红黑树退化阈值
- static final int UNTREEIFY_THRESHOLD = 6;
- //链表转红黑树的最小总量
- static final int MIN_TREEIFY_CAPACITY = 64;
- //扩容搬运时批量搬运的最小槽位数
- private static final int MIN_TRANSFER_STRIDE = 16;
- //当前待扩容table的邮戳位,通常是高16位
- private static final int RESIZE_STAMP_BITS = 16;
- //同时搬运的线程数自增的最大值
- private static final int MAX_RESIZERS = (1 << (32 - RESIZE_STAMP_BITS)) - 1;
- //搬运线程数的标识位,通常是低16位
- private static final int RESIZE_STAMP_SHIFT = 32 - RESIZE_STAMP_BITS;
- static final int MOVED = -1; // 说明是forwardingNode
- static final int TREEBIN = -2; // 红黑树
- static final int RESERVED = -3; // 原子计算的占位Node
- static final int HASH_BITS = 0x7fffffff; // 保证hashcode扰动计算结果为正数
- //当前哈希表
- transient volatile Node
[] table; - //下一个哈希表
- private transient volatile Node
[] nextTable; - //计数的基准值
- private transient volatile long baseCount;
- //控制变量,不同场景有不同用途,参考下文
- private transient volatile int sizeCtl;
- //并发搬运过程中CAS获取区段的下限值
- private transient volatile int transferIndex;
- //计数cell初始化或者扩容时基于此字段使用自旋锁
- private transient volatile int cellsBusy;
- //加速多核CPU计数的cell数组
- private transient volatile CounterCell[] counterCells;
四、安全操作Node
- static final
Node tabAt(Node [] tab, int i) { - return (Node
)U.getReferenceAcquire(tab, ((long)i << ASHIFT) + ABASE); - }
- static final
boolean casTabAt(Node [] tab, int i, - Node
c, Node v) { - return U.compareAndSetReference(tab, ((long)i << ASHIFT) + ABASE, c, v);
- }
- static final
void setTabAt(Node [] tab, int i, Node v) { - U.putReferenceRelease(tab, ((long)i << ASHIFT) + ABASE, v);
- }
对Node
需要借助于Unsafe来保证Node
五、读操作get为什么是线程安全的
首先需要明确的是,C13Map的读操作一般是不加锁的(TreeBin的读写锁除外),而读操作与写操作有可能并行;可以保证的是,因为C13Map的写操作都要获取bin头部的syncronized互斥锁,能保证最多只有一个线程在做更新,这其实是一个单线程写、多线程读的并发安全性的问题。
C13Map的get方法
- public V get(Object key) {
- Node
[] tab; Node e, p; int n, eh; K ek; - //执行扰动函数
- int h = spread(key.hashCode());
- if ((tab = table) != null && (n = tab.length) > 0 && (e = tabAt(tab, (n - 1) & h)) != null) {
- if ((eeh = e.hash) == h) {
- if ((eek = e.key) == key || (ek != null && key.equals(ek)))
- return e.val;
- }
- else if (eh < 0)
- return (p = e.find(h, key)) != null ? p.val : null;
- while ((ee = e.next) != null) {
- if (e.hash == h &&
- ((eek = e.key) == key || (ek != null && key.equals(ek))))
- return e.val;
- }
- }
- return null;
- }
1、如果当前哈希表table为null
哈希表未初始化或者正在初始化未完成,直接返回null;虽然line5和line18之间其它线程可能经历了千山万水,至少在判断tab==null的时间点key肯定是不存在的,返回null符合某一时刻的客观事实。
2、如果读取的bin头节点为null
说明该槽位尚未有节点,直接返回null。
3、如果读取的bin是一个链表
说明头节点是个普通Node。
(1)如果正在发生链表向红黑树的treeify工作,因为treeify本身并不破坏旧的链表bin的结构,只是在全部treeify完成后将头节点一次性替换为新创建的TreeBin,可以放心读取。
(2)如果正在发生resize且当前bin正在被transfer,因为transfer本身并不破坏旧的链表bin的结构,只是在全部transfer完成后将头节点一次性替换为ForwardingNode,可以放心读取。
(3)如果其它线程正在操作链表,在当前线程遍历链表的任意一个时间点,都有可能同时在发生add/replace/remove操作。
结论:对于链表这种线性数据结构,单线程写且插入操作保证是后入式的前提下,并发读取是安全的;不会存在误读、链表断开导致的漏读、读到环状链表等问题。
4、如果读取的bin是一个红黑树
说明头节点是个TreeBin节点。
(1)如果正在发生红黑树向链表的untreeify操作,因为untreeify本身并不破坏旧的红黑树结构,只是在全部untreeify完成后将头节点一次性替换为新创建的普通Node,可以放心读取。
(2)如果正在发生resize且当前bin正在被transfer,因为transfer本身并不破坏旧的红黑树结构,只是在全部transfer完成后将头节点一次性替换为ForwardingNode,可以放心读取。
(3)如果其他线程在操作红黑树,在当前线程遍历红黑树的任意一个时间点,都可能有单个的其它线程发生add/replace/remove/红黑树的翻转等操作,参考下面的红黑树的读写锁实现。
TreeBin中的读写锁实现
- TreeNode
root; - volatile TreeNode
first; - volatile Thread waiter;
- volatile int lockState;
- // values for lockState
- static final int WRITER = 1; // set while holding write lock
- static final int WAITER = 2; // set when waiting for write lock
- static final int READER = 4; // increment value for setting read lock
- private final void lockRoot() {
- //如果一次性获取写锁失败,进入contendedLock循环体,循环获取写锁或者休眠等待
- if (!U.compareAndSetInt(this, LOCKSTATE, 0, WRITER))
- contendedLock(); // offload to separate method
- }
- private final void unlockRoot() {
- lockState = 0;
- }
- //对红黑树加互斥锁,也就是写锁
- private final void contendedLock() {
- boolean waiting = false;
- for (int s;;) {
- //如果lockState除了第二位外其它位上都为0,表示红黑树当前既没有上读锁,又没有上写锁,仅有可能存在waiter,可以尝试直接获取写锁
- if (((s = lockState) & ~WAITER) == 0) {
- if (U.compareAndSetInt(this, LOCKSTATE, s, WRITER)) {
- if (waiting)
- waiter = null;
- return;
- }
- }
- //如果lockState第二位是0,表示当前没有线程在等待写锁
- else if ((s & WAITER) == 0) {
- //将lockState的第二位设置为1,相当于打上了waiter的标记,表示有线程在等待写锁
- if (U.compareAndSetInt(this, LOCKSTATE, s, s | WAITER)) {
- waiting = true;
- waiter = Thread.currentThread();
- }
- }
- //休眠当前线程
- else if (waiting)
- LockSupport.park(this);
- }
- }
- //查找红黑树中的某个节点
- final Node
find(int h, Object k) { - if (k != null) {
- for (Node
e = first; e != null; ) { - int s; K ek;
- //如果当前有waiter或者有写锁,走线性检索,因为红黑树虽然替代了链表,但其内部依然保留了链表的结构,虽然链表的查询性能一般,但根据先前的分析其读取的安全性有保证。
- //发现有写锁改走线性检索,是为了避免等待写锁释放花去太久时间; 而发现有waiter改走线性检索,是为了避免读锁叠加的太多,导致写锁线程需要等待太长的时间; 本质上都是为了减少读写碰撞
- //线性遍历的过程中,每遍历到下一个节点都做一次判断,一旦发现锁竞争的可能性减少就改走tree检索以提高性能
- if (((s = lockState) & (WAITER|WRITER)) != 0) {
- if (e.hash == h &&
- ((eek = e.key) == k || (ek != null && k.equals(ek))))
- return e;
- ee = e.next;
- }
- //对红黑树加共享锁,也就是读锁,CAS一次性增加4,也就是增加的只是3~32位
- else if (U.compareAndSetInt(this, LOCKSTATE, s,
- s + READER)) {
- TreeNode
r, p; - try {
- p = ((r = root) == null ? null :
- r.findTreeNode(h, k, null));
- } finally {
- Thread w;
- //释放读锁,如果释放完毕且有waiter,则将其唤醒
- if (U.getAndAddInt(this, LOCKSTATE, -READER) ==
- (READER|WAITER) && (w = waiter) != null)
- LockSupport.unpark(w);
- }
- return p;
- }
- }
- }
- return null;
- }
- //更新红黑树中的某个节点
- final TreeNode
putTreeVal(int h, K k, V v) { - Class> kc = null;
- boolean searched = false;
- for (TreeNode
p = root;;) { - int dir, ph; K pk;
- //...省略处理红黑树数据结构的代码若干
- else {
- //写操作前加互斥锁
- lockRoot();
- try {
- root = balanceInsertion(root, x);
- } finally {
- //释放互斥锁
- unlockRoot();
- }
- }
- break;
- }
- }
- assert checkInvariants(root);
- return null;
- }
- }
红黑树内置了一套读写锁的逻辑,其内部定义了32位的int型变量lockState,第1位是写锁标志位,第2位是写锁等待标志位,从3~32位则是共享锁标志位。
读写操作是互斥的,允许多个线程同时读取,但不允许读写操作并行,同一时刻只允许一个线程进行写操作;这样任意时间点读取的都是一个合法的红黑树,整体上是安全的。
有的同学会产生疑惑,写锁释放时为何没有将waiter唤醒的操作呢?是否有可能A线程进入了等待区,B线程获取了写锁,释放写锁时仅做了lockState=0的操作。
那么A线程是否就没有机会被唤醒了,只有等待下一个读锁释放时的唤醒了呢 ?
显然这种情况违背常理,C13Map不会出现这样的疏漏,再进一步观察,红黑树的变更操作的外围,也就是在putValue/replaceNode那一层,都是对BIN的头节点加了synchornized互斥锁的,同一时刻只能有一个写线程进入TreeBin的方法范围内,当写线程发现当前waiter不为空,其实此waiter只能是当前线程自己,可以放心的获取写锁,不用担心无法被唤醒的问题。
TreeBin在find读操作检索时,在linearSearch(线性检索)和treeSearch(树检索)间做了折衷,前者性能差但并发安全,后者性能佳但要做并发控制,可能导致锁竞争;设计者使用线性检索来尽量避免读写碰撞导致的锁竞争,但评估到race condition已消失时,又立即趋向于改用树检索来提高性能,在安全和性能之间做到了极佳的平衡。具体的折衷策略请参考find方法及注释。
由于有线性检索这样一个抄底方案,以及入口处bin头节点的synchornized机制,保证了进入到TreeBin整体代码块的写线程只有一个;TreeBin中读写锁的整体设计与ReentrantReadWriteLock相比还是简单了不少,比如并未定义用于存放待唤醒线程的threadQueue,以及读线程仅会自旋而不会阻塞等等, 可以看做是特定条件下ReadWriteLock的简化版本。
5、如果读取的bin是一个ForwardingNode
说明当前bin已迁移,调用其find方法到nextTable读取数据。
forwardingNode的find方法
- static final class ForwardingNode
extends Node { - final Node
[] nextTable; - ForwardingNode(Node
[] tab) { - super(MOVED, null, null);
- this.nextTable = tab;
- }
- //递归检索哈希表链
- Node
find(int h, Object k) { - // loop to avoid arbitrarily deep recursion on forwarding nodes
- outer: for (Node
[] tab = nextTable;;) { - Node
e; int n; - if (k == null || tab == null || (n = tab.length) == 0 ||
- (e = tabAt(tab, (n - 1) & h)) == null)
- return null;
- for (;;) {
- int eh; K ek;
- if ((eeh = e.hash) == h &&
- ((eek = e.key) == k || (ek != null && k.equals(ek))))
- return e;
- if (eh < 0) {
- if (e instanceof ForwardingNode) {
- tab = ((ForwardingNode
)e).nextTable; - continue outer;
- }
- else
- return e.find(h, k);
- }
- if ((ee = e.next) == null)
- return null;
- }
- }
- }
- }
ForwardingNode中保存了nextTable的引用,会转向下一个哈希表进行检索,但并不能保证nextTable就一定是currentTable,因为在高并发插入的情况下,极短时间内就可以导致哈希表的多次扩容,内存中极有可能驻留一条哈希表链,彼此以bin的头节点上的ForwardingNode相连,线程刚读取时拿到的是table1,遍历时却有可能经历了哈希表的链条。
eh<0有三种情况:
6、如果读取的bin是一个ReserveNode
ReserveNode用于compute/computeIfAbsent原子计算的方法,在BIN的头节点为null且计算尚未完成时,先在bin的头节点打上一个ReserveNode的占位标记。
读操作发现ReserveNode直接返回null,写操作会因为争夺ReserveNode的互斥锁而进入阻塞态,在compute完成后被唤醒后循环重试。
六、写操作putValue/replaceNode为什么是线程安全的
典型的编程范式如下:
C13Map的putValue方法
- Node
[] tab = table; //将堆中的table变量赋给线程堆栈中的局部变量 - Node f = tabAt(tab, i );
- if(f==null){
- //当前槽位没有头节点,直接CAS写入
- if (casTabAt(tab, i, null, new Node
(hash, key, value))) - break;
- }else if(f.hash == MOVED){
- //加入协助搬运行列
- helpTransfer(tab,f);
- }
- //不是forwardingNode
- else if(f.hash != MOVED){
- //先锁住I槽位上的头节点
- synchronized (f) {
- //再doubleCheck看此槽位上的头节点是否还是f
- if (tabAt(tab, i) == f) {
- ...各种写操作
- }
- }
- }
1、当前槽位如果头节点为null时,直接CAS写入
有人也许会质疑,如果写入时resize操作已完成,发生了table向nextTable的转变,是否会存在写入的是旧表的bin导致数据丢失的可能 ?
这种可能性是不存在的,因为一个table在resize完成后所有的BIN都会被打上ForwardingNode的标记,可以形象的理解为所有槽位上都插满了红旗,而此处在CAS时的compare的变量null,能够保证至少在CAS原子操作发生的时间点table并未发生变更。
2、当前槽位如果头节点不为null
这里采用了一个小技巧:先锁住I槽位上的头节点,进入同步代码块后,再doubleCheck看此槽位上的头节点是否有变化。
进入同步块后还需要doubleCheck的原因:虽然一开始获取到的头节点f并非ForwardingNode,但在获取到f的同步锁之前,可能有其它线程提前获取了f的同步锁并完成了transfer工作,并将I槽位上的头节点标记为ForwardingNode,此时的f就成了一个过时的bin的头节点。
然而因为标记操作与transfer作为一个整体在同步的代码块中执行,如果doubleCheck的结果是此槽位上的头节点还是f,则表明至少在当前时间点该槽位还没有被transfer到新表(假如当前有transfer in progress的话),可以放心的对该bin进行put/remove/replace等写操作。
只要未发生transfer或者treeify操作,链表的新增操作都是采取后入式,头节点一旦确定不会轻易改变,这种后入式的更新方式保证了锁定头节点就等于锁住了整个bin。
如果不作doubleCheck判断,则有可能当前槽位已被transfer,写入的还是旧表的BIN,从而导致写入数据的丢失;也有可能在获取到f的同步锁之前,其它线程对该BIN做了treeify操作,并将头节点替换成了TreeBin, 导致写入的是旧的链表,而非新的红黑树;
3、doubleCheck是否有ABA问题
也许有人会质疑,如果有其它线程提前对当前bin进行了的remove/put的操作,引入了新的头节点,并且恰好发生了JVM的内存释放和重新分配,导致新的Node的引用地址恰好跟旧的相同,也就是存在所谓的ABA问题。
这个可以通过反证法来推翻,在带有GC机制的语言环境下通常不会发生ABA问题,因为当前线程包含了对头节点f的引用,当前线程并未消亡,不可能存在f节点的内存被GC回收的可能性。
还有人会质疑,如果在写入过程中主哈希表发生了变化,是否可能写入的是旧表的bin导致数据丢失,这个也可以通过反证法来推翻,因为table向nextTable的转化(也就是将resize后的新哈希表正式commit)只有在所有的槽位都已经transfer成功后才会进行,只要有一个bin未transfer成功,则说明当前的table未发生变化,在当前的时间点可以放心的向table的bin内写入数据。
4、如何操作才安全
可以总结出规律,在对table的槽位成功进行了CAS操作且compare值为null,或者对槽位的非forwardingNode的头节点加锁后,doubleCheck头节点未发生变化,对bin的写操作都是安全的。
七、原子计算相关方法
原子计算主要包括:computeIfAbsent、computeIfPresent、compute、merge四个方法。
1、几个方法的比较
主要区别如下:
(1)computeIfAbsent只会在判断到key不存在时才会插入,判空与插入是一个原子操作,提供的FunctionalInterface是一个二元的Function, 接受key参数,返回value结果;如果计算结果为null则不做插入。
(2)computeIfPresent只会在判读单到Key非空时才会做更新,判断非空与插入是一个原子操作,提供的FunctionalInterface是一个三元的BiFunction,接受key,value两个参数,返回新的value结果;如果新的value为null则删除key对应节点。
(3)compute则不加key是否存在的限制,提供的FunctionalInterface是一个三元的BiFunction,接受key,value两个参数,返回新的value结果;如果旧的value不存在则以null替代进行计算;如果新的value为null则保证key对应节点不会存在。
(4)merge不加key是否存在的限制,提供的FunctionalInterface是一个三元的BiFunction,接受oldValue, newVALUE两个参数,返回merge后的value;如果旧的value不存在,直接以newVALUE作为最终结果,存在则返回merge后的结果;如果最终结果为null,则保证key对应节点不会存在。
2、何时会使用ReserveNode占位
如果目标bin的头节点为null,需要写入的话有两种手段:一种是生成好新的节点r后使用casTabAt(tab, i, null, r)原子操作,因为compare的值为null可以保证并发的安全;
另外一种方式是创建一个占位的ReserveNode,锁住该节点并将其CAS设置到bin的头节点,再进行进一步的原子计算操作;这两种办法都有可能在CAS的时候失败,需要自旋反复尝试。
(1)为什么只有computeIfAbsent/compute方法使用占位符的方式
computeIfPresent只有在BIN结构非空的情况下才会展开原子计算,自然不存在需要ReserveNode占位的情况;锁住已有的头节点即可。
computeIfAbsent/compute方法在BIN结构为空时,需要展开Function或者BiFunction的运算,这个操作是外部引入的需要耗时多久无法准确评估;这种情况下如果采用先计算,再casTabAt(tab, i, null, r)的方式,如果有其它线程提前更新了这个BIN,那么就需要重新锁定新加入的头节点,并重复一次原子计算(C13Map无法帮你缓存上次计算的结果,因为计算的入参有可能会变化),这个开销是比较大的。
而使用ReserveNode占位的方式无需等到原子计算出结果,可以第一时间先抢占BIN的所有权,使其他并发的写线程阻塞。
(2)merge方法为何不需要占位
原因是如果BIN结构为空时,根据merge的处理策略,老的value为空则直接使用新的value替代,这样就省去了BiFunction中新老value进行merge的计算,这个消耗几乎是没有的;因此可以使用casTabAt(tab, i, null, r)的方式直接修改,避免了使用ReserveNode占位,锁定该占位ReserveNode后再进行CAS修改的两次CAS无谓的开销。
C13Map的compute方法
- public V compute(K key,
- BiFunction super K, ? super V, ? extends V> remappingFunction) {
- if (key == null || remappingFunction == null)
- throw new nullPointerException();
- int h = spread(key.hashCode());
- V val = null;
- int delta = 0;
- int binCount = 0;
- for (Node
[] tab = table; ; ) { - Node
f; - int n, i, fh;
- if (tab == null || (n = tab.length) == 0)
- tab = initTable();
- else if ((f = tabAt(tab, i = (n - 1) & h)) == null) {
- //创建占位Node
- Node
r = new ReservationNode (); - //先锁定该占位Node
- synchronized (r) {
- //将其设置到BIN的头节点
- if (casTabAt(tab, i, null, r)) {
- binCount = 1;
- Node
node = null; - try {
- //开始原子计算
- if ((val = remappingFunction.apply(key, null)) != null) {
- delta = 1;
- node = new Node
(h, key, val, null); - }
- } finally {
- //设置计算后的最终节点
- setTabAt(tab, i, node);
- }
- }
- }
- if (binCount != 0)
- break;
- } else if ((ffh = f.hash) == MOVED)
本文标题:JavaConcurrentHashMap高并发安全实现原理解析
URL分享:http://www.mswzjz.cn/qtweb/news21/468821.html攀枝花网站建设、攀枝花网站运维推广公司-贝锐智能,是专注品牌与效果的网络营销公司;服务项目有等
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 贝锐智能