HashMap是我们最常用的集合类容器了,这篇文章阅读HashMap的源码做下总结,来深入理解HashMap。
HashMap
下图是HashMap类图,其中蓝色线条意味着继承,绿色线条意味着接口实现。
HashMap描述
官方文档关于HashMap的介绍比较多,这里就不在贴出来了,主要有一下几点:
- HashMap基于哈希表的 Map 接口的实现。此实现提供所有可选的映射操作,并允许使用 null 值和 null 键。(除了不同步和允许使用 null 之外,HashMap 类与 Hashtable 大致相同。)此类不保证映射的顺序,特别是它不保证该顺序恒久不变。
- HashMap该实现为基本操作(get和put)提供了恒定的性能,假设散列函数在桶之间正确分散元素。 迭代集合视图需要的时间与HashMap实例的“容量”(桶的数量)加上其大小(键值映射的数量)成正比。因此,如果迭代性能很重要,不要将初始容量设置得太高(或者负载因子太低)是非常重要的。
- HashMap的一个实例有两个影响其性能的参数:初始容量和负载因子。容量是哈希表中的桶数(哈希桶数组的长度),初始容量只是创建哈希表时的容量。负载因子是一个度量,在它的容量自动增加之前,哈希表被允许达到的程度。当哈希表中的条目数(指的是键值对数)超过负载因子和当前容量的乘积时也就是阈值threshold,哈希表被重新散列(也就是说,内部数据结构被重新构建),这样哈希表就有大约两倍的桶数。具体内容后面resize()会提到。
- HashMap通常,默认加载因子(0.75)在时间和空间成本之间提供了良好的折衷。较高的值会减少空间开销,但会增加查找成本(反映在大部分HashMap类的操作中,包括get和put)。在设置初始容量时,应考虑映射中的条目数量及其负载因子,以尽量减少重新运行操作(resize)次数。如果初始容量大于最大条目数除以加载因子,则不会发生重新加载操作。
- HashMap如果许多映射要存储在HashMap实例中,使用足够大的容量创建映射将允许映射存储的效率高于根据需要执行自动重新散列以增长表。请注意,使用具有相同 hashCode()的许多key会减慢任何哈希表的性能。为了改善影响,当键是Comparable时,这个类可以使用键之间的比较顺序来帮助打破关系。
- HashMap请注意,此实现不同步。如果多个线程同时访问哈希映射,并且至少有一个线程在结构上修改了映射,则它必须在外部同步。(结构修改是添加或删除一个或多个映射的任何操作;仅更改与实例已包含的键相关的值不是结构修改。)这通常是通过在自然封装map的某个对象上进行同步来完成的。如果不存在这样的对象,则应该使用Collections.synchronizedMap方法包装该映射。这最好在创建时完成,以防止意外的非同步访问,map:Map m = Collections.synchronizedMap(new HashMap(…));
- HashMap所有这个类的“集合视图方法”返回的迭代器都是快速失败的:如果在迭代器创建后的任何时候,结构上都会修改映射,除了通过迭代器自己的remove方法之外,迭代器将抛出 ConcurrentModificationException。因此,面对并发修改,迭代器快速而干净地失败,而不是在将来未定的时间冒着任意的,非确定性的行为冒险。
- HashMap请注意,迭代器的快速失败行为不能得到保证,因为一般来说,不可能在存在非同步并发修改的情况下做出任何硬性保证。失败快速迭代器尽最大努力抛出ConcurrentModificationException。因此,编写一个依赖于此异常的程序来保证正确性是错误的:迭代器的快速失败行为应该仅用于检测错误。 所以这里不应该用try catch 来尝试捕获异常.
HashMap特点
- HashMap底层是一个哈希桶数组,即链表数组,也是需要动态扩容(JDK1.8中进行了优化,当链表过长时(超过8),将链表转换为红黑树)
- HashMap不允许重复的键,允许重复的值
- HashMap允许键为null(只允许一个),允许值为null,且键为null的键值对被放在第一位(索引0位置)
- HashMap不是同步的,而HashTable是同步的
- HashMap JDK 1.8中 resize后保证了原链表中的顺序
下图就是hashmap的存储结构示意图,图片来自网络,侵删。
HashMap定义
public class HashMap<K,V> extends AbstractMap<K,V> implements Map<K,V>, Cloneable, Serializable{}
HashMap 是一个散列表,它存储的内容是键值对(key-value)映射。
HashMap继承于AbstractMap,实现了Map、Cloneable、java.io.Serializable接口。
HashMap 的实现不是同步的,这意味着它不是线程安全的。它的key、value都可以为null。此外,HashMap中的映射不是有序的。
HashMap属性
1 | //默认初始容量为16,必须为2的n次幂 |
上面代码中都已详细介绍了每个属性的含义。需要注意的是jdk8 HashMap 中有三个关于红黑树的关键参数:
- TREEIFY_THRESHOLD
- UNTREEIFY_THRESHOLD
- MIN_TREEIFY_CAPACITY
jdk7与jdk8数据结构和参数方面的区别:
HashMap构造方法
public HashMap() // 默认初始容量(16)和默认加载因子(0.75)的HashMap
public HashMap(int initialCapacity) // 构造一个指定初始容量和默认加载因子(0.75)的HashMap
public HashMap(int initialCapacity, float loadFactor) // 构造一个指定初始容量和加载因子的HashMap
public HashMap(Map m) // 构造一个映射关系与指定Map相同的HashMap
HashMap常用方法
get查找
1 | public V get(Object key) { |
get方法和containsKey都是通过getNode实现。
(1)如何通过key的hash值找到key在数组中的位置?
注意代码line9,first = tab[(n - 1) & hash],前面我们知道HashMap的容量是2的指数倍的,所以n-1可以保证低位全部都是1,例如n=16,n-1=1(00001111)。而(n - 1) & hash可以将hash值得高位置0,相当于hash%n,但计算速度比后者要快。
(2)找到该位置的对应节点
first表示该位置的第一个节点,当找到该位置时,总是要先检查一下first节点是不是查找的元素(line10-12)。若不是则往后遍历链表。
(3)hash(key)实现的原理1
2
3
4static final int hash(Object key) {
int h;
return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}
若非空,则高16位不变,低16位变成高16位和低16位的异或。为什么要这么做?前面我们知道定位是通过(length - 1) & hash,当length不够大时(也就是hashMap容量不够大),一直是hash值的低位起作用,这样容易造成碰撞(不同的hash值定位的结果相同),所以要提高高位的影响。然后就有了该操作。
注意key为null的情况,hashMap是允许key为null的,key为null的entry(键值对)存储在存储数组的0号位。
也可以查找value是否在集合中1
2
3
4
5
6
7
8
9
10
11
12
13public boolean containsValue(Object value) {
Node<K,V>[] tab; V v;
if ((tab = table) != null && size > 0) {
for (int i = 0; i < tab.length; ++i) {
for (Node<K,V> e = tab[i]; e != null; e = e.next) {
if ((v = e.value) == value ||
(value != null && value.equals(v)))
return true;
}
}
}
return false;
}
这里总结两个源码实现的小技巧:
(1)在遍历数组前先检查数组是否为空。((tab = table) != null && size > 0)
(2)判断对象是否相等的方式。((v = e.value) == value || (value != null && value.equals(v)))
put方法
1 | public V put(K key, V value) { |
下图是HashMap添加操作的流程图(图片来自:http://tech.meituan.com/java-hashmap.html)
jdk7与jdk8关于put操作的区别
resize扩容方法
1 | final Node<K,V>[] resize() { |
下面重点分析line40-66,这里的任务是处理oldTab[j]位置的值不是单个元素,而是由多个元素组成链表的情况。
原理是通过头节点Head定位第一个元素,通过尾节点Tail的不断后移组装链表。但是为什么这里要使用两组头尾节点呢?(loHead+loTail、hiHead+hiTail)
这里是定位用的。举个例子原集合容量为16(0001 0000),(e.hash & oldCap) == 0表示hash值的第5位(从右往左)为0,这样扩容后定位为e.hash & (newCap-1)= e.hash &31(0001 1111),计算后第5位也为0,与旧集合的位置一样。所以line62直接将链表存在和同样的位置上。否则hash值的第5位为1,定位计算后第5位也为0,与原来相比大了2(5-1)=16,正好是大了旧集合的容量,所以line66定位用j+oldCap。可以把容量为32的新集合简单理解为高16位和低16位,结合取模计算就很好理解了。
jdk8扩容时数据存储位置重新计算的方式
Thanks
本篇文章只是对HashMap常用的一些方法的源码解析,至于红黑树和链表的相互转换,红黑树下的平衡、删除等操作后面打算专一写一篇关于红黑树的操作,这里就不再展开。感谢一下博客:
https://juejin.im/post/5aa5d8d26fb9a028d2079264
https://www.cnblogs.com/ouym/p/8952328.html