Java HashMap如何使用相同的散列代码处理不同的对象?

根据我的理解,我认为:

  1. 两个对象具有相同的hashcode是完全合法的。
  2. 如果两个对象相等(使用equals()方法),则它们具有相同的hashcode。
  3. 如果两个对象不相等,那么它们就不能有相同的hashcode

我说的对吗?

现在如果我是正确的,我有以下问题: HashMap在内部使用对象的hashcode。因此,如果两个对象可以具有相同的hashcode,那么HashMap如何跟踪它使用的键呢?< / p >

有人能解释一下HashMap是如何在内部使用对象的hashcode的吗?

247819 次浏览

hashcode决定要检查hashmap的哪个bucket。如果存储桶中有多个对象,则执行线性搜索以查找存储桶中的哪个项目等于所需的项目(使用equals()方法)。

换句话说,如果你有一个完美的哈希码,那么哈希映射访问是恒定的,你将永远不需要迭代一个桶(技术上你也必须有MAX_INT桶,Java实现可以在同一个桶中共享一些哈希码,以减少空间需求)。如果您有最差的hashcode(总是返回相同的数字),那么您的hashmap访问就变成线性的,因为您必须搜索映射中的每一项(它们都在同一个bucket中)以获得您想要的内容。

大多数情况下,编写良好的hashcode并不完美,但它足够独特,可以为您提供或多或少的恒定访问。

你的第三个断言是不正确的。

两个不相等的对象拥有相同的哈希码是完全合法的。它被HashMap用作“首通过滤器”,以便映射可以快速找到具有指定键的可能的项。然后测试具有相同哈希码的键是否与指定的键相等。

你不希望要求两个不相等的对象不能有相同的哈希码,否则会限制你只有232个可能的对象。(这也意味着不同类型甚至不能使用对象的字段来生成哈希码,因为其他类可以生成相同的哈希码。)

你在第三点上错了。两个条目可以具有相同的哈希码,但不相等。看一下HashMap。从OpenJdk中获取的实现。你可以看到它检查哈希值是否相等键值是否相等。如果第三点成立,那么检查键值是否相等就没有必要了。哈希码在键之前进行比较,因为前者是更有效的比较。

如果你有兴趣了解更多这方面的知识,可以看看维基百科上关于开放寻址冲突解决的文章,我相信这是OpenJdk实现使用的机制。这种机制与另一个答案中提到的“桶”方法略有不同。

hashmap是这样工作的(这有点简化,但它说明了基本机制):

它有许多“桶”,用来存储键值对。每个桶都有一个唯一的编号——用来标识该桶。当您将一个键值对放入映射时,hashmap将查看键的哈希码,并将该对存储在标识符为键的哈希码的bucket中。例如:密钥的哈希码为235 ->,存储在桶号为235的桶中。(注意,一个桶可以存储多个键-值对)。

当您在hashmap中查找一个值时,通过给它一个键,它将首先查看您给出的键的哈希代码。然后,hashmap将查看相应的存储桶,然后它将通过与equals()比较,将您给出的键与存储桶中所有对的键进行比较。

现在,您可以看到这对于在map中查找键-值对是多么高效:通过键的哈希代码,哈希映射立即知道要在哪个bucket中查找,因此它只需要测试该bucket中的内容。

看看上面的机制,你也可以看到对键的hashCode()equals()方法有什么必要的要求:

  • 如果两个键相同(比较它们时equals()返回true),它们的hashCode()方法必须返回相同的数字。如果键违反了这一点,那么相等的键可能存储在不同的存储桶中,hashmap将无法找到键-值对(因为它将在同一个存储桶中查找)。

  • 如果两个键不同,那么它们的哈希码是否相同并不重要。如果它们的哈希码相同,它们将被存储在同一个存储桶中,在这种情况下,哈希映射将使用equals()来区分它们。

你可以在http://javarevisited.blogspot.com/2011/02/how-hashmap-works-in-java.html找到很好的信息

总结:

HashMap的工作原理是哈希

put(关键字,值): HashMap将键和值对象都存储为Map.Entry。Hashmap应用hashcode(key)来获取桶。如果有碰撞,HashMap使用LinkedList存储对象。

得到(重要): HashMap使用Key Object的hashcode来查找桶的位置,然后调用keys.equals()方法来识别LinkedList中的正确节点,并在Java HashMap中为该键返回相关的值对象。

HashMap结构图

HashMapEntry对象的数组。

HashMap视为一个对象数组。

看看这个Object是什么:

static class Entry<K,V> implements Map.Entry<K,V> {
final K key;
V value;
Entry<K,V> next;
final int hash;
…
}

每个Entry对象表示一个键值对。如果一个桶有多个Entry,则字段next指向另一个Entry对象。

有时候,两个不同对象的哈希码是相同的。在这种情况下,两个对象将保存在一个bucket中,并将显示为链表。 入口点是最近添加的对象。该对象引用另一个具有next字段的对象,以此类推。最后一项指的是null.

.

当你用默认构造函数创建HashMap

HashMap hashMap = new HashMap();

数组的大小为16,默认负载平衡为0.75。

添加新的键-值对

  1. 计算键的hashcode
  2. 计算元素应该放置的位置hash % (arrayLength-1)(桶号)
  3. 如果你试图用一个已经保存在HashMap中的键添加一个值,那么值将被覆盖。
  4. 否则元素被添加到桶中。

如果存储桶已经有至少一个元素,则添加一个新元素并将其放置在存储桶的第一个位置。它的next字段指向旧元素。

删除

  1. 计算给定键的hashcode
  2. 计算桶号hash % (arrayLength-1)
  3. 获取桶中第一个Entry对象的引用,并通过equals方法遍历给定桶中的所有条目。最终我们将找到正确的Entry。 如果没有找到所需的元素,则返回null
import java.util.HashMap;


public class Students  {
String name;
int age;


Students(String name, int age ){
this.name = name;
this.age=age;
}


@Override
public int hashCode() {
System.out.println("__hash__");
final int prime = 31;
int result = 1;
result = prime * result + age;
result = prime * result + ((name == null) ? 0 : name.hashCode());
return result;
}


@Override
public boolean equals(Object obj) {
System.out.println("__eq__");
if (this == obj)
return true;
if (obj == null)
return false;
if (getClass() != obj.getClass())
return false;
Students other = (Students) obj;
if (age != other.age)
return false;
if (name == null) {
if (other.name != null)
return false;
} else if (!name.equals(other.name))
return false;
return true;
}


public static void main(String[] args) {


Students S1 = new Students("taj",22);
Students S2 = new Students("taj",21);


System.out.println(S1.hashCode());
System.out.println(S2.hashCode());


HashMap<Students,String > HM = new HashMap<Students,String > ();
HM.put(S1, "tajinder");
HM.put(S2, "tajinder");
System.out.println(HM.size());
}
}


Output:


__ hash __


116232


__ hash __


116201


__ hash __


__ hash __


2

因此,在这里我们可以看到,如果对象S1和S2都有不同的内容,那么我们可以非常确定,我们覆盖的Hashcode方法将为两个对象生成不同的Hashcode(116232,11601)。因为有不同的哈希码,所以它甚至不需要调用EQUALS方法。因为不同的Hashcode保证对象中不同的内容。

    public static void main(String[] args) {


Students S1 = new Students("taj",21);
Students S2 = new Students("taj",21);


System.out.println(S1.hashCode());
System.out.println(S2.hashCode());


HashMap<Students,String > HM = new HashMap<Students,String > ();
HM.put(S1, "tajinder");
HM.put(S2, "tajinder");
System.out.println(HM.size());
}
}


Now lets change out main method a little bit. Output after this change is


__ hash __


116201


__ hash __


116201


__ hash __


__ hash __


__ eq __


1
We can clearly see that equal method is called. Here is print statement __eq__, since we have same hashcode, then content of objects MAY or MAY not be similar. So program internally  calls Equal method to verify this.




Conclusion
If hashcode is different , equal method will not get called.
if hashcode is same, equal method will get called.


Thanks , hope it helps.

下面是HashMap机制的粗略描述,对于Java 8版本,(它可能与Java 6略有不同)


数据结构

    <李> 哈希表 < br > 哈希值通过key上的hash()计算,并决定对于给定的key使用哈希表的哪个桶 <李> 链表 (单独) < br > 当桶中的元素数量较小时,使用单链表 <李> 红黑树 < br > 当桶中的元素数量较大时,使用红黑树

(内部)

    <李> Map.Entry < br > 在map中表示单个实体,即键/值实体 <李> < p > HashMap.Node < br >

    它可以表示:

    • 哈希桶 因为它有哈希属性
    • 单链表中的一个节点,(因此也是linkedlist的头)
    • 李< / ul > < / > <李> HashMap.TreeNode < br >

    字段(内部)

      <李> Node[] table < br > 桶表(链表的头)。
      如果桶不包含元素,则桶为空,因此只占用引用的空间 <李> Set<Map.Entry> entrySet <李> int size < br > .实体个数 <李> float loadFactor < br > 在调整大小之前,指示允许的哈希表有多满 <李> int threshold < br > 下一个要调整大小的大小 李公式:threshold = capacity * loadFactor < / >

    方法(内部)

      <李> int hash(key) < br > 如何将哈希映射到桶?< br > 使用以下逻辑:

      static int hashToBucket(int tableSize, int hash) {
      return (tableSize - 1) & hash;
      }
      
      李< /引用> < / >

    关于能力

    在哈希表中,容量是指桶数,可以从table.length中获取 Also可以通过thresholdloadFactor计算,因此不需要定义为类字段

    可以通过:capacity()获得有效容量


    操作

    • 按键查找实体 首先通过哈希值找到桶,然后循环链表或搜索排序树
    • 添加带有键的实体 首先根据key的哈希值找到桶 然后试着找出它的值:
      • 如果找到,则替换该值。
      • 否则,在链表的开头添加一个新节点,或插入到排序树中。
      • 李< / ul > < / > <李>调整< br > 当threshold达到时,将哈希表的容量加倍(table.length),然后对所有元素重新哈希以重建表 这可能是一个昂贵的操作。

      性能

        <李>得到,把< br > 时间复杂度为O(1),因为:
        • 桶通过数组索引访问,因此O(1)
        • 每个bucket中的链表长度较小,因此可以视为O(1)
        • 树的大小也是有限的,因为会扩展容量&当元素数增加时重新哈希,因此可以将其视为O(1),而不是O(log N)
        • 李< / ul > < / >

哈希映射的工作原理是哈希

HashMap get(Key k)方法调用Key对象上的hashCode方法,并将返回的hashValue应用于它自己的静态哈希函数,以查找bucket位置(后台数组),其中键和值以称为Entry (Map.Entry)的嵌套类的形式存储。因此,您已经从前面的行中得出结论,key和value都以Entry对象的形式存储在bucket中。所以认为只有价值存储在桶里是不正确的,也不会给面试官留下好印象。

  • 每当我们调用HashMap对象上的get(Key k)方法时。首先,它检查key是否为空。注意,HashMap中只能有一个空键。

如果key为null,则null键总是映射到哈希0,因此索引为0。

如果key不为空,那么它将在key对象上调用hashfunction,参见上述方法中的第4行,即key. hashcode(),因此在key. hashcode()返回hashValue之后,第4行如下所示

            int hash = hash(hashValue)

现在,它将返回的hashValue应用到自己的哈希函数中。

我们可能想知道为什么要再次使用hash(hashvalue)计算哈希值。答案是它可以防御低质量的哈希函数。

现在使用final hashvalue来查找存储Entry对象的bucket位置。条目对象像这样存储在桶中(哈希,键,值,bucketindex)

每个Entry对象表示键值对。如果一个桶有多于1个Entry,则字段next指向其他Entry对象。

有时候,两个不同对象的hashcode可能是相同的。在这种情况下,2个对象将保存在一个桶中,并将显示为LinkedList。入口点是最近添加的对象。该对象引用具有next字段的其他对象,等等。最后一项为空。 当您使用默认构造函数

创建HashMap时

数组的大小为16,默认负载平衡为0.75。

enter image description here

(来源)

我不会详细介绍HashMap是如何工作的,但是会给出一个例子,这样我们就可以通过将HashMap与现实联系起来来记住它是如何工作的。

我们有Key, Value,HashCode和bucket。

在一段时间内,我们将把它们与以下内容联系起来:

  • 一个社会
  • HashCode ->社会地址(总是唯一的)
  • 社会中的房子
  • Key ->房屋地址。

使用Map.get(key):

Stevie想去他的朋友(Josse)的房子,他住在一个VIP社会的别墅里,让它是javalavers社会。 Josse的地址是他的SSN(每个人都不一样)。 有一个索引,我们可以根据社会安全号找到协会的名字。 这个索引可以被认为是一个找出HashCode的算法
  • SSN协会名称
  • 92313(Josse’s) -爪哇
  • 13214—AngularJSLovers
  • 98080—javalover
  • 53808 -生物爱好者

  1. 这个SSN(密钥)首先给我们一个HashCode(来自索引表),它只是社会的名字。
  2. 现在,多个房子可以在同一个社会中,所以HashCode可以是公共的。
  3. 假设,社会对两个房子都是公用的,我们如何识别我们要去哪个房子,是的,通过使用(SSN)密钥,它只是房子的地址

使用Map.put(关键字,值)

这将通过查找HashCode为该值找到一个合适的社会,然后存储该值。

我希望这能有所帮助,而且这是可以修改的。

这将是一个很长的答案,拿着饮料继续阅读…

哈希就是在内存中存储一个键-值对,可以更快地读写。它将键存储在数组中,值存储在LinkedList中。

假设我想存储4个键值对

{
“girl” => “ahhan” ,
“misused” => “Manmohan Singh” ,
“horsemints” => “guess what”,
“no” => “way”
}

为了存储键,我们需要一个4元素的数组。现在我如何将这4个键中的一个映射到4个数组索引(0,1,2,3)呢?

所以java找到单个键的hashCode并将它们映射到特定的数组索引。 哈希码公式是-

1) reverse the string.


2) keep on multiplying ascii of each character with increasing power of 31 . then add the components .


3) So hashCode() of girl would be –(ascii values of  l,r,i,g are 108, 114, 105 and 103) .


e.g. girl =  108 * 31^0  + 114 * 31^1  + 105 * 31^2 + 103 * 31^3  = 3173020

哈希和女孩!!我知道你在想什么。你对狂野二重唱的迷恋可能会让你错过一件重要的事情。

为什么java用31乘以它

因为,31是奇数质数形式为2^5 - 1。奇素数降低了哈希碰撞的概率

现在这个哈希码是如何映射到数组索引的?< / em >

答案是,Hash Code % (Array length -1)。因此,在本例中,“girl”被映射到(3173020 % 3) = 1。它是数组的第二个元素。

值“ahhan”存储在与数组索引1相关的LinkedList中。

HashCollision -如果你试图用上面描述的公式找到“misused”“horsemints”键的hasHCode,你会看到两者都给我们相同的1069518484。Whooaa ! !〇教训

2个相等对象必须具有相同的hashCode,但如果没有保证 hashCode匹配,则对象相等。所以它应该存储 这两个值都对应于1号桶的“误用”和“horsemints” (1069518484% 3) .

现在哈希图看起来是-

Array Index 0 –
Array Index 1 - LinkedIst (“ahhan” , “Manmohan Singh” , “guess what”)
Array Index 2 – LinkedList (“way”)
Array Index 3 –

现在,如果有人试图找到键“horsemints”的值,java很快就会找到它的hashCode,对它进行模块化,并开始在LinkedList中相应的index 1中搜索它的值。因此,这样我们就不需要搜索所有的4个数组索引,从而使数据访问更快。

但是,等一下。有3个值在那个linkedList对应的数组索引1,它如何找出哪一个是值为关键“horsemints”?

实际上我撒谎了,当我说HashMap只是在LinkedList中存储值

它将两个键值对存储为映射条目。实际上Map是这样的。

Array Index 0 –
Array Index 1 - LinkedIst (<”girl” => “ahhan”> , <” misused” => “Manmohan Singh”> , <”horsemints” => “guess what”>)
Array Index 2 – LinkedList (<”no” => “way”>)
Array Index 3 –

现在你可以看到,当遍历对应于ArrayIndex1的linkedList时,它实际上会将linkedList的每个条目的key与horsemints进行比较,当它找到一个时,它会返回它的值。

希望你读得开心:)

常言道,一图胜千言。我说:有些代码胜过1000字。下面是HashMap的源代码。获得方法:

/**
* Implements Map.get and related methods
*
* @param hash hash for key
* @param key the key
* @return the node, or null if none
*/
final Node<K,V> getNode(int hash, Object key) {
Node<K,V>[] tab; Node<K,V> first, e; int n; K k;
if ((tab = table) != null && (n = tab.length) > 0 &&
(first = tab[(n - 1) & hash]) != null) {
if (first.hash == hash && // always check first node
((k = first.key) == key || (key != null && key.equals(k))))
return first;
if ((e = first.next) != null) {
if (first instanceof TreeNode)
return ((TreeNode<K,V>)first).getTreeNode(hash, key);
do {
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
return e;
} while ((e = e.next) != null);
}
}
return null;
}

因此,很明显,哈希是用来寻找“桶”的,并且总是在该桶中检查第一个元素。如果不是,则使用键的equals来查找链表中的实际元素。

让我们看看put()方法:

  /**
* Implements Map.put and related methods
*
* @param hash hash for key
* @param key the key
* @param value the value to put
* @param onlyIfAbsent if true, don't change existing value
* @param evict if false, the table is in creation mode.
* @return previous value, or null if none
*/
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
boolean evict) {
Node<K,V>[] tab; Node<K,V> p; int n, i;
if ((tab = table) == null || (n = tab.length) == 0)
n = (tab = resize()).length;
if ((p = tab[i = (n - 1) & hash]) == null)
tab[i] = newNode(hash, key, value, null);
else {
Node<K,V> e; K k;
if (p.hash == hash &&
((k = p.key) == key || (key != null && key.equals(k))))
e = p;
else if (p instanceof TreeNode)
e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
else {
for (int binCount = 0; ; ++binCount) {
if ((e = p.next) == null) {
p.next = newNode(hash, key, value, null);
if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
treeifyBin(tab, hash);
break;
}
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
break;
p = e;
}
}
if (e != null) { // existing mapping for key
V oldValue = e.value;
if (!onlyIfAbsent || oldValue == null)
e.value = value;
afterNodeAccess(e);
return oldValue;
}
}
++modCount;
if (++size > threshold)
resize();
afterNodeInsertion(evict);
return null;
}

它稍微复杂一些,但很明显,新元素被放在选项卡中基于哈希计算的位置:

i是新元素将被放置的索引(或者它是“桶”)。ntab数组(“桶”数组)的大小。

首先,尝试将其作为“bucket”中的第一个元素。如果已经有一个元素,则向列表中追加一个新节点。

两个对象相等,意味着它们具有相同的hashcode,而不是相反。

2个相等对象------>他们有相同的hashcode

2个对象具有相同的hashcode ----xxxxx—>它们是不相等的

HashMap中的Java 8更新

在代码中执行这个操作

myHashmap.put("old","old-value");
myHashMap.put("very-old","very-old-value");

所以,假设你的hashcode返回的两个键"old""very-old"是相同的。然后会发生什么。

myHashMap是一个HashMap,并且假设最初你没有指定它的容量。所以每个java的默认容量是16。所以现在只要你使用new关键字初始化hashmap,它就创建了16个桶。现在当你执行第一个语句

myHashmap.put("old","old-value");

然后计算"old"的hashcode,因为hashcode也可以是非常大的整数,所以,java内部这样做了- (hash是hashcode,并且>>>是右移)

hash XOR hash >>> 16

为了给出一个更大的图,它会返回一个索引值,在0到15之间。现在你的键值对"old""old-value"将被转换为Entry对象的键和值实例变量。然后这个entry对象会被存储在bucket中,或者你可以说在一个特定的索引处,这个entry对象会被存储。

入口是Map接口- Map中的一个类。条目,带有这些签名/定义

class Entry{
final Key k;
value v;
final int hash;
Entry next;
}

现在当你执行下一条语句时

myHashmap.put("very-old","very-old-value");

"very-old"给出了与"old"相同的hashcode,所以这个新的键值对再次被发送到相同的索引或相同的bucket。但是因为这个存储桶不是空的,所以Entry对象的next变量被用来存储这个新的键值对。

并且它将存储为每个具有相同hashcode的对象的链表,但TRIEFY_THRESHOLD的值为6。在此之后,链表转换为以第一个元素为根的平衡树(红黑树)。

记住这里对hashmap结构的解释,也许有人可以解释Baeldung上的以下段落:-

Java有接口Map的几个实现,每个实现都有自己的特殊性。

但是,现有的Java核心Map实现都不允许Map处理单个键的多个值。

正如我们所看到的,如果我们试图为同一个键插入两个值,第二个值将被存储,而第一个值将被删除。

它还将返回(由put(K键,V值)方法的每个正确实现):

Map<String, String> map = new HashMap<>();
assertThat(map.put("key1", "value1")).isEqualTo(null);
assertThat(map.put("key1", "value2")).isEqualTo("value1");
assertThat(map.get("key1")).isEqualTo("value2");