Incoming update to Murmur
authorBrian Aker <brian@tangent.org>
Wed, 15 Oct 2008 03:42:18 +0000 (20:42 -0700)
committerBrian Aker <brian@tangent.org>
Wed, 15 Oct 2008 03:42:18 +0000 (20:42 -0700)
ChangeLog
libmemcached/murmur_hash.c

index ecb91f72754dd8c9b02c7df34f873dcef6fb9b27..4c885c9491e271cdf3a4a89140994fd309ff9e65 100644 (file)
--- a/ChangeLog
+++ b/ChangeLog
@@ -1,5 +1,6 @@
 0.25
   * Jenkins HASH added.
+  * Update of Murmur hash code
 
 0.24 Tue Sep 16 02:59:03 PDT 2008 (never released)
   * Cleanup compile warnings.
index 7275aa348e253f286c5aac52a18b5cf9ebfbadb3..c9e60f5bf6e32ec12e2b4ada421043361833c857 100644 (file)
@@ -1,39 +1,75 @@
-#include "common.h"\r
-\r
-/* \r
-  "Murmur"hash provided by Austin, tanjent@gmail.com\r
-*/\r
-\r
-#define MIX(h,k,m) { k *= m; k ^= k >> r; k *= m; h *= m; h ^= k; }\r
-\r
-uint32_t murmur_hash(const char *key, size_t length)\r
-{\r
-  const uint32_t m= 0x5bd1e995;\r
-  const int r= 16;\r
-  uint32_t h= length * m;\r
-  uint32_t k = 0;\r
-\r
-  while(length >= 4)\r
-  {\r
-    k = *(uint32_t*)key;\r
-    MIX(h,k,m);\r
-\r
-    key += 4;\r
-    length -= 4;\r
-  }\r
-\r
-  switch(length)\r
-  {\r
-  case 3: k += key[2] << 16;\r
-  case 2: k += key[1] << 8;\r
-  case 1: k += key[0];\r
-          MIX(h,k,m);\r
-  };\r
-\r
-  h *= m;\r
-  h ^= h >> 10;\r
-  h *= m;\r
-  h ^= h >> 17;\r
-\r
-  return h;\r
-}\r
+/* 
+  "Murmur" hash provided by Austin, tanjent@gmail.com
+  http://murmurhash.googlepages.com/
+
+  Note - This code makes a few assumptions about how your machine behaves -
+
+  1. We can read a 4-byte value from any address without crashing
+  2. sizeof(int) == 4
+
+  And it has a few limitations -
+  1. It will not work incrementally.
+  2. It will not produce the same results on little-endian and big-endian
+  machines.
+
+  Updated to murmur2 hash - BP
+*/
+
+#include "common.h"
+
+uint32_t murmur_hash(const char *key, size_t length)
+{
+  /* 
+    'm' and 'r' are mixing constants generated offline.  They're not
+    really 'magic', they just happen to work well.
+  */
+
+  const unsigned int m= 0x5bd1e995;
+  const unsigned int seed= (0xdeadbeef * length);
+  const int r= 24;
+
+
+  // Initialize the hash to a 'random' value
+
+  unsigned int h= seed ^ length;
+
+  // Mix 4 bytes at a time into the hash
+
+  const unsigned char * data= (const unsigned char *)key;
+
+  while(length >= 4)
+  {
+    unsigned int k = *(unsigned int *)data;
+
+    k *= m; 
+    k ^= k >> r; 
+    k *= m; 
+
+    h *= m; 
+    h ^= k;
+
+    data += 4;
+    length -= 4;
+  }
+
+  // Handle the last few bytes of the input array
+
+  switch(length)
+  {
+  case 3: h ^= data[2] << 16;
+  case 2: h ^= data[1] << 8;
+  case 1: h ^= data[0];
+          h *= m;
+  };
+
+  /* 
+    Do a few final mixes of the hash to ensure the last few bytes are
+    well-incorporated.  
+  */
+
+  h ^= h >> 13;
+  h *= m;
+  h ^= h >> 15;
+
+  return h;
+}