哈希(hash) 之 ELFHash 和 静态hash(模拟链接法)

我们熟悉的c++中的map其实也是hash的思想。
自己设计一个hash系统,首先建立一个映射数组,hash表,然后冲突处理…,个人认为链表法效率高一些(当然可以用一个单链表实现,或者用一个数组记录hash的下标位置也可以模拟单链表)字符串hash可能就想到使用ELFhash算法,主要分析下ELFHash算法。
ELFhash函数在UNIX系统V 版本4中的“可执行链接格式”( Executable and Linking Format,即ELF )中会用到,ELF文件格式用于存储可执行文件与目标文件。ELFhash函数是对字符串的散列。它对于长字符串和短字符串都很有效,字符串中每个字符都有同样的作用,它巧妙地对字符的ASCII编码值进行计算,ELFhash函数对于能够比较均匀地把字符串分布在散列表中。
这些函数使用位运算使得每一个字符都对最后的函数值产生影响。

// ELF Hash Function
unsigned int ELFHash(char *str)
{
unsigned int hash = 0;
unsigned int x = 0;


while (*str)
{
hash = (hash << 4) + (*str++);//hash左移4位,把当前字符ASCII存入hash低四位。
if ((x = hash & 0xF0000000L) != 0)
{
//如果最高的四位不为0,则说明字符多余7个,现在正在存第8个字符,如果不处理,再加下一个字符时,第一个字符会被移出,因此要有如下处理。
//该处理,如果对于字符串(a-z 或者A-Z)就会仅仅影响5-8位,否则会影响5-31位,因为C语言使用的算数移位
//因为1-4位刚刚存储了新加入到字符,所以不能>>28
hash ^= (x >> 24);
//上面这行代码并不会对X有影响,本身X和hash的高4位相同,下面这行代码&~即对28-31(高4位)位清零。
hash &= ~x;
}
}
//返回一个符号位为0的数,即丢弃最高位,以免函数外产生影响。(我们可以考虑,如果只有字符,符号位不可能为负)
return (hash & 0x7FFFFFFF);

}


对于静态的hash实现的思想是这样的:、

typedef struct Entity
{
    char e[11];
    char f[11];
    int next;
}Entity;
Entity entity[M];
int i = 1; // 词条总个数
int hashIndex[M];
// 如下是插入hash
hash = ELFHash(entity[i].f);
        entity[i].next = hashIndex[hash];// 典型的头插入法,由于hashIndex[]是全局变量,默认值是0,初次使用时0
        hashIndex[hash] = i;// 也就是说同一个hash值,第一次的hashIndex[]值为0;之后的上一次同一个hash值的每一次都是entity[]的下标值
        i++;

// 下面是查找的:
void find(char f[])
{
    int k;
    int hash = ELFHash(f);
    for(k=hashIndex[hash]; k!=0; k=entity[k].next)
    {
        if(strcmp(f,entity[k].f) == 0)
        {
            printf("%s\n",entity[k].e);
            return;
        }
    }
    printf("eh\n");
}



你可能感兴趣的:(hash,ACM,单链表)