aoe41606

Weka学习 -- StringToWordVector 源代码学习（1）

代码整个运行流程

參数设置
input数据。设置数据格式
batchFinished()，处理数据（Tokenzier。Stemming，Stopwords）
determineDictionary(); 统计计算（TF。IDF）
归一化
output

一些变量和方法的作用

m_Dictionary , m_DocsCounts 变量与 m_OutputCounts变量意义

public TreeMap m_Dictionary = new TreeMap(); //TreeMap类型成员变量m_Dictionary 记录对。详细类型为TreeMap, 每个String 的word所映射的index。

private int[] m_DocsCounts ; // 计算每一个单词在多少个文档中出现过。保存在这个数组。数组index是word相应映射的index（与m_Dictionary相应）。

private boolean m_OutputCounts = false; //控制m_Dictionary 中的Integer是输出0/1(表示单词是否在文档中出现）。还是count单词在文档中出现的次数。

一般要将它设置为true。

m_minTermFreq 和 m_WordsToKeep

依据最小词频数（ m_minTermFreq ）和每一个类最多保留单词数( m_WordsToKeep )过滤单词；还有一种过滤单词的方法是通过stopwordlist，见以下。

内部类Count 类及变量的意义

里有两个变量public int count, docCount;，count是word在一个文档中出现的次数。docCount指的是这个word在几个文档中出现过。

定义这个内部类及变量计算中间量，主要是为了计算TF*IDF方便。

改动详细的TF*IDF公式：

在函数convertInstancewoDocNorm里面例如以下的两段代码中改动就可以。

// Doing TFTransform

if (m_TFTransform == true) {

.....//在这里改动，源码为 tf(t,d)= log( f(t,d) +1 ).加一是为了防止tf(t,d)=0

}

// Doing IDFTransform

if (m_IDFTransform == true) {

.....//在这里改动, 源码是让idf(t,D)= log( |D| / |{d \in D : t\ind}| ). D表示全部的文档集。

log(value)中的value肯定大于等于1 //当然这里需保证分母不为0，即word至少在一个文档中出现过。否则可 idf(t,D)= log ( |D| / |{d \in D : t\ind}|+1 ).

....// 源码直接让val (t,d)= tf(t,d) * log( |D| / |{d \in D : t\ind}| )

}

注意1：这里另一个boolean变量m_OutputCounts，若要用TFIDF公式必须将m_OutputCounts设置为TRUE. 同一时候。m_TFTransform 和m_IDFTransform 一般仅仅设置当中一个为true，否则的话就是两个log相乘。当然也能够依据须要详细改动（TFIDF详细信息wiki就可以）

经典的TF*IDF设置：设置变量m_IDFTransform为真。更新更新contained中Key大于等于firstCopy的值为val=val*Math.log( m_NumInstances /

(double) m_DocsCounts[index.intValue()] )，也即把原先记录的词频fij变成fij*log（文档数/该单词在多少个文档中出现过），就是我们用的TF-IDF。注意假设要达到这个效果仅仅有把m_IDFTransform 以及m_OutputCounts同一时候设置成true，并保持m_TFTransform为false（否则的话就是两个log相乘了）。

注意2： TFIDF没有体现单词位置信息，如在一段文字中，处在首句的在一篇文章中，处在首段和末段的段落比較重要。在实际应用中，能够依据不同的位置设置对应的权重。

Normalization

对词频或TFIDF进行归一化，主要是为了消除不同文本长度的影响。

归一化主要针对TF(t,d_单词频率（单词t在文档d中出现的次数）的来进行归一化。

经常用法：

方法1：TF(t,d)= （单词t在文档d中出现的次数）/ (文档d中的总单词数)。

方法2： TF(t,d)= （单词t在文档d中出现的次数）/ (在文档d中出现次数最多的词的出现次数)。

方法3（Weka採用）： TFIDF(t,d) ，即 value = value * m_AvgDocLength / docLength(d).注意这里的value是经过 m_TFTransform 和 m_TFTransform 作用过的值（假设设置为true的话，详细看代码就能够知道）。

当然我们也能够改动StringToWordVector代码。使其支持前两种归一化的方法。以下说下 Weka中相关设置方法：

方法1：通过set方法设置

filter .setNormalizeDocLength( new SelectedTag(StringToWordVector. FILTER_NORMALIZE_ALL , StringToWordVector. TAGS_FILTER )); // FILTER_NORMALIZE_ALL 能够换位 FILTER_NORMALIZE_TEST_ONLY 或 FILTER_NONE

方法2：通过參数字符串设置:

String optionStr= "-R first-last -W 1000 -prune-rate -1.0 -C -I -N 1" ; //-N 1 表示採用 FILTER_NORMALIZE_ALL=1 归一化方法。

filter.setOptions(Utils.splitOptions(optionStr));

注意：StringToWordVector类中到是没有 FILTER_NORMALIZE_TEST_ONLY 这个变量的详细应用，不知为什么。感觉也不是必需。

Weka学习 -- StringToWordVector 源代码学习（1）

代码整个运行流程

一些变量和方法的作用

你可能感兴趣的:(Weka学习 -- StringToWordVector 源代码学习（1）)