写个简单的汉语bigram tokenizer

写个简单的汉语bigram tokenizer,基本能够满足文本挖掘的原型实验的需要。
def bigram_tokenize(text)
    tokens = []
    0.upto(text.length-1) do |i|
        tokens << text[i..i+1] if text[i..i+1] =~ /\p{Han}{2}/u
    end
    return tokens
end

你可能感兴趣的:(Ruby)