2401_84149564

【自然语言处理】文本规范化

一、引言

二、分词

三、词规范化

四、分句

五、文本规范化的Python代码实战

六、总结

一、引言

在自然语言处理的许多任务中，第一步都离不开文本规范化。文本规范化的作用是将使用字符串表示的文本转化为更易于计算机处理的规范形式。文本规范化一般包括3个步骤：分词、词的规范化、分句。本文将分别介绍这3个步骤及Python代码实战。

二、分词

词是语言的基本单元，人类学习语言的过程也是从理解词开始的。显而易见，自然语言处理的第一步就是分词。分词是将一段以字符序列表示的文本转化成词元序列的过程。将文本转化成多个词元后，就完成了对文本的初步结构化，以便计算机以词元为基本的单位对文本进行处理。在自然语言处理中，词元并不一定等同于词。根据不同分词方法的定义，词元可以是字符、子词、词等。

（一）基于空格与标点符号的分词

在以英语为代表的印欧语系中，大部分语言都是使用空格字符来分词。因此一种非常简单的方式就是基于空格进行分词。例如：

我们可以发现，最简单的基于空格分词方法无法将词与词后面的标点符号进行分割。如果标点符号对于后续任务（如文本分类）并不重要，可以去除标点符号后再进一步分词。

输入语句：I am an enthusiast in natural language processing, I like learning Natural Language Processing.

去掉标点符号的句子：I am an enthusiast in natural language processing I like learning Natural Language Processing
基于空格与标点符号的分词结果：['I', 'am', 'an', 'enthusiast', 'in', 'natural', 'language', 'processing', 'I', 'like', 'learning', 'Natural', 'Language', 'Processing']

然而，在有些情况下将标点符号去除往往会造成许多错误，例如一些英文名称缩写、本身词带有标点、价格、日期、链接、标签和电子邮件等。因此，如果仅仅将标点符号去除，那么词就有可能失去了它本身的含义。此外，很多时候我们也希望将多个词看成一个词元，例如Natural Language Processing、Machine Learning。解决这些问题需要用到基于正则表达式的分词方法。

（二）基于正则表达式的分词

正则表达式使用单个字符串（通常称为“模式”，即pattern）来描述、匹配对应文本中完全匹配某个指定规则的字符串。在文本编辑器中，正则表达式常用于检索、替换哪些匹配某个模式的文本。每一个正则表达式的符号都有其明确的含义。

符号'\w'的含义：匹配任意单词字符（26个英文字母的大小写、0~9数字、下划线_），正则表达式等价于[a-zA-Z0-9_]。

符号'\W'的含义：匹配任意非单词字符，\w的补集。

符号'\d'的含义：匹配任意0~9数字字符，正则表达式等价于[0-9]。

符号'\D'的含义：匹配任意非数字字符，\d的补集。

符号‘\s'的含义：匹配空格字符。

符号'\S'的含义：匹配任意非空格字符，\s的补集。

符号'.'的含义：匹配任意字符。

符号'+'的含义：匹配前面的表达式1次或多次。

符号'*'的含义：匹配前面的表达式0次或多次。

符号'?'的含义：匹配前面的表达式0次或1次。

符号'{m}'的含义：匹配前面的表达式恰好m次，m可以为任意整数。

符号'{m,n}'的含义：匹配前面的表达式m~n次，m和n可以为任意正整数，且m

符号'{m,}'的含义：匹配前面的表达式m次及以上，m可以为任意正整数。

符号'|'的含义：或运算符。

符号'(...)'的含义：表示1个组合，匹配时只返回括号内部分。

符号'\1'的含义：表示返回第1个组合。

符号'\2'的含义：表示返回第2个组合。

符号'(?:...)'的含义：表示1个组合，匹配时不保留括号内部分。

符号'[...]'的含义：匹配中括号内的1个字符。

符号'\'的含义：正则表达式中，一些字符（如：^$.?+*()[]）有特殊含义，因此在表示原字符时，需要在其前面加上转义字符\。

针对复杂文本（含网址、货币、连接符、省略号等），通过逐步升级正则模式提升分词精度：

pattern1（\w+）：匹配字母 / 数字组成的单词，但无法处理特殊符号（如 $、.、'）。
pattern2（\w+|\S\w*）：增加对非空白字符开头的单词（如中的）的支持。
pattern3（\w+(?:[-']\w+)*）：支持含连字符 / 撇号的单词（如 don't、state-of-the-art）。
pattern4：结合 pattern2 和 pattern3，同时处理特殊符号开头和连接符单词。
pattern5：新增匹配网址的模式(?:\w+\.)+\w+(?:\.)*，优先匹配网址。
pattern6：新增匹配货币 / 百分比（如$3.4）的模式\$?\d+(?:.\d+)?%?\，优先处理数值符号。
pattern7：新增匹配英文省略号（...）的模式，最终实现对复杂文本的精准分词。

（三）基于BPE的词元学习器

给定一个词表，其包含所有的字符（如{A,B,C,D,...,a,b,c,d,...}），词元学习器重复以下步骤来构建词表：

1.找出在训练语料库中最长相连的两个符号，这里称其为“ $C_{1}$ ”和“ $C_{2}$ ”。

2.将新组合的符号“ $C_{1}C_{2}$ ”加入词表中。

3.将训练语料库中所有相连的“ $C_{1}$ ”和“ $C_{2}$ ”转换成“ $C_{1}C_{2}$ ”。

4.重复步骤1~步骤3k次。

（四）基于BPE的词元分词器

得到学习到的词表之后，给定一个新的句子，根据词表中每个字符学到的顺序，使用BPE词元分词器贪心地将字符组合起来。

三、词规范化

所谓词规范化就是指将词或词元变成标准形式的过程，也是自然语言处理中必不可少的一部分，将词统一成标准格式可以让计算机更容易理解文本。这种方式的好处是可以减小词表、去除冗余信息、让词义相近的两个词共享相同的特征表示等。

（一）大小写折叠

大小写折叠是将所有的英文大写字母转化成小写字母的过程。在搜索场景中，用户往往喜欢使用小写字母的形式，而在计算机中，大写字母和小写字母并非同一字符，当遇到用户想要搜索一些人名、地名等带有大写字母的专有名词的情况时，若不将小写字母转换成大写，可能难以匹配正确的搜索结果。

（二）词目还原

在诸如英文这样的语言中，很多单词都会根据不同的主语、语境、时态等情形修改为相应的形态，而这些单词本身表达的含义是接近甚至相同的，例如英文中的am、is、are都可以还原成be，英文名词cat根据不同情形有cat、cats、cat's、cats'等多种形态。这些形态对文本的语义影响相对较小，但是大幅提高了词表的大小，因而提高了自然语言模型的构建成本。因此在有些文本处理问题上，需要将所有的词进行词目还原，即找出词的原型。人类在学习这些语言的过程中，可以通过词典查找词的原型；类似的，计算机可以通过构建词典来进行词目还原。

更精确的词目还原基于语素分析。在语言学中，语素是语言中最小的有意义或有语法功能的单位。以中文为例，“自”“然”“语”“言”“处”和“理”这5个语素就组合成了“自然语言处理”这个词。在英文中，情况会有些不一样，英文中的很多单词是由词干和词缀组成的。词干是表达主要含义的语素，而词缀一般和词干连接，表达了附加的含义。例如unbelievable这个词，由“un”（词缀，表示否定）、“believ”（表示believe，词干，表示相信）和“able”（词缀，表示可能的）组成，三者合起来的意思是“不可置信的”。想要准确地抽取出词的词根和词干，就需要使用语素分析。

（三）词干还原

词干还原是将词变成词干的过程。词干还原是一种简单快速的词目还原的方式，通过将所有的词缀直接移除来获取词干。为了保持词干的完整性，波特词干还原器提出了一套基于改写规则的方法来进行词干还原，一共有多个处理阶段：

阶段 1：处理复数和过去分词后缀

核心目标：去除复数后缀（-s, -es）、过去式 / 过去分词后缀（-ed, -ing）。
典型规则：
- 若单词以 “sses” 结尾，替换为 “ss”（如 “addresses”→“address”）。
- 若单词以 “ies” 结尾，替换为 “i”（如 “babies”→“babi”）。
- 若单词以 “ing” 结尾且内部包含元音（如 “running”），去除 “ing” 并检查是否需要还原最后一个辅音（“running”→“runn”→进一步处理为 “run”）。
- 若单词以 “ed” 结尾（如 “walked”），去除 “ed”（→“walk”）。

阶段 2：处理形容词和副词后缀

核心目标：去除比较级 / 最高级后缀（-er, -est）、副词后缀（-ly）等。
典型规则：
- 若单词以 “est” 结尾，替换为 “e”（如 “largest”→“large”）。
- 若单词以 “er” 结尾，替换为 “e”（如 “faster”→“fast”）。
- 若单词以 “ly” 结尾，且前一部分可独立成词（如 “quickly”），去除 “ly”（→“quick”）。

阶段 3：处理名词后缀（-ation, -ition 等）

核心目标：去除抽象名词后缀（-ation, -ition, -cion 等）。
典型规则：
- 若单词以 “ation” 结尾，替换为 “ate”（如 “civilization”→“civilize”）。
- 若单词以 “ition” 结尾，替换为 “it”（如 “competition”→“compete”）。

阶段 4：处理更复杂的名词 / 动词后缀（-ment, -ence 等）

核心目标：去除表示动作或状态的后缀（-ment, -ence, -ance 等）。
典型规则：
- 若单词以 “ment” 结尾（如 “development”），去除 “ment”（→“develop”）。
- 若单词以 “ence” 结尾（如 “dependence”），去除 “ence”（→“depend”）。

阶段 5：处理后缀 “-e” 的简化

核心目标：去除多余的词尾 “e”（保留必要的 “e” 以维持发音）。
典型规则：
- 若单词以 “e” 结尾且词干长度足够（如 “hope”），去除 “e”（→“hop”）。
- 例外：若词干为短元音 + 单辅音（如 “age”），保留 “e”（→“age” 不变）。

阶段 6：处理词尾辅音的双写简化

核心目标：将词尾重复的辅音简化为单辅音（如 “running”→“run” 而非 “runn”）。
典型规则：
- 若词干以双辅音结尾（如 “fit”→“fitt” 经过处理后→“fit”），保留单辅音。

四、分句

很多实际场景中，我们往往需要处理很长的文本，例如新闻、财报、日志等。计算机若直接同时处理整个文本会非常困难，因此需要将文本分成许多句子后再分别进行处理。对于分句问题，最常见的方法是根据标点符号来分割文本，例如“！”“？”“。”等标点符号。然而，在某些语言中，个别分句的标点符号会有歧义，例如英文中的句号“.”也同时有省略符（如“Inc.”“Ph.D.”“Mr.”等）、小数点（如“3.5”“.3%”）等含义。这些歧义会导致分句困难。为了解决这种问题，常见的方案是先进行分词，使用基于正则表达式或者基于机器学习的分词方法将文本分解成词元，然后基于标点符号判断句子边界。

五、文本规范化的Python代码实战

先运行下面代码下载可能要用到的模型

import nltk
nltk.download('punkt')   # 下载英文分句模型
nltk.download('punkt_tab')
nltk.download('tagsets')
nltk.download('tagsets_json')
nltk.download('averaged_perceptron_tagger')
nltk.help.upenn_tagset()
nltk.download('averaged_perceptron_tagger_eng')

（一）文本规范化的基本实现

文本规范化是将原始文本转换为统一、规整形式的过程，代码涵盖的核心方法如下：

分词（Tokenization）
- 基础方法：空格分割、去除标点后分割。
- 优化方法：正则表达式（处理网址、货币、连接符、省略号等特殊符号）；NLP 工具包（如nltk.tokenize）。
分句（Sentence Segmentation）
- 基于句子边界符号（.、?、!、...）识别，分割文本为句子单元。
子词处理
- BPE（字节对编码）：通过合并高频字符组合生成子词表，解决未登录词问题。
大小写统一
- 大小写折叠（lower()）：消除大小写差异，统一文本格式。
词形规范化
- 词目还原（Lemmatization）：结合语法规则 / 词典，将单词还原为基本形式（如 “are”→“be”）。
- 词干还原（Stemming）：通过去除后缀提取词干（如 “running”→“run”），更注重形态简化。

这些方法共同作用，可将原始文本转换为适合模型输入的规范化形式，提升 NLP 任务（如分类、翻译）的效果。

Python代码如下：

import re  # 引入正则表达式包
import nltk # 引入自然语言处理NLP工具包
# 引入NLTK分词器、lemmatizer，引入wordnet还原动词
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer
from nltk.corpus import wordnet
from nltk.tokenize import regexp_tokenize

sentence1 = "I am an enthusiast in natural language processing, I like learning Natural Language Processing."
print(f'输入语句：{sentence1}')
# 基于空格的分词
tokens1 = sentence1.split(' ')
print(f'基于空格的分词结果：{tokens1}')
# 去掉句子的“,”和“.”
sentence2 = re.sub(r'\,|\.', '', sentence1)
print(f'去掉标点符号的句子：{sentence2}')
tokens2 = sentence2.split(' ')
print(f'基于空格与标点符号的分词结果：{tokens2}')
sentence3 = "Did you spend $3.4 on arxiv.org for your pre-print?"+" No, it's free! It's..."
pattern1 = r"\w+"
print(f'输入语句：{sentence3}')
print(f'基于正则表达式1的分词结果：{re.findall(pattern1, sentence3)}')
pattern2 = r"\w+|\S\w*"
print(f'基于正则表达式2的分词结果：{re.findall(pattern2, sentence3)}')
pattern3 = r"\w+(?:[-']\w+)*"
print(f'基于正则表达式3的分词结果：{re.findall(pattern3, sentence3)}')
pattern4 = r"\w+(?:[-']\w+)*|\S\w*"
print(f'基于正则表达式4的分词结果：{re.findall(pattern4, sentence3)}')

# 新的匹配模式
new_pattern4 = r"(?:\w+\.)+\w+(?:\.)*"
pattern5 = new_pattern4 + r"|" + pattern4
print(f'基于正则表达式5的分词结果：{re.findall(pattern5, sentence3)}')

# 新的匹配模式，匹配货币或百分比符号
new_pattern5 = r"\$?\d+(?:\.\d+)?%?"
pattern6 = new_pattern5 + r"|" + new_pattern4 + r"|" + pattern5
print(f'基于正则表达式6的分词结果：{re.findall(pattern6, sentence3)}')

# 新的匹配模式，匹配英文省略号
new_pattern6 = r"\.\.\."
pattern7 = new_pattern6 + r"|" + new_pattern5 + r"|" + new_pattern4 + r"|" + pattern6
print(f'基于正则表达式7的分词结果：{re.findall(pattern7, sentence3)}')

tokens = regexp_tokenize(sentence3, pattern7)
print(f'基于自然语言处理的工具包的分词结果：{tokens}')

# 分句
sentence3_spliter = set([".", "?", '!', '...'])
tokens3 = regexp_tokenize(sentence3, pattern7)
sentences = []
boundary = [0]
for token_id, token in enumerate(tokens3):
    # 判断句子边界
    if token in sentence3_spliter:
        # 如果是句子边界，则把分句结果加入进去
        sentences.append(tokens3[boundary[-1]:token_id+1])
        # 将下一句句子的起始位置加入boundary
        boundary.append(token_id+1)

if boundary[-1] != len(tokens3):
    sentences.append(tokens3[boundary[-1]:])

print('分句结果：')
for seg_sentence in sentences:
    print(seg_sentence)

# 基于子词的分词
print('基于BPE的词元学习器')
corpus = "nan nan nan nan nan nanjing nanjing beijing beijing " + "beijing beijing beijing beijing dongbei dongbei dongbei bei bei"
tokens = corpus.split(' ')

# 构建基于字符的初始此表
vocabulary = set(corpus)
vocabulary.remove(' ')
vocabulary.add('_')
vocabulary = sorted(list(vocabulary))

# 根据语料构建词频统计表
corpus_dict = {}
for token in tokens:
    key = token + '_'
    if key not in corpus_dict:
        corpus_dict[key] = {"split": list(key), "count": 0}
    corpus_dict[key]['count'] += 1

print('语料：')
for key in corpus_dict:
    print(corpus_dict[key]['count'], corpus_dict[key]['split'])
print(f'词表：{vocabulary}')

for step in range(9):
    # 将每一步结果都输出，令max_print_step = 999
    max_print_step = 999
    if step < max_print_step or step == 8:
        print(f'第{step + 1}次迭代')
    split_dict = {}
    for key in corpus_dict:
        splits = corpus_dict[key]['split']
        # 遍历所有符号进行统计
        for i in range(len(splits) - 1):
            # 组合两个符号作为新的符号
            current_group = splits[i] + splits[i + 1]
            if current_group not in split_dict:
                split_dict[current_group] = 0
            split_dict[current_group] += corpus_dict[key]['count']

    group_hist = [(k, v) for k, v in sorted(split_dict.items(), key=lambda item: item[1], reverse=True)]
    if step < max_print_step or step == 8:
        print(f'当前最常出现的前5个符号组合：{group_hist[:5]}')

    merge_key = group_hist[0][0]
    if step < max_print_step or step == 8:
        print(f'本次迭代组合的符号为：{merge_key}')
    for key in corpus_dict:
        if merge_key in key:
            new_splits = []
            splits = corpus_dict[key]['split']
            i = 0
            while i < len(splits):
                if i + 1 >= len(splits):
                    new_splits.append(splits[i])
                    i += 1
                    continue
                if merge_key == splits[i] + splits[i + 1]:
                    new_splits.append(merge_key)
                    i += 2
                else:
                    new_splits.append(splits[i])
                    i += 1
            corpus_dict[key]['split'] = new_splits

    vocabulary.append(merge_key)
    if step < max_print_step or step == 8:
        print()
        print('迭代后的词频统计表为：')
        for key in corpus_dict:
            print(corpus_dict[key]['count'], corpus_dict[key]['split'])
        print(f'词表：{vocabulary}')
        print()
        print('-------------------------------------')

# 基于BPE的词元分词器
print('基于BPE的词元分词器')
ordered_vocabulary = {key: x for x, key in enumerate(vocabulary)}
sentence = "nanjing beijing"
print(f'输入语句：{sentence}')
tokens = sentence.split(' ')
tokenized_string = []
for token in tokens:
    key = token + '_'
    splits = list(key)
    # 用于在没有更新的时候跳出
    flag = 1
    while flag:
        flag = 0
        split_dict = {}
        # 遍历所有符号进行统计
        for i in range(len(splits) - 1):
            # 组合两个符号作为新的符号
            current_group = splits[i] + splits[i + 1]
            if current_group not in ordered_vocabulary:
                continue
            if current_group not in split_dict:
                # 判断当前组合是否在词表里，如果是的话加入split_dict
                split_dict[current_group] = ordered_vocabulary[current_group]
                flag = 1
        if not flag:
            continue

        # 对每个组合进行优先级的排序（此处为从低到高）
        group_hist = [(k, v) for k, v in sorted(split_dict.items(), key=lambda item: item[1])]
        # 优先级最高的组合
        merge_key = group_hist[0][0]
        new_splits = []
        i = 0
        # 根据优先级最高的组合产生新的分词
        while i < len(splits):
            if i + 1 >= len(splits):
                new_splits.append(splits[i])
                i += 1
                continue
            if merge_key == splits[i] + splits[i + 1]:
                new_splits.append(merge_key)
                i += 2
            else:
                new_splits.append(splits[i])
                i += 1
        splits = new_splits
    tokenized_string += splits

print(f'分词结果：{tokenized_string}')

# 大小写折叠
print('大小写折叠')
sentence = "Let's study Natural Language Processing."
print(f'原句：{sentence}')
print(f'大小写折叠后的句子：{sentence.lower()}')

print('词目还原')
print('构建词典进行词目还原')
# 构建词典
lemma_dict = {'am': 'be', 'is': 'be', 'are': 'be', 'cats': 'cat', "cats'": 'cat', "cat's": 'cat',
              'dogs': 'dog', "dogs'": 'dog', "dog's": 'dog', 'chasing': "chase"}

sentence = "Two dogs are chasing three cats"
words = sentence.split(' ')
print(f'词目还原前：{words}')
lemmatized_words = []
for word in words:
    if word in lemma_dict:
        lemmatized_words.append(lemma_dict[word])
    else:
        lemmatized_words.append(word)

print(f'词目还原后：{lemmatized_words}')

print('利用NLTK自带的词典来进行词目还原')

# 下载分词包、wordnet包
nltk.download('punkt', quiet=True)
nltk.download('wordnet', quiet=True)

lemmatizer = WordNetLemmatizer()
sentence = "Two dogs are chasing three cats"
words = word_tokenize(sentence)
print(f'词目还原前：{words}')
lemmatized_words = []
for word in words:
    lemmatized_words.append(lemmatizer.lemmatize(word, wordnet.VERB))

print(f'词目还原后：{lemmatized_words}')

print('词干还原')


# 词干还原实现：手动方法与NLTK方法对比

def manual_stemmer(word):
    """
    手动实现的简单词干还原函数
    基于规则法去除常见后缀，仅支持英语单词
    """
    try:
        word = word.lower()
        length = len(word)

        # 规则1: 处理复数形式
        if length > 3 and word.endswith('ies'):
            return word[:-3] + 'y'  # 将ies转换为y (如babies → babi → 简化处理为baby的词干bab)
        if word.endswith('sses'):
            return word[:-2]  # addresses → address
        if not word.endswith('ss') and word.endswith('s') and length > 2:
            return word[:-1]  # 一般复数形式 (cats → cat)

        # 规则2: 处理过去式和过去分词 (-ed)
        if length > 2 and word.endswith('ed'):
            # 特殊情况处理: 双写辅音结尾 (stopped → stop)
            if length > 4 and word[-3] == word[-4] and word[-4] not in 'aeiou':
                return word[:-3]
            return word[:-2]  # walked → walk

        # 规则3: 处理现在分词 (-ing)
        if length > 4 and word.endswith('ing'):
            # 特殊情况处理: 双写辅音结尾 (running → run)
            if word[-4] == word[-5] and word[-5] not in 'aeiou':
                return word[:-4]
            return word[:-3]  # eating → eat

        # 规则4: 处理形容词比较级和最高级 (-er, -est)
        if length > 3 and word.endswith('est'):
            return word[:-3]  # fastest → fast
        if length > 2 and word.endswith('er'):
            return word[:-2]  # faster → fast

        # 规则5: 处理副词 (-ly)
        if length > 3 and word.endswith('ly'):
            return word[:-2]  # quickly → quick

        # 规则6: 处理名词后缀 (-ment, -ness)
        if length > 5 and word.endswith('ment'):
            return word[:-4]  # development → develop
        if length > 4 and word.endswith('ness'):
            return word[:-4]  # happiness → happy

        return word
    except Exception as e:
        print(f"手动还原错误（{word}）: {str(e)}")
        return word


def nltk_stemmer(word):
    """
    使用NLTK库的PorterStemmer实现词干还原
    """
    try:
        import nltk
        from nltk.stem import PorterStemmer

        # 下载必要资源
        try:
            nltk.data.find('tokenizers/punkt')
        except LookupError:
            print("正在下载NLTK资源...")
            nltk.download('punkt', quiet=True)
            print("NLTK资源下载完成")

        stemmer = PorterStemmer()
        return stemmer.stem(word.lower())
    except Exception as e:
        print(f"NLTK还原错误（{word}）: {str(e)}")
        return word


if __name__ == "__main__":
    test_words = [
        "cats", "running", "walked", "quickly", "happiness",
        "better", "lying", "geese", "development", "jumping",
        "stopped", "eaten", "friendship", "happily", "stronger"
    ]

    print("词干还原结果对比 (手动实现 vs NLTK PorterStemmer)\n")
    print(f"{'原始单词':<15} {'手动还原结果':<15} {'NLTK还原结果':<15}")
    print("-" * 50)

    for word in test_words:
        try:
            manual_result = manual_stemmer(word)
            nltk_result = nltk_stemmer(word)
            print(f"{word:<15} {manual_result:<15} {nltk_result:<15}")
        except Exception as e:
            print(f"处理单词 {word} 时出错: {str(e)}")

    # 尝试保存结果
    try:
        with open("词干还原结果对比.md", "w", encoding="utf-8") as f:
            f.write("# 词干还原结果对比\n\n")
            f.write("## 手动实现 vs NLTK PorterStemmer\n\n")
            f.write("| 原始单词 | 手动还原结果 | NLTK还原结果 |\n")
            f.write("|----------|--------------|--------------|\n")
            for word in test_words:
                manual_result = manual_stemmer(word)
                nltk_result = nltk_stemmer(word)
                f.write(f"| {word} | {manual_result} | {nltk_result} |\n")
        print("\n结果已保存到 '词干还原结果对比.md' 文件")
    except Exception as e:
        print(f"保存文件时出错: {str(e)}")

程序运行结果如下：

输入语句：I am an enthusiast in natural language processing, I like learning Natural Language Processing.
基于空格的分词结果：['I', 'am', 'an', 'enthusiast', 'in', 'natural', 'language', 'processing,', 'I', 'like', 'learning', 'Natural', 'Language', 'Processing.']
去掉标点符号的句子：I am an enthusiast in natural language processing I like learning Natural Language Processing
基于空格与标点符号的分词结果：['I', 'am', 'an', 'enthusiast', 'in', 'natural', 'language', 'processing', 'I', 'like', 'learning', 'Natural', 'Language', 'Processing']
输入语句：Did you spend $3.4 on arxiv.org for your pre-print? No, it's free! It's...
基于正则表达式1的分词结果：['Did', 'you', 'spend', '3', '4', 'on', 'arxiv', 'org', 'for', 'your', 'pre', 'print', 'No', 'it', 's', 'free', 'It', 's']
基于正则表达式2的分词结果：['Did', 'you', 'spend', '$3', '.4', 'on', 'arxiv', '.org', 'for', 'your', 'pre', '-print', '?', 'No', ',', 'it', "'s", 'free', '!', 'It', "'s", '.', '.', '.']
基于正则表达式3的分词结果：['Did', 'you', 'spend', '3', '4', 'on', 'arxiv', 'org', 'for', 'your', 'pre-print', 'No', "it's", 'free', "It's"]
基于正则表达式4的分词结果：['Did', 'you', 'spend', '$3', '.4', 'on', 'arxiv', '.org', 'for', 'your', 'pre-print', '?', 'No', ',', "it's", 'free', '!', "It's", '.', '.', '.']
基于正则表达式5的分词结果：['Did', 'you', 'spend', '$3', '.4', 'on', 'arxiv.org', 'for', 'your', 'pre-print', '?', 'No', ',', "it's", 'free', '!', "It's", '.', '.', '.']
基于正则表达式6的分词结果：['Did', 'you', 'spend', '$3.4', 'on', 'arxiv.org', 'for', 'your', 'pre-print', '?', 'No', ',', "it's", 'free', '!', "It's", '.', '.', '.']
基于正则表达式7的分词结果：['Did', 'you', 'spend', '$3.4', 'on', 'arxiv.org', 'for', 'your', 'pre-print', '?', 'No', ',', "it's", 'free', '!', "It's", '...']
基于自然语言处理的工具包的分词结果：['Did', 'you', 'spend', '$3.4', 'on', 'arxiv.org', 'for', 'your', 'pre-print', '?', 'No', ',', "it's", 'free', '!', "It's", '...']
分句结果：
['Did', 'you', 'spend', '$3.4', 'on', 'arxiv.org', 'for', 'your', 'pre-print', '?']
['No', ',', "it's", 'free', '!']
["It's", '...']
基于BPE的词元学习器
语料：
5 ['n', 'a', 'n', '_']
2 ['n', 'a', 'n', 'j', 'i', 'n', 'g', '_']
6 ['b', 'e', 'i', 'j', 'i', 'n', 'g', '_']
3 ['d', 'o', 'n', 'g', 'b', 'e', 'i', '_']
2 ['b', 'e', 'i', '_']
词表：['_', 'a', 'b', 'd', 'e', 'g', 'i', 'j', 'n', 'o']
第1次迭代
当前最常出现的前5个符号组合：[('ng', 11), ('be', 11), ('ei', 11), ('ji', 8), ('in', 8)]
本次迭代组合的符号为：ng

迭代后的词频统计表为：
5 ['n', 'a', 'n', '_']
2 ['n', 'a', 'n', 'j', 'i', 'ng', '_']
6 ['b', 'e', 'i', 'j', 'i', 'ng', '_']
3 ['d', 'o', 'ng', 'b', 'e', 'i', '_']
2 ['b', 'e', 'i', '_']
词表：['_', 'a', 'b', 'd', 'e', 'g', 'i', 'j', 'n', 'o', 'ng']

-------------------------------------
第2次迭代
当前最常出现的前5个符号组合：[('be', 11), ('ei', 11), ('ji', 8), ('ing', 8), ('ng_', 8)]
本次迭代组合的符号为：be

迭代后的词频统计表为：
5 ['n', 'a', 'n', '_']
2 ['n', 'a', 'n', 'j', 'i', 'ng', '_']
6 ['be', 'i', 'j', 'i', 'ng', '_']
3 ['d', 'o', 'ng', 'be', 'i', '_']
2 ['be', 'i', '_']
词表：['_', 'a', 'b', 'd', 'e', 'g', 'i', 'j', 'n', 'o', 'ng', 'be']

-------------------------------------
第3次迭代
当前最常出现的前5个符号组合：[('bei', 11), ('ji', 8), ('ing', 8), ('ng_', 8), ('na', 7)]
本次迭代组合的符号为：bei

迭代后的词频统计表为：
5 ['n', 'a', 'n', '_']
2 ['n', 'a', 'n', 'j', 'i', 'ng', '_']
6 ['bei', 'j', 'i', 'ng', '_']
3 ['d', 'o', 'ng', 'bei', '_']
2 ['bei', '_']
词表：['_', 'a', 'b', 'd', 'e', 'g', 'i', 'j', 'n', 'o', 'ng', 'be', 'bei']

-------------------------------------
第4次迭代
当前最常出现的前5个符号组合：[('ji', 8), ('ing', 8), ('ng_', 8), ('na', 7), ('an', 7)]
本次迭代组合的符号为：ji

迭代后的词频统计表为：
5 ['n', 'a', 'n', '_']
2 ['n', 'a', 'n', 'ji', 'ng', '_']
6 ['bei', 'ji', 'ng', '_']
3 ['d', 'o', 'ng', 'bei', '_']
2 ['bei', '_']
词表：['_', 'a', 'b', 'd', 'e', 'g', 'i', 'j', 'n', 'o', 'ng', 'be', 'bei', 'ji']

-------------------------------------
第5次迭代
当前最常出现的前5个符号组合：[('jing', 8), ('ng_', 8), ('na', 7), ('an', 7), ('beiji', 6)]
本次迭代组合的符号为：jing

迭代后的词频统计表为：
5 ['n', 'a', 'n', '_']
2 ['n', 'a', 'n', 'jing', '_']
6 ['bei', 'jing', '_']
3 ['d', 'o', 'ng', 'bei', '_']
2 ['bei', '_']
词表：['_', 'a', 'b', 'd', 'e', 'g', 'i', 'j', 'n', 'o', 'ng', 'be', 'bei', 'ji', 'jing']

-------------------------------------
第6次迭代
当前最常出现的前5个符号组合：[('jing_', 8), ('na', 7), ('an', 7), ('beijing', 6), ('n_', 5)]
本次迭代组合的符号为：jing_

迭代后的词频统计表为：
5 ['n', 'a', 'n', '_']
2 ['n', 'a', 'n', 'jing_']
6 ['bei', 'jing_']
3 ['d', 'o', 'ng', 'bei', '_']
2 ['bei', '_']
词表：['_', 'a', 'b', 'd', 'e', 'g', 'i', 'j', 'n', 'o', 'ng', 'be', 'bei', 'ji', 'jing', 'jing_']

-------------------------------------
第7次迭代
当前最常出现的前5个符号组合：[('na', 7), ('an', 7), ('beijing_', 6), ('n_', 5), ('bei_', 5)]
本次迭代组合的符号为：na

迭代后的词频统计表为：
5 ['na', 'n', '_']
2 ['na', 'n', 'jing_']
6 ['bei', 'jing_']
3 ['d', 'o', 'ng', 'bei', '_']
2 ['bei', '_']
词表：['_', 'a', 'b', 'd', 'e', 'g', 'i', 'j', 'n', 'o', 'ng', 'be', 'bei', 'ji', 'jing', 'jing_', 'na']

-------------------------------------
第8次迭代
当前最常出现的前5个符号组合：[('nan', 7), ('beijing_', 6), ('n_', 5), ('bei_', 5), ('do', 3)]
本次迭代组合的符号为：nan

迭代后的词频统计表为：
5 ['nan', '_']
2 ['nan', 'jing_']
6 ['bei', 'jing_']
3 ['d', 'o', 'ng', 'bei', '_']
2 ['bei', '_']
词表：['_', 'a', 'b', 'd', 'e', 'g', 'i', 'j', 'n', 'o', 'ng', 'be', 'bei', 'ji', 'jing', 'jing_', 'na', 'nan']

-------------------------------------
第9次迭代
当前最常出现的前5个符号组合：[('beijing_', 6), ('nan_', 5), ('bei_', 5), ('do', 3), ('ong', 3)]
本次迭代组合的符号为：beijing_

迭代后的词频统计表为：
5 ['nan', '_']
2 ['nan', 'jing_']
6 ['beijing_']
3 ['d', 'o', 'ng', 'bei', '_']
2 ['bei', '_']
词表：['_', 'a', 'b', 'd', 'e', 'g', 'i', 'j', 'n', 'o', 'ng', 'be', 'bei', 'ji', 'jing', 'jing_', 'na', 'nan', 'beijing_']

-------------------------------------
基于BPE的词元分词器
输入语句：nanjing beijing
分词结果：['nan', 'jing_', 'beijing_']
大小写折叠
原句：Let's study Natural Language Processing.
大小写折叠后的句子：let's study natural language processing.
词目还原
构建词典进行词目还原
词目还原前：['Two', 'dogs', 'are', 'chasing', 'three', 'cats']
词目还原后：['Two', 'dog', 'be', 'chase', 'three', 'cat']
利用NLTK自带的词典来进行词目还原
词目还原前：['Two', 'dogs', 'are', 'chasing', 'three', 'cats']
词目还原后：['Two', 'dog', 'be', 'chase', 'three', 'cat']
词干还原
词干还原结果对比 (手动实现 vs NLTK PorterStemmer)

原始单词手动还原结果 NLTK还原结果
--------------------------------------------------
cats cat cat
running run run
walked walk walk
quickly quick quickli
happiness happi happi
better bett better
lying ly lie
geese geese gees
development develop develop
jumping jump jump
stopped stop stop
eaten eaten eaten
friendship friendship friendship
happily happi happili
stronger strong stronger

结果已保存到 '词干还原结果对比.md' 文件

（二）文本规范化的高级功能实现

1.基础依赖与资源准备

（1）NLTK 资源管理：自动检测并下载 NLP 处理所需的基础资源（如分词模型punkt、词形还原词典wordnet、词性标注模型averaged_perceptron_tagger），确保分词、词形还原等功能正常运行。

（2）第三方库依赖：使用re处理正则表达式分词，tkinter构建 GUI 界面，nltk提供专业 NLP 工具（分词器、词干提取器、词形还原器等）。

2.文本预处理核心功能

工具实现了多种文本规范化操作，覆盖从 “分词” 到 “词形归一化” 的全流程：

（1）分词（Tokenization）

提供 4 种分词方法，可通过 GUI 选择：

空格分词：按空格直接分割文本（最简单但粗糙，可能保留标点）。
正则表达式分词：使用优化的正则模式（r"\w+(?:[-']\w+)*|\$?\d+(?:\.\d+)?%?|\.\.\.|(?:\w+\.)+\w+"），支持处理含连字符（如state-of-the-art）、货币（如$3.4）、网址（如arxiv.org）、省略号（...）等特殊字符的文本。
NLTK 分词器：使用nltk.tokenize.word_tokenize，基于预训练模型进行更精准的分词（如将don't拆分为don和't）。
BPE 分词：基于字节对编码（Byte Pair Encoding）的子词分词，通过预设语料（如nanjing、beijing等）训练子词表，可处理未登录词（如陌生人名、地名），将其拆分为有意义的子词（如nanjing→nan+jing+_）。

（2）词干还原（Stemming）

将单词去除后缀，提取核心词干（结果可能不是完整单词），提供两种实现：

手动词干还原：基于规则去除常见后缀（如复数s、过去式ed、分词ing、比较级er等），例如running→run、happiness→happi。
NLTK 词干还原：使用经典的PorterStemmer，通过成熟的规则库处理词干（如development→develop、quickly→quickli）。

（3）词形还原（Lemmatization）

将单词还原为语法正确的基本形式（词目），结合词性提升准确性：

通过nltk.pos_tag获取单词词性（名词、动词、形容词等），再使用WordNetLemmatizer根据词性还原（如动词chasing→chase，名词dogs→dog）。

3.GUI 界面功能

工具通过tkinter构建直观的交互界面，各组件功能如下：

（1）输入区域：一个带滚动条的文本框，用于输入原始英文文本（默认提供示例文本）。

（2）处理选项区：单选按钮选择分词方法（空格 / 正则 / NLTK/BPE），支持灵活切换预处理策略。

（3）执行按钮：点击 “执行文本规范化” 触发处理流程，自动完成分词、词干还原、词形还原。

（4）结果展示区：

结果表格：以表格形式展示每个单词的原始形式、手动词干还原结果、NLTK 词干还原结果、词形还原结果，方便对比不同方法的效果。
详情文本框：显示处理过程信息（如选择的分词方法、分词结果、处理状态等），辅助用户理解处理逻辑。

4.整体工作流程

（1）用户在输入框中填写或修改英文文本。

（2）选择所需的分词方法（如 NLTK 分词或 BPE 分词）

（3）点击执行按钮后，工具自动完成：

对输入文本进行分词（基于所选方法）。
对每个分词结果进行词性标注。
分别计算手动词干、NLTK 词干、词形还原结果。

（4）结果同步显示在表格和详情框中，用户可直观查看规范化效果。

Python代码如下：

import re
import nltk
import tkinter as tk
from tkinter import ttk, scrolledtext, messagebox
from nltk.tokenize import word_tokenize, regexp_tokenize
from nltk.stem import WordNetLemmatizer, PorterStemmer
from nltk.corpus import wordnet


# 确保下载必要的NLTK资源
def download_nltk_resources():
    required_resources = [
        ('punkt', 'tokenizers/punkt'),
        ('wordnet', 'corpora/wordnet'),
        ('averaged_perceptron_tagger', 'taggers/averaged_perceptron_tagger')
    ]

    for resource_name, resource_path in required_resources:
        try:
            nltk.data.find(resource_path)
        except LookupError:
            try:
                nltk.download(resource_name, quiet=True)
            except Exception as e:
                messagebox.showerror("资源下载错误", f"无法下载NLTK资源 {resource_name}: {str(e)}")


# 手动词干还原实现
def manual_stemmer(word):
    word = word.lower()
    length = len(word)

    # 复数处理
    if length > 3 and word.endswith('ies'):
        return word[:-3] + 'y'
    if word.endswith('sses'):
        return word[:-2]
    if not word.endswith('ss') and word.endswith('s') and length > 2:
        return word[:-1]

    # 过去式和过去分词 (-ed)
    if length > 2 and word.endswith('ed'):
        if length > 4 and word[-3] == word[-4] and word[-4] not in 'aeiou':
            return word[:-3]
        return word[:-2]

    # 现在分词 (-ing)
    if length > 4 and word.endswith('ing'):
        if word[-4] == word[-5] and word[-5] not in 'aeiou':
            return word[:-4]
        return word[:-3]

    # 形容词比较级和最高级 (-er, -est)
    if length > 3 and word.endswith('est'):
        return word[:-3]
    if length > 2 and word.endswith('er'):
        return word[:-2]

    # 副词 (-ly)
    if length > 3 and word.endswith('ly'):
        return word[:-2]

    # 名词后缀 (-ment, -ness)
    if length > 5 and word.endswith('ment'):
        return word[:-4]
    if length > 4 and word.endswith('ness'):
        return word[:-4]

    return word


# NLTK词干还原实现
def nltk_stemmer(word):
    stemmer = PorterStemmer()
    return stemmer.stem(word.lower())


# 获取单词的词性以提高词形还原准确性
def get_wordnet_pos(treebank_tag):
    if treebank_tag.startswith('J'):
        return wordnet.ADJ
    elif treebank_tag.startswith('V'):
        return wordnet.VERB
    elif treebank_tag.startswith('N'):
        return wordnet.NOUN
    elif treebank_tag.startswith('R'):
        return wordnet.ADV
    else:
        return wordnet.NOUN


# 词形还原函数
def lemmatize_word(word, pos_tag):
    lemmatizer = WordNetLemmatizer()
    wordnet_pos = get_wordnet_pos(pos_tag)
    return lemmatizer.lemmatize(word, wordnet_pos)


# BPE分词实现
class BPE:
    def __init__(self, corpus=None):
        self.vocabulary = None
        self.ordered_vocabulary = None
        if corpus:
            self.train(corpus)

    def train(self, corpus, iterations=9):
        tokens = corpus.split()
        vocabulary = set(corpus)
        vocabulary.discard(' ')
        vocabulary.add('_')
        self.vocabulary = sorted(list(vocabulary))

        # 构建词频统计
        corpus_dict = {}
        for token in tokens:
            key = token + '_'
            if key not in corpus_dict:
                corpus_dict[key] = {"split": list(key), "count": 0}
            corpus_dict[key]['count'] += 1

        # BPE迭代合并
        for _ in range(iterations):
            split_dict = {}
            for key in corpus_dict:
                splits = corpus_dict[key]['split']
                for i in range(len(splits) - 1):
                    current_group = splits[i] + splits[i + 1]
                    if current_group not in split_dict:
                        split_dict[current_group] = 0
                    split_dict[current_group] += corpus_dict[key]['count']

            if not split_dict:
                break

            group_hist = sorted(split_dict.items(), key=lambda x: x[1], reverse=True)
            merge_key = group_hist[0][0]
            self.vocabulary.append(merge_key)

            for key in corpus_dict:
                splits = corpus_dict[key]['split']
                new_splits = []
                i = 0
                while i < len(splits):
                    if i + 1 >= len(splits):
                        new_splits.append(splits[i])
                        i += 1
                        continue
                    if merge_key == splits[i] + splits[i + 1]:
                        new_splits.append(merge_key)
                        i += 2
                    else:
                        new_splits.append(splits[i])
                        i += 1
                corpus_dict[key]['split'] = new_splits

        self.ordered_vocabulary = {key: idx for idx, key in enumerate(self.vocabulary)}

    def tokenize(self, text):
        if not self.ordered_vocabulary:
            raise ValueError("BPE模型尚未训练，请先提供语料进行训练")

        tokens = text.split()
        tokenized = []
        for token in tokens:
            key = token + '_'
            splits = list(key)
            flag = 1
            while flag:
                flag = 0
                split_dict = {}
                for i in range(len(splits) - 1):
                    current_group = splits[i] + splits[i + 1]
                    if current_group in self.ordered_vocabulary:
                        split_dict[current_group] = self.ordered_vocabulary[current_group]
                        flag = 1
                if not flag:
                    break
                group_hist = sorted(split_dict.items(), key=lambda x: x[1])
                merge_key = group_hist[0][0]
                new_splits = []
                i = 0
                while i < len(splits):
                    if i + 1 >= len(splits):
                        new_splits.append(splits[i])
                        i += 1
                        continue
                    if merge_key == splits[i] + splits[i + 1]:
                        new_splits.append(merge_key)
                        i += 2
                    else:
                        new_splits.append(splits[i])
                        i += 1
                splits = new_splits
            tokenized.extend(splits)
        return tokenized


# 主GUI应用类
class TextNormalizerApp:
    def __init__(self, root):
        self.root = root
        self.root.title("文本规范化工具")
        self.root.geometry("1000x700")
        self.root.resizable(True, True)

        # 初始化BPE模型
        self.bpe = BPE()
        self.init_bpe_model()

        # 初始化NLTK资源
        download_nltk_resources()

        # 创建界面组件
        self.create_widgets()

    def init_bpe_model(self):
        # 使用预设语料训练BPE模型
        corpus = "nan nan nan nan nan nanjing nanjing beijing beijing " + \
                 "beijing beijing beijing beijing dongbei dongbei dongbei bei bei"
        self.bpe.train(corpus)

    def create_widgets(self):
        # 创建主框架
        main_frame = ttk.Frame(self.root, padding="10")
        main_frame.pack(fill=tk.BOTH, expand=True)

        # 输入区域
        input_frame = ttk.LabelFrame(main_frame, text="输入文本", padding="10")
        input_frame.pack(fill=tk.X, pady=(0, 10))

        self.input_text = scrolledtext.ScrolledText(input_frame, height=5, wrap=tk.WORD)
        self.input_text.pack(fill=tk.X, expand=True)
        self.input_text.insert(tk.END,
                               "I am an enthusiast in natural language processing, I like learning Natural Language Processing.")

        # 选项区域
        options_frame = ttk.LabelFrame(main_frame, text="处理选项", padding="10")
        options_frame.pack(fill=tk.X, pady=(0, 10))

        # 分词选项
        ttk.Label(options_frame, text="分词方法:").grid(row=0, column=0, sticky=tk.W, padx=(0, 10))

        self.tokenization_var = tk.StringVar(value="nltk")
        tokenization_frame = ttk.Frame(options_frame)
        tokenization_frame.grid(row=0, column=1, sticky=tk.W)

        ttk.Radiobutton(tokenization_frame, text="空格分词", variable=self.tokenization_var, value="space").pack(
            side=tk.LEFT, padx=5)
        ttk.Radiobutton(tokenization_frame, text="正则表达式", variable=self.tokenization_var, value="regex").pack(
            side=tk.LEFT, padx=5)
        ttk.Radiobutton(tokenization_frame, text="NLTK分词器", variable=self.tokenization_var, value="nltk").pack(
            side=tk.LEFT, padx=5)
        ttk.Radiobutton(tokenization_frame, text="BPE分词", variable=self.tokenization_var, value="bpe").pack(
            side=tk.LEFT, padx=5)

        # 处理按钮
        button_frame = ttk.Frame(main_frame)
        button_frame.pack(fill=tk.X, pady=(0, 10))

        ttk.Button(button_frame, text="执行文本规范化", command=self.process_text).pack(side=tk.RIGHT)

        # 结果显示区域
        result_frame = ttk.LabelFrame(main_frame, text="处理结果", padding="10")
        result_frame.pack(fill=tk.BOTH, expand=True)

        # 创建结果表格
        columns = ("original", "manual_stem", "nltk_stem", "lemma")
        self.result_tree = ttk.Treeview(result_frame, columns=columns, show="headings")

        # 设置列标题
        self.result_tree.heading("original", text="原始单词")
        self.result_tree.heading("manual_stem", text="手动词干还原")
        self.result_tree.heading("nltk_stem", text="NLTK词干还原")
        self.result_tree.heading("lemma", text="词目还原")

        # 设置列宽
        self.result_tree.column("original", width=150)
        self.result_tree.column("manual_stem", width=150)
        self.result_tree.column("nltk_stem", width=150)
        self.result_tree.column("lemma", width=150)

        # 添加滚动条
        scrollbar_y = ttk.Scrollbar(result_frame, orient=tk.VERTICAL, command=self.result_tree.yview)
        scrollbar_x = ttk.Scrollbar(result_frame, orient=tk.HORIZONTAL, command=self.result_tree.xview)
        self.result_tree.configure(yscroll=scrollbar_y.set, xscroll=scrollbar_x.set)

        # 布局表格和滚动条
        scrollbar_y.pack(side=tk.RIGHT, fill=tk.Y)
        scrollbar_x.pack(side=tk.BOTTOM, fill=tk.X)
        self.result_tree.pack(fill=tk.BOTH, expand=True)

        # 详细结果文本框
        self.details_text = scrolledtext.ScrolledText(main_frame, height=8, wrap=tk.WORD)
        self.details_text.pack(fill=tk.X, pady=(10, 0))
        self.details_text.insert(tk.END, "处理详情将显示在这里...")
        self.details_text.config(state=tk.DISABLED)

    def get_tokens(self, text):
        token_method = self.tokenization_var.get()

        if token_method == "space":
            return text.split(' ')
        elif token_method == "regex":
            pattern = r"\w+(?:[-']\w+)*|\$?\d+(?:\.\d+)?%?|\.\.\.|(?:\w+\.)+\w+"
            return regexp_tokenize(text, pattern)
        elif token_method == "nltk":
            return word_tokenize(text)
        elif token_method == "bpe":
            return self.bpe.tokenize(text)
        return []

    def process_text(self):
        # 清空之前的结果
        for item in self.result_tree.get_children():
            self.result_tree.delete(item)

        self.details_text.config(state=tk.NORMAL)
        self.details_text.delete(1.0, tk.END)

        # 获取输入文本
        input_text = self.input_text.get(1.0, tk.END).strip()
        if not input_text:
            messagebox.showwarning("输入警告", "请输入要处理的文本")
            return

        try:
            # 分词处理
            tokens = self.get_tokens(input_text)
            token_method = self.tokenization_var.get()
            token_method_name = {
                "space": "空格分词",
                "regex": "正则表达式分词",
                "nltk": "NLTK分词器",
                "bpe": "BPE分词"
            }[token_method]

            self.details_text.insert(tk.END, f"分词方法: {token_method_name}\n")
            self.details_text.insert(tk.END, f"分词结果: {tokens}\n\n")

            # 获取词性标注以提高词形还原准确性
            tagged_words = nltk.pos_tag(tokens)

            # 处理每个单词
            for word, pos_tag in tagged_words:
                # 词干和词形还原
                manual_stem = manual_stemmer(word) if word.strip() else ""
                nltk_stem = nltk_stemmer(word) if word.strip() else ""
                lemma = lemmatize_word(word, pos_tag) if word.strip() else ""

                # 添加到结果表格
                self.result_tree.insert("", tk.END, values=(word, manual_stem, nltk_stem, lemma))

            self.details_text.insert(tk.END, "文本规范化完成!\n")

        except Exception as e:
            messagebox.showerror("处理错误", f"处理文本时出错: {str(e)}")
            self.details_text.insert(tk.END, f"错误: {str(e)}\n")

        self.details_text.config(state=tk.DISABLED)


if __name__ == "__main__":
    root = tk.Tk()
    app = TextNormalizerApp(root)
    root.mainloop()

程序运行结果如下：

六、总结

本文系统介绍了自然语言处理中的文本规范化技术，包括分词、词规范化和分句三大核心步骤。在分词方面，详细阐述了基于空格、正则表达式和BPE算法的不同处理方法，并比较了它们的优缺点。词规范化部分重点讲解了大小写折叠、词目还原和词干还原等技术，通过Python代码展示了实际应用效果。文章还提供了完整的文本规范化工具实现，包含GUI界面和多种分词算法选择功能，并对比了手动与NLTK库的词干还原效果。实验结果表明，结合正则表达式和NLTK工具的混合方法能有效处理复杂文本的规范化需求，为后续NLP任务提供高质量的输入数据。

你可能感兴趣的:(自然语言处理,自然语言处理,人工智能,文本规范化,python,分词,词的规范化,分句)

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
x86-64汇编语言训练程序与实战十除以十等于一
本文还有配套的精品资源，点击获取简介：汇编语言是一种低级语言，与机器代码紧密相关，特别适用于编写系统级代码及性能要求高的应用。nasm编译器是针对x86和x86-64架构的汇编语言编译器，支持多种语法风格和指令集。项目Euler提供数学和计算机科学问题，鼓励编程技巧应用，前100个问题的答案可共享。x86-64架构扩展了寄存器数量并引入新指令，提升了数据处理效率。学习汇编语言能够深入理解计算机底层
男士护肤品哪个牌子好？十大男士护肤品排行榜高省APP珊珊
很多男生意识到护肤的必要性，开始着手护肤，但不知道该选哪个男士护肤品品牌使用好。目前市面上很多男士护肤品品牌，可谓琳琅满目，让人眼花缭乱。男士挑选护肤品时，根据自己皮肤需求去正规渠道挑选合适的知名护肤品比较放心靠谱。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入
三菱PLC全套学习资料及应用手册 good2know
本文还有配套的精品资源，点击获取简介：三菱PLC作为工业自动化领域的核心设备，其系列产品的学习和应用需要全面深入的知识。本次资料包为学习者提供从基础到进阶的全方位学习资源，包括各种型号PLC的操作手册、编程指南、软件操作教程以及实际案例分析，旨在帮助用户系统掌握PLC的编程语言、指令系统及在各类工业应用中的实施。1.三菱PLC基础知识入门1.1PLC的基本概念可编程逻辑控制器（PLC）是工业自动化
2022-10-20 体力劳动者
不因感觉稍纵即逝就不加记录。在女儿睡觉后我记下今天的小故事。接手新班级后，今天是第二次收到家长的感谢信（微信）。是我表扬次数最多的两位学生家长致来的感谢，他们明显感受到孩子自信、阳光了不少，写作业由被动变为了主动，家庭氛围也由鸡飞狗跳变成了其乐融融。在被顽皮的学生气得头晕之后，我感到了久违的价值感，责任感甚至使命感，我回复家长这样一句话：我们也需要家长的反馈好让我们的教育工作更有劲头。我也认识到，
程翔授《评价一篇记叙文》行吟斯基
桂林十一中高一2中学生自读程老师学生文章板书课题师巡看。看完举手。问：它是记叙文。不商量。独立打分。学生评价打分。师：高低都正常，不受干扰。师巡，略评。打完举手。调查：分层次举手——高分先举手。最低分。最高95分。最低45分。女：差距太大！师：同一篇，相差55分。若是你的文章，愿落谁手？男：身临其境感觉。师：你有此经历？没也没关系。女：不优美……，结尾无升华……无感悟……师：辞藻不美？(师追问)男
《玉骨遥》：大司命为什么不杀朱颜？原因没那么简单 windy天意晚晴
《玉骨遥》里，朱颜就是时影的命劫之人。重明与时影早就知道，他们一直瞒着大司命，如今大司命也知道了真相。可是大司命却没有杀朱颜，而是给朱颜下了诛心咒，还说时影的命劫已经破了，真的如此吗？1、计划总是赶不上变化的大司命从目前剧情来说，大司命还不如时影，他信心十足的事情总会有纰漏。他不让时影见命劫之女，结果时影还是遇上了。他想让时影走火入魔，一心复仇，结果时影在朱颜的劝说下放下了仇恨。大司命让时影开山收
移动端城市区县二级联动选择功能实现包 good2know
本文还有配套的精品资源，点击获取简介：本项目是一套为移动端设计的jQuery实现方案，用于简化用户在选择城市和区县时的流程。它包括所有必需文件：HTML、JavaScript、CSS及图片资源。通过动态更新下拉菜单选项，实现城市到区县的联动效果，支持数据异步加载。开发者可以轻松集成此功能到移动网站或应用，并可基于需求进行扩展和优化。1.jQuery移动端解决方案概述jQuery技术简介jQuery
日更006 终极训练营day3 懒cici
人生创业课（2）今天的主题：学习方法一：遇到有用的书，反复读，然后结合自身实际，列践行清单，不要再写读书笔记思考这本书与我有什么关系，我在哪些地方能用到，之后我该怎么用方法二：读完书没映像怎么办?训练你的大脑，方法：每读完一遍书，立马合上书，做一场分享，几分钟都行对自己的学习要求太低，要逼自己方法三：学习深度不够怎么办？找到细分领域的榜样，把他们的文章、书籍、产品都体验一遍，成为他们的超级用户，向
自律打卡第四天：比昨天进步一点点花儿的念想
今天新闻我们县城又确诊了一例，截止目前已经确诊的三例了，打开，看了一篇简友写的武汉的真实情况，有病住不了院，还没等到床位已经去世的消息，心里更加的难受，武汉尚且这样，如果是我们这没有高速没有火车的十八线的小县城发生这种情况，那情况将是更加的不堪设想，不敢想，唯有祈求灾难早点快去，平安才是最大的福气。突然觉得我的自律打卡，比昨天进步一点点。更希望疫情战争每一天都要比昨天好一点，希望一觉醒来听到的是好
15个小技巧，让我的Windows电脑更好用了！曹元_
01.桌面及文档处理第一部分的技巧，主要是围绕桌面的一些基本操作，包括主题设置、常用文档文件快捷打开的多种方式等等。主题换色默认情况下，我们的Win界面可能就是白色的文档界面，天蓝色的图表背景，说不出哪里不好看，但是就是觉得不够高级。imageimage说到高级感，本能第一反应就会和暗色模式联想起来，如果我们将整个界面换成黑夜模式的话，它会是这样的。imageimage更改主题颜色及暗色模式，我们
（二）SAP Group Reporting (GR) 核心子模块功能及数据流向架构解析
数据如何从子公司流转到合并报表的全过程，即数据采集→合并引擎→报表输出，特别是HANA内存计算如何优化传统ETL瓶颈。SAPGroupReporting(GR)核心模块功能及数据流向的架构解析，涵盖核心组件、数据处理流程和关键集成点，适用于S/4HANA1809+版本：一、核心功能模块概览模块功能关键事务码/FioriApp数据采集(DataCollection)整合子公司财务数据（SAP/非SA
9、汇编语言编程入门：从环境搭建到简单程序实现神经网络酱汇编语言 MEPIS GNU工具链
汇编语言编程入门：从环境搭建到简单程序实现1.数据存储介质问题解决在处理数据存储时，若要使用MEPIS系统，需确保有其可访问的存储介质。目前，MEPIS无法向采用NTFS格式（常用于Windows2000和XP工作站）的硬盘写入数据。不过，若硬盘采用FAT32格式，MEPIS就能进行写入操作。此外，MEPIS还能将文件写入软盘和大多数USB闪存驱动器。若工作站连接到局域网，还可通过FTP协议或挂载
月光下的罪恶（5）允歌玖沐
5.被孤立顾纨是转校过来的，进入学校后，回头率很高“诶诶诶，你看那女生，哪个系的？”“不知道没见过。”“看那样，一看就是个胆小的货。”顾纨当做没听到，更狠的话她都听过，更何况女生们耍心眼？“他爸爸是做黑生意的，估计女儿也不是什么好的，你以后离他一家子远点。”她走向自己要上课的教室，一进门，所有人的目光看向她，顾纨若无其事的走进教室，开始上课。下课，一群人站起来，但是很显然，她周围的一圈人都不愿意和
day15｜前端框架学习和算法 universe_01 前端算法笔记
T22括号生成先把所有情况都画出来，然后（在满足什么情况下）把不符合条件的删除。T78子集要画树状图，把思路清晰。可以用暴力法、回溯法和DFS做这个题DFS深度搜索：每个边都走完，再回溯应用：二叉树搜索，图搜索回溯算法=DFS+剪枝T200岛屿数量（非常经典BFS宽度把树状转化成队列形式，lambda匿名函数“一次性的小函数，没有名字”setup语法糖：让代码更简洁好写的语法ref创建：基本类型的
贝多芬诞辰250周年纪念万千星河赴远方
就算不是古典音乐爱好者，你也一定听说过贝多芬。作为古典音乐史上最伟大的音乐家之一，他不仅是古典主义风格的集大成者，同时也是浪漫主义风格的开创者。贝多芬肖像画（1813年）贝多芬的一生共创作了9部交响曲、36首钢琴奏鸣曲、10部小提琴奏鸣曲、16首弦乐四重奏、1部歌剧及2部弥撒曲等等。数量虽然不及前辈海顿、莫扎特多，但他几乎改造了当时所有的音乐表达形式，赋予了它们全新的价值，对后世音乐的发展产生了极
IK分词初心myp
实现简单的分词功能，智能化分词添加依赖配置：4.10.4org.apache.lucenelucene-core${lucene.version}org.apache.lucenelucene-analyzers-common${lucene.version}org.apache.lucenelucene-queryparser${lucene.version}org.apache.lucenel
三件事—小白猫·雨天·八段锦咸鱼月亮
1.最近楼下出现一只非常漂亮的粘人小白猫，看着不像是流浪猫，非常亲人。眼睛比蓝球的还大，而且是绿色的，很漂亮。第一次遇到它，它就跟我到电梯口，如果我稍微招招手，肯定就跟我进电梯了。后来我喂过它几次，好可惜不能养它，一只蓝球就是我的极限了。2.下雨天就心烦，好奇怪。明明以前我超爱看窗外的雨和听雨声，看来近来的心情不够宁静了。3.最近在练八段锦，从第一次就爱上了这个运动，很轻松缓慢，但是却出汗。感觉可
25-1-2019 树藤与海岛呢
hello八月来报道了今天看到了一篇文章就只想记下那两句话：良田千顷不过一日三餐广夏万间只睡卧榻三尺大概的意思就是要珍惜当下不要等来不及的时候才珍惜分享今天的两餐最近没有时间运动呢下个月补回好了说完了哈哈goodnight图片发自App图片发自App
《极简思维》第三部分小洋苏兮
整理你的人际关系如何改善人际关系？摘录：因为人际关系问题是人们生活中不快乐的主要原因。感想：感觉这个说的挺对，之前我总是埋头学习，不管舍友不管自己的合作伙伴的一些事情，但实际上，这学期关注了之后好多了摘录：“亲密关系与社交会让你健康而快乐。这是基础。太过于关注成就或不太关心人际关系的人都不怎么快乐。基本上来说，人类就是建立在人脉关系上的。”感想：但是如果有时想的太多就不太好，要以一个开放的心态跟别
力扣热题100-------54. 螺旋矩阵海航Java之路力扣 leetcode 矩阵 java
给你一个m行n列的矩阵matrix，请按照顺时针螺旋顺序，返回矩阵中的所有元素。示例1：输入：matrix=[[1,2,3],[4,5,6],[7,8,9]]输出：[1,2,3,6,9,8,7,4,5]示例2：输入：matrix=[[1,2,3,4],[5,6,7,8],[9,10,11,12]]输出：[1,2,3,4,8,12,11,10,9,5,6,7]提示：m==matrix.lengthn
我不懂什么是爱，但我给你全部我拥有的香尧
因为怕黑，所以愿意陪伴在夜中行走的人，给他一点点的安全感。因为渴望温柔与爱，所以愿意为别的孩子付出爱与温柔。因为曾遭受侮辱和伤害，所以不以同样的方式施于其他人。如果你向别人出之以利刃，对方还了你爱与包容，真的不要感激他，真的不要赞美他。每一个被人伤害过的人心里都留下了一颗仇恨的种子，他也会想要有一天以眼还眼，以牙还牙。但他未让那颗种子生根发芽，他用一把心剑又一次刺向他自己，用他血荐仇恨，开出一朵温
你要记住，最重要的是:随时做好准备，为了你可能成为更好的自己，放弃现在的自己。霖霖z
打卡人:周云日期:2018年11月09日【日精进打卡第180天】【知～学习】《六项精进》0遍共214遍《通篇》1遍共106遍《大学》2遍共347遍《坚强工作，温柔生活》ok《不抱怨的世界》104-108页《经典名句》你要记住，最重要的是:随时做好准备，为了你可能成为更好的自己，放弃现在的自己。【行～实践】一、修身：（对自己个人）1、坚持打卡二、齐家：（对家庭和家人）打扫卫生，接送孩子，洗衣做饭，陪
SpringMVC执行流程（原理），通俗易懂国服冰 SpringMVC spring mvc
SpringMVC执行流程（原理），通俗易懂一、图解SpringMVC流程二、进一步理解Springmvc的执行流程1、导入依赖2、建立展示的视图3、web.xml4、spring配置文件springmvc-servlet5、Controller6、tomcat配置7、访问的url8、视图页面一、图解SpringMVC流程图为SpringMVC的一个较完整的流程图，实线表示SpringMVC框架提
C++ 计数排序、归并排序、快速排序每天搬一点点砖 c++数据结构算法
计数排序：是一种基于哈希的排序算法。他的基本思想是通过统计每个元素的出现次数，然后根据统计结果将元素依次放入排序后的序列中。这种排序算法适用于范围较小的情况，例如整数范围在0到k之间计数排序步骤：1初始化一个长度为最大元素值加1的计数数组，所有元素初始化为02遍历原始数组，将每个元素值作为索引，在计数数组中对应位置加13将数组清空4遍历计数器数组，按照数组中的元素个数放回到元数组中计数排序的优点和
现在发挥你的优势爱生活的佑嘉
来和我做咨询的一些朋友，涉及到定位的，都会说，我不知道我的优势是什么，你能不能帮我看看？还有一些朋友，喜欢做各种测试来了解自己，测试过后，然并卵。今天，我想来聊聊优势，如何能了解自己的优势是什么。首先，我们要知道，如果要成为“不一般”的人，我们所做的事情，就要基于自身的优势。我做管理者十多年，看到每个员工都有不同的特长，有的擅长数字，有的擅长人际，有的擅长写作。这些知道自己优势并且在这方面刻意练习
2023-11-02 一帆f
发现浸润心田的感觉：今天一个机缘之下突然想分享我的婆媳关系，我一边分享一边回忆我之前和儿媳妇关系的微妙变化，特别是分享到我能感受到儿媳妇的各种美好，现在也能心平气和的和老公平等对话，看到自己看到老公，以己推人以人推己自然而然的换位思考，心中有一种美好的能量在涌动，一种浸润心田的感觉从心胸向全身扩散，美好极了……我很想记住这种感觉，赶紧把它写下来以留纪念，也就是当我看见他人的美好，美好的美妙的浸润心
贫穷家庭的孩子考上985以后会怎样？ Mellisa蜜思言
我出生在一个贫穷的农村家庭，据我妈说，我出生的时候才4斤多，而她生完我以后月子里就瘦到70斤。家里一直很穷，父母都是在菜市场卖菜的，家里还有几亩地种庄稼的。我很小开始就要去帮忙，暑假的生活就是帮忙去卖菜和割稻谷，那时候自己对于割稻谷这种事情有着莫名的恐惧，生怕自己长大以后还是每年都要过着割稻谷这种日子。父母因为忙于生计无暇顾及我的学习，幸好我因为看到他们这样子的生活，内心里有深深的恐惧感，驱使着我
实时数据流计算引擎Flink和Spark剖析程小舰 flink spark 数据库 kafka hadoop
在过去几年，业界的主流流计算引擎大多采用SparkStreaming，随着近两年Flink的快速发展，Flink的使用也越来越广泛。与此同时，Spark针对SparkStreaming的不足，也继而推出了新的流计算组件。本文旨在深入分析不同的流计算引擎的内在机制和功能特点，为流处理场景的选型提供参考。（DLab数据实验室w.x.公众号出品）一.SparkStreamingSparkStreamin
48. 旋转图像 - 力扣（LeetCode） Fiee-77 #数组 leetcode 算法 python 数据结构数组
题目：给定一个n×n的二维矩阵matrix表示一个图像。请你将图像顺时针旋转90度。你必须在原地旋转图像，这意味着你需要直接修改输入的二维矩阵。请不要使用另一个矩阵来旋转图像。示例1：输入：matrix=[[1,2,3],[4,5,6],[7,8,9]]输出：[[7,4,1],[8,5,2],[9,6,3]]示例2：输入：matrix=[[5,1,9,11],[2,4,8,10],[13,3,6,
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f