企研数据

Python 实战 | 进阶中文分词之 HanLP 词典分词（下）

更多内容点击查看Python 实战 | 进阶中文分词之 HanLP 词典分词（下）

Python教学专栏，旨在为初学者提供系统、全面的Python编程学习体验。通过逐步讲解Python基础语言和编程逻辑，结合实操案例，让小白也能轻松搞懂Python！
>>>点击此处查看往期Python教学内容

本文目录

一、引言

二、混淆矩阵

1. T-F-P-N

2. 准确率

3. 精确率

4. 召回率

5. F1值

三、中文分词场景的指标计算

1.分词场景的转换

2.代码实现

四、结束语

本文共8807个字，阅读大约需要23分钟，欢迎指正！

Part1 引言

上期文章Python 实战 | 进阶中文分词之 HanLP 词典分词（上），我们详细介绍了基于词典进行中文分词的三种切分规则，并且使用高性能分词器 HanLP 中的 DAT 分词器实现了词典分词。由于 HanLP 分词器的分词速度可以达到几千万字每秒，此时待分词的文本数据量已经不再是个问题，现在的问题是，面对庞大的分词结果数据集，我们要如何衡量分词结果的质量，总不能与正确的切分结果一一核对吧？

接触过机器学习的朋友应该有了解，机器学习领域中已经有多种评估模型的指标，比如最基本的准确率，以及精确率、召回率、值等等。实际上，在中文分词的场景中，我们一般使用后面这三个指标来衡量分词器的准确程度，下面我们将详细介绍这些指标是如何运用在中文分词场景中的，在此之前，我们首先需要理解混淆矩阵这个概念。

文本基于 HanLP 1.8.4 版本书写。

本文中所有 Python 代码均在集成开发环境 Visual Studio Code (VScode) 中使用交互式开发环境 Jupyter Notebook 中编写。

Part2 混淆矩阵

在进入中文分词任务之前，我们首先需要了解什么是混淆矩阵。混淆矩阵最初源于 1940 年代，当时被广泛用于信号检测理论中，用于描述信号存在和信号不存在这两种可能结果；后来在 1980 年代其开始盛行于机器学习领域，用于衡量和比较不同的预测模型。混淆矩阵是一个二维表格的形式（下文详细介绍），表格中的元素可以表示真实值与预测值之间的关系，在最常见的二分类问题中，混淆矩阵包含了四个元素，下面具体来看一下。

1. T-F-P-N

我们首先需要介绍一些概念。假设现在有一套设备检测系统，该系统识别出了一些合格的设备，此时识别的结果（合格为 Positive，不合格为 Negative）就可以分为以下两种情况：

系统识别是正确的，我们可以用 T（True）来表示正确。这时又分为两种：

a. 实际上是合格的设备，同时系统也检测为合格（P，Positive）的，这类情况就是 TP

b. 实际上是不合格的设备，同时系统也检测为不合格（N，Negative）的，这类情况就是 TN
系统识别是错误的，我们可以用 F（False）来表示错误。这时又分为两种：

a. 实际上是不合格的设备，但是系统检测为合格（P，Positive）的，这类情况就是 FP

b. 实际上是合格的设备，但是系统检测为不合格（N，Negative）的，这类情况就是 FN

这几个概念在刚开始接触时，可能会有些记不清，笔者在这里提供一个记忆的方式：先看第二个字母，比如 P 就表示做出了 Positive 的判断，N 表示做出了 Negative 的判断。再看第一个字母，如果为 T，则表示判断正确，比如 TN 在我们这个例子中表示系统做出了 Negative 的判断，并且这个判断是正确的，其他可以作类似理解。

通过上面这个例子可以理解，其实混淆矩阵就是通过原始类别和预测类别这两个维度将总体划分为四种情况，于是构建混淆矩阵如下：

_		预测
_		Positive	Negative
实际	Positive	TP	FN
实际	Negative	FP	TN

在机器学习领域中这个图表就称为混淆矩阵，它是用来衡量分类结果的混淆程度的，P 通常理解为正例（即我们关注的样本），N 理解为负例，并且这四种情况有其对应的解释：

TP（True Positive，真阳）：预测为 P，实际上也是 P
FP（False Positive，假阳）：预测为 P，实际上是 N
TN（True Negative，真阴）：预测为 N，实际上也是 N
FN（False Negative，假阴）：预测为 N，实际上是 P

对于混淆矩阵，最重要的是知道每一个元素表示的含义，这些解释了解即可。注意一点，为了便于描述，下文统一将我们关注的样本称为正例，反之为负例。

2. 准确率

从字面意思理解，准确率（Accuracy）就是一个用于衡量结果的准确程度的值，它是机器学习领域最基本的评估指标之一，这也源于它的含义比较简单，容易计算。严格来说，准确率表示模型预测正确的样本占总样本的比例，结合上一节的概念，可以得到准确率的计算公式为

这个公式看起来很完美，也符合人们的直观印象，比如现在有 100 个参赛队伍，我们预测有 30 个队伍能进入下一个阶段的比赛，实际上的确进入了 30 个队伍，那么此时我们预测的准确率就是 100 %。在这个例子中，“能进入下一个阶段”是我们关注的正例，此时。可以看到，准确率评价的是整体的预测准确度，现在有一个问题是，如果我们的样本不均衡呢？

假设现在有一个用来预测信用卡欺诈的模型，我们有 1000 个样本，其中 10 个样本是欺诈行为，其余样本为正常行为，然后模型预测所有的样本交易都是正常的，也就是说模型完全忽略了欺诈行为，此时这个模型的准确率为，这个准确率非常的高，但仔细想一下，这是不合理的。在这个例子中，我们想要捕捉的是欺诈行为，但是这个模型并没有达到我们的目的，可以说效果很糟糕。所以，在样本不均衡的情况下，准确率这个指标是没有说服力的。我们需要更全面、公正的评价指标，如精确率、召回率和值。

3. 精确率

与预测整体的准确率不同，精确率是用来确保不会出错的。其表示的是模型预测为正且实际为正的样本占所有预测为正的样本的比例，简单来说，精确率是从预测的角度，度量模型预测为正的样本中，有多少是真正的正样本，其计算公式为

精确率是一个更关注质量的指标，比如在刚才的预测信用卡欺诈的模型中，我们关注的欺诈行为没有一个被识别出来，此时这个模型的精确率为 0。如果说高准确率保证了整体的利益，那么高精确率保证了个体的利益，也就是说每一个需要关注的正例，都经过了严厉的“考验”。

4. 召回率

召回率表示的是所有实际为正的样本中，模型预测为正的样本所占的比例，简单来说，召回率是从实际样本的角度，度量实际为正的样本有多少被预测出来了。其计算公式为

召回率更关注找到正例，换句话说就是更加希望找到所有的正例，即便这其中有一些误判。在区分精确率和召回率的时候，只要记住两者分子是一样的（真阳的数量），而精确率的分母是预测为正的数量，召回率的分母是实际为正的数量。

5. F1值

一般情况下，精确率和召回率之间难以平衡，精确率高往往召回率会低，反之同理。此时就需要一个权衡，我们可不可以同时考虑这些指标，而不是必须选择其中的一个，这也是为了避免单一指标而导致结论错误。值就是一个综合性的指标，它同时考虑了精确率和召回率，在样本不平衡的时候尤其有用。其计算公式为

只有当精确率和召回率的值同时较高时，我们才能得到一个较高的值，这时可以说明我们的模型质量是较好的。

Part3 中文分词场景的指标计算

通常情况下，混淆矩阵针对的是预测数量与实际数量相等的情况，如上文例子中的预测参赛队伍或者预测信用卡欺诈行为，预测的样本数量始终都与实际相同，但是在中文分词场景中，分词结果与标准答案的词语数量未必是一致的。另外混淆矩阵针对的是分类问题，而中文分词实际并不是分类问题。因此，我们需要转换思维，让混淆矩阵可以应用于分词场景中。

1. 分词场景的转换

假设我们有一个长度为n的字符串，分词的结果为一串连续的词语，根据词语在原字符串中的位置可以记作区间[i,j]（1≤i≤j≤n）。现在我们就可以将标准答案与实际分词结果定义为两个集合了，标准答案的所有词语区间构成集合 A，作为正例，集合 A 之外的所有区间构成另一个集合（A 的补集），作为负例。同理，实际分词结果的所有区间构成集合 B。为了便于理解，我们对“这项研究在中国人民大学进行”这句话分词，得到如下表格：

_	词语序列	集合	集合中的元素
标准答案	这项研究在中国人民大学进行	A	[1,2],[3,4],[5,5],[6,11],[12,13]
_
分词结果	这项研究在中国人民大学进行	B	[1,2],[3,4],[5,5],[6,8],[9,9],[10,11],[12,13]
_
重合部分	这项研究在中国人民大学进行	A∩B	[1,2],[3,4],[5,5],[12,13]

从上表可以清楚的看到，标准答案与实际分词结果重合的部分就是集合 A 与集合 B 的交集（A∩B），它表示的是判为正例，实际也是正例的数量，其实这就是混淆矩阵中的元素 TP。类似的，还可以得到：

此时，就可以在中文分词场景中计算精确率、召回率以及值这三个指标了，计算公式如下：

比如我们现在需要计算上表的分词准确度，根据公式得到：

当待分词文本不止一句话时，先将词语区间存放在集合中，最后计算一次指标就可以了。

2. 代码实现

现在就需要使用代码实现上文的思路了，我们希望传入一个标准答案的文件路径和一个实际分词结果的文件路径，函数就可以输出精确率、召回率和三个指标值。需要注意一点，两份文件内容应该是按行一一对应的。

首先，我们需要将分词结果转换为区间形式，代码如下：

# 导入需要使用的库
import re
from pyhanlp import *

# 将分词结果转换为区间
def seg_to_region(seg: str):  # 传入的参数 seg 为字符串
    # 切分分词结果的规则
    pat = re.compile(r'\s+')
    # 用于存放集合的空列表
    region = []
    # 设置起始位置
    start = 0
    # 处理每一个词语，将其转换为区间（集合）
    for word in pat.split(seg.strip()):
        end = start + len(word)
        # 添加集合到 list 中
        region.append((start, end))
        # 更新起始位置
        start = end
    # 将列表转换为 set 类型
    return set(region)

可以留意到，在代码的循环语句部分，我们先通过seg.strip()对分词结果进行了处理，去除了两端的空格。这是因为如果两端有空格，程序会将两端的空格单独分出来一个区间，这会影响指标的计算结果。另外，在函数的返回值部分，使用了函数set()将列表转换为集合数据类型，这是因为在计算指标时集合可以进行运算（比如并集、交集等）。其他的内容就不再赘述了，代码中都有详细的说明。

现在我们传入上文得到的分词结果，来看一下输出内容是什么：

seg_to_region('这项 研究 在 中国人 民 大学 进行')

# 输出结果
'''
{(0, 2), (2, 4), (4, 5), (5, 8), (8, 9), (9, 11), (11, 13)}
'''

可以看到输出结果为一个包含所有区间的集合，每一个区间也是以集合的形式存储。现在区间已经转换完成了，下一步就是计算分词准确度的指标。代码如下：

# answ 为标准答案的文件路径；pred 为实际分词结果的文件路径
def PRF_COUNT(answ, pred):
    A_size, B_size, A_inter_B_size = 0, 0, 0
    with open(answ, encoding='utf-8') as afile, open(pred, encoding='utf-8') as pfile:
        # a、p 为一 一对应的标准答案和实际分词结果
        for a, p in zip(afile, pfile):
            # A 为标准答案的集合
            A = seg_to_region(a)
            # B 为实际分词结果的集合
            B = seg_to_region(p)
            # 将结果先保存，最后计算一次指标
            A_size += len(A)
            B_size += len(B)
            A_inter_B_size += len(A & B)   # A∩B 的集合大小
    P = A_inter_B_size / B_size * 100
    R = A_inter_B_size / A_size * 100
    # 返回三个指标：精确率、召回率、F1值
    return P, R, 2*P*R / (P+R)

实际使用中，我们通常是将分词结果写入文本文件（如txt文件）中，所以函数PRF_COUNT中需要传入的是存放结果的文件路径。

下面我们使用 SIGHAN05（第二届国际中文分词测评）提供的 MSR 语料库（微软亚洲研究院语料库）以及对应词典看一下运行结果如何。在此之前，需要先下载数据包，大家可以前往第二届国际中文分词评测[1]下载名为icwb2-data.zip的压缩文件，并将其放在 HanLP 的 data 路径下（在命令窗口输入hanlp -v可以找到 data 路径）

笔者建议将完整的解压文件放在一个新建的文件夹中，避免与其他文件放在一个文件夹下。解压后的文件如下：

MSR 语料库的词典位于icwb2-data/training/msr_training.utf8，待分词的语料位于icwb2-data/testing/msr_test.utf8，标准答案位于icwb2-data/gold/msr_test_gold.utf8中。我们的思路是先加载词典构造使用的分词器，然后对待分词语料进行分词，最后将分词结果与标准答案作比较计算出指标值。

import re,os
from pyhanlp import *

# 数据包 icwb2-data 的路径（HANLP_DATA_PATH 为 HanLP 的 data 路径）
DIR_PATH = os.path.join(HANLP_DATA_PATH, 'test', 'icwb2-data')        

MSR_DICT = os.path.join(DIR_PATH, 'gold', 'msr_training_words.utf8')  # MSR 语料的词典路径
MSR_TEST = os.path.join(DIR_PATH, 'testing', 'msr_test.utf8')         # 待分词的语料
MSR_OUTPUT = os.path.join(DIR_PATH, 'testing', 'msr_output.txt')      # 实际分词结果的文件路径
MSR_ANSW = os.path.join(DIR_PATH, 'gold', 'msr_test_gold.utf8')       # 标准答案的文件路径

# 构造分词器（这里使用 DoubleArrayTrieSegment 分词器）
DoubleArrayTrieSegment = JClass('com.hankcs.hanlp.seg.Other.DoubleArrayTrieSegment')
segment = DoubleArrayTrieSegment([MSR_DICT])    # 加载 MSR 语料的词典
segment.enablePartOfSpeechTagging(True)         # 开启词性标注

# 对待分词文本进行分词，并将结果保存在文件 MSR_OUTPUT 中
with open(MSR_TEST, encoding='utf-8') as seg_text, open(MSR_OUTPUT, 'w', encoding='utf-8') as output:
    for one_line in seg_text:
        output.write(' '.join(term.word for term in segment.seg(re.sub(r'\s+', '', one_line))))
        output.write('\n')

# 输出返回结果
print('P:%.2f R:%.2f F1:%.2f' % PRF_COUNT(MSR_ANSW, MSR_OUTPUT))

# 结果如下
'''
P:91.68 R:95.57 F1:93.58
'''

可以看到，HanLP 词典分词在 MSR 语料库上的精确率、召回率和值均在 91% 以上，这个结果是较好的。再来对上面的代码作进一步的解释，这里使用的是 HanLP 中的双数组字典树分词器，并且开启了词性标注，这是为了可以识别数据和英文（上期文章提到过，HanLP 中这两块功能是同时开启或关闭的）；接着，按行提取待分词文本，同时去除其中的空格符，这也是为了避免多余的空格导致结果不准确，然后将分词结果写入输出文件中；最后返回的指标值均保留两位小数。

实际上，基于混淆矩阵的准确度评估方法不止可以用于中文词典分词，其他的算法也是可以的。后续若有机会，我们也会向大家介绍。

Part4 结束语

本期文章为大家介绍了机器学习领域中的混淆矩阵，以及如何将其运用于中文分词场景中，从而为我们的分词结果提供了更为公正的评价指标（精确率、召回率和值）。从结果可以看到，HanLP 词典分词在 MSR 语料库上的效果是比较好的，当然，你也可以在别的语料库进行测试，只是需要注意一点，词典分词中使用的词典不是随机选择的，需要考虑词典与待分词预料的颗粒度的差异，否则可能会导致结果不准确。

最后，如果您也有关于文本分析的实操经验，欢迎给我们留言交流您使用的方法或工具，让我们一起探索更多的技术！

如果你想学习各种 Python 编程技巧，提升个人竞争力，那就加入我们的数据 Seminar 交流群吧，欢迎大家在社群内交流、探索、学习，一起进步！同时您也可以分享通过数据 Seminar 学到的技能以及得到的成果。

参考资料

[1]

第二届国际中文分词评测: http://sighan.cs.uchicago.edu/bakeoff2005/

Part5 相关推荐

Python教学

Python 教学 | 学习 Python 第一步——环境安装与配置
Python 教学 | Python 基本数据类型
Python 教学 | Python 字符串操作（上）
Python 教学 | Python 字符串操作（下）
Python 教学 | Python 变量与基本运算
Python 教学 | 组合数据类型-列表
Python 教学 | 组合数据类型-集合（内含实例）
Python 教学 | 组合数据类型 - 字典&元组
Python 教学 | Python 中的分支结构（判断语句）
Python 教学 | Python 中的循环结构（上）
Python 教学 | Python 中的循环结构（下）
Python 教学 | Python 函数的定义与调用
Python 教学 | Python 内置函数
Python 教学 | 最常用的标准库之一 —— os
Python 教学 | 盘点 Python 数据处理常用标准库
Python 教学 | “小白”友好型正则表达式教学（一）
Python 教学 | “小白”友好型正则表达式教学（二）
Python 教学 | “小白”友好型正则表达式教学（三）
Python 教学 | 数据处理必备工具之 Pandas（基础篇）
Python 教学 | 数据处理必备工具之 Pandas（数据的读取与导出）
Python 教学 | Pandas 数据索引与数据选取
Python 教学 | Pandas 妙不可言的条件数据筛选
Python 教学 | Pandas 缺失值与重复值的处理方法
Python 教学 | Pandas 表格数据行列变换
Python 教学 | Pandas 表格字段类型精讲（含类型转换）
Python 教学 | Pandas 数据合并（含目录文件合并案例）
Python 教学 | Pandas 数据匹配（含实操案例）
Python 教学 | Pandas 函数应用（apply/map）【上】
Python 教学 | Pandas 函数应用（apply/map）【下】
Python 教学 | Pandas 分组聚合与数据排序
Python 教学 | Pandas 时间数据处理方法
Python 教学 | 列表推导式 & 字典推导式
Python 教学 | 一文搞懂面向对象中的“类和实例”
Python 教学 | Python 学习路线+经验分享，新手必看！

Python实战

Python实战 | 如何使用 Python 调用 API
Python 实战 | 使用正则表达式从文本中提取指标
大数据分析 | 用 Python 做文本词频分析
数据治理 | 从“今天中午吃什么”中学习Python文本相似度计算
数据治理 | 省下一个亿！一文读懂如何用python读取并处理PDF中的表格（赠送本文所用的PDF文件）
数据治理 | 还在人工识别表格呢？Python 调用百度 OCR API 又快又准
数据治理 | 如何用 Python 批量压缩/解压缩文件
案例分享：使用 Python 批量处理统计年鉴数据（上）
案例分享：使用 Python 批量处理统计年鉴数据（下）
Python 实战 | ChatGPT + Python 实现全自动数据处理/可视化
ChatGPT在指尖跳舞: open-interpreter实现本地数据采集、处理一条龙
Python 实战 | 文本分析之文本关键词提取
Python 实战 | 文本分析工具之HanLP入门
Python 实战 | 进阶中文分词之 HanLP 词典分词（上）

数据可视化

数据可视化 | 讲究！用 Python 制作词云图学问多着呢
数据可视化 | 地址数据可视化—教你如何绘制地理散点图和热力图
数据可视化 | 太酷了！用 Python 绘制3D地理分布图
数据可视化 | 用 Python 制作动感十足的动态柱状图
数据可视化 | Python绘制多维柱状图：一图展示西部各省人口变迁【附本文数据和代码】

你可能感兴趣的:(中文分词,Python入门,HanLP,词典分词)

IK分词初心myp
实现简单的分词功能，智能化分词添加依赖配置：4.10.4org.apache.lucenelucene-core${lucene.version}org.apache.lucenelucene-analyzers-common${lucene.version}org.apache.lucenelucene-queryparser${lucene.version}org.apache.lucenel
搜索引擎技术选型 dusty_giser
近期，业主对POI检索提出了一些想法，针对之前简单的WordSegment分词和模糊匹配搜索需要进行一些更为符合业主需求的调整。于是这几天对搜索引擎进行了一些技术选型；一、ApacheLucene Lucene是一个开源的高性能、可扩展的全文检索引擎工具包，但不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎。所以它是一套信息检索工具包，可以说是当今最先进
我的“三宫六院” 7416690f411c
从10岁起我就开始看书了，那时是小学三年级，基本上掌握了汉语拼音，后来，爸爸给我买了一本“汉语词典”和“新华字典”，假如碰上生字，或者词语不懂，就由这两位老师辅导我，记得在二年级时，由于一篇“远足”的作文获得了全学区第二名，我爸爸开始重视我了。我是家中长女，重男轻女的妈妈和我好像隔着一堵墙，动不动就拿我出气。后来，我就迷上了看武侠小说，记得第一本是“彭公案”，看的简直入了迷，当时没有电灯，又怕妈妈
干饭人不懂稻花香湘妹夏小莫
今天的这篇文章，是第一张植物名片。用我自己的话来介绍一种与我们的生活息息相关的植物：水稻。成熟的稻谷01再认识水稻我们南方人每天的主要食物，就是大米和米制品，可以说是一天不吃米就心慌。然而，对于这种奉献种子给我们做粮食的植物，我们又了解多少呢？网络词典里是这样解释的：水稻，一年生禾本科植物，单子叶，性喜高温、多湿、短日照。成熟时约1米高。叶子细长，花非常小，大部分自花授粉并结种子，称为稻穗。考古学
Python入门第二课：核心编程概念：控制结构与逻辑小菜同学爱学习 python python 开发语言
1.条件语句(if/elif/else)#成绩评级系统score=85ifscore>=90:print("优秀！")elifscore>=80:print("良好！")elifscore>=60:print("及格！✅")else:print("不及格，需要努力！")2.循环结构for循环#遍历列表fruits=["苹果","香蕉","橙子","草莓"]print("水果列表:")forfrui
mac m1使用docker 安装es kibana ik分词器 Maosmallming docker elasticsearch macos
0.安装docker可参考以下文章http://t.csdnimg.cn/fMXu61.拉取elasticsearch镜像资源，本人下载的是8.6.2版本dockerpullelasticsearch:8.6.22.在本机中提前创建好yml文件elasticsearch.ymlhttp:host:0.0.0.0xpack.security.enabled:falsexpack.security.e
docker安装ES、kibana和IK分词器
拉取镜像dockerpullelasticsearch:7.4.2dockerpullkibana:7.4.2创建存储数据的目录mkdir-p/home/lab1018/docker_volume/elasticsearch/configmkdir-p/home/lab1018/docker_volume/elasticsearch/datamkdir-p/home/lab1018/docker_
Mac 使用Docker安装Elasticsearch、Kibana 、ik分词器、head 风中带血 macos docker elasticsearch
安装ElasticSearch通过docker安装esdockerpullelasticsearch:7.8.1在本地创建elasticsearch.yml文件mkdir/Users/ky/Documents/learn/es/elasticsearch.yml编辑yml文件内容http:host:0.0.0.0xpack.security.enabled:falsexpack.security.
2024年最新MAC M1使用docker 安装es kibana ik分词器，被面试官问的大数据开发-Framework难倒了 2401_84164503 程序员大数据 macos docker
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！我的路径是/Users/jim/elasticsear
docker安装 Elasticsearch、Kibana、IK 分词器 kong@react docker elasticsearch jenkins
Elasticsearch1.拉去镜像dockerpullelasticsearch:8.12.2dockerpullkibana：8.12.22.创建挂载目录mkdir/root/elasticsearch3.不挂载启动dockerrun-d\--restart=always\--namefusion_elasticsearch\--networkfusion_network\-p9200:92
IOS —— Runloop 初识随笔 banlong6430
在写这篇文章之前，对IOS中Runloop这概念的认知基本约等于0。从字面上的意思来了解，就是一个死循环的意思直到我在网上看到这样一篇文章《深入了解Runloop》，初次阅读发现自己几乎无法理解文章中大部分词汇以及运作原理，直至反反复复阅读2~3遍才初探端倪以下这篇文章，是通过自身略带抽象的思维方式结合自己的理解（或许也有问题），简述及整理上述的runloop文章。1.什么是RUNLOOPRunl
Elasticsearch 分析器（内置分析器，自定义分析器，IK分析器）
Elasticsearch分析器（内置分析器，自定义分析器，IK分析器）内置分析器使用分析器自定义分析器中文分析器（IK分析器）安装使用添加词典内置分析器官网：https://www.elastic.co/guide/en/elasticsearch/reference/7.10/analysis-analyzers.htmlES内置了一些分析器。默认情况下，一个索引的字段类型为text是，该字段
elasticsearch-ik分词器菁菁兰花月 elasticsearch 搜索引擎大数据
这里用的分词器版本是elasticsearch-analysis-ik-7.16.1.zip，和elasticsearch是相同的版本，这样不容易出错。每个节点的elasticsearch中都要安装elasticsearch-analysis-ik。安装过程1.linux安装zip解压器yum-yinstallunzip2.在原来的elasticsearch安装目录中的plugins目录下创建一个
Elasticsearch安装、Ik分词器安装、head管理界面安装（Windows && Linux） JasonHome ElasticSearch Elassticsearch es ik head 分词器
Elasticsearch安装与使用(Windows&&Linux)官方下载地址：https://www.elastic.co/cn/downloads/elasticsearchhead插件安装(es可视化界面)github地址：https://github.com/mobz/elasticsearch-headIk分词器安装github地址：https://github.com/medcl/e
【亲测免费】 Elasticsearch-analysis-ik中文分词插件徐忱澜
Elasticsearch-analysis-ik中文分词插件【下载地址】Elasticsearch-analysis-ik中文分词插件elasticsearch-analysis-ik是一款专为Elasticsearch设计的中文分词插件，版本7.17.6。它能够高效处理中文文本，提供精准的分词功能，极大提升搜索体验。安装简单，只需下载、解压并放置到Elasticsearch的plugins目录
推荐 Elasticsearch 分析插件 - elasticsearch-analysis-ik 芮伦硕
推荐Elasticsearch分析插件-elasticsearch-analysis-ik如果你正在寻找一个强大的、中文分词效果出色的Elasticsearch分析插件，那么elasticsearch-analysis-ik绝对值得你的关注。什么是elasticsearch-analysis-ik？elasticsearch-analysis-ik是一个针对Elasticsearch的中文分析插件
Elasticsearch安装中文分词器elasticsearch-analysis-ik 大数据 JieLun_C 大数据 elasticsearch 中文分词
Elasticsearch安装中文分词器elasticsearch-analysis-ik大数据近年来，随着大数据技术的不断发展，搜索引擎的应用需求也日益增加。而对于中文搜索引擎而言，一个好用的中文分词器是至关重要的。在Elasticsearch中，我们可以使用elasticsearch-analysis-ik插件来实现中文分词功能。本文将为大家详细介绍在安装和配置elasticsearch-an
深度剖析AI人工智能情感分析的算法原理 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构人工智能算法 easyui ai
深度剖析AI人工智能情感分析的算法原理关键词：情感分析、自然语言处理、机器学习、深度学习、文本分类、情感词典、BERT摘要：本文将深入浅出地讲解AI情感分析的技术原理，从基础概念到核心算法，再到实际应用。我们将探索计算机如何理解人类情感，分析文本背后的情绪色彩，并介绍当前最先进的情感分析技术。通过生活化的比喻和代码实例，帮助读者全面理解这一AI领域的重要应用。背景介绍目的和范围情感分析(Senti
【C++11】可变参数模板愚润泽 C++学习笔记 c++开发语言笔记模板 C++11
前言：这篇文章我们来讲讲C++11——可变参数模板：个人简介：努力学习ing个人专栏：C++学习笔记CSDN主页愚润求学其他专栏：C语言入门基础，python入门基础，python刷题专栏，Linux文章目录一，什么是可变参数模板二，基本语法三，可变参数模板的使用参数包作为整体包展开错误示范1（不能args[i]）普通一次展开递归展开错误示范2（if运行时判断）ifconstexpr编译时判断解决
华为OD机考2025C卷 - 中文分词模拟器 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD机试2025C卷华为OD机考2025C卷华为OD2025C卷
中文分词模拟器华为OD机试真题目录点击查看:华为OD机试2025C卷真题题库目录｜机考题库+算法考点详解华为OD机试2025C卷200分题型题目描述给定一个连续不包含空格的字符串，该字符串仅包含英文小写字母及英文标点符号（逗号、分号、句号），同时给定词库，对该字符串进行精确分词。说明：精确分词：字符串分词后，不会出现重叠。即"ilovechina"，不同词库可分割为"i,love,china"，“
定焦增量，保持希望鄢中堡
我们总是对短期的期望过高，长期的期望过低。每当想放弃，对未来失望的时候，就应该读几次这句话。只要努力，每天都会有进步。我们付出的每一分汗水，都在改变我们的未来。虽然每天变化的增量微不足道，但是和时间作朋友，等重复次数足够多的时候，会从量变引起质变。我们很多时候，可能会太过于关注存量，而忽视了增量，以至于很绝望。我重新开始学英语的时候，发现词汇量只剩下了3000多个，而大部分词典上，都是近万的单词。
青岛文化市场掠影学谦斋
今天周日，近日青岛天气连续高温高湿，使人感觉到又闷又热，但对于岛城人民喜欢收藏奇石和收藏的读书来说是个不容错过的时机。在昌乐路文化市场路的一旁，摆满了地摊，有卖奇石，葫芦，根艺，还有古旧家具的，在文化市场院内摆满了书摊。我今天卖的书有，中华书局出版的诗经，唐诗故事三本，中华名人字画欣赏词典，中国青年出版社出版的，还有一本评书，一本文明杂志，一本中国国家地理杂志都是熟面孔。
超大规模生成式中文预训练语言模型：CPM的构建与应用王良一呀语言模型人工智能神经网络
【量子阅读】大规模预训练模型：提出了一个超大规模的生成式中文预训练语言模型（CPM），参数量达到26亿，这是目前最大的中文预训练语言模型。新词元构建：提出了一个新的子词词典，适应中文语料库，并增加了批量大小以提高模型训练的稳定性。大规模训练策略：通过增加批量大小和分布式训练策略，使得大型模型的训练成为可能，减少了节点间的数据传输。【摘要】本文介绍了清华大学与BAAI联合发布的中文预训练语言模型（C
2、Python入门指南：从安装到基础操作白露未晞593 Python安装 Python基础语法数据类型
Python入门指南：从安装到基础操作1.Python安装1.1Linux系统安装使用Anaconda：根据系统配置下载安装程序，在终端窗口中输入并按照说明执行：bashAnaconda3-x.x.x-Linux-x86_xx.sh。从官方网站下载：若不想使用Anaconda安装包，可以访问Python官方网站www.python.org/downloads/，浏览适合自己操作系统的部分，然后下载
[报告和源码分享] 基于C#和SQL SERVER的汉字词典的设计与实现 ggdd5151
汉字的发展历史悠久，从甲骨文到到象形文字，再到简体中文。经历了不少变革。汉字词典不仅做为学习的工具，也是记录历史的史册。从《康熙字典》到《现在汉语字典》，短短百年收录的内容就已经发生了巨大的变化。不仅字典的内容有增删调整。汉字词典的形式也发展到多种多样。在互联网世界的今天衍生出Web版的汉字词典。基于Web的汉字词典是可通过互联网访问，根据用户输入的内容给出查询结果的程序。是一个让用户便于认识、学
PyTorch生成式人工智能（18）——循环神经网络详解与实现盼小辉丶 pytorch rnn 自然语言处理
PyTorch生成式人工智能（18）——循环神经网络详解与实现0.前言1.文本生成的挑战2.循环神经网络2.1文本数据2.2循环神经网络原理3.长短期记忆网络3.自然语言处理基础3.1分词3.2词嵌入3.3词嵌入在自然语言处理中的应用小结系列链接0.前言我们已经学习了如何生成数字和图像等内容。从本节开始，我们将主要聚焦于文本生成。人类语言极其复杂且充满细微差别，不仅仅涉及语法和词汇的理解，还包括上
python flask restful_Flask应用示例1 - 通过Flask实现Restful服务 weixin_39548787 python flask restful
1，前言Python的强大，已经涉及到软件开发领域的方方面面。然而，Python入门容易，精确很难，需要深入研究。在Web方面同样如此，常用的PythonWeb框架，例如Django、Flask、Tornado等等，共计有100多种，各有优劣。本文以Flask为例，介绍Flask的Restful实现方式，主要实现对数据表的增删查改操作。2，需求在开发代码之前，需要提前明确URL请求、HTTP方法与
说一说加油 ccpjsg
今天要说的加油，不是汽车加油。而是我们看比赛时欢呼呐喊的加油。以前英语老师总说我们是中式英语，有的表达是中式的句式。howoldareyou?是问你多大了，你多少岁？但是有的学生却说成是怎么老是你？当然是玩笑话，但是我们也知道这是不正规的，只能平时开玩笑用。但是这一境况正在改变。今天就看了一条微博，加油的中式表达，addoil,被牛津词典收录。这就意味着addoil可以光明正大的出现在任何地方。本
Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction zzfive 生成模型论文阅读 kotlin 开发语言 android
论文链接：VisualAutoregressiveModeling:ScalableImageGenerationviaNext-ScalePrediction文章目录简介预测下一个token自回归模型范式分析VAR详解分词实现细节幂律缩放定律零样本泛化能力结论简介本文提出的视觉自回归建模/VAR这种新范式，其将图像的自回归学习重新定义为从粗到细的“下一个尺度预测”或“下一个分辨率预测”，与常规的
图灵python从入门到实践浮点数_Python编程从入门到实践-图灵出品-pdf 巴黎巨星岬太郎
封面简介本书是一本针对所有层次的Python读者而作的Python入门书。全书分两部分：首部分介绍用Python编程所必须了解的基本概念，包括matplotlib、NumPy和Pygal等强大的Python库和工具介绍，以及列表、字典、if语句、类、文件与异常、代码测试等内容；第二部分将理论付诸实践，讲解如何开发三个项目，包括简单的Python2D游戏开发，如何利用数据生成交互式的信息图，以及创建
强大的销售团队背后竟然是大数据分析的身影蓝儿唯美数据分析
Mark Roberge是HubSpot的首席财务官，在招聘销售职位时使用了大量数据分析。但是科技并没有挤走直觉。大家都知道数理学家实际上已经渗透到了各行各业。这些热衷数据的人们通过处理数据理解商业流程的各个方面，以重组弱点，增强优势。 Mark Roberge是美国HubSpot公司的首席财务官，HubSpot公司在构架集客营销现象方面出过一份力——因此他也是一位数理学家。他使用数据分析
Haproxy+Keepalived高可用双机单活 bylijinnan 负载均衡 keepalived haproxy 高可用
我们的应用MyApp不支持集群，但要求双机单活（两台机器：master和slave）： 1.正常情况下，只有master启动MyApp并提供服务 2.当master发生故障时，slave自动启动本机的MyApp，同时虚拟IP漂移至slave，保持对外提供服务的IP和端口不变 F5据说也能满足上面的需求，但F5的通常用法都是双机双活，单活的话还没研究过服务器资源 10.7
eclipse编辑器中文乱码问题解决 0624chenhong eclipse乱码
使用Eclipse编辑文件经常出现中文乱码或者文件中有中文不能保存的问题，Eclipse提供了灵活的设置文件编码格式的选项，我们可以通过设置编码格式解决乱码问题。在Eclipse可以从几个层面设置编码格式：Workspace、Project、Content Type、File 本文以Eclipse 3.3（英文）为例加以说明： 1. 设置Workspace的编码格式： Windows-&g
基础篇--resources资源不懂事的小屁孩 android
最近一直在做java开发，偶尔敲点android代码，突然发现有些基础给忘记了，今天用半天时间温顾一下resources的资源。 String.xml 字符串资源涉及国际化问题 http://www.2cto.com/kf/201302/190394.html string-array
接上篇补上window平台自动上传证书文件的批处理问卷酷的飞上天空 window
@echo off : host=服务器证书域名或ip，需要和部署时服务器的域名或ip一致 ou=公司名称, o=公司名称 set host=localhost set ou=localhost set o=localhost set password=123456 set validity=3650 set salias=s
企业物联网大潮涌动：如何做好准备？蓝儿唯美企业
物联网的可能性也许是无限的。要找出架构师可以做好准备的领域然后利用日益连接的世界。尽管物联网（IoT）还很新，企业架构师现在也应该为一个连接更加紧密的未来做好计划，而不是跟上闸门被打开后的集成挑战。“问题不在于物联网正在进入哪些领域，而是哪些地方物联网没有在企业推进，” Gartner研究总监Mike Walker说。 Gartner预测到2020年物联网设备安装量将达260亿，这些设备在全
spring学习——数据库（mybatis持久化框架配置） a-john mybatis
Spring提供了一组数据访问框架，集成了多种数据访问技术。无论是JDBC，iBATIS(mybatis)还是Hibernate，Spring都能够帮助消除持久化代码中单调枯燥的数据访问逻辑。可以依赖Spring来处理底层的数据访问。 mybatis是一种Spring持久化框架，要使用mybatis，就要做好相应的配置： 1，配置数据源。有很多数据源可以选择，如：DBCP，JDBC，aliba
Java静态代理、动态代理实例 aijuans Java静态代理
采用Java代理模式，代理类通过调用委托类对象的方法，来提供特定的服务。委托类需要实现一个业务接口，代理类返回委托类的实例接口对象。按照代理类的创建时期，可以分为：静态代理和动态代理。所谓静态代理：　指程序员创建好代理类，编译时直接生成代理类的字节码文件。所谓动态代理：　在程序运行时，通过反射机制动态生成代理类。一、静态代理类实例： 1、Serivce.ja
Struts1与Struts2的12点区别 asia007 Struts1与Struts2
1) 在Action实现类方面的对比：Struts 1要求Action类继承一个抽象基类；Struts 1的一个具体问题是使用抽象类编程而不是接口。Struts 2 Action类可以实现一个Action接口，也可以实现其他接口，使可选和定制的服务成为可能。Struts 2提供一个ActionSupport基类去实现常用的接口。即使Action接口不是必须实现的，只有一个包含execute方法的P
初学者要多看看帮助文档不要用js来写Jquery的代码百合不是茶 jquery js
解析json数据的时候需要将解析的数据写到文本框中, 出现了用js来写Jquery代码的问题; 1, JQuery的赋值有问题代码如下: data.username 表示的是: 网易 $("#use
经理怎么和员工搞好关系和信任 bijian1013 团队项目管理管理
产品经理应该有坚实的专业基础，这里的基础包括产品方向和产品策略的把握，包括设计，也包括对技术的理解和见识，对运营和市场的敏感，以及良好的沟通和协作能力。换言之，既然是产品经理，整个产品的方方面面都应该能摸得出门道。这也不懂那也不懂，如何让人信服？如何让自己懂？就是不断学习，不仅仅从书本中，更从平时和各种角色的沟通
如何为rich:tree不同类型节点设置右键菜单 sunjing contextMenu tree Richfaces
组合使用target和targetSelector就可以啦，如下： <rich:tree id="ruleTree" value="#{treeAction.ruleTree}" var="node" nodeType="#{node.type}" selectionChangeListener=&qu
【Redis二】Redis2.8.17搭建主从复制环境 bit1129 redis
开始使用Redis2.8.17 Redis第一篇在Redis2.4.5上搭建主从复制环境，对它的主从复制的工作机制，真正的惊呆了。不知道Redis2.8.17的主从复制机制是怎样的，Redis到了2.4.5这个版本，主从复制还做成那样，Impossible is nothing! 本篇把主从复制环境再搭一遍看看效果，这次在Unbuntu上用官方支持的版本。 Ubuntu上安装Red
JSONObject转换JSON--将Date转换为指定格式白糖_ JSONObject
项目中，经常会用JSONObject插件将JavaBean或List<JavaBean>转换为JSON格式的字符串，而JavaBean的属性有时候会有java.util.Date这个类型的时间对象，这时JSONObject默认会将Date属性转换成这样的格式： {"nanos":0,"time":-27076233600000,
JavaScript语言精粹读书笔记 braveCS JavaScript
【经典用法】： //①定义新方法 Function .prototype.method=function(name, func){ this.prototype[name]=func; return this; } //②给Object增加一个create方法，这个方法创建一个使用原对
编程之美-找符合条件的整数用字符串来表示大整数避免溢出 bylijinnan 编程之美
import java.util.LinkedList; public class FindInteger { /** * 编程之美找符合条件的整数用字符串来表示大整数避免溢出 * 题目：任意给定一个正整数N，求一个最小的正整数M(M>1)，使得N*M的十进制表示形式里只含有1和0 * * 假设当前正在搜索由0，1组成的K位十进制数
读书笔记 chengxuyuancsdn 读书笔记
1、Struts访问资源 2、把静态参数传递给一个动作 3、<result>type属性 4、s:iterator、s:if c:forEach 5、StringBuilder和StringBuffer 6、spring配置拦截器 1、访问资源 (1)通过ServletActionContext对象和实现ServletContextAware,ServletReque
[通讯与电力]光网城市建设的一些问题 comsci 问题
信号防护的问题,前面已经说过了,这里要说光网交换机与市电保障的关系我们过去用的ADSL线路,因为是电话线,在小区和街道电力中断的情况下,只要在家里用笔记本电脑+蓄电池,连接ADSL,同样可以上网........
oracle 空间RESUMABLE daizj oracle 空间不足 RESUMABLE 错误挂起
空间RESUMABLE操作转 Oracle从9i开始引入这个功能，当出现空间不足等相关的错误时，Oracle可以不是马上返回错误信息，并回滚当前的操作，而是将操作挂起，直到挂起时间超过RESUMABLE TIMEOUT，或者空间不足的错误被解决。这一篇简单介绍空间RESUMABLE的例子。第一次碰到这个特性是在一次安装9i数据库的过程中，在利用D
重构第一次写的线程池 dieslrae 线程池 python
最近没有什么学习欲望,修改之前的线程池的计划一直搁置,这几天比较闲,还是做了一次重构,由之前的2个类拆分为现在的4个类. 1、首先是工作线程类:TaskThread,此类为一个工作线程,用于完成一个工作任务,提供等待(wait),继续(proceed),绑定任务(bindTask)等方法 #!/usr/bin/env python # -*- coding:utf8 -*-
C语言学习六指针 dcj3sjt126com c
初识指针，简单示例程序： /* 指针就是地址，地址就是指针地址就是内存单元的编号指针变量是存放地址的变量指针和指针变量是两个不同的概念但是要注意：通常我们叙述时会把指针变量简称为指针，实际它们含义并不一样 */ # include <stdio.h> int main(void) { int * p; // p是变量的名字， int *
yii2 beforeSave afterSave beforeDelete dcj3sjt126com delete
public function afterSave($insert, $changedAttributes) { parent::afterSave($insert, $changedAttributes); if($insert) { //这里是新增数据 } else { //这里是更新数据 } }
timertask shuizhaosi888 timertask
java.util.Timer timer = new java.util.Timer(true); // true 说明这个timer以daemon方式运行（优先级低， // 程序结束timer也自动结束），注意，javax.swing // 包中也有一个Timer类，如果import中用到swing包， // 要注意名字的冲突。 TimerTask task = new
Spring Security（13）——session管理 234390216 session Spring Security 攻击保护超时
session管理目录 1.1 检测session超时 1.2 concurrency-control 1.3 session 固定攻击保护
公司项目NODEJS实践0.3[ mongo / session ...] 逐行分析JS源代码 mongodb session nodejs
http://www.upopen.cn 一、前言书接上回，我们搭建了WEB服务端路由、模板等功能，完成了register 通过ajax与后端的通信，今天主要完成数据与mongodb的存取，实现注册 / 登录 /
pojo.vo.po.domain区别 LiaoJuncai java VO POJO javabean domain
　　POJO = "Plain Old Java Object"，是MartinFowler等发明的一个术语，用来表示普通的Java对象，不是JavaBean, EntityBean 或者 SessionBean。POJO不但当任何特殊的角色，也不实现任何特殊的Java框架的接口如，EJB， JDBC等等。　　　　即POJO是一个简单的普通的Java对象，它包含业务逻辑
Windows Error Code OhMyCC windows
0 操作成功完成. 1 功能错误. 2 系统找不到指定的文件. 3 系统找不到指定的路径. 4 系统无法打开文件. 5 拒绝访问. 6 句柄无效. 7 存储控制块被损坏. 8 存储空间不足, 无法处理此命令. 9 存储控制块地址无效. 10 环境错误. 11 试图加载格式错误的程序. 12 访问码无效. 13 数据无效. 14 存储器不足, 无法完成此操作. 15 系
在storm集群环境下发布Topology roadrunners 集群 storm topology spout bolt
storm的topology设计和开发就略过了。本章主要来说说如何在storm的集群环境中，通过storm的管理命令来发布和管理集群中的topology。 1、打包打包插件是使用maven提供的maven-shade-plugin，详细见maven-shade-plugin。 <plugin> <groupId>org.apache.maven.
为什么不允许代码里出现“魔数” tomcat_oracle java
　　在一个新项目中，我最先做的事情之一，就是建立使用诸如Checkstyle和Findbugs之类工具的准则。目的是制定一些代码规范，以及避免通过静态代码分析就能够检测到的bug。　　迟早会有人给出案例说这样太离谱了。其中的一个案例是Checkstyle的魔数检查。它会对任何没有定义常量就使用的数字字面量给出警告，除了-1、0、1和2。　　很多开发者在这个检查方面都有问题，这可以从结果
zoj 3511 Cake Robbery(线段树) 阿尔萨斯线段树
题目链接：zoj 3511 Cake Robbery 题目大意：就是有一个N边形的蛋糕，切M刀，从中挑选一块边数最多的，保证没有两条边重叠。解题思路：有多少个顶点即为有多少条边，所以直接按照切刀切掉点的个数排序，然后用线段树维护剩下的还有哪些点。 #include <cstdio> #include <cstring> #include <vector&