啊波阿波波

NLP--自然语言处理学习-day1

一.初步认识NLP

自然语言处理（Natural Language Processing, NLP）是计算机科学和人工智能（AI）的一个交叉领域，旨在使计算机能够理解、分析、生成和处理人类语言的能力。它结合了计算语言学、人工智能、机器学习和语言学等多个领域的知识。

NLP的主要任务

文本分类：
- 将文本内容分配到一个或多个类别中，例如垃圾邮件分类、情感分析等。
命名实体识别（NER）：
- 从文本中识别出特定类型的实体，如人名、地名、组织名等。
机器翻译：
- 将一种语言的文本自动翻译成另一种语言，如谷歌翻译。
文本生成：
- 根据输入文本生成新的文本，例如对话生成、摘要生成等。
情感分析：
- 判断文本中表达的情绪，如积极、消极或中立。
问答系统：
- 根据用户的自然语言提问，自动提供相关的答案，如智能助手（如Siri、Alexa）。
语言建模：
- 预测给定文本序列中下一个单词或字符的概率，用于生成连贯的文本。
语音识别：
- 将语音信号转换为文本，是NLP和信号处理的结合。

NLP的应用场景

聊天机器人和虚拟助手：用于客户服务、信息获取等。
搜索引擎：通过NLP改进信息检索。
内容推荐：根据用户兴趣推荐相关内容。
社交媒体分析：分析用户反馈、趋势和情绪。
医学信息处理：从医疗文档中提取有用信息。

NLP的挑战

语言的模糊性：同一词在不同上下文中的意义可能不同。
多义性：一个单词在不同情况下可能有多种含义。
语法和句法复杂性：各种语言的语法规则差异较大。
上下文理解：理解文本的上下文对准确处理语言至关重要。
数据稀缺性：对于某些少数语言或领域，标注数据可能不足。

二.NLP的特征工程

特征工程是机器学习和自然语言处理（NLP）中的一个重要步骤，主要指的是从原始数据中提取出具有代表性的特征，以便于模型的训练和预测。在NLP中，特征工程的目标是将文本数据转换为机器学习模型可以理解和处理的形式。以下是一些在NLP中特征工程的常见方法和技术：

1. 文本预处理

在进行特征提取之前，通常需要对文本数据进行预处理，以提高模型的效果：

去除噪声：去除标点符号、数字和特殊字符。
分词：将文本划分为单词或其他有意义的单位（tokenization）。
小写化：将文本统一转换为小写，以减少词汇的多样性。
去停用词：去掉常见但信息量小的词（如“的”、“是”、“在”等）。

2. 特征提取方法

在预处理完成后，可以使用以下方法将文本转换为特征向量：

TF-IDF（Term Frequency-Inverse Document Frequency）：
- 计算每个单词相对于文档的权重，将词频和反向文档频率结合，使得常见词的权重减小，稀有词的权重增加。
词嵌入（Word Embeddings）：
- 采用预训练的词向量（如Word2Vec、GloVe、FastText等）来表示单词，能够捕捉单词之间的语义关系和相似性。
段落或文档嵌入：
- 对整段文本或完整文档进行嵌入，例如使用Doc2Vec或BERT等模型，这样可以捕捉上下文信息。

3. 特征选择

特征选择是找到对模型性能最有贡献的特征并去掉无关特征的过程：

基于模型的选择：通过训练模型来评估每个特征的重要性，从而进行选择（例如，使用树模型进行特征重要性评分）。
统计测试：利用统计方法来评估特征与目标变量之间的关系。
降维技术：如主成分分析（PCA）、线性判别分析（LDA）等，减少特征空间的维度。

三.词向量

词向量（Word Embedding）是将文本中的单词映射到连续向量空间中的一种表示方法。通过词向量，单词之间的语义信息和上下文关系能够被自然地捕捉到。词向量不仅有效降低了文本处理中的高维度问题，还可以在多种NLP任务中提高模型的性能。以下是对词向量的详细介绍：

1. 词向量的基本概念

稠密表示：与传统的词袋模型或TF-IDF不同，词向量为每个单词提供了一个低维的稠密向量表示，通常是100维到300维，能够更好地捕捉单词的语义特征。
语义相似性：词向量的设计使得相似意义的单词在向量空间中更接近。例如，"king"和"queen"的向量距离比"king"和"apple"的距离要近。

2. 词向量的应用

文本分类：提高分类器的输入特征质量。
情感分析：捕捉单词之间的语义关系，提升模型性能。
机器翻译：增强机器翻译模型对单词的理解能力。
问答系统：提升用户问题理解的准确性。

3. 词向量的优缺点

优点：

捕捉语义：能够捕捉单词之间丰富的语义关系。
降低维度：将稀疏的高维文本表示转换为低维稠密向量，有助于模型的训练。
泛化能力：相似的词向量能够帮助模型更好地泛化到新数据。

缺点：

静态性：传统词向量（如Word2Vec、GloVe）生成的向量是静态的，即一个单词在所有上下文中的表示都是一样的，无法捕捉多义词的不同含义。
缺乏上下文信息：无法处理上下文变化带来的不同含义。

词向量是NLP中的重要工具，通过将单词映射到向量空间中，极大地改善了文本数据的处理和分析能力。从Word2Vec到BERT的发展，展示了词向量表示技术的不断进步和创新，为各种NLP任务提供了强大的支持。随着技术的不断发展，未来的词向量生成方法会更加关注上下文和动态表示的能力。

四.独热编码 one - hot

独热编码（One-Hot Encoding）是一种常见的分类数据编码技术，其目的是将分类特征转换为可用于机器学习模型的数值格式。它将每个类别转换为一个二进制向量，其中只有一个元素为1（表示该类别），其余元素均为0（表示其他类别）。这种编码方式使得算法能够理解和处理分类特征。

1. 独热编码的原理

独热编码的核心思想是为每一个类别创建一个新的特征（列），并在这些特征中使用二进制值来表示该类别的存在与否。给定一个有N个不同类别的特征，独热编码将其转换为一个N维的二进制向量。

例如，如果有一个颜色特征，有三个可能的值：红、蓝、绿。经过独热编码后：

红：[1, 0, 0]
蓝：[0, 1, 0]
绿：[0, 0, 1]

2. 独热编码的步骤

确定类别：确定要编码的分类特征的所有唯一值。
创建新特征：为每一个类别创建一个新的特征（列）。
编码：将每个样本的分类特征转换为独热编码的向量。

3. 优势

消除了大小关系：通过将分类变量转换为二进制格式，消除了数据中可能存在的大小关系，使得算法在处理时不会将分类变量的意义误解为数字大小。
简单易懂：适用于大多数机器学习算法，易于实现和理解。

4. 劣势

维度灾难：如果类别数量极大，会导致特征空间的维度剧增，从而增加计算成本和复杂性，这在深度学习中可能会使模型变得困难以训练并容易过拟合。
稀疏表示：独热编码生成的向量大多数元素为0，形成稀疏矩阵，可能导致效率低下。

5. 使用场景

独热编码适用于各种需要对分类特征进行处理的机器学习应用，例如：

分类问题（如文本分类、图像分类等）
回归问题（当自变量为类别时）
无序类别数据（不具有大小关系的类别）

6. Python 中的实现

在Python中，可以使用库如pandas和sklearn轻松进行独热编码。

使用 pandas:

import pandas as pd

# 创建一个示例 DataFrame
df = pd.DataFrame({'颜色': ['红', '蓝', '绿', '蓝', '红']})

# 使用 pd.get_dummies 进行独热编码
one_hot_encoded = pd.get_dummies(df, columns=['颜色'])
print(one_hot_encoded)

使用 sklearn:

from sklearn.preprocessing import OneHotEncoder

# 创建一个示例数据
data = [['红'], ['蓝'], ['绿'], ['蓝'], ['红']]
encoder = OneHotEncoder(sparse=False)

# 进行独热编码
one_hot_encoded = encoder.fit_transform(data)
print(one_hot_encoded)

总结

独热编码是一种有效的数据预处理方法，可以将分类数据转换为模型可用的数值格式。虽然它有一些缺点，如可能导致的维度灾难，但在许多机器学习任务中，它仍然是非常流行和实用的选择。

五.词频-逆文档频率（TF-IDF

词频-逆文档频率（TF-IDF，Term Frequency-Inverse Document Frequency）是一种常用的信息检索和文本挖掘技术，用于评估单词在文档集合中的重要性。TF-IDF结合了两个重要的概念：词频（TF）和逆文档频率（IDF），通过这两者的结合，能够在一定程度上反映出一个单词在特定文档中的重要性。

1. 词频（TF）

词频是指某个单词在文档中出现的频率。TF的计算公式为：

$\frac{\text{词t在文档d中的出现次数}}{\text{文档d中的总词数}}$

其中，

( t ) 是单词，( d ) 是文档。

TF值越高，表示这个单词在该文档中的重要性越高。

2. 逆文档频率（IDF）

逆文档频率是用于衡量某个单词在整个文档集合中的普遍性。IDF的计算公式为：

$\log\left(\frac{N}{\text{包含词t的文档数量} + 1}\right)$

其中，

( N ) 是文档总数。
包含词 ( t ) 的文档数量是指包含该单词的文档数量。

IDF值越高，表示单词在文档集合中的稀有性越大。

3. TF-IDF 计算

TF-IDF的计算公式为：

$\times IDF(t)$

通过将词频和逆文档频率相乘，TF-IDF能够同时考虑单词在单个文档中的重要性和在整个文档集合中的稀有性。

4. 特点与优点

强调特定性：TF-IDF能够有效地识别特定且稀有的词语，从而提升信息检索的准确性。
抑制常用词：常用词（如“是”、“的”等）通常在所有文档中出现频率较高，因此其IDF值较低，从而在TF-IDF的计算中被降低权重，对信息检索无太大帮助。
应用广泛：TF-IDF广泛应用于文本分类、文本聚类、信息检索等领域。

5. 使用场景

文档检索：可以帮助提高搜索引擎对用户查询的相关性。
关键词提取：提供对文档中重要词汇的分析。
文本相似度计算：用于衡量不同文档之间的相似度。

6. Python 实现

在Python中，可以使用scikit-learn库来计算TF-IDF，下面是一个简单的示例：

from sklearn.feature_extraction.text import TfidfVectorizer

# 示例文档
documents = [
    "这是一篇关于机器学习的文章。",
    "机器学习是一门热门的学科。",
    "这篇文章介绍了机器学习的基本概念。"
]

# 创建TF-IDF向量器
vectorizer = TfidfVectorizer()

# 拟合文档并转换为TF-IDF矩阵
tfidf_matrix = vectorizer.fit_transform(documents)

# 获取词汇
feature_names = vectorizer.get_feature_names_out()

# 转换为数组并打印
tfidf_array = tfidf_matrix.toarray()

for i, doc in enumerate(tfidf_array):
    print(f"文档 {i + 1} 的 TF-IDF: {dict(zip(feature_names, doc))}")

总结

TF-IDF是处理文本数据的有效工具，通过考虑单词在文档中的频率和在整个文档集合中的稀有性，它可以帮助识别文本中最为重要的单词。TF-IDF在信息检索、文本分析和自然语言处理等领域得到了广泛的应用。

六.n-grams

n-grams 是自然语言处理（NLP）中的一种技术，用于从文本中提取和分析相邻的 n 个词（或字符）组合，以捕捉文本的上下文和序列信息。n-grams 可以用来表示文本中词汇的排列模式，通常用于语言建模、信息检索、文本分类、情感分析等任务。

1. n-grams 的定义

n-grams 是指将连续的 n 个项提取出来的序列，n 可以是任意正整数。n-grams 可以基于词（word）或字符（character）进行提取。
例如，对于文本 “I love natural language processing”：
- 1-grams（unigrams）：["I", "love", "natural", "language", "processing"]
- 2-grams（bigrams）：["I love", "love natural", "natural language", "language processing"]
- 3-grams（trigrams）：["I love natural", "love natural language", "natural language processing"]

2. n-grams 的类型

Unigrams（1-grams）：单个词。例如：{“I”, “love”, “natural”, “language”, “processing”}
Bigrams（2-grams）：连续的两个词组合。例如：{“I love”, “love natural”, “natural language”, “language processing”}
Trigrams（3-grams）：连续的三个词组合。例如：{“I love natural”, “love natural language”, “natural language processing”}
Higher-order n-grams：这可以继续扩展到更高的 n 值，如 4-grams、5-grams 等。

3. n-grams 的应用

n-grams 被广泛应用于自然语言处理的多个领域，例如：

语言模型：用于预测下一个词，或者生成相似的句子结构。
文本分类：用来提取特征，从而进行情感分析、主题识别等。
信息检索：提升搜索引擎的准确性，通过匹配 n-grams 来找出相关文档。
拼写纠正：利用 n-grams 的上下文信息帮助识别和更正拼写错误。
机器翻译：在翻译过程中，通过 n-grams 识别和生成标准的短语。

4. 优势与劣势

优势：

上下文信息：通过提取相邻的词或字符，n-grams 能够捕捉到文本的上下文和结构信息。
简单易用：n-grams 是容易理解和实现的特征提取方法。

劣势：

稀疏性：许多 n-grams 的组合可能在语料中出现次数较少，导致数据稀疏问题。
计算复杂度：随着 n 值的增加，n-grams 的数量会指数级增长，导致计算和存储成本增加。
上下文丢失：较大的 n 值虽然提供了更多上下文信息，但可能会忽略全局上下文。

5. Python 中的实现

在 Python 中，可以 sklearn 等库来实现 n-grams 的提取。以下是一个示例：

使用 Scikit-learn

from sklearn.feature_extraction.text import CountVectorizer

# 示例文本
documents = [
    "I love natural language processing.",
    "Natural language processing is fascinating."
]

# 创建 CountVectorizer，用于提取 bigrams
vectorizer = CountVectorizer(ngram_range=(2, 2))
X = vectorizer.fit_transform(documents)

# 得到特征名称
bigrams = vectorizer.get_feature_names_out()
print("Bigrams:", bigrams)

Bigrams: ['is fascinating' 'language processing' 'love natural' 'natural language'
 'processing is']

n-grams 是 NLP 中一种重要的特征提取技术，通过提取连续的 n 个词或字符组合，能成功捕捉上下文信息。这种方法在多个语言处理任务中都有广泛的应用。尽管 n-grams 也存在一些局限性，但在许多场景下，它们仍然是分析和理解文本的重要工具。

七.稠密编码

稠密编码（Dense Encoding），通常在自然语言处理（NLP）与机器学习中被称为特征嵌入（Feature Embedding），是一种将高维稀疏特征转换为低维稠密向量的技术。这种表示方式可以更有效地捕捉数据中的重要结构和语义信息，特别是在文本和图像处理中非常常见。

1. 什么是特征嵌入

特征嵌入是将离散的（通常是高维的）特征映射到一个连续的、低维的向量空间。通过这种方式，我们能够将复杂的对象（例如单词、句子、图像等）表示为实数向量，便于进行计算和处理。

例如，在文本处理中，单词通过嵌入技术可以被表示为一个固定维度的向量，这个向量捕捉到了单词的语义信息和上下文关系。

2. 特征嵌入的优势

低维表示：与稀疏编码相比，特征嵌入将高维空间映射到低维空间，从而减少计算复杂度和内存消耗。
语义相似性：相似的对象会被映射到相近的向量，从而能够捕捉到更深层次的语义关系。
增强模型性能：在许多任务中，嵌入表示可以显著改善模型的性能，特别是在处理自然语言和图像数据时。

3. 使用示例

以下是如何使用 gensim 库中的 Word2Vec 实现特征嵌入的简单示例：

import gensim
from gensim.models import Word2Vec

# 示例语料库
sentences = [["I", "love", "natural", "language", "processing"],
             ["Natural", "language", "processing", "is", "fun"],
             ["I", "enjoy", "learning", "new", "things"]]

# 训练 Word2Vec 模型
model = Word2Vec(sentences, vector_size=50, window=3, min_count=1, sg=1)

# 获取单词的嵌入向量
vector = model.wv['natural']
print("自然的嵌入向量:", vector)

# 查找相似词
similar_words = model.wv.most_similar('natural', topn=5)
print("类似于“自然”的词:", similar_words)

x86-64汇编语言训练程序与实战十除以十等于一
本文还有配套的精品资源，点击获取简介：汇编语言是一种低级语言，与机器代码紧密相关，特别适用于编写系统级代码及性能要求高的应用。nasm编译器是针对x86和x86-64架构的汇编语言编译器，支持多种语法风格和指令集。项目Euler提供数学和计算机科学问题，鼓励编程技巧应用，前100个问题的答案可共享。x86-64架构扩展了寄存器数量并引入新指令，提升了数据处理效率。学习汇编语言能够深入理解计算机底层
三菱PLC全套学习资料及应用手册 good2know
本文还有配套的精品资源，点击获取简介：三菱PLC作为工业自动化领域的核心设备，其系列产品的学习和应用需要全面深入的知识。本次资料包为学习者提供从基础到进阶的全方位学习资源，包括各种型号PLC的操作手册、编程指南、软件操作教程以及实际案例分析，旨在帮助用户系统掌握PLC的编程语言、指令系统及在各类工业应用中的实施。1.三菱PLC基础知识入门1.1PLC的基本概念可编程逻辑控制器（PLC）是工业自动化
日更006 终极训练营day3 懒cici
人生创业课（2）今天的主题：学习方法一：遇到有用的书，反复读，然后结合自身实际，列践行清单，不要再写读书笔记思考这本书与我有什么关系，我在哪些地方能用到，之后我该怎么用方法二：读完书没映像怎么办?训练你的大脑，方法：每读完一遍书，立马合上书，做一场分享，几分钟都行对自己的学习要求太低，要逼自己方法三：学习深度不够怎么办？找到细分领域的榜样，把他们的文章、书籍、产品都体验一遍，成为他们的超级用户，向
day15｜前端框架学习和算法 universe_01 前端算法笔记
T22括号生成先把所有情况都画出来，然后（在满足什么情况下）把不符合条件的删除。T78子集要画树状图，把思路清晰。可以用暴力法、回溯法和DFS做这个题DFS深度搜索：每个边都走完，再回溯应用：二叉树搜索，图搜索回溯算法=DFS+剪枝T200岛屿数量（非常经典BFS宽度把树状转化成队列形式，lambda匿名函数“一次性的小函数，没有名字”setup语法糖：让代码更简洁好写的语法ref创建：基本类型的
《极简思维》第三部分小洋苏兮
整理你的人际关系如何改善人际关系？摘录：因为人际关系问题是人们生活中不快乐的主要原因。感想：感觉这个说的挺对，之前我总是埋头学习，不管舍友不管自己的合作伙伴的一些事情，但实际上，这学期关注了之后好多了摘录：“亲密关系与社交会让你健康而快乐。这是基础。太过于关注成就或不太关心人际关系的人都不怎么快乐。基本上来说，人类就是建立在人脉关系上的。”感想：但是如果有时想的太多就不太好，要以一个开放的心态跟别
你要记住，最重要的是:随时做好准备，为了你可能成为更好的自己，放弃现在的自己。霖霖z
打卡人:周云日期:2018年11月09日【日精进打卡第180天】【知～学习】《六项精进》0遍共214遍《通篇》1遍共106遍《大学》2遍共347遍《坚强工作，温柔生活》ok《不抱怨的世界》104-108页《经典名句》你要记住，最重要的是:随时做好准备，为了你可能成为更好的自己，放弃现在的自己。【行～实践】一、修身：（对自己个人）1、坚持打卡二、齐家：（对家庭和家人）打扫卫生，接送孩子，洗衣做饭，陪
贫穷家庭的孩子考上985以后会怎样？ Mellisa蜜思言
我出生在一个贫穷的农村家庭，据我妈说，我出生的时候才4斤多，而她生完我以后月子里就瘦到70斤。家里一直很穷，父母都是在菜市场卖菜的，家里还有几亩地种庄稼的。我很小开始就要去帮忙，暑假的生活就是帮忙去卖菜和割稻谷，那时候自己对于割稻谷这种事情有着莫名的恐惧，生怕自己长大以后还是每年都要过着割稻谷这种日子。父母因为忙于生计无暇顾及我的学习，幸好我因为看到他们这样子的生活，内心里有深深的恐惧感，驱使着我
2019-06-05 第十七把巴鲁克
今天去实验田里实习，见到了福寿螺真的可怕且牛皮，六级也快来了，说实话还是害怕。我昨天考了环工原理，真的太难了，太烦了，理工科真的难，烦。实验报告还是没写，要抓紧速度抓紧时间，还是应该学会努力学习，远离一些不上进的事物。
为什么焦虑、抑郁、自残的青少年越来越多？精神健康
很多家长觉得没缺孩子吃的穿的，他们有安稳的生活，他们有什么可焦虑、抑郁的，但现在的孩子，学习压力越来越大，每天休息的时间越来越少，出现焦虑抑郁是很正常的。从发展的角度看，青少年时期，人的身体、情绪，智力、人格都急剧发展，正从未成熟走向成熟，情绪起伏不定，易冲动，再者，由于缺乏生活经验，以及来自于家长、学校、社会的各种要求和压力，从而不知所措，心中的焦虑、恐惧、彷徨得不到及时的排解，从而导致心理上的
读书打卡《别想太多啦》 chenchen_68ed
第一，世间之事，不去尝试永远不知道其中的奥秘，在尝试中有失败是必然的。如果担心失败，那什么都学不会。第二，经历的失败越多，越会对失败者抱有宽容的态度，“原来如此，我也经历过类似的失败啦，那只是暂时的”。经历越多失败的长者，越能包容别人，这也就是所谓的“越年长越宽容”。成熟的人，就是在众多失败经历中不断学习，并接纳别人的失败。对于他人的小小过失不吹毛求疵，自己的心态会更加平和。在不断失败中学习，让自
2023-01-26 胡喜平
我觉得《可见的学习》一书确实从底层逻辑说清楚了，教学的本质。可是太多术语和概念，一时间难以消化啊。而且知道和懂得有距离，运用就更不行了，需要高手和专家的指导。我需要多听听新课标的讲座了，来反复印证。读论文也有了一点点灵感，明天修改我的论文。
平静得接受自己的笨拙 20190118 晨间日记吴伯符
图片发自App最近做了一个关于微习惯的分享，这里有八个字：微量开始，超额完成。这里的言下之意其实是要你在一开始的时候，平静地接受自己的笨拙。接受自己的笨拙，理解自己的笨拙，放慢速度尝试，观察哪里可以改进，再反复练习，观察自己哪里可以再进一步改进，再反复…这是学习一切技能的必须的过程。这里的两个关键点是：1.尽快的开始这个过程，这就能够用到微习惯的微量开始。2.尽快的度过这个过程，这就需要用到超额完
二十四节气组诗谷雨离陌_6639
图片来源网络，若侵犯了你的权益，请联系我删除6.谷雨文/离陌背上行囊背上如行囊的我从此任行程马不停蹄今天家乡的田野春雨快马加鞭播下希望的种子观音不语目送着我和夏天一道在观音山出关图片来源网络，若侵犯了你的权益，请联系我删除你好啊，我是离陌，已然在懵懂中走过了16年的岁月，为了珍惜当下的每一秒，所以立志做一名终身学习者。文学对于我来说是一种信仰，诗歌是我的生命。人生之道，四通八达，即入文学，自当持之
你好，2020年瑄瑄妍妍的妈咪
早上好，今天是2020年的第一天，也就是元旦，新年新的一天开始了。新的开始，重新规划未来的一年。从今天开始，用了一个新的记账软件，之前的随手记软件，也没有删除，只是重新下载了一个别的软件，开始一个新的记账旅程，对于理财开支，有个新的规划。通过小红书视频软件，学习了不少育儿知识，和各种不同的美食，以后动手制作，给宝宝做健康美味的营养餐。学习方面，继续学英语吧！虽然是抽出时间学的，进度也比较慢，但是积
常规笔记本和加固笔记本的区别 luchengtech 电脑三防笔记本加固计算机加固笔记本
在现代科技产品中，笔记本电脑因其便携性和功能性被广泛应用。根据使用场景和需求的不同，笔记本可分为常规笔记本和加固笔记本，二者在多个方面存在显著区别。适用场景是区分二者的重要标志。常规笔记本主要面向普通消费者和办公人群，适用于家庭娱乐、日常办公、学生学习等相对稳定的室内环境。比如，人们在家用它追剧、处理文档，学生在教室用它完成作业。而加固笔记本则专为特殊行业设计，像军事、野外勘探、工业制造、交通运输
《云襄传》：云襄做的局是浑水摸鱼吗？书生号贺
云襄入南都是要浑水摸鱼吗？他是云台的高材生吗？他为啥笃定师父一定会让他留在南都？他为啥觉得他能够做局成功？他是在经商吗？还是在经营人心与欲望？云襄是云台弟子，云台属千门的一支，另一支叫凌渊，云台教人经商之道，重智慧，凌渊以武力取胜，但倍受打压。云襄学习十五年，下高山奔越州，途经南洋，因恩人闻聪被害，囚于白驹镇，念于情分，被卷入这样一个局面里，结识了舒亚南与金十两，于是，复仇小组成立，目标是南都漕帮
心力践行营十二期一阶学习打卡 LX_王彤彤
姓名：王彤彤时间：2021年4月24日一：朗读师父的十大人生哲学二：师父的早安分享感悟很喜欢这句话：所有的行动都是基于目标的尝试，没有所谓的失败，只是不同尝试后得到的不同结果，让我们更好地调整下一次的行动。三：感恩日记1.我太幸福了，我很感恩姑姑，因为姑姑放假又投喂了我，还给我带了饺子回家，这让我感觉很幸福。谢谢，谢谢，谢谢。2.我太幸福了，我很感恩师父晚上的直播，因为听他的分享我知道怎么更好的去
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
闭组进行时... 李亚青_强化班
今天是2019年12月1号距离开始三月学习的日子:2019年10月07,已经过去将近两个月，回顾这一阶段的学习，收获了什么?又学会了什么呢?图片发自App我想，收获最大的就是身边这一群人吧,有和蔼可亲的学姐，贴心的学长，嬉戏打闹，玩的不亦乐乎，但也同样认真踏实学习小伙伴图片发自App本以为在这样的时刻，有太多太多话，太多太多想法想要表达，可言到此处，又觉得似乎没有什么想要说的了还是那句话，幸运遇到
2021-10-23 赵甄文的幸福
秀荣感恩日记Day42[烟花]感恩语录感恩自己有能力有好身体，可以到处走动，做自己想做的事情10.23感恩日记今天做的事情瑜伽一小时户外散步一小时泡脚20分钟学习打卡和孩子沟通[爱心]感动的瞬间今天瑜伽回来，发现老公在厨房里做鱼。每次老公有时间休息的时候都会给我做硬菜。刘姐约我一起去公园散步晒太阳。虽然完美错过，但心里还是暖暖的。每天睁开眼打开手机，先去自己的群里逛一逛，每每发现有人点赞或者互动都
孤独的守候怒吼的生命
孤独了时光岁月了寂寞带来了惆怅那些孤独的日子里我们珍惜奋斗起来品味人生的真谛做到更好奋斗当中的你是那么努力格外自律学习起来五彩斑斓那些日子时光匆匆人生的机会很多需要把握痛苦的回忆记得住那些忧愁孤苦五一的日子寂寞当中的你时光荏苒独自带给我荒草学习起来努力奋斗可是我们做的还不够把握发展生活带给我们更多希望静静的述说你的故事你的精彩人生当中我们总是努力把握生活带给我们更多的学习生活当中我们奋斗可是做的还
AI模型训练中过拟合和欠拟合的区别是什么？ workflower 人工智能算法人工智能数据分析
在AI模型训练中，过拟合和欠拟合是两种常见的模型性能问题，核心区别在于模型对数据的学习程度和泛化能力：欠拟合（Underfitting）-定义：模型未能充分学习到数据中的规律，对训练数据的拟合程度较差，在训练集和测试集上的表现都不好（如准确率低、损失值高）。-原因：-模型结构过于简单（如用线性模型解决非线性问题）；-训练数据量不足或特征信息不充分；-训练时间太短，模型尚未学到有效模式。-表现：训练
2018-08-29精进打卡米兰王
姓名:王兰英【日精进打卡第25天】【知～学习】《六项精进》1遍共39遍《大学》1遍共50遍【经典名句分享】一切都是最好的安排。【行～实践】一、修身：（对自己个人）1，散步1小时。2，每天坚持读书。二、齐家：（对家庭和家人）1，指导孩子开车。2，和家人一起逛超市。三、建功：（对工作）用心做好每件事。｛积善｝：发愿从2018年8月5日起1年内365个善事。今日1善，累计27善。【省～觉悟】正人先正己。
陶勇：要不要参加分班考试学习？看完再说。陶勇
每年到了升学季，有很多培训机构都特别忙，为什么呢？因为有成千上万的学生，会选择升学前的分班考试的培训。比如说，小升初的孩子，到了暑假，很多孩子都会去选择一个初中，初一的分班考试的培训，那考入高中的孩子也有很多孩子会选择这种新高一的分班考试的培训。当然了，我个人认为这种选择并不是孩子自身的选择，主要还是家长的选择。当然也有少数孩子会对自己有比较高的要求，他们也会主动的去选择。为什么要去上分班考试的这
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
求解——妊娠纹霜哪个牌子好？皮肤专家推荐的热门秘诀！ zhangxing0100
妊娠纹会严重影响女性的美观，那孕期的女性朋友该如何避免减少妊娠纹的出现呢?下面美腹丽人小编为大家分享了预防妊娠纹的方法，赶紧一起来学习吧!一、预防妊娠纹的饮食习惯1、多食用对皮肤内胶原纤维有利的食品来增强皮肤的弹性。2、控制糖分摄入，少吃色素含量高的食物。3、早晚两杯脱脂牛奶，多食用维丰富的蔬菜、水果和富含维生素及矿物质的食物，增加细胞膜的通透性和皮肤的新陈代谢功能。4、正确的喝水习惯可以提速皮肤
2023-01-07 阿诗玛_6209
姓名：赵丽娟【日精进打卡第1783天】【知～学习】读书《经营与会计》ok《活法》3-47-8【经典名句】执着追求并从中得到最大快乐的人，才是成功者。——梭罗一、修身：（对自己个人）1、保持心态平和.2、坚持打卡.坚持读书。3、早晨喝杯温水.4、坚持烫脚，养成早睡早起的习惯.二、齐家：三、建功：（对工作）｛积善｝：发愿从2018年1月28日起见善行善，今日0善。【省～觉悟】1,睡觉时把手机放到离自己
认命修运每日一省（16）星_6329
命每个人的命都是父母带来的，我们每个人都没有权利选择父母，没有权利选择自己的出生。一个人从出生的那一刻就注定了你的命。我所说的认命，就是客观的接受自己的父母，接受自己的家庭。不对抗，不较劲。有些人是含着金汤匙出生的，有些人刚一出生拥有的财富可能是我们一生都得不到的。有些人是踩着泥坑出生的。有些人一出生就是等着继承皇位的。运在我们成长的过程当中，我们付出努力，学习知识，成长自己，帮助他人。我们有权利
学C++的五大惊人好处
为什么要学c++学c++有什么用学习c++的好处有1.中考可以加分2.高考可能直接录取3.就业广且工资高4.在未来30--50年c++一定是一个很受欢迎的职业5.c++成功的例子deepsick等AI智能C++语言兼备编程效率和编译运行效率的语言C++语言是C语言功能增强版,在c语言的基础上添加了面向对象编程和泛型编程的支持既继承了C语言高效，简洁，快速和可移植的传统,又具备类似Java、Go等其
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1

NLP--自然语言处理学习-day1

一.初步认识NLP

NLP的主要任务

NLP的应用场景

NLP的挑战

二.NLP的特征工程

1. 文本预处理

2. 特征提取方法

3. 特征选择

三.词向量

1. 词向量的基本概念

2. 词向量的应用

3. 词向量的优缺点

优点：

缺点：

四.独热编码 one - hot

1. 独热编码的原理

2. 独热编码的步骤

3. 优势

4. 劣势

5. 使用场景

6. Python 中的实现

总结

五.词频-逆文档频率（TF-IDF

1. 词频（TF）

2. 逆文档频率（IDF）

3. TF-IDF 计算

4. 特点与优点

5. 使用场景

6. Python 实现

总结

六.n-grams

1. n-grams 的定义

2. n-grams 的类型

3. n-grams 的应用

4. 优势与劣势

5. Python 中的实现

使用 Scikit-learn

七.稠密编码

1. 什么是特征嵌入

2. 特征嵌入的优势

3. 使用示例

你可能感兴趣的:(自然语言处理,学习,easyui)