Galoa

English Text Mining: Preprocessing 英文文本挖掘：文本预处理

English Text Mining: Preprocessing

文章主干来自下面Reference中的博客，我自己进行了增加整理，感谢所有分享知识的大佬们= =

1. Data Collection or Assembly 数据收集

【Given.】20_newsgroups.

数据用的是20_newsgroups语料库，下面是笔者在数据处理过程遇到的一些问题和解决，Python初学者都是泪T T

文件读写
文件夹下所有文件读取
二进制文本读取，参数问rb
读取文本后遇到的问题：cannot use a string pattern on a bytes-like object。编码问题，尝试decode解码成utf-8，新错误：UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xff in position 0: illegal multibyte sequence
解决方法 chardet模块检测编码，再解码，使用方法参见代码
20_newsgroups中atheism中53558文件编码有问题，检测不出，选择跳过，如下图:
如果自定义了和函数/头文件重名的变量则不可调用或import，显示not callable
utf-8类型的str写入文件open时需指定encoding=’utf-8’
字典排序：sorted返回的是一个list，其中每一项为key和value组成的元组

2. Data Preprocessing 数据预处理

2.1 Tokenization & Segmentation 单词化 / 语块化分词

下面基本都是单词化分词的方法。

2.1.1 Sentence Tokenize（分割句子）1

实际测试发现似乎没什么意义啊？这里不是很明白。

直接使用sent_tokenize

from sklearn.datasets import fetch_20newsgroups  
news = fetch_20newsgroups(subset='train')  
X,y = news.data,news.target  
text = X[0]  
from nltk.tokenize import sent_tokenize  
sent_tokenize_list = sent_tokenize(text)  
print(sent_tokenize_list)

使用nltk.tokenize.punkt中包含了很多预先训练好的tokenize模型。

from sklearn.datasets import fetch_20newsgroups  
news = fetch_20newsgroups(subset='train')  
X,y = news.data,news.target  
print(X[0])  
news = X[0]

2.1.2 Word Tokenize(分割单词)1

from nltk.tokenize import word_tokenize  
text='The cat is walking in the bedroom.'  
sent_tokenize_list = word_tokenize(text)  
print(sent_tokenize_list)

将句子分割成词。首先用正则表达式可以自己完成；如果要利用已有工具，Python NLTK中的word_tokenize()，这个方式就是前文提到的Penn TreeBank语料库所使用的分词方法。听起来是不是很高大上，我是不会告诉你其实它也是正则表达式实现的。分词其实主要干了这么几个事：

将’分开. don’t -> do n’t, they’ll -> they ‘ll;
将大部分标点当作单独的一个词;
将后一位是逗号或者引号的词分开;
单独出现在一行的句号分开。

中文分词区别比较大，可以采用斯坦福或者ICTCLAS（中科院背景）的方案。2

可参考：【NLP】Python NLTK处理原始文本

New York 会变成 new + york,这个是单词化而不是语块化的问题

2.2 Normalization 数据标准化

2.2.1 Noise Removal 非文本数据去除

【Skip.】对于自己爬虫爬下来的文本(如HTML格式)需要做非文本数据去除。

这一步主要是针对我们用爬虫收集的语料数据，由于爬下来的内容中有很多html的一些标签，需要去掉。少量的非文本内容的可以直接用Python的正则表达式(re)删除, 复杂的则可以用beautifulsoup来去除。另外还有一些特殊的非英文字符(non-alpha),也可以用Python的正则表达式(re)删除。

2.2.2 Spell Check 拼写检查

【Skip.】由于英文文本中可能有拼写错误，因此一般需要进行拼写检查。如果确信我们分析的文本没有拼写问题，可以略去此步。

拼写检查，我们一般用pyenchant类库完成。pyenchant的安装很简单：”pip install pyenchant”即可。

对于一段文本，我们可以用下面的方式去找出拼写错误：

from enchant.checker import SpellChecker
chkr = SpellChecker("en_US")
chkr.set_text("Many peope likee to watch In the Name of People.")
for err in chkr:
print "ERROR:", err.word

输出是：

ERROR: peope
ERROR: likee

找出错误后，我们可以自己来决定是否要改正。当然，我们也可以用pyenchant中的wxSpellCheckerDialog类来用对话框的形式来交互决定是忽略，改正还是全部改正文本中的错误拼写。大家感兴趣的话可以去研究pyenchant的官方文档。

2.2.3 Part-Of-Speech Tagging and POS Tagger(对词进行标注)1

lemmatization在词性标注后效果比较好。

参考：Python自然语言处理(一)–利用NLTK自带方法完成NLP基本任务

from nltk.tokenize import word_tokenize  #tokens是句子分词后的结果，同样是句子级的标注
text='The cat is walking in the bedroom.'  
sent_tokenize_list = word_tokenize(text)  
print(sent_tokenize_list)   
pos_tag = nltk.pos_tag(sent_tokenize_list)  
print(pos_tag)

2.2.4 Stemming / Lemmatization 词干提取/词形还原

Lemmas differ from stems in that a lemma is a canonical form of the word, while a stem may not be a real word.English Stemmers and Lemmatizers

先词形还原后词干提取，归一化不同词性的单词。仅词形还原可能会有复数还原不全的问题。

词干提取(stemming)和词型还原(lemmatization)是英文文本预处理的特色。两者其实有共同点，即都是要找到词的原始形式。只不过词干提取(stemming)会更加激进一点，它在寻找词干的时候可以会得到不是词的词干。比如”imaging”的词干可能得到的是”imag”, 并不是一个词。而词形还原则保守一些，它一般只对能够还原成一个正确的词的词进行处理。个人比较喜欢使用词型还原而不是词干提取。

在实际应用中，一般使用nltk来进行词干提取和词型还原。安装nltk也很简单，”pip install nltk”即可。只不过我们一般需要下载nltk的语料库，可以用下面的代码完成，nltk会弹出对话框选择要下载的内容。选择下载语料库就可以了。

import nltk
nltk.download()

在nltk中，做词干提取的方法有PorterStemmer，LancasterStemmer和SnowballStemmer。个人推荐使用SnowballStemmer。这个类可以处理很多种语言，当然，除了中文。

from nltk.stem import SnowballStemmer
stemmer = SnowballStemmer("english") # Choose a language
stemmer.stem("countries") # Stem a word

输出是”countri”,这个词干并不是一个词。　　　　

而如果是做词型还原，则一般可以使用WordNetLemmatizer类，即wordnet词形还原方法，Lemmatization 把一个任何形式的语言词汇还原为一般形式，标记词性的前提下效果比较好。

from nltk.stem import WordNetLemmatizer
wnl = WordNetLemmatizer()
print(wnl.lemmatize('countries'))

输出是”country”,比较符合需求。在实际的英文文本挖掘预处理的时候，建议使用基于wordnet的词形还原就可以了。

在这里有个词干提取和词型还原的demo，如果是这块的新手可以去看看，上手很合适。

PS：另一个demo：1

import nltk  
sent1='The cat is walking in the bedroom.'  
sent2='A dog was running across the kitchen.'  
tokens_1=nltk.word_tokenize(sent1)  
print (tokens_1)  
stemmer = nltk.stem.PorterStemmer()  
stem_1 = [stemmer.stem(t) for t in tokens_1]  
print(stem_1)

又另一个demo：3

def get_wordnet_pos(treebank_tag):
    if treebank_tag.startswith('J'):
        return wordnet.ADJ
    elif treebank_tag.startswith('V'):
        return wordnet.VERB
    elif treebank_tag.startswith('N'):
        return wordnet.NOUN
    elif treebank_tag.startswith('R'):
        return wordnet.ADV
    else:
        return None

def lemmatize_sentence(sentence):
    res = []
    lemmatizer = WordNetLemmatizer()
    for word, pos in pos_tag(word_tokenize(sentence)):
        wordnet_pos = get_wordnet_pos(pos) or wordnet.NOUN
        res.append(lemmatizer.lemmatize(word, pos=wordnet_pos))
    return res

2.2.5 Set All Characters to Lowercase 转化为小写

由于英文单词有大小写之分，我们期望统计时像“Home”和“home”是一个词。因此一般需要将所有的词都转化为小写。这个直接用python的API（.lower()）就可以搞定。

2.2.6 Remove Stop Words 去除停用词

在英文文本中有很多无效的词，比如“a”，“to”，一些短词，还有一些标点符号，这些我们不想在文本分析的时候引入，因此需要去掉，这些词就是停用词。个人常用的英文停用词表下载地址在这。当然也有其他版本的停用词表，不过这个版本是我常用的。

在我们用scikit-learn做特征处理的时候，可以通过参数stop_words来引入一个数组作为停用词表。这个方法和前文讲中文停用词的方法相同，这里就不写出代码，大家参考前文即可。

from nltk.corpus import stopwords   #去停用词
cachedStopWords = stopwords.words("english")
wordStoped = []
for word in words:  #去停用词 words是分句分词后的句子级别处理结果
    filtered = [w for w in word if (w not in cachedStopWords)]
    wordStoped.append(filtered)

3. Data Exploration & Visualization 特征处理

现在我们就可以用scikit-learn来对我们的文本特征进行处理了，在文本挖掘预处理之向量化与Hash Trick中，我们讲到了两种特征处理的方法，向量化与Hash Trick。而向量化是最常用的方法，因为它可以接着进行TF-IDF的特征处理。在文本挖掘预处理之TF-IDF中，我们也讲到了TF-IDF特征处理的方法。

TfidfVectorizer类可以帮助我们完成向量化，TF-IDF和标准化三步。当然，还可以帮我们处理停用词。这部分工作和中文的特征处理也是完全相同的，大家参考前文即可。注：即Reference中1的大佬博客。

4. Model Building & Evaluation 建立分析模型

有了每段文本的TF-IDF的特征向量，我们就可以利用这些数据建立分类模型，或者聚类模型了，或者进行主题模型的分析。此时的分类聚类模型和之前讲的非自然语言处理的数据分析没有什么两样。因此对应的算法都可以直接使用。

5. Code 源码

源码下载：下载Preprocessing.py

######################
#!/usr/bin/python
# -*- coding: utf-8 -*-
# By Galo
######################
import os
import nltk
from nltk.corpus import wordnet
from nltk.stem import WordNetLemmatizer #词性还原
from nltk.tokenize import sent_tokenize #分句
from nltk.tokenize import word_tokenize #分词
from nltk.corpus import stopwords       #去停用词
from nltk.stem import SnowballStemmer   #词干提取
from sklearn.feature_extraction.text import TfidfVectorizer #TFIDF
import chardet                          #检测编码格式
import re                               #匹配去标点符号，特殊字符

#nltk.download()    #下载nltk的语料库
cachedStopWords = stopwords.words("english")    #选用英文停用词词典


def read_files(path):
    # 读取语料文件夹下所有文件内容（此处为二进制文件）
    # 所有文件内文本组合成一个string存入all_text
    files= os.listdir(path)  # 得到文件夹下的所有文件名称
    all_text = ""
    for file in files:  # 遍历文件夹
        if not os.path.isdir(file):  # 判断是否是文件夹，不是文件夹才打开
            with open(path+"/"+file, "rb") as f:  # 二进制格式文件参数为rb
                text = f.read()
            encode_type = chardet.detect(text)  # 检测编码格式
            if encode_type['encoding'] != None:  # 排除不能解码的情况
                text = text.decode(encode_type['encoding'])  # 进行相应解码，赋给原标识符（变量）
                print(file,'done.')  # 标识文件读取完毕
                all_text = all_text + text
    return all_text


'''
#这一部分先分句后分词，后来实测没啥用好像，因为数据结构变复杂，所以舍弃了

sentences = sent_tokenize(atheism)
#分句,将文本拆分成句子级别
with open('C:\\Users\\Administrator\\Desktop\\Preprocessing\\sentences_atheism_sent_tokenize.txt', 'w',encoding='utf-8') as f:
    for sentence in sentences:
        f.write(str(sentence))
print('Sentences written.')

words = []
for sentence in sentences:
    sentence = re.sub("[+:\.\!\/_,$%^*(+\"\'<>]+|[+——！，。？、~@#￥%……&*（）]+", " ", sentence)
    #去标点
    words.append(word_tokenize(sentence))
    #分词，对句子进行分词，tokenize的分词是句子级别的，需要对文本先进行分句，否则效果会很差？？？没看出效果有差啊
with open('C:\\Users\\Administrator\\Desktop\\Preprocessing\\words_atheism_word_tokenize.txt', 'w',encoding='utf-8') as f:
    for word in words:
        f.write(str(word))
print('Words written.')

wordStoped = []
for word in words:  #去停用词
    filtered = [w.lower() for w in word if (w.lower() not in cachedStopWords and len(w) > 2)]
    #去停用词+去长度小于3的单词+小写化
    wordStoped.append(filtered)
with open('C:\\Users\\Administrator\\Desktop\\Preprocessing\\words_atheism_word_tokenize_Stopped.txt', 'w',encoding='utf-8') as f:
    for wordSt in wordStoped:
        f.write(str(wordSt))
print('WordsStopped written.')
'''


def word_tokenize_stopwords_removal(all_text):
    # 对整个文本进行分词，这里为不分句直接分词,并去停用词、标点、特殊字符、带符号单词
    # 返回处理结果list：word_stopped
    # atheism = re.sub("[+:\.\!\/_,$%^*(+\"\'<>=]+|[+——！，。？、~@#￥%……&*（）]+", " ", atheism)
    # words = word_tokenize(atheism)
    # 分词前去掉符号标点和特殊字符，转化为空格，也可以先分词再去掉含标点的词，后者去掉的东西更多，这里采取后一种

    words = [word for word in word_tokenize(all_text) if (str.isalpha(word) is not False)]
    # 分词，同时直接去掉所有带符号的词，如邮箱后缀、hyphen连词、缩写等
    path_word_tokenize = 'C:\\Users\\Administrator\\Desktop\\Preprocessing\\words_atheism_word_tokenize.txt'
    # 存放上述分词处理结果的文本路径
    with open(path_word_tokenize, 'w',encoding='utf-8') as f:
        f.write(str(words))
    print('Words written.')

    word_stopped = [w.lower() for w in words if (w.lower() not in cachedStopWords and len(w) > 2 and str.isalpha(w) is not False)]
    # 小写化后去停用词+去长度小于3的单词+去数字和包含符号的单词如 2-year
    path_word_tokenize_stopped = 'C:\\Users\\Administrator\\Desktop\\Preprocessing\\words_atheism_word_tokenize_Stopped.txt'
    # 存放上述去停用词处理结果的文本路径
    with open(path_word_tokenize_stopped, 'w', encoding='utf-8') as f:
        f.write(str(word_stopped))
    print('WordsStopped written.')

    return word_stopped


def word_pos_tags(word_stopped):
    # 词性标注,返回以单词+词性标注为元组的list: pos_tags
    pos_tags = nltk.pos_tag(word_stopped)
    path_word_tokenize_stopped_pos_tag = \
        'C:\\Users\\Administrator\\Desktop\\Preprocessing\\words_atheism_word_tokenize_Stopped_postag.txt'
    # 存放词性标注处理结果的文本路径
    with open(path_word_tokenize_stopped_pos_tag, 'w', encoding='utf-8') as f:
        f.write(str(pos_tags))
    print('Pos_tags written.')
    return pos_tags


def get_wordnet_pos(treebank_tag):
    # 词性标注提取
    if treebank_tag.startswith('J'):
        return wordnet.ADJ
    elif treebank_tag.startswith('V'):
        return wordnet.VERB
    elif treebank_tag.startswith('N'):
        return wordnet.NOUN
    elif treebank_tag.startswith('R'):
        return wordnet.ADV
    else:
        return None


def lemmatize_string(pos_tags):
    # 词形还原后词干提取函数，返回还原后的单词list: res
    res = []
    lemmatizer = WordNetLemmatizer()  # 初始化词形还原对象
    stemmer = SnowballStemmer("english")  # 选择语言，初始化词干提取对象
    for word, pos in pos_tags:
        wordnet_pos = get_wordnet_pos(pos) or wordnet.NOUN
        res.append(stemmer.stem(lemmatizer.lemmatize(word, pos=wordnet_pos)))
    return res


def do_lemma_stemmer(pos_tags):
    # 进行词形还原和词干提取,并输出记录结果
    # 返回仅由空格分隔单词的纯文本，即一个string的list: wordLemmatizedStemmeredWordOnly
    word_lemmatized_stemmered = lemmatize_string(pos_tags)
    path_word_tokenize_stopped_postag_lemmatized_stemmered_wordonly = \
        'C:\\Users\\Administrator\\Desktop\\Preprocessing\\words_atheism_word_tokenize_Stopped_postag_lemmatized_stemmered_wordonly.txt'
    # 存放词形还原和词干提取处理结果的文本路径
    with open(path_word_tokenize_stopped_postag_lemmatized_stemmered_wordonly, 'w', encoding='utf-8') as f:
        for word in word_lemmatized_stemmered:
            #sklearn中TFIDF计算需要的格式是仅由空格分隔单词的纯文本
            f.write(str(word))
            f.write(str(' '))
    print("WordLemmatized&Stemmered written.")

    word_lemmatized_stemmered_wordonly = []  # 重读出所需格式文本
    with open('C:\\Users\\Administrator\\Desktop\\Preprocessing\\words_atheism_word_tokenize_Stopped_postag_lemmatized_stemmered_wordonly.txt', 'r',encoding='utf-8') as f:
        word_lemmatized_stemmered_wordonly.append(f.read())

    return word_lemmatized_stemmered_wordonly


def TFIDF(word_lemmatized_stemmered_wordonly):
    # TFIDF计算
    tf_idf = TfidfVectorizer()  # 初始化对象
    tf_data = tf_idf.fit_transform(word_lemmatized_stemmered_wordonly)  # 计算TFIDF值
    words = tf_idf.get_feature_names()  # 取出所统计单词项
    TFIDF = dict()  # 创建空字典
    path_TFIDF = 'C:\\Users\\Administrator\\Desktop\\Preprocessing\\words_atheism_word_tokenize_Stopped_postag_lemmatized_stemmered_TFIDF.txt'
    path_TFIDF_sorted = 'C:\\Users\\Administrator\\Desktop\\Preprocessing\\words_atheism_word_tokenize_Stopped_postag_lemmatized_stemmered_TFIDF_sorted.txt'

    with open(path_TFIDF, 'w', encoding='utf-8') as f:
        # 向文件写入TFIDF值
        for i in range(len(word_lemmatized_stemmered_wordonly)):
            for j in range(len(words)):
                if tf_data[i, j] > 1e-5:
                    f.write(words[j] + ':' + str(tf_data[i, j]))
                    f.write('\n')
                    TFIDF[str(words[j])] = tf_data[i, j]
        print("TFIDF written.")

    TFIDFSorted = sorted(TFIDF.items(), key=lambda e: e[1], reverse=True)
    # 按TFIDF值大小排序

    with open(path_TFIDF_sorted, 'w', encoding='utf-8') as f:
        # 向文件写入排序后的TFIDF值
        for key in TFIDFSorted:
            f.write(str(key))
            f.write('\n')
    print("TFIDF sorted written.")

    return


if __name__ == '__main__':
    path = "C:\\Users\\Administrator\\Desktop\\Preprocessing\\20news-19997\\20_newsgroups\\alt.atheism"
    # 待处理语料文件夹目录
    atheism = read_files(path)
    stopped_words = word_tokenize_stopwords_removal(atheism)
    pos_tags_word = word_pos_tags(stopped_words)
    TFIDF(do_lemma_stemmer(pos_tags_word))

Reference

英文文本挖掘预处理流程总结
A General Approach to Preprocessing Text Data

md5加密落地成佛
using(MD5md5=MD5.Create()){byte[]byteHash=md5.ComputeHash(System.Text.Encoding.Default.GetBytes(s));stringstrRes=BitConverter.ToString(byteHash).Replace("-","");returnstrRes.ToUpper();}
js操作样式郝加升
DOM样式属性和方法：指定的元素，它的style有这么几个属性和方法：cssText：通过这个属性可以访问到元素的特性style设置的属性，并且可以直接赋值设置。removeProperty（属性名称）：从样式中删除给定属性。setProperty（属性名称，值，权重）：可以通过这个方法设置给定样式的同时设置其权重，可以传入”important”或者一个空字符串。获取计算后样式：window.ge
mysql复习立夏的李子 mysql 数据库 database
mysqlselect语法selectfromjoinwheregroupbyhavingorderbylimit联合查询innerjoin（）leftjoin（以左表为基准，匹配右表，不匹配的返回左表，右表以null值填充）rightjoind··(去除列重复的数据)索引类型主键索引(PrimaryKey)唯一索引(Unique)常规索引(Index)全文索引(FullText)索引准则索引不是
K8s常用的命令尚未来- 运维 k8s
一、基础命令查看集群信息bashkubectlcluster-info#显示集群端点和服务信息查看节点bashkubectlgetnodes#列出所有节点kubectldescribenode#查看节点详细信息查看命名空间bashkubectlgetnamespaces#列出所有命名空间切换命名空间bashkubectlconfigset-context--current--namespace=二
lesson20：Python函数的标注你的电影很有趣 python 开发语言
目录引言：为什么函数标注是现代Python开发的必备技能一、函数标注的基础语法1.1参数与返回值标注1.2支持的标注类型1.3Python3.9+的重大改进：标准集合泛型二、高级标注技巧与最佳实践2.1复杂参数结构标注2.2函数类型与回调标注2.3变量注解与类型别名三、静态类型检查工具应用3.1mypy：最流行的类型检查器3.2Pyright与IDE集成3.3运行时类型验证四、函数标注的工程价值与
基于Python引擎的PP-OCR模型库推理张欣-男 python ocr 开发语言 PaddleOCR PaddlePaddle
基于Python引擎的PP-OCR模型库推理1.文本检测模型推理#下载超轻量中文检测模型：wgethttps://paddleocr.bj.bcebos.com/PP-OCRv3/chinese/ch_PP-OCRv3_det_infer.tartarxfch_PP-OCRv3_det_infer.tarpython3tools/infer/predict_det.py--image_dir=".
Qt 下拉框QComboBox控件：从入门到实战
一、QComboBox核心功能解析1.核心属性属性说明当前示例场景count列表项总数统计学历下拉框中的选项数量editable是否允许用户编辑学历选择时可输入自定义学历currentText当前选中项的文本获取用户选择的"硕士"文本currentData当前选中项的附加数据获取太原对应的区号"0351"currentIndex当前选中项的索引位置(从0开始)确定"硕士"在列表中的位置2.核心方法
webStorm使用esLint时，粘贴代码时tab跟space的问题 Aklan
之前的项目中没有引入过esLint，在上周引入后遇到一个头疼的问题。粘贴代码后，前面的空格变成了tabs图片.png困扰了将近一周的时间，都准备换编辑器了。。但是subLimeText个人感觉实在不好用，虽然webStorm很多人说不好用，但毕竟用了这么久了，习惯了，换新的编辑器感觉像自断双手，不会写东西了。所以今天实在受不了了，决定还是继续用webStorm，但要先把之前的问题解决掉。上周我就搜
LLaMA-Factory微调教程1：LLaMA-Factory安装及使用 Cachel wood LLM和AIGC llama python 开发语言 react.js javascript 前端 microsoft
文章目录环境搭建LLaMA-Factory安装教程模型大小选择环境搭建Windows系统RTX4060Ti（16G显存）python3.10cuda=12.6cudnntorch==2.7.1+cu126torchvision==0.22.1+cu126torchaudio==2.7.1+cu126PSC:\Users\18098>nvidia-smiTueJul2201:52:192025+<
Could not extract GUID in text file UserSettings\Layouts\CurrentMaximizeLayout.dwlt at line 924. zhannghong2003 Unity unity 游戏引擎
错误提示：无法在文本文件UserSettings\Layouts\CurrentMaximizeLayout.dwlt的第924行提取GUID。UnityEngine.GUIUtility:ProcessEvent(int,intptr,bool&)这个错误发生在Unity无法解析一个损坏或格式错误的布局文件(CurrentMaximizeLayout.dwlt)时。以下是解决方法：解决方案：关闭
python3中，pycharm中怎么连接数据库 weixin_33736832 数据库 python 开发工具
因为python3现在还不能直接连接数据库，所有如果想连接，就只能通过以下方法：在APP中的，__init__.py中，添加以下代码就可以：importpymysqlpymysql.install_as_MySQLdb()当然前提是，那就的在setting.py中连接数据库添加所连接的mysql数据库的详细信息，如下：DATABASES={'default':{'ENGINE':'django.d
第三方库&第三方平台 lllaa
1.AFNetworking、MJRefresh、SDWebImage、Masonry、MJExtensionMBProgressHUDYYText、YYModel2.友盟分享极光推送神策TalkingData数盟可信ID能帮助APP公司在不同场景下确认设备唯一性，识别修改设备及复用、虚拟机刷量等行为，可以反作弊、防刷单，并通过数字联盟生成的设备ID和客户账户体系的关联，实时有效识别小号恶意注册等
HarmonyOS 文件下载步骤详解 JfdCoding harmonyos 华为
在本文中，我们将详细介绍HarmonyOS中的文件下载步骤。无论是从互联网上的远程服务器下载文件，还是从本地服务器或设备上的其他应用程序下载文件，HarmonyOS提供了一套简便而强大的API，方便开发人员实现文件下载功能。步骤1:导入相关的类和接口在开始之前，我们需要在代码中导入一些HarmonyOS文件下载所需的类和接口。下面是示例代码：importohos.app.Context;impor
Excel身份证里提取出生年月日狼头龙 excel
Excel身份证里提取出生年月日如果身份证号码在A2单元格，出生年月日要在C2中显示，那么C2中写入一下代码：=TEXT(MID(A2,7,8),“0000年00月00日”)其中A2为身份证号所在的单元格。
Excel根据身份证号提取信息念念不忘必有回响 excel学习 excel
概览本篇文章主要对根据身份证号码提取出生年月日、年龄、性别、退休年龄这三项进行讲解。一.提取出生年月日公式：=TEXT(MID(B2,7,8),“0000-00-00”)MID(B2,7,8)：表示从单元格B2中的字符串（这里是身份证号），从第7个字符开始，提取长度为8个字符的子串。通常这8个字符就是包含出生年月日的信息；TEXT(…,“0000-00-00”)：使用TEXT函数将提取出来的出生年
EXCEL——提取身份证中的出生年月日 William.csj #EXCEL excel
1.用到的函数： TEXT MID2.函数语法：TEXT：语法格式：TEXT(value，format_text) 其中，value为数字值。format_text为设置单元格格式中自己所要选用的文本格式。MID: 函数的语法格式：MID(text,start_num,num_chars) 其中，text为字符串，start_num为开始截取位置，num_chars为截取字符个数。3
Android布局文件中的xmlns:tools Huang兄 android android
2018-01-04文章目录androidapptoolstools可以干什么ErrorhandlingattributesDesign-timeviewattributes(设计时试图属性)tools:insteadofandroidtools:contexttools:itemCounttools:layouttools:listitem/tools:listheader/tools:list
Python3.14正式支持Free Threaded版本！程序元元 Python GIL 并发多线程性能优化 Python3.14 技术突破
Python社区迎来了划时代的突破：Python3.14在beta3版本中正式将Free‑Threaded（无GIL）构建列为受支持选项，不再只是“实验性”功能。这意味着困扰我们多年的GIL（全局解释器锁）问题，终于迈出了实质性的一步！这一变化标志着PEP 703（移除GIL）从之前的“可选无GIL”项目，正式转入PhaseII：Free‑Threaded构建进入稳定支持阶段。需要注意的是，目前它
React组件中的this指向问题
在React组件中，函数定义方式影响this指向的核心原因是箭头函数与普通函数的作用域绑定规则不同，具体差异如下：1.普通函数（function定义）需要手动bind(this)的原因当用function在组件内定义方法时：classMyComponentextendsReact.Component{handleClick(){console.log(this);//若未绑定，此处this为und
AI+MCP智能研判系统架构
AI+MCP智能研判系统架构1.系统概述1.1核心理念AI+MCP智能研判系统是一个创新的网络安全分析平台，通过将大语言模型（LLM）的智能理解能力与MCP（ModelContextProtocol）协议的标准化工具调用能力相结合，实现了"自然语言提问→AI智能理解→MCP工具调用→AI深度研判→智能结果输出"的完整闭环。1.2技术创新点智能意图识别：基于LLM的自然语言理解，自动解析用户查询意图
MySQL 对text类型字段添加索引写bug的羊羊 MySQL mysql 数据库
对于MySQL中的text类型字段，可以通过以下步骤向其添加索引：创建辅助字段：创建一个辅助字段，将该字段的一部分数据转移到辅助字段中。例如，可以创建一个varchar类型的字段来存储text字段的前缀。添加索引：对于辅助字段，可以使用普通的索引来加速查询操作。使用ALTERTABLE语句来添加索引，例如：ALTERTABLEyour_tableADDINDEXindex_name(auxilia
C++ explicit 上下文相关转换我是李武涯 c++
在C++中，“上下文相关转换”(Context-SensitiveConversion)通常指的是那些行为或有效性取决于其使用环境的类型转换。这主要通过用户定义的转换以及explicit关键字来实现，它限制了隐式转换的发生，使得转换只能在特定的语法上下文中进行。从更广泛的计算机科学理论角度来看，C++语言本身的语法分析就是上下文相关的[1][2]。这意味着解析器需要了解上下文（例如，一个标识符是否
Spring 框架中获取 org.w3c.dom.Document 对象的完整流程探索java Spring java spring
引言在Java开发中，XML是一种广泛使用的格式，用于定义配置文件、数据交换等场景。在Spring框架中，XML文件常用于配置应用程序上下文（如applicationContext.xml），或者处理外部系统传输的XML数据。org.w3c.dom.Document是JavaDOMAPI的核心接口，表示一个XML文档的树形结构，允许开发者以编程方式访问和操作XML的内容。Spring框架本身并不直
HTTP 入门必备：基础概念、请求响应报文与 URL 完全解析编程随想▿ HTTP http 网络协议网络 web
目录一、HTTP：万维网的通信基石核心特点HTTPS：安全的HTTP二、HTTP请求与响应报文剖析1.HTTP请求报文(Request)2.HTTP响应报文(Response)三、网址(URL)的结构详解总结：一个形象的比喻一、HTTP：万维网的通信基石HTTP(HyperTextTransferProtocol-超文本传输协议)是一种用于分布式、协作式和超媒体信息系统的应用层协议。它是万维网(W
大模型基础知识（万字详解）掘金安东尼 python 机器学习人工智能
在数学上，deepseek多轮自蒸馏可以理解为对学生模型施加一系列滚动KL散度约束：LMSD=∑i=1nαi⋅KL(pTi(x)∥pSi(x))\mathcal{L}_{MSD}=\sum_{i=1}^{n}\alpha_i\cdot\text{KL}(p_{T_i}(x)\parallelp_{S_i}(x))LMSD=i=1∑nαi⋅KL(pTi(x)∥pSi(x))其中，TiT_iTi和Si
python3基础语法梳理(三) 幼稚园的山代王 python python 开发语言
接上一篇博客猜数字小游戏-Python版游戏规则：系统随机生成一个1到10的整数玩家输入猜测的数字使用if语句判断玩家猜得是否正确提示“猜对了”或“太大/太小了”importrandomsecret_number=random.randint(1,10)attempts=0#尝试次数print("欢迎来到猜数字游戏！")print("我已经想好了一个1到10之间的数字。")print("快来猜一猜
DesktopCommanderMCP：深度部署与使用指南皓月照山川 AI人工智能人工智能自动化运维 windows
DesktopCommanderMCP：深度部署与使用指南引言DesktopCommanderMCP是一个强大的本地化模型上下文协议（ModelContextProtocol,MCP）服务器，它通过为大型语言模型（如Claude）提供与其桌面环境直接交互的能力，极大地扩展了AI助手的应用边界。它允许模型执行终端命令、管理文件系统、控制进程，从而实现从代码编写、项目构建到系统管理的端到端自动化工作流
Chrome MCP 部署与使用教程 (最新版)
ChromeMCP部署与使用教程(最新版)1.概述ChromeMCP（ModelContextProtocol，以下简称MCPServer）是一种开源协议，旨在让AI助手（如Claude、Cursor等）能够直接与您的本地Chrome浏览器交互，实现复杂的自动化操作。它通过一个本地服务器和配套的Chrome扩展协同工作，实现对Chrome浏览器的精细化控制。核心功能与优势：原生环境交互：直接利用您
vscode 找不到python解释器,VS Code找不到python 3解释器 miao君 vscode 找不到python解释器
IaminstallingPython3.7.2forthefirsttime,andI'musingtheVSCodepythonextension.WhenIrunpython-VIgetPython2.7.10whichisnotcorrect!WhenIselecttheusr/local/bin/python3interpreterinVSCodeIgetthiserrorwhenrun
揭秘前端 CSS3 字体特效的实现方法
#揭秘前端CSS3字体特效的实现方法>关键词：CSS3、字体特效、text-shadow、@font-face、font-feature-settings、动画效果、Web字体>摘要：本文通过生活化的比喻和实战案例，深入解析CSS3实现字体特效的核心技术。从基础文字阴影到高级字体动画，揭秘7种酷炫效果实现原理，并提供可直接复用的代码模板。##背景介绍###目的和范围本文系统讲解CSS3实现字体特效
xml解析小猪猪08 xml
1、DOM解析的步奏准备工作： 1.创建DocumentBuilderFactory的对象 2.创建DocumentBuilder对象 3.通过DocumentBuilder对象的parse(String fileName)方法解析xml文件 4.通过Document的getElem
每个开发人员都需要了解的一个SQL技巧 brotherlamp linux linux视频 linux教程 linux自学 linux资料
对于数据过滤而言CHECK约束已经算是相当不错了。然而它仍存在一些缺陷，比如说它们是应用到表上面的，但有的时候你可能希望指定一条约束，而它只在特定条件下才生效。使用SQL标准的WITH CHECK OPTION子句就能完成这点，至少Oracle和SQL Server都实现了这个功能。下面是实现方式： CREATE TABLE books ( id &
Quartz——CronTrigger触发器 eksliang quartz CronTrigger
转载请出自出处：http://eksliang.iteye.com/blog/2208295 一.概述 CronTrigger 能够提供比 SimpleTrigger 更有具体实际意义的调度方案，调度规则基于 Cron 表达式，CronTrigger 支持日历相关的重复时间间隔（比如每月第一个周一执行），而不是简单的周期时间间隔。二.Cron表达式介绍 1）Cron表达式规则表 Quartz
Informatica基础 18289753290 Informatica Monitor manager workflow Designer
1. 1）PowerCenter Designer：设计开发环境，定义源及目标数据结构；设计转换规则，生成ETL映射。 2）Workflow Manager：合理地实现复杂的ETL工作流，基于时间，事件的作业调度 3）Workflow Monitor：监控Workflow和Session运行情况，生成日志和报告 4）Repository Manager：
linux下为程序创建启动和关闭的的sh文件，scrapyd为例酷的飞上天空 scrapy
对于一些未提供service管理的程序每次启动和关闭都要加上全部路径，想到可以做一个简单的启动和关闭控制的文件下面以scrapy启动server为例，文件名为run.sh： #端口号，根据此端口号确定PID PORT=6800 #启动命令所在目录 HOME='/home/jmscra/scrapy/' #查询出监听了PORT端口
人--自私与无私永夜-极光
今天上毛概课,老师提出一个问题--人是自私的还是无私的,根源是什么? 从客观的角度来看,人有自私的行为,也有无私的
Ubuntu安装NS-3 环境脚本随便小屋 ubuntu
将附件下载下来之后解压，将解压后的文件ns3environment.sh复制到下载目录下（其实放在哪里都可以，就是为了和我下面的命令相统一）。输入命令： sudo ./ns3environment.sh >>result 这样系统就自动安装ns3的环境，运行的结果在result文件中，如果提示 com
创业的简单感受 aijuans 创业的简单感受
2009年11月9日我进入a公司实习，2012年4月26日，我离开a公司，开始自己的创业之旅。今天是2012年5月30日，我忽然很想谈谈自己创业一个月的感受。当初离开边锋时，我就对自己说：“自己选择的路，就是跪着也要把他走完”，我也做好了心理准备，准备迎接一次次的困难。我这次走出来，不管成败
如何经营自己的独立人脉 aoyouzi 如何经营自己的独立人脉
独立人脉不是父母、亲戚的人脉，而是自己主动投入构造的人脉圈。“放长线，钓大鱼”，先行投入才能产生后续产出。现在几乎做所有的事情都需要人脉。以银行柜员为例，需要拉储户，而其本质就是社会人脉，就是社交！很多人都说，人脉我不行，因为我爸不行、我妈不行、我姨不行、我舅不行……我谁谁谁都不行，怎么能建立人脉？我这里说的人脉，是你的独立人脉。以一个普通的银行柜员
JSP基础百合不是茶 jsp 注释隐式对象
1,JSP语句的声明 <%! 声明 %> 　　声明：这个就是提供java代码声明变量、方法等的场所。表达式 <%= 表达式 %> 　　这个相当于赋值，可以在页面上显示表达式的结果，程序代码段/小型指令　<% 程序代码片段 %> 2,JSP的注释
web.xml之session-config、mime-mapping bijian1013 java web.xml servlet session-config mime-mapping
session-config 1.定义： <session-config> <session-timeout>20</session-timeout> </session-config> 2.作用：用于定义整个WEB站点session的有效期限，单位是分钟。 mime-mapping 1.定义： <mime-m
互联网开放平台（1） Bill_chen 互联网 qq 新浪微博百度腾讯
现在各互联网公司都推出了自己的开放平台供用户创造自己的应用，互联网的开放技术欣欣向荣，自己总结如下： 1.淘宝开放平台(TOP) 网址：http://open.taobao.com/ 依赖淘宝强大的电子商务数据，将淘宝内部业务数据作为API开放出去，同时将外部ISV的应用引入进来。目前TOP的三条主线： TOP访问网站：open.taobao.com ISV后台：my.open.ta
【MongoDB学习笔记九】MongoDB索引 bit1129 mongodb
索引可以在任意列上建立索引索引的构造和使用与传统关系型数据库几乎一样,适用于Oracle的索引优化技巧也适用于Mongodb 使用索引可以加快查询,但同时会降低修改,插入等的性能内嵌文档照样可以建立使用索引测试数据 var p1 = { "name":"Jack", "age&q
JDBC常用API之外的总结白糖_ jdbc
做JAVA的人玩JDBC肯定已经很熟练了，像DriverManager、Connection、ResultSet、Statement这些基本类大家肯定很常用啦，我不赘述那些诸如注册JDBC驱动、创建连接、获取数据集的API了，在这我介绍一些写框架时常用的API，大家共同学习吧。 ResultSetMetaData获取ResultSet对象的元数据信息
apache VelocityEngine使用记录 bozch VelocityEngine
VelocityEngine是一个模板引擎，能够基于模板生成指定的文件代码。使用方法如下： VelocityEngine engine = new VelocityEngine();// 定义模板引擎 Properties properties = new Properties();// 模板引擎属
编程之美-快速找出故障机器 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; public class TheLostID { /*编程之美假设一个机器仅存储一个标号为ID的记录，假设机器总量在10亿以下且ID是小于10亿的整数，假设每份数据保存两个备份，这样就有两个机器存储了同样的数据。 1.假设在某个时间得到一个数据文件ID的列表，是
关于Java中redirect与forward的区别 chenbowen00 java servlet
在Servlet中两种实现： forward方式：request.getRequestDispatcher(“/somePage.jsp”).forward(request, response); redirect方式：response.sendRedirect(“/somePage.jsp”); forward是服务器内部重定向，程序收到请求后重新定向到另一个程序，客户机并不知
[信号与系统]人体最关键的两个信号节点 comsci 系统
如果把人体看做是一个带生物磁场的导体,那么这个导体有两个很重要的节点,第一个在头部,中医的名称叫做百汇穴, 另外一个节点在腰部,中医的名称叫做命门如果要保护自己的脑部磁场不受到外界有害信号的攻击,最简单的
oracle 存储过程执行权限 daizj oracle 存储过程权限执行者调用者
在数据库系统中存储过程是必不可少的利器，存储过程是预先编译好的为实现一个复杂功能的一段Sql语句集合。它的优点我就不多说了，说一下我碰到的问题吧。我在项目开发的过程中需要用存储过程来实现一个功能，其中涉及到判断一张表是否已经建立，没有建立就由存储过程来建立这张表。 CREATE OR REPLACE PROCEDURE TestProc IS fla
为mysql数据库建立索引 dengkane mysql 性能索引
前些时候，一位颇高级的程序员居然问我什么叫做索引，令我感到十分的惊奇，我想这绝不会是沧海一粟，因为有成千上万的开发者（可能大部分是使用MySQL的）都没有受过有关数据库的正规培训，尽管他们都为客户做过一些开发，但却对如何为数据库建立适当的索引所知较少，因此我起了写一篇相关文章的念头。最普通的情况，是为出现在where子句的字段建一个索引。为方便讲述，我们先建立一个如下的表。
学习C语言常见误区如何看懂一个程序如何掌握一个程序以及几个小题目示例 dcj3sjt126com c 算法
如果看懂一个程序，分三步 1、流程 2、每个语句的功能 3、试数如何学习一些小算法的程序尝试自己去编程解决它，大部分人都自己无法解决如果解决不了就看答案关键是把答案看懂，这个是要花很大的精力，也是我们学习的重点看懂之后尝试自己去修改程序，并且知道修改之后程序的不同输出结果的含义照着答案去敲调试错误
centos6.3安装php5.4报错 dcj3sjt126com centos6
报错内容如下: Resolving Dependencies --> Running transaction check ---> Package php54w.x86_64 0:5.4.38-1.w6 will be installed --> Processing Dependency: php54w-common(x86-64) = 5.4.38-1.w6 for
JSONP请求 flyer0126 jsonp
使用jsonp不能发起POST请求。 It is not possible to make a JSONP POST request. JSONP works by creating a <script> tag that executes Javascript from a different domain; it is not pos
Spring Security（03）——核心类简介 234390216 Authentication
核心类简介目录 1.1 Authentication 1.2 SecurityContextHolder 1.3 AuthenticationManager和AuthenticationProvider 1.3.1 &nb
在CentOS上部署JAVA服务 java--hhf java jdk centos Java服务
本文将介绍如何在CentOS上运行Java Web服务，其中将包括如何搭建JAVA运行环境、如何开启端口号、如何使得服务在命令执行窗口关闭后依旧运行第一步：卸载旧Linux自带的JDK ①查看本机JDK版本 java -version 结果如下 java version "1.6.0"
oracle、sqlserver、mysql常用函数对比[to_char、to_number、to_date] ldzyz007 oracle mysql SQL Server
oracle &n
记Protocol Oriented Programming in Swift of WWDC 2015 ningandjin protocol WWDC 2015 Swift2.0
其实最先朋友让我就这个题目写篇文章的时候，我是拒绝的，因为觉得苹果就是在炒冷饭，把已经流行了数十年的OOP中的“面向接口编程”还拿来讲，看完整个Session之后呢，虽然还是觉得在炒冷饭，但是毕竟还是加了蛋的，有些东西还是值得说说的。通常谈到面向接口编程，其主要作用是把系统设计和具体实现分离开，让系统的每个部分都可以在不影响别的部分的情况下，改变自身的具体实现。接口的设计就反映了系统
搭建 CentOS 6 服务器(15) - Keepalived、HAProxy、LVS rensanning keepalived
（一）Keepalived （1）安装 # cd /usr/local/src # wget http://www.keepalived.org/software/keepalived-1.2.15.tar.gz # tar zxvf keepalived-1.2.15.tar.gz # cd keepalived-1.2.15 # ./configure # make &a
ORACLE数据库SCN和时间的互相转换 tomcat_oracle oracle sql
SCN（System Change Number 简称 SCN）是当Oracle数据库更新后，由DBMS自动维护去累积递增的一个数字，可以理解成ORACLE数据库的时间戳，从ORACLE 10G开始，提供了函数可以实现SCN和时间进行相互转换；　　用途：在进行数据库的还原和利用数据库的闪回功能时，进行SCN和时间的转换就变的非常必要了；　　操作方法：　　1、通过dbms_f
Spring MVC 方法注解拦截器 xp9802 spring mvc
应用场景，在方法级别对本次调用进行鉴权，如api接口中有个用户唯一标示accessToken,对于有accessToken的每次请求可以在方法加一个拦截器，获得本次请求的用户，存放到request或者session域。 python中，之前在python flask中可以使用装饰器来对方法进行预处理，进行权限处理先看一个实例,使用@access_required拦截： ?