云博士的AI课堂

【自然语言处理-NLP】文本预处理技术

以下内容将从 基本概念 到 实用代码 分步骤、分场景地详细介绍 NLP 常见文本预处理 方法及其背后的思想。如果无法从外部导入数据，我们会模拟一份简易文本数据（如字符串列表），并在此基础上演示预处理代码及详细解释，确保在常规 Python 环境下可以运行。

一、文本预处理的常见需求和作用

在自然语言处理（NLP）任务（如机器学习、深度学习、大模型开发）中，原始文本数据通常会包含各种噪声，例如：

多余的空格、换行符、特殊符号
HTML 标签、URL、邮箱等
语言层面的问题：大小写不统一、拼写错误
词形变化（went/walked 等过去式与原型 go/walk；dogs/buses 等名词复数形式）
不必要的词（常见停用词，如 the, is, at, on 等）

常见预处理目标

降噪 (Noise Reduction)
去除与任务无关或影响模型训练的噪声特征。
统一化 (Normalization)
包括大小写统一、词形还原（Lemma）或词干提取（Stem）、去除标点符号等。
结构化 (Tokenization 等)
将文本拆分成词元（tokens），或更细粒度的子词元（subwords）。
过滤 (Filtering)
去除某些非必要信息，如停用词（stop words）等。
增强 (Augmentation)
并非必需，但常见于深度学习中，如同义词替换、随机删除等，以增加鲁棒性。

二、常见的文本预处理方法概览

以下方法往往会按需组合使用：

大小写转换（Lowercasing / Uppercasing）
- 便于词频统计、一致性处理。多数英文 NLP 任务倾向统一转换为小写（除非对大小写敏感）。
去除 HTML 标签、URL、邮箱、货币符号等
- 使用正则表达式或简单字符串操作。
去除标点符号 (Punctuation Removal)
- 常见标点，如 . , ! ? : ; " ' - 等。
分词 (Tokenization)
- 将句子拆分为词或子词。英文可使用空格拆分或更复杂的工具，中文需使用专门的分词器。
停用词去除 (Stop Words Removal)
- 语言中出现频率高但对上下文意义贡献不大的词，如 the, a, an, of, is 等。
词干提取 (Stemming)
- 如 Porter Stemmer 或 Snowball Stemmer，把单词简化为词干（如 “studies”→“studi”）。
词形还原 (Lemmatization)
- 基于词典/词法规则，将不同时态、复数形式统一到词的原型（如 “studies”→“study”）。
子词切分 (Subword Tokenization)
- 用于大模型（如 BERT、GPT）或深度学习中的细粒度切分。典型算法有 Byte-Pair Encoding (BPE)、WordPiece 等。
数字化、特殊符号处理
- 将数字统一替换为，或保持数字原状，视任务需要。

以下我们将使用 Python 及相关库演示以上方法的大部分实现。

三、示例数据准备

我们先模拟一段文本数据（用一个字符串列表表示）。请注意，此示例仅用于演示，真实场景可来自数据库、爬虫、csv 等形式。

# 模拟一段文本数据
text_corpus = [
    "I love Machine Learning! It's awesome.",
    "Data science is an interdisciplinary field. The quick brown fox jumps over the lazy dog, doesn't it?",
    "Visit us at https://example.com or send an email to [email protected]!",
    "This is a sample HTML snippet. NLP can be fun :)"
]

四、分步骤预处理示例

下面演示从最基础的清洗开始，逐步进行各种预处理操作。为了演示效果，我们使用一些常见 Python 库（re, nltk），并保证无需外部数据文件即可运行。若你的环境没有安装 nltk，请先执行 pip install nltk。

说明：如果环境中无法使用 NLTK，也可根据需求自行编写简单函数或使用其他库（如 spaCy，但需 pip install spacy 并下载语言模型）。

1. 基础清洗与正则替换

目标：

将文本统一为小写
移除 HTML 标签
移除 URL
移除邮箱
去除多余的标点或特殊字符（可视情况而定）

import re

def basic_cleaning(text: str) -> str:
    # 1) 转小写
    text = text.lower()
    
    # 2) 移除 HTML 标签，如 ,  等
    text = re.sub(r"<.*?>", " ", text)
    
    # 3) 移除 URL (http://xxx 或 https://xxx)
    text = re.sub(r"http\S+|www\S+", " ", text)
    
    # 4) 移除邮箱 ([email protected])
    text = re.sub(r"\S+@\S+\.\S+", " ", text)
    
    # 5) 去除多余的标点符号，仅保留字母、数字、常见的符号
    #   视任务而定，这里演示删除大部分标点，只保留句子间空格
    text = re.sub(r"[^a-z0-9\s.,!?]", " ", text)
    
    # 6) 去除多余空格
    text = re.sub(r"\s+", " ", text).strip()
    
    return text

# 测试：
cleaned_corpus = [basic_cleaning(sentence) for sentence in text_corpus]
for i, (orig, c) in enumerate(zip(text_corpus, cleaned_corpus)):
    print(f"原文 {i}: {orig}")
    print(f"清洗后: {c}")
    print("-"*50)

解释

re.sub(r"<.*?>", " ", text)：用空格替换任何形如 <...> 的 HTML 标签。
re.sub(r"http\S+|www\S+", " ", text)：匹配并移除所有 URL。
re.sub(r"\S+@\S+\.\S+", " ", text)：匹配并移除邮箱格式（极简匹配）。
re.sub(r"[^a-z0-9\s.,!?]", " ", text)：只保留字母、数字、空格和部分标点(.,!?)，其余替换为空格。
text.lower()：统一转为小写。
\s+ 匹配连续空格，将其替换成单个空格；然后 .strip() 去掉首尾空格。

此时得到的是一个基本“干净”、大小写统一的语句列表。

2. 分词 (Tokenization)

常见做法：

基于空格：适合简单场景，但对带标点的情况处理不佳。
NLTK 的 word_tokenize（对英文较友好）。
自定义正则：如 re.split(r"\W+", text) 等。

此处演示 nltk.tokenize.word_tokenize：

import nltk
# 第一次使用需要下载 punkt 包：
# nltk.download('punkt')

from nltk.tokenize import word_tokenize

def tokenize_text(text: str) -> list:
    tokens = word_tokenize(text)
    return tokens

tokenized_corpus = [tokenize_text(sentence) for sentence in cleaned_corpus]
for i, (clean_sen, toks) in enumerate(zip(cleaned_corpus, tokenized_corpus)):
    print(f"清洗后文本 {i}: {clean_sen}")
    print(f"分词结果: {toks}")
    print("-"*50)

解释

word_tokenize 会把标点符号、撇号等也当成单独词元拆分，比如 "doesn't" 会被拆成 ["does", "n't"]，这在英文 NLP 里比较常见。

3. 停用词去除 (Stop Words Removal)

停用词指在文本中出现频率极高，但对主语义贡献不大或会干扰主题建模的词汇，如英语中的 the, a, an, of, is, are, was, were, ... 等。在 NLTK 中，可以使用内置的停用词表（需要 stopwords 数据包）。

# nltk.download('stopwords')
from nltk.corpus import stopwords

stop_words = set(stopwords.words('english'))  # 这里是英文停用词表

def remove_stopwords(tokens: list) -> list:
    filtered_tokens = [tok for tok in tokens if tok not in stop_words]
    return filtered_tokens

no_stopwords_corpus = [remove_stopwords(toks) for toks in tokenized_corpus]
for i, (toks, fs) in enumerate(zip(tokenized_corpus, no_stopwords_corpus)):
    print(f"分词结果 {i}: {toks}")
    print(f"去停用词后: {fs}")
    print("-"*50)

解释

使用 set(stopwords.words('english')) 来加速 “是否在停用词表中” 的判断。
如果用户有自定义停用词表，可以自行扩充或删减。

4. 词干化（Stemming）和词形还原（Lemmatization）

Stemming：用算法直接截断或替换单词末尾，得到词干（例如 using PorterStemmer、SnowballStemmer）。
Lemmatization：基于词典规则，还原到词的原型（例如 studies→study，went→go）。英文中常用 WordNetLemmatizer。

下面以 NLTK 为例。

# nltk.download('wordnet')
from nltk.stem import PorterStemmer, WordNetLemmatizer

stemmer = PorterStemmer()
lemmatizer = WordNetLemmatizer()

def stem_and_lemmatize(tokens: list):
    stemmed = [stemmer.stem(tok) for tok in tokens]
    # WordNetLemmatizer 需要指定词性(pos)，默认为名词，此处示例只做简单还原
    lemmed = [lemmatizer.lemmatize(tok) for tok in tokens]
    return stemmed, lemmed

for i, tokens in enumerate(no_stopwords_corpus):
    s, l = stem_and_lemmatize(tokens)
    print(f"去停用词后：{tokens}")
    print(f"Stem 结果：{s}")
    print(f"Lemma结果：{l}")
    print("-"*50)

解释

PorterStemmer 的规则较简单，可能产生非真实单词，如 “studies”→“studi”。
WordNetLemmatizer 依赖词典，根据单词本身的原形进行还原，但是需确定词性会更准确（如 lemmatizer.lemmatize(word, pos='v') 来处理动词）。

具体业务中，可二选一，或在不同场景尝试哪种更有效。

5. 子词切分 (Subword Tokenization)

在大模型（如 BERT、GPT）中，子词切分是非常重要的一步。常见算法：

Byte-Pair Encoding (BPE)
WordPiece
SentencePiece 等

这里示例一个简单的 BPE 思想演示（并不完整，只作概念说明）。现实中常用库如 tokenizers（HuggingFace）或 sentencepiece（Google）来训练和使用子词模型。

BPE 核心思路：

统计语料中出现频率最高的字符对（bigram）。
将该字符对合并为一个新的“子词符号”。
反复迭代，直到达到子词表大小或满足其他停止条件。

下面的示例仅演示核心过程的简化版本（不涉及多轮迭代训练），让你了解大致机制。

# 一个极简BPE演示：基于当前句子的字符频率合并
from collections import Counter, defaultdict

def bpe_tokenize(sentence, merges=2):
    """
    sentence: 输入字符串（假设已清洗、转小写）
    merges: 合并次数（越大，子词越长）
    此函数仅用于演示BPE核心合并机制，不是完整实现
    """
    # 初始：把句子视作字符列表，用空格隔开
    # 例如 "data" -> ["d", "a", "t", "a"]
    tokens = list(sentence.replace(" ", "▁"))  # 用下划线表示空格
    #▁可以视为空格符号，用来和字符区分
    
    for _ in range(merges):
        # 1. 统计所有相邻字符对频率
        pairs = Counter()
        for i in range(len(tokens)-1):
            pair = (tokens[i], tokens[i+1])
            pairs[pair] += 1
        
        if not pairs:
            break
        
        # 2. 找到出现次数最多的字符对
        best_pair = max(pairs, key=pairs.get)
        
        # 3. 合并该字符对
        #   在 tokens 中出现 (a,b) 的地方替换成 ab
        merged = []
        skip = False
        for i in range(len(tokens)):
            if skip:
                skip = False
                continue
            if i < len(tokens)-1 and (tokens[i], tokens[i+1]) == best_pair:
                merged.append(tokens[i] + tokens[i+1])
                skip = True
            else:
                merged.append(tokens[i])
        tokens = merged
    
    return tokens

# 示例句子
example_sentence = "i love machine"
print("原句:", example_sentence)
bpe_result = bpe_tokenize(example_sentence, merges=3)
print("BPE切分结果:", bpe_result)

解释

在真实应用中，BPE 需要在整个语料库上迭代多次统计频率最高的字符对，并更新“子词”表，直至达到预期词表大小。
以上代码只是演示如何把相邻字符合并，不具有生产环境可用性；但可以帮助理解 BPE 的基本流程。

五、综合示例：完整预处理流程

结合前面的步骤，可以组合成为一个 pipeline。示例：

def preprocess_pipeline(text_list):
    """
    综合使用:
    1) 基础清洗 (含大小写转化、去HTML/URL/邮箱、去标点等)
    2) 分词
    3) 去停用词
    4) Lemmatization
    """
    # 1) 基础清洗
    cleaned = [basic_cleaning(t) for t in text_list]
    
    # 2) 分词
    tokenized = [word_tokenize(t) for t in cleaned]
    
    # 3) 去停用词
    filtered = []
    for tokens in tokenized:
        filtered_tokens = [tok for tok in tokens if tok not in stop_words]
        filtered.append(filtered_tokens)
    
    # 4) 词形还原 (Lemmatization) 简化示例
    final_output = []
    for tokens in filtered:
        lemmed = [lemmatizer.lemmatize(tok) for tok in tokens]
        final_output.append(lemmed)
    
    return final_output

processed_corpus = preprocess_pipeline(text_corpus)
for i, (orig, pro) in enumerate(zip(text_corpus, processed_corpus)):
    print(f"原文 {i}: {orig}")
    print(f"最终预处理结果: {pro}")
    print("="*70)

解释

这里使用了前面定义的 basic_cleaning，word_tokenize，stop_words 和 WordNetLemmatizer。
在实际项目中，你可以进一步细化或调整步骤，例如是否需要大小写转换、是否需要词干化、是否保留数字符号等。

六、常见的注意事项

根据任务需求选择步骤：并非所有预处理步骤都需要。例如，在情感分析中，有时保留标点符号（如 !、?）可能帮助模型理解情绪表达；去除或保留停用词会影响模型效果，应当视情况调参。
语言差异：中文、阿拉伯语等语言不依赖空格分词，需要额外的分词工具（如 jieba, pkuseg, spaCy 中文模型等）。
大小写敏感性：命名实体识别、关键词搜索等任务，可能需要保留原有的大小写信息。
保留原始文本：有些复杂任务（如纠错、摘要）需要在模型预测后映射回原文本，应保留映射关系。
性能影响：预处理操作可能在大型数据集上耗费大量时间，需要考虑并行化（多进程、多线程）或分批预处理等策略。

七、总结

在 NLP 中，无论是传统机器学习、深度学习还是大模型（如 BERT/GPT）开发，都需要对文本数据做一定程度的预处理。这些预处理操作往往包括：

噪声清理（HTML、URL、邮箱、特殊字符等）
正则化（大小写统一、去除标点、数字处理等）
分词与停用词过滤（减少无关词）
词形还原或词干化（减少形态变体对模型的干扰）
子词切分（BPE/WordPiece 等）（对大模型极为重要）

具体使用哪种预处理步骤，需根据 任务目标、数据特点 来决定，并结合实验结果进行调整和优化。

以上所有代码都可以本地直接运行，所需外部数据仅用 Python 列表 text_corpus 模拟。同时，为了更好地运用预处理结果，建议在实际场景中对完整语料执行这些步骤，并做相应的性能评估。

至此，我们详尽介绍了 NLP 常见的文本预处理方法及其思路，并提供可运行的示例代码。希望能帮助你在文本数据清理、模型训练中快速上手并灵活改进。

【哈佛博后带小白玩转机器学习】 哔哩哔哩_bilibili

总课时超400+，时长75+小时

2022-10-20 体力劳动者
不因感觉稍纵即逝就不加记录。在女儿睡觉后我记下今天的小故事。接手新班级后，今天是第二次收到家长的感谢信（微信）。是我表扬次数最多的两位学生家长致来的感谢，他们明显感受到孩子自信、阳光了不少，写作业由被动变为了主动，家庭氛围也由鸡飞狗跳变成了其乐融融。在被顽皮的学生气得头晕之后，我感到了久违的价值感，责任感甚至使命感，我回复家长这样一句话：我们也需要家长的反馈好让我们的教育工作更有劲头。我也认识到，
月光下的罪恶（5）允歌玖沐
5.被孤立顾纨是转校过来的，进入学校后，回头率很高“诶诶诶，你看那女生，哪个系的？”“不知道没见过。”“看那样，一看就是个胆小的货。”顾纨当做没听到，更狠的话她都听过，更何况女生们耍心眼？“他爸爸是做黑生意的，估计女儿也不是什么好的，你以后离他一家子远点。”她走向自己要上课的教室，一进门，所有人的目光看向她，顾纨若无其事的走进教室，开始上课。下课，一群人站起来，但是很显然，她周围的一圈人都不愿意和
C++ 计数排序、归并排序、快速排序每天搬一点点砖 c++数据结构算法
计数排序：是一种基于哈希的排序算法。他的基本思想是通过统计每个元素的出现次数，然后根据统计结果将元素依次放入排序后的序列中。这种排序算法适用于范围较小的情况，例如整数范围在0到k之间计数排序步骤：1初始化一个长度为最大元素值加1的计数数组，所有元素初始化为02遍历原始数组，将每个元素值作为索引，在计数数组中对应位置加13将数组清空4遍历计数器数组，按照数组中的元素个数放回到元数组中计数排序的优点和
重大通知！SH-TY数字体育樊纲，操盘手汪定山就是一场騙局!背后利益阴谋让人恼羞成怒法律咨询维权
原来，所谓的炒股群就是骗子组群表演，团伙以“炒股群”的名义，向不知情的人步步加套，最终目的是骗取钱财。实际上，在这个炒股群内，所谓的投资成功的“股友”、诲人不倦的“老师”、亲切友好的“客服”等，都是嫌疑人设局扮演的，目的就是拉拢想要投资挣钱的股民，骗取他们的信任，从而进一步实施诈骗。诈骗团伙会通过非法渠道获取受害人联系方式，添加为好友后，以免费推荐股票、送牛股，吸引受害人眼球，将受害人拉进“炒股群
Linux系统配置（应用程序） 1风天云月 Linux linux 应用程序编译安装 rpm http
目录前言一、应用程序概述1、命令与程序的关系2、程序的组成3、软件包封装类型二、RPM1、RPM概述2、RPM用法三、编译安装1、解包2、配置3、编译4、安装5、启用httpd服务结语前言在Linux中的应用程序被视为将软件包安装到系统中后产生的各种文档，其中包括可执行文件、配置文件、用户手册等内容，这些文档被组织为一个有机的整体，为用户提供特定的功能，因此对于“安装软件包”与“安装应用程序”这两
JVM 内存模型深度解析：原子性、可见性与有序性的实现练习时长两年半的程序员小胡 JVM 深度剖析：从面试考点到生产实践 jvm java 内存模型
在了解了JVM的基础架构和类加载机制后，我们需要进一步探索Java程序在多线程环境下的内存交互规则。JVM内存模型（JavaMemoryModel，JMM）定义了线程和主内存之间的抽象关系，它通过规范共享变量的访问方式，解决了多线程并发时的数据一致性问题。本文将从内存模型的核心目标出发，详解原子性、可见性、有序性的实现机制，以及volatile、synchronized等关键字在其中的作用。一、J
不能随便扔垃圾小猪宝贝0905
阴雨天的周五，看你生病在家窝了快一周，嚷嚷着要去游乐场，那就决定带你去四海书城；为了不让你被雨淋湿，妈妈准备推个自行车，刚把你放到自行车后座上，你一个喷嚏鼻涕出来了，随手拿出纸巾擦擦鼻涕，妈妈因为嫌把你从座位上抱下来扔纸巾到前面的垃圾桶麻烦，就将纸巾扔进了旁边的树丛里；你却批评了妈妈，“不可以把纸巾扔到地上，应该扔进垃圾桶”；妈妈顿时感觉很羞愧，将你抱下来，重新捡起纸巾，扔进了垃圾桶。
践行8.0~第六周11.25-12.02 初队长
突破后的喜悦最可怕的不是自己不清楚，而是自己清楚了，却依然不心动，我想这就是我们每个人的惰性存在，在这一周的践行，我发现自己依然是停留在自己的模式当中，不断的恶性的轮回，虽然的话，那再晨间日记方面是纸质的填写，但是对一天的工作没有起到应有的计划和推动的作用而我自己呢，也有些时候的话会处于一个相对来讲放松的一个状态，时间的把控的话也有一些点的消极，所以在这周的间隙，重点是关注自己的三大目标为目标来进
与羊有关的诗句胡天寿01
1.《初春汉中漾舟》（孟浩然）羊公岘山下，神女汉皋曲。雪罢冰复开，春潭千丈绿。轻舟恣来往，探玩无厌足。波影摇妓钗，沙光逐人目。倾杯鱼鸟醉，联句莺花续。良会难再逢，日入须秉烛。2.《边头作》（李端）邠郊泉脉动，落日上城楼。羊马水草足，羌胡帐幕稠。射雕过海岸，传箭怯边州。事归朝将，今年又拜侯。3.《出境游山》(王勃)源水终无路，山阿若有人。羊先动石，走兔欲投巾。4.《按覆后归睦州，赠苗侍御》（刘长卿）
STM32入门之TIM基本定时器嵌入式白话 STM32入门学习 stm32 嵌入式硬件单片机
一、定时器简介定时器是嵌入式系统中的关键外设之一，它可以用于生成精确的延时、周期性中断、PWM波形生成等功能。在STM32F1系列单片机中，定时器不仅能为系统提供精确的时钟，还支持外部事件的捕获以及信号输出。对于定时器的功能，我们可以通过一个生活中非常常见的例子来形象地描述：微波炉的定时器。想象你正在使用微波炉加热食物。在微波炉里，定时器的作用就是帮助你控制食物加热的时间。当你设置了加热时间后，定
Matrix-Breakout 2 Morpheus靶场解题过程
信息收集目标探测靶机目标很明显就是61.139.2.141了扫描开放端口发现22、80、81访问端口主机访问80翻译一下，并没有发现什么审查源代码发现里面有一张图片，下载下来看看是否有图片的隐写wgethttp://61.139.2.141/trinity.jpegstegoveritas-itrinity.jpeg-o/home/kali/Desktop/11分解后发现什么都没有，里面的keep
处方药和非处方药六月荷清香
今天上午，我正闲着没事，一位装空调的熟人朋友走了进来。这时节，他可是大忙人，每天在外忙着帮人装空调。我笑问哪阵风将他刮来了！他说今年空调生意没有往年好，这几天也正闲着没事做呢。然后一本正经问我，那个治灰指甲的药叫什么名字来着，他不记得了。我笑道，我又不是医生，治灰指甲找医生啊，电视广告里不是宣传有灰甲，用亮甲吗。他将右手叉开让我看“你看，去年我听了你推荐的那个药，吃了几个疗程后我这手上的灰指甲都好
js操作样式郝加升
DOM样式属性和方法：指定的元素，它的style有这么几个属性和方法：cssText：通过这个属性可以访问到元素的特性style设置的属性，并且可以直接赋值设置。removeProperty（属性名称）：从样式中删除给定属性。setProperty（属性名称，值，权重）：可以通过这个方法设置给定样式的同时设置其权重，可以传入”important”或者一个空字符串。获取计算后样式：window.ge
C++ ：vector的模拟诚自然成 c++开发语言
目录一、vector的迭代器二、vector的构造函数默认构造函数参数构造函数迭代器范围构造函数拷贝构造函数swap:交换vector重载赋值符析构函数reserve:扩容vectorresize:调整大小push_back:添加元素empty:判空pop_back:后删获取大小与容量：size(),capacity()重载operator[]：元素访问insert：插入元素erase:删除一个元
心力践行营十二期一阶学习打卡 LX_王彤彤
姓名：王彤彤时间：2021年4月24日一：朗读师父的十大人生哲学二：师父的早安分享感悟很喜欢这句话：所有的行动都是基于目标的尝试，没有所谓的失败，只是不同尝试后得到的不同结果，让我们更好地调整下一次的行动。三：感恩日记1.我太幸福了，我很感恩姑姑，因为姑姑放假又投喂了我，还给我带了饺子回家，这让我感觉很幸福。谢谢，谢谢，谢谢。2.我太幸福了，我很感恩师父晚上的直播，因为听他的分享我知道怎么更好的去
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
【阳光️️☀️苑长幸福365】7月9日《就此刻确知》阳光苑长
音频文字原创|阳光苑长图片发自App一夜的梦境，情景相当的壮烈，那是前前后后多个情节的叠加，那是因为极其在意在正义的，完满的，在早已经确认——万古之先已经确认了一切美好的事物当中。当有假象，当有一些不好的势力，试图想去破坏夺取的时候，在梦境中一直得力的征战，为着身边最挚爱的朋友，为他，为所有美好的事业而守望。守望，英文叫做watcher，就是观望者。图片发自App在这个毫不奇怪，事实上一直发生的征
女生必备技能：如何一眼辨别渣男？艾零的奇异世界
我相信女孩子都不喜欢渣男，虽然也很喜欢看那些渣男出现的奇葩事，而且看完还得自己思考一下人生，这癖好我懂我懂！不过最近渣男出现的频率极高，甚至有点儿惊悚。3月28日芜湖市新市口，红色路虎车上烧死两人。只因男子苦追女子被拒。结果呢，男子想着呀，那就一起命送黄泉！可怜的女孩子死都没法摆脱渣男。4月12日，22岁女孩带着肚子里的孩子自杀，而渣男是准备继承皇位的花花公子。女孩3个月内打胎2次，自杀后还被键盘
uniapp微信小程序 - 详解微信小程序平台用户授权登录全流程，uniapp v3版本中小程序端开发下用户点击登录后获取手机号/昵称/性别/头像等信息完成登录（提供完整示例代码，一键复制开箱即用）十一猫咪爱养鱼前端组件与功能(开箱即用)uniapp常见问题解决 uniapp vue3 uniapp3小程序授权登录微信小程序登录获取用户信息教程获取用户昵称手机号头像信息登录 vue3版本小程序平台授权登录 uniap小程序端用户登录流程 uni完整的小程序平台登录源码
效果图在uniapp微信小程序端开发中，超详细实现用户授权登录完整功能源码，用户授权后获取手机号/昵称/头像/性别等，提供完整思路流程及逻辑讲解。uniappVue3和Vue2都能用，你也可以直接复制粘贴，然后改下参数放到你的项目中去就行。整体思路做功能之前，先来看一下整体流程是
老公的女朋友把我打成小三后，我杀疯了周昊净许青青小说完结推荐_最热门小说老公的女朋友把我打成小三后，我杀疯了周昊净许青青小富江呀
《老公的女朋友把我打成小三后，我杀疯了》主角：周昊净许青青简介：只因跟老公说了几句情话，就被老公的‘女朋友’当成小三。她带着一群自诩为“惩治小三联盟”的网络判官冲进了我家。“怎么，有脸当小三，没脸承认？”“从你当小三的那一刻起，就该想到会有被人收拾的一天！”“我们网络判官专治道德败坏的贱人！”这群人一边疯狂大骂，一边愤怒打砸。看着狼藉不堪的家，我面色平静地给公司法务部发去消息。“按照婚前协议，拟一
3次创业身价百亿，2年前却被大众判“死刑”，李想如今怎样了？职心眼儿
他，19岁放弃高考去创业；25岁，成为亿万富豪，被央视评为“80后创业”领军人物；39岁，身价再次暴涨，一夜间闯过200亿大关。他，在3个领域连续创业20年，一家公司市值700亿，一家公司市值2000亿。而他的最高学历，却只有高中。这个人，就是理想汽车的创始人——李想。纵观李想的创业史，可谓是颇为传奇：一个既没背景，又没资金高中毕业生，怎么就让3位互联网巨头（张一鸣、王兴、程维）同时为自己站台？更
父母拼尽一切孩子却不领情？一定要学会这一招四叶草_add9
中原焦点团队李金梅坚持分享第601天2021.5.28中国的父母是世界上最累的父母，从孩子出生，他们就开始了操劳的父母生涯：孩子年幼时，照顾他的吃喝拉撒；孩子上学后，忙完工作回到家还要辅导孩子的功课，辅导不了要报辅导班；孩子长大成人了，父母仍然要操心孩子的工作和婚姻；孩子结婚的房子，父母帮着买；孩子生了孩子，父母帮着带……父母的大半生都把孩子排在自己前面，一切为了孩子，最后却往往落不着好：孩子要么
黛玉葬花是一种什么心情爱的生命力
图片发自App小区里的花终于开了，带着孩子在小区散步的时候，无意间我注意到了玉兰，第一次我发现原来它是先开花后长叶子的，洁白如玉的花高耸入云，那种洁白，让人敬畏。因为有风，所以带孩子在楼遮挡的草坪上玩，发现紫叶李的花也开了，并且随着风的吹动，落了满地，孩子捡起一朵花，拿到我面前，细声细气的说“花”，我的大脑细胞瞬间激活，为什么不和孩子一起捡花呢！这可是一项好玩的游戏，于是我给孩子拿了一个大的挖土用
替身贵妃将我扒光沉塘，暴君杀红了眼陆知白李双儿全本免费小说阅读_最新完本小说替身贵妃将我扒光沉塘，暴君杀红了眼(陆知白李双儿) 多多文馆
《替身贵妃将我扒光沉塘，暴君杀红了眼》主角：陆知白李双儿简介：我是贫门农女，也是暴君爱而不得的白月光。为逼我入宫，他将我满村屠尽！暴君在后宫建了一座水晶殿，将我禁锢其中。他日日宠幸我，直至寻到一个与我七分相似的替身，方才淡了兴致。他将替身封为贵妃，千娇万宠一言可戏诸侯。贵妃恃宠生娇，趁着暴君出宫巡视，带着一群人闯进水晶殿。“本宫马上就要受封为后，今天就来清理后宫！”她在我脸上刻奴字，挑断我的手筋脚
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
走过山水知默知默
图片发自App王小波笔下的黄金时代不经意间随着时光，不可抗拒地到来。我翻着便签，瞧去年此时留下的愿望清单，欣慰得是，每一行后都有小小的红色的钩。去年的主旋律或许是“经历”，经历爱和友情，看过山与水。往后需要的是珍惜，认真对待每一个，默默关心自己的人。我在便签上写下今年的愿，自己的，他人的，会如在山寺敬香礼佛般虔诚。拥有与失去，生命中的永恒话题，错过无需回首，珍重眼前人而已。
民事诉讼后，发现与刑事案件有关联怎么办邓粤龙
在一些民事案件中，当事人发起民事诉讼后，经过法院审理，发现该案件和刑事案件还有关联，这时就涉及到交叉案件的处理。民事诉讼的发起人是案件的当事人，而刑事诉讼通常是由检察院提请公诉的，两者并不属于同一程序，那么，民事诉讼后多久到刑事诉讼？下面我们一起看看小编的分析。一、民事诉讼后多久到刑事诉讼？民事诉讼和刑事诉讼性质不同，是独立的。普通民事纠纷适用民事诉讼，构成犯罪则进行刑事诉讼，二者之间一般没有转化
Qwen3 大模型实战：使用 vLLM 部署与函数调用（Function Call）全攻略曦紫沐大模型大模型部署 Qwen3 vLLM 函数调用
文章摘要本文将带你从零开始，深入掌握如何使用Qwen3-8B大语言模型，结合vLLM进行高性能部署，并通过函数调用（FunctionCall）实现模型与外部工具的智能联动。我们将详细讲解部署命令、调用方式、代码示例及实际应用场景，帮助你快速构建基于Qwen3的智能应用。一、Qwen3简介与部署环境准备Qwen3是通义千问系列的最新一代大语言模型，具备强大的自然语言理解和生成能力，尤其在函数调用、工
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
Selenium基础教程 lemontree1945 selenium python 测试工具
1.Selenium环境安装1.1浏览器安装Chrome和ChromeDriver下载地址:https://googlechromelabs.github.io/chrome-for-testing/注意：驱动版本号要和浏览器版本号一致；安装后关闭浏览器自动更新:services.msc:打开系统服务找到和google相关的服务，全部修改为禁用1.2安装第三方库seleniumpipinstall
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开