NLTK库全解析：用Python打开自然语言处理的第一把钥匙

引言

你是否好奇过，手机里的智能助手是如何“听懂”你说的话？电商平台的差评分析又是怎样精准提取“物流慢”“质量差”这些关键词？这些看似神奇的自然语言处理（NLP）功能，背后都藏着一个“入门神器”——NLTK（Natural Language Toolkit）。作为Python生态中最经典的NLP库，NLTK就像一本“NLP百科全书”，从最基础的文本拆分到复杂的语义理解，它用简单的代码接口，带我们推开自然语言处理的大门。今天，我们就从0开始，用最鲜活的例子，带你玩转NLTK的核心功能！

一、NLTK是什么？为什么选它入门？

NLTK诞生于2001年，由宾夕法尼亚大学的Steven Bird和Edward Loper开发，如今已成为全球高校NLP课程的“标配教材”。它的魅力在于：把复杂的算法封装成了“傻瓜式”接口——你不需要精通机器学习底层数学，就能用几行代码完成分词、词性标注等任务。更关键的是，NLTK自带了海量语料库（比如经典的Brown语料库、Reuters新闻语料库）和预训练模型，就像给新手配了“装备库”。

安装与初始化：先给NLTK“充能”

首先，用pip安装NLTK本体：

pip install nltk

安装完成后，你需要下载NLTK的语料库和模型（这一步是新手最容易卡壳的地方）。打开Python交互环境，输入：

import nltk  
nltk.download()  # 会弹出图形化界面，勾选需要的资源（建议先选all-corpora和punkt）

国内用户加速方案：
若遇到网络问题，可手动设置清华镜像源：

import nltk  
nltk.set_proxy('https://mirrors.tuna.tsinghua.edu.cn/nltk_data/')  # 设置代理  
nltk.download('punkt')  # 下载句子/单词分词器  
nltk.download('averaged_perceptron_tagger')  # 词性标注模型  
nltk.download('maxent_ne_chunker')  # 命名实体识别模型  
nltk.download('words')  # 英文单词词典

不同系统注意事项：

Windows用户：若图形化界面无法弹出，可直接用命令行指定下载；
Linux/Mac用户：确保Python环境权限正确，避免PermissionError。

二、文本处理的“第一步”：分词（Tokenization）

想象一下，你拿到一段英文文本：“I love NLP! It’s interesting, isn’t it?”。要让计算机理解这段文字，第一步是把它拆成“有意义的最小单元”——这就是分词。NLTK提供了多种分词器，分别处理“句子拆分”和“单词拆分”。

2.1 句子分词（Sentence Tokenization）：给文本“断句”

NLTK的sent_tokenize函数用的是基于机器学习的Punkt分词器，能智能识别“.”在“Mr.Wang”（缩写）和“5.5”（数字）中的不同含义。
示例代码：

from nltk.tokenize import sent_tokenize  
  
text = "NLTK is a powerful library. It helps with NLP tasks! Let's learn it together."  
sentences = sent_tokenize(text)  
  
print("拆分后的句子：")  
for i, sent in enumerate(sentences, 1):  
    print(f"第{i}句：{sent}")

输出：

第1句：NLTK is a powerful library.  
第2句：It helps with NLP tasks!  
第3句：Let's learn it together.

2.2 单词分词（Word Tokenization）：给句子“拆词”

NLTK的word_tokenize能处理缩写（如it’s→it+'s）、连字符（如mother-in-law）等复杂情况。
示例代码：

from nltk.tokenize import word_tokenize  
  
sentence = "It's interesting, isn't it? Let's try NLTK!"  
words = word_tokenize(sentence)  
  
print("拆分后的单词：", words)

输出：

["It", "'s", "interesting", ",", "isn", "'t", "it", "?", "Let", "'s", "try", "NLTK", "!"]

2.3 分词器的“个性”：不同场景选不同工具

分词器名称	特点	适用场景
`WhitespaceTokenizer`	按空格拆分，忽略标点	已清洗的文本（如纯单词）
`TreebankWordTokenizer`	模拟宾州树库规则，智能拆分缩写	英文语法精确处理
`RegexpTokenizer`	自定义正则表达式拆分	特殊格式文本（如HTML标签）
`WordPunctTokenizer`	单词与标点独立拆分	需保留标点的文本分析

对比实验：

from nltk.tokenize import WhitespaceTokenizer, TreebankWordTokenizer, RegexpTokenizer  
  
sentence = "Don't worry, NLTK's here! Visit www.nltk.org for help."  
  
# 空格分词器  
print("空格分词：", WhitespaceTokenizer().tokenize(sentence))  
# 输出：['Don't', 'worry,', "NLTK's", 'here!', 'Visit', 'www.nltk.org', 'for', 'help.']  
  
# 树库分词器  
print("树库分词：", TreebankWordTokenizer().tokenize(sentence))  
# 输出：['Do', "n't", 'worry', ',', 'NLTK', "'s", 'here', '!', 'Visit', 'www.nltk.org', 'for', 'help', '.']  
  
# 正则分词器（只保留字母数字）  
print("正则分词：", RegexpTokenizer(r'\w+').tokenize(sentence))  
# 输出：['Don', 't', 'worry', 'NLTK', 's', 'here', 'Visit', 'www', 'nltk', 'org', 'for', 'help']

2.4 中文分词补充（NLTK的局限与拓展）

NLTK原生对中文分词支持较弱，推荐结合jieba库使用：

# 需先安装：pip install jieba  
import jieba  
  
chinese_text = "自然语言处理是人工智能的重要分支，NLTK和jieba都是常用的工具库。"  
# jieba分词  
print("jieba分词：", jieba.lcut(chinese_text))  
# 输出：['自然语言处理', '是', '人工智能', '的', '重要', '分支', '，', 'NLTK', '和', 'jieba', '都', '是', '常用', '的', '工具库', '。']  
  
# 结合NLTK处理：  
from nltk import pos_tag, word_tokenize  
# 注意：NLTK对中文词性标注需额外模型，此处仅演示流程  
chinese_words = jieba.lcut(chinese_text)  
print("中文词性标注（需自定义模型）：", pos_tag(chinese_words))

三、给单词“贴身份卡”：词性标注（Part-of-Speech Tagging）

分词后，我们需要知道每个单词的“身份”——是名词、动词还是形容词？这就是词性标注（POS Tagging）。NLTK的pos_tag函数使用预训练的感知机模型，基于宾州树库标签集（共45种标签）。

3.1 基础用法：一行代码完成标注

from nltk.tokenize import word_tokenize  
from nltk.tag import pos_tag  
  
sentence = "The quick brown fox jumps over the lazy dog."  
words = word_tokenize(sentence)  
tagged_words = pos_tag(words)  
  
print("词性标注结果（单词+标签）：")  
for word, tag in tagged_words:  
    print(f"{word:10} -> {tag}")

输出：

The        -> DT   # 限定词（Determiner）  
quick      -> JJ   # 形容词（Adjective）  
brown      -> JJ   # 形容词  
fox        -> NN   # 名词（单数）  
jumps      -> VBZ  # 动词（第三人称单数现在时）  
over       -> IN   # 介词/连词  
the        -> DT   # 限定词  
lazy       -> JJ   # 形容词  
dog        -> NN   # 名词（单数）  
.          -> .    # 标点符号

3.2 标签解读：宾州树库标签集速查（核心类别）

标签	含义	例子	扩展标签示例
NN	普通名词（单数）	cat, book	NNS（复数）、NNP（专有名词）
VB	动词原形	run, eat	VBD（过去式）、VBZ（三单）
JJ	形容词	quick, happy	JJR（比较级）、JJS（最高级）
RB	副词	quickly, happily	RBR（比较级）、RBS（最高级）
PRP	人称代词	I, you, he	PRP$（物主代词）
CD	基数词	1, two, 3.14

3.3 实战：用词性标注筛选关键词（情感分析场景）

def extract_keywords(text, pos_tags=['JJ', 'RB', 'VB']):  
    """提取指定词性的单词（形容词、副词、动词）"""  
    words = word_tokenize(text)  
    tagged = pos_tag(words)  
    # 筛选词性在pos_tags中的词  
    keywords = [word for word, tag in tagged if tag in pos_tags]  
    return keywords  
  
review = "The new iPhone has a stunning display! It runs extremely smoothly, but the battery drains quickly."  
keywords = extract_keywords(review)  
print("评论中的关键词：", keywords)  
# 输出：['new', 'stunning', 'runs', 'extremely', 'smoothly', 'drains', 'quickly']

四、从单词到“实体”：命名实体识别（Named Entity Recognition, NER）

命名实体识别（NER） 是给“有特殊意义的短语”贴“高级标签”——比如识别出“Apple”是组织（ORG），“New York”是地点（GPE），“2023”是时间（DATE）。NLTK的ne_chunk函数结合了词性标注和分块技术。

4.1 基础用法：识别常见实体类型

from nltk.chunk import ne_chunk  
from nltk.tokenize import word_tokenize, sent_tokenize  
from nltk.tag import pos_tag  
  
text = "Jeff Bezos founded Amazon in Seattle on July 5, 1994. Apple Inc. was founded in Cupertino."  
sentences = sent_tokenize(text)  
  
for sent in sentences:  
    words = word_tokenize(sent)  
    tagged_words = pos_tag(words)  
    ner_tree = ne_chunk(tagged_words)  
    print("实体识别结果：")  
    print(ner_tree)

输出（简化）：

(S  
  (PERSON Jeff/NNP Bezos/NNP)  
  founded/VBD  
  (ORGANIZATION Amazon/NNP)  
  in/IN  
  (GPE Seattle/NNP)  
  on/IN  
  (DATE July/NNP 5/CD ,/, 1994/CD)  
  ./.)  
(S  
  (ORGANIZATION Apple/NNP Inc./NNP)  
  was/VBD founded/VBN  
  in/IN  
  (GPE Cupertino/NNP)  
  ./.)

4.2 实体类型与遍历提取

NLTK默认支持6种核心实体类型：

PERSON：人名（Jeff Bezos）
ORGANIZATION：组织（Amazon, Apple）
GPE：地理政治实体（Seattle, China）
LOCATION：非政治地点（mountain, lake）
DATE：时间（July 5, 1994）
MONEY：金额（$100, ¥500）

结构化提取代码：

def extract_ner_entities(ner_tree):  
    entities = []  
    for chunk in ner_tree:  
        if hasattr(chunk, 'label'):  # 判断是否为实体块  
            entity_type = chunk.label()  
            entity_name = ' '.join(word for word, tag in chunk)  
            entities.append((entity_name, entity_type))  
    return entities  
  
# 结合前文ner_tree调用  
entities = extract_ner_entities(ner_tree)  
print("提取的实体：")  
for name, type in entities:  
    print(f"{name:20} -> {type}")

4.3 NER的局限性与优化建议

英文偏向性：NLTK的NER模型基于英文训练，中文识别需结合jieba+自定义模型（如HanLP）；

精度限制：对复杂实体（如“New York City”）可能拆分为多个GPE，而spaCy的NER精度更高：

# 对比spaCy（需安装：pip install spacy）  
import spacy  
nlp = spacy.load("en_core_web_sm")  
doc = nlp("New York City was founded in 1624.")  
print("spaCy实体识别：", [(ent.text, ent.label_) for ent in doc.ents])  
# 输出：[('New York City', 'GPE'), ('1624', 'DATE')]

五、NLTK的“超能力”：从基础到应用

5.1 文本分类：垃圾邮件识别（Naive Bayes模型）

from nltk.classify import NaiveBayesClassifier  
from nltk.tokenize import word_tokenize  
from nltk.corpus import stopwords  
import re  
  
# 数据预处理：去除停用词+小写化  
def preprocess(text):  
    stop_words = set(stopwords.words('english'))  
    words = word_tokenize(text.lower())  
    return [word for word in words if word.isalpha() and word not in stop_words]  
  
# 特征提取：词袋模型（判断单词是否存在）  
def feature_extractor(text):  
    words = preprocess(text)  
    return {word: True for word in words}  
  
# 训练数据（更多样本可提升准确率）  
train_data = [  
    ("spam", "Win free money now! Click here to claim your prize"),  
    ("spam", "URGENT: Your account has been locked. Call 1-800-123-4567"),  
    ("ham", "Meeting at 2 PM today to discuss project plans"),  
    ("ham", "Reminder: Your flight to Paris is on June 15th at 8 AM")  
]  
  
featureset = [(feature_extractor(text), label) for label, text in train_data]  
classifier = NaiveBayesClassifier.train(featureset)  
  
# 测试新文本  
test_text = "Dear user, your credit card has been charged $99.99. Click to refund!"  
print("垃圾邮件预测：", classifier.classify(feature_extractor(test_text)))

5.2 情感分析：用户评论打分（VADER模型）

from nltk.sentiment import SentimentIntensityAnalyzer  
import nltk  
  
nltk.download('vader_lexicon')  
sia = SentimentIntensityAnalyzer()  
  
reviews = [  
    "This product is absolutely amazing! I love the design and quality.",  
    "Worst experience ever. The customer service was rude and unhelpful.",  
    "The movie was okay, but the ending was a bit disappointing.",  
    "Highly recommend! The price is reasonable and it works perfectly."  
]  
  
for review in reviews:  
    scores = sia.polarity_scores(review)  
    # 综合得分（-1到1），>0.05积极，<-0.05消极，否则中性  
    sentiment = "积极" if scores['compound'] > 0.05 else "消极" if scores['compound'] < -0.05 else "中性"  
    print(f"评论：{review}\n情感分数：{scores['compound']:.2f} → {sentiment}\n")

5.3 信息抽取：从新闻中提取关键事件（结合句法分析）

from nltk.tokenize import word_tokenize  
from nltk.tag import pos_tag  
from nltk.chunk import ne_chunk  
from nltk import Tree  
  
def extract_events(text):  
    """提取“谁-做-什么-时间-地点”结构的事件"""  
    words = word_tokenize(text)  
    tagged = pos_tag(words)  
    ner_tree = ne_chunk(tagged)  
    events = []  
      
    # 简单句法模式匹配：NP(名词短语)+VP(动词短语)  
    grammar = "NP: {?*+} VP: {+}"  
    cp = nltk.RegexpParser(grammar)  
    tree = cp.parse(tagged)  
      
    # 遍历树结构寻找动词短语  
    for subtree in tree.subtrees():  
        if subtree.label() == 'VP':  
            verb = [word for word, tag in subtree if tag.startswith('VB')][0]  
            np = [word for word, tag in tree if tag.startswith('NN')]  
            if np and verb:  
                events.append({  
                    "主体": np[0],  
                    "动作": verb,  
                    "实体": extract_ner_entities(ner_tree)  # 结合NER实体  
                })  
    return events  
  
news = "Elon Musk announced that Tesla will build a new factory in Berlin in 2024."  
events = extract_events(news)  
print("提取的事件：", events)  
# 输出（简化）：[{"主体": "Elon", "动作": "announced", "实体": [("Elon Musk", "PERSON"), ("Tesla", "ORG"), ("Berlin", "GPE"), ("2024", "DATE")]}]

六、进阶技巧：从基础处理到语义理解

6.1 词形还原（Lemmatization）与词干提取（Stemming）

词形还原：将单词还原为词典形式（如“went”→“go”，“better”→“good”）；
词干提取：去除词缀得到词干（如“running”→“run”，“fishing”→“fish”）。

对比代码：

from nltk.stem import PorterStemmer, WordNetLemmatizer  
import nltk  
  
nltk.download('wordnet')  # 词形还原需要WordNet语料库  
  
# 词干提取器（Porter算法）  
stemmer = PorterStemmer()  
# 词形还原器  
lemmatizer = WordNetLemmatizer()  
  
words = ["running", "went", "better", "fishes", "geese", "children"]  
  
print("单词\t词干提取\t词形还原")  
print("-" * 30)  
for word in words:  
    stem = stemmer.stem(word)  
    lemma = lemmatizer.lemmatize(word, pos='v')  # pos指定词性（n/v/a/r）  
    print(f"{word}\t{stem}\t\t{lemma}")

输出：

单词	    词干提取	    词形还原  
------------------------------  
running	    run	        run  
went	    went	    go  
better	    bett	    good  
fishes	    fish	    fish  
geese	    geese	    goose  
children	child	    child

6.2 句法分析（Parsing）：理解句子语法结构

NLTK的句法分析器可以生成句子的语法树，帮助理解主谓宾结构。

from nltk import load_parser, word_tokenize  
  
# 加载句法分析器（需下载punkt和treebank语料库）  
nltk.download('treebank')  
parser = load_parser('file:treebank_grammar.cfg')  # 加载默认语法规则  
  
sentence = "The quick brown fox jumps over the lazy dog."  
words = word_tokenize(sentence)  
  
# 生成句法树（可能有多个解析结果，取第一个）  
for tree in parser.parse(words):  
    print("句法树结构：")  
    tree.pretty_print()  # 打印树状结构  
    break

输出（树状结构简化）：

(ROOT  
  (S  
    (NP (DT The) (JJ quick) (JJ brown) (NN fox))  
    (VP (VBZ jumps) (PP (IN over) (NP (DT the) (JJ lazy) (NN dog))))  
    (. .)))

6.3 语料库应用：从Brown语料库看词性分布

NLTK内置的语料库可用于统计分析，以Brown语料库为例：

from nltk.corpus import brown  
  
# 查看Brown语料库的类别（共15种文体）  
print("Brown语料库类别：", brown.categories())  
# 输出：['adventure', 'belles_lettres', ..., 'science_fiction']  
  
# 统计不同类别中名词的比例  
def count_nouns_by_category():  
    results = {}  
    for category in brown.categories():  
        tagged_words = brown.tagged_words(categories=category)  
        nouns = [word for word, tag in tagged_words if tag.startswith('NN')]  
        noun_ratio = len(nouns) / len(tagged_words)  
        results[category] = noun_ratio  
    return results  
  
noun_stats = count_nouns_by_category()  
# 打印前5个类别  
print("各类别名词比例：")  
for cat, ratio in sorted(noun_stats.items(), key=lambda x: x[1], reverse=True)[:5]:  
    print(f"{cat}: {ratio:.2%}")

七、结语：NLTK的“进阶之路”与替代方案

7.1 NLTK的优缺点总结

优点：
- 入门友好，文档和教程丰富，适合学习NLP基础概念；
- 内置海量语料库和基础模型，无需额外数据预处理；
- 功能全面，覆盖分词、标注、分类等全流程。
缺点：
- 性能相对较低，不适合处理大规模数据；
- 中文支持较弱，复杂任务需结合其他库；
- 部分模型（如NER）精度不如专业工具（如spaCy、Flair）。

7.2 学习建议与后续工具

掌握NLTK后：可过渡到更高效的库——
- spaCy：工业级NLP工具，速度快，支持多语言和深度学习；
- Transformers：基于BERT等预训练模型，适合语义理解和生成任务；
- Hugging Face Tokenizers：高性能分词器，支持字节对编码（BPE）等技术。
实战建议：
- 从Kaggle数据集（如IMDB影评情感分析）入手，用NLTK完成文本预处理；
- 结合Flask/Django搭建简单的NLP应用（如关键词提取API）；
- 阅读NLTK官方文档（https://www.nltk.org/）和《Natural Language Processing with Python》书籍。

八、参考文献

NLTK官方文档：https://www.nltk.org/
《Natural Language Processing with Python》（Steven Bird等著）
宾州树库标签集：https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html
spaCy官方文档：https://spacy.io/

通过这篇教程，你已掌握NLTK从基础到进阶的核心功能。NLP的世界充满挑战与趣味，现在就用NLTK开启你的自然语言处理之旅吧！

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
x86-64汇编语言训练程序与实战十除以十等于一
本文还有配套的精品资源，点击获取简介：汇编语言是一种低级语言，与机器代码紧密相关，特别适用于编写系统级代码及性能要求高的应用。nasm编译器是针对x86和x86-64架构的汇编语言编译器，支持多种语法风格和指令集。项目Euler提供数学和计算机科学问题，鼓励编程技巧应用，前100个问题的答案可共享。x86-64架构扩展了寄存器数量并引入新指令，提升了数据处理效率。学习汇编语言能够深入理解计算机底层
男士护肤品哪个牌子好？十大男士护肤品排行榜高省APP珊珊
很多男生意识到护肤的必要性，开始着手护肤，但不知道该选哪个男士护肤品品牌使用好。目前市面上很多男士护肤品品牌，可谓琳琅满目，让人眼花缭乱。男士挑选护肤品时，根据自己皮肤需求去正规渠道挑选合适的知名护肤品比较放心靠谱。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入
三菱PLC全套学习资料及应用手册 good2know
本文还有配套的精品资源，点击获取简介：三菱PLC作为工业自动化领域的核心设备，其系列产品的学习和应用需要全面深入的知识。本次资料包为学习者提供从基础到进阶的全方位学习资源，包括各种型号PLC的操作手册、编程指南、软件操作教程以及实际案例分析，旨在帮助用户系统掌握PLC的编程语言、指令系统及在各类工业应用中的实施。1.三菱PLC基础知识入门1.1PLC的基本概念可编程逻辑控制器（PLC）是工业自动化
2022-10-20 体力劳动者
不因感觉稍纵即逝就不加记录。在女儿睡觉后我记下今天的小故事。接手新班级后，今天是第二次收到家长的感谢信（微信）。是我表扬次数最多的两位学生家长致来的感谢，他们明显感受到孩子自信、阳光了不少，写作业由被动变为了主动，家庭氛围也由鸡飞狗跳变成了其乐融融。在被顽皮的学生气得头晕之后，我感到了久违的价值感，责任感甚至使命感，我回复家长这样一句话：我们也需要家长的反馈好让我们的教育工作更有劲头。我也认识到，
程翔授《评价一篇记叙文》行吟斯基
桂林十一中高一2中学生自读程老师学生文章板书课题师巡看。看完举手。问：它是记叙文。不商量。独立打分。学生评价打分。师：高低都正常，不受干扰。师巡，略评。打完举手。调查：分层次举手——高分先举手。最低分。最高95分。最低45分。女：差距太大！师：同一篇，相差55分。若是你的文章，愿落谁手？男：身临其境感觉。师：你有此经历？没也没关系。女：不优美……，结尾无升华……无感悟……师：辞藻不美？(师追问)男
《玉骨遥》：大司命为什么不杀朱颜？原因没那么简单 windy天意晚晴
《玉骨遥》里，朱颜就是时影的命劫之人。重明与时影早就知道，他们一直瞒着大司命，如今大司命也知道了真相。可是大司命却没有杀朱颜，而是给朱颜下了诛心咒，还说时影的命劫已经破了，真的如此吗？1、计划总是赶不上变化的大司命从目前剧情来说，大司命还不如时影，他信心十足的事情总会有纰漏。他不让时影见命劫之女，结果时影还是遇上了。他想让时影走火入魔，一心复仇，结果时影在朱颜的劝说下放下了仇恨。大司命让时影开山收
移动端城市区县二级联动选择功能实现包 good2know
本文还有配套的精品资源，点击获取简介：本项目是一套为移动端设计的jQuery实现方案，用于简化用户在选择城市和区县时的流程。它包括所有必需文件：HTML、JavaScript、CSS及图片资源。通过动态更新下拉菜单选项，实现城市到区县的联动效果，支持数据异步加载。开发者可以轻松集成此功能到移动网站或应用，并可基于需求进行扩展和优化。1.jQuery移动端解决方案概述jQuery技术简介jQuery
日更006 终极训练营day3 懒cici
人生创业课（2）今天的主题：学习方法一：遇到有用的书，反复读，然后结合自身实际，列践行清单，不要再写读书笔记思考这本书与我有什么关系，我在哪些地方能用到，之后我该怎么用方法二：读完书没映像怎么办?训练你的大脑，方法：每读完一遍书，立马合上书，做一场分享，几分钟都行对自己的学习要求太低，要逼自己方法三：学习深度不够怎么办？找到细分领域的榜样，把他们的文章、书籍、产品都体验一遍，成为他们的超级用户，向
自律打卡第四天：比昨天进步一点点花儿的念想
今天新闻我们县城又确诊了一例，截止目前已经确诊的三例了，打开，看了一篇简友写的武汉的真实情况，有病住不了院，还没等到床位已经去世的消息，心里更加的难受，武汉尚且这样，如果是我们这没有高速没有火车的十八线的小县城发生这种情况，那情况将是更加的不堪设想，不敢想，唯有祈求灾难早点快去，平安才是最大的福气。突然觉得我的自律打卡，比昨天进步一点点。更希望疫情战争每一天都要比昨天好一点，希望一觉醒来听到的是好
15个小技巧，让我的Windows电脑更好用了！曹元_
01.桌面及文档处理第一部分的技巧，主要是围绕桌面的一些基本操作，包括主题设置、常用文档文件快捷打开的多种方式等等。主题换色默认情况下，我们的Win界面可能就是白色的文档界面，天蓝色的图表背景，说不出哪里不好看，但是就是觉得不够高级。imageimage说到高级感，本能第一反应就会和暗色模式联想起来，如果我们将整个界面换成黑夜模式的话，它会是这样的。imageimage更改主题颜色及暗色模式，我们
（二）SAP Group Reporting (GR) 核心子模块功能及数据流向架构解析
数据如何从子公司流转到合并报表的全过程，即数据采集→合并引擎→报表输出，特别是HANA内存计算如何优化传统ETL瓶颈。SAPGroupReporting(GR)核心模块功能及数据流向的架构解析，涵盖核心组件、数据处理流程和关键集成点，适用于S/4HANA1809+版本：一、核心功能模块概览模块功能关键事务码/FioriApp数据采集(DataCollection)整合子公司财务数据（SAP/非SA
9、汇编语言编程入门：从环境搭建到简单程序实现神经网络酱汇编语言 MEPIS GNU工具链
汇编语言编程入门：从环境搭建到简单程序实现1.数据存储介质问题解决在处理数据存储时，若要使用MEPIS系统，需确保有其可访问的存储介质。目前，MEPIS无法向采用NTFS格式（常用于Windows2000和XP工作站）的硬盘写入数据。不过，若硬盘采用FAT32格式，MEPIS就能进行写入操作。此外，MEPIS还能将文件写入软盘和大多数USB闪存驱动器。若工作站连接到局域网，还可通过FTP协议或挂载
月光下的罪恶（5）允歌玖沐
5.被孤立顾纨是转校过来的，进入学校后，回头率很高“诶诶诶，你看那女生，哪个系的？”“不知道没见过。”“看那样，一看就是个胆小的货。”顾纨当做没听到，更狠的话她都听过，更何况女生们耍心眼？“他爸爸是做黑生意的，估计女儿也不是什么好的，你以后离他一家子远点。”她走向自己要上课的教室，一进门，所有人的目光看向她，顾纨若无其事的走进教室，开始上课。下课，一群人站起来，但是很显然，她周围的一圈人都不愿意和
day15｜前端框架学习和算法 universe_01 前端算法笔记
T22括号生成先把所有情况都画出来，然后（在满足什么情况下）把不符合条件的删除。T78子集要画树状图，把思路清晰。可以用暴力法、回溯法和DFS做这个题DFS深度搜索：每个边都走完，再回溯应用：二叉树搜索，图搜索回溯算法=DFS+剪枝T200岛屿数量（非常经典BFS宽度把树状转化成队列形式，lambda匿名函数“一次性的小函数，没有名字”setup语法糖：让代码更简洁好写的语法ref创建：基本类型的
贝多芬诞辰250周年纪念万千星河赴远方
就算不是古典音乐爱好者，你也一定听说过贝多芬。作为古典音乐史上最伟大的音乐家之一，他不仅是古典主义风格的集大成者，同时也是浪漫主义风格的开创者。贝多芬肖像画（1813年）贝多芬的一生共创作了9部交响曲、36首钢琴奏鸣曲、10部小提琴奏鸣曲、16首弦乐四重奏、1部歌剧及2部弥撒曲等等。数量虽然不及前辈海顿、莫扎特多，但他几乎改造了当时所有的音乐表达形式，赋予了它们全新的价值，对后世音乐的发展产生了极
IK分词初心myp
实现简单的分词功能，智能化分词添加依赖配置：4.10.4org.apache.lucenelucene-core${lucene.version}org.apache.lucenelucene-analyzers-common${lucene.version}org.apache.lucenelucene-queryparser${lucene.version}org.apache.lucenel
三件事—小白猫·雨天·八段锦咸鱼月亮
1.最近楼下出现一只非常漂亮的粘人小白猫，看着不像是流浪猫，非常亲人。眼睛比蓝球的还大，而且是绿色的，很漂亮。第一次遇到它，它就跟我到电梯口，如果我稍微招招手，肯定就跟我进电梯了。后来我喂过它几次，好可惜不能养它，一只蓝球就是我的极限了。2.下雨天就心烦，好奇怪。明明以前我超爱看窗外的雨和听雨声，看来近来的心情不够宁静了。3.最近在练八段锦，从第一次就爱上了这个运动，很轻松缓慢，但是却出汗。感觉可
25-1-2019 树藤与海岛呢
hello八月来报道了今天看到了一篇文章就只想记下那两句话：良田千顷不过一日三餐广夏万间只睡卧榻三尺大概的意思就是要珍惜当下不要等来不及的时候才珍惜分享今天的两餐最近没有时间运动呢下个月补回好了说完了哈哈goodnight图片发自App图片发自App
《极简思维》第三部分小洋苏兮
整理你的人际关系如何改善人际关系？摘录：因为人际关系问题是人们生活中不快乐的主要原因。感想：感觉这个说的挺对，之前我总是埋头学习，不管舍友不管自己的合作伙伴的一些事情，但实际上，这学期关注了之后好多了摘录：“亲密关系与社交会让你健康而快乐。这是基础。太过于关注成就或不太关心人际关系的人都不怎么快乐。基本上来说，人类就是建立在人脉关系上的。”感想：但是如果有时想的太多就不太好，要以一个开放的心态跟别
力扣热题100-------54. 螺旋矩阵海航Java之路力扣 leetcode 矩阵 java
给你一个m行n列的矩阵matrix，请按照顺时针螺旋顺序，返回矩阵中的所有元素。示例1：输入：matrix=[[1,2,3],[4,5,6],[7,8,9]]输出：[1,2,3,6,9,8,7,4,5]示例2：输入：matrix=[[1,2,3,4],[5,6,7,8],[9,10,11,12]]输出：[1,2,3,4,8,12,11,10,9,5,6,7]提示：m==matrix.lengthn
我不懂什么是爱，但我给你全部我拥有的香尧
因为怕黑，所以愿意陪伴在夜中行走的人，给他一点点的安全感。因为渴望温柔与爱，所以愿意为别的孩子付出爱与温柔。因为曾遭受侮辱和伤害，所以不以同样的方式施于其他人。如果你向别人出之以利刃，对方还了你爱与包容，真的不要感激他，真的不要赞美他。每一个被人伤害过的人心里都留下了一颗仇恨的种子，他也会想要有一天以眼还眼，以牙还牙。但他未让那颗种子生根发芽，他用一把心剑又一次刺向他自己，用他血荐仇恨，开出一朵温
你要记住，最重要的是:随时做好准备，为了你可能成为更好的自己，放弃现在的自己。霖霖z
打卡人:周云日期:2018年11月09日【日精进打卡第180天】【知～学习】《六项精进》0遍共214遍《通篇》1遍共106遍《大学》2遍共347遍《坚强工作，温柔生活》ok《不抱怨的世界》104-108页《经典名句》你要记住，最重要的是:随时做好准备，为了你可能成为更好的自己，放弃现在的自己。【行～实践】一、修身：（对自己个人）1、坚持打卡二、齐家：（对家庭和家人）打扫卫生，接送孩子，洗衣做饭，陪
SpringMVC执行流程（原理），通俗易懂国服冰 SpringMVC spring mvc
SpringMVC执行流程（原理），通俗易懂一、图解SpringMVC流程二、进一步理解Springmvc的执行流程1、导入依赖2、建立展示的视图3、web.xml4、spring配置文件springmvc-servlet5、Controller6、tomcat配置7、访问的url8、视图页面一、图解SpringMVC流程图为SpringMVC的一个较完整的流程图，实线表示SpringMVC框架提
C++ 计数排序、归并排序、快速排序每天搬一点点砖 c++数据结构算法
计数排序：是一种基于哈希的排序算法。他的基本思想是通过统计每个元素的出现次数，然后根据统计结果将元素依次放入排序后的序列中。这种排序算法适用于范围较小的情况，例如整数范围在0到k之间计数排序步骤：1初始化一个长度为最大元素值加1的计数数组，所有元素初始化为02遍历原始数组，将每个元素值作为索引，在计数数组中对应位置加13将数组清空4遍历计数器数组，按照数组中的元素个数放回到元数组中计数排序的优点和
现在发挥你的优势爱生活的佑嘉
来和我做咨询的一些朋友，涉及到定位的，都会说，我不知道我的优势是什么，你能不能帮我看看？还有一些朋友，喜欢做各种测试来了解自己，测试过后，然并卵。今天，我想来聊聊优势，如何能了解自己的优势是什么。首先，我们要知道，如果要成为“不一般”的人，我们所做的事情，就要基于自身的优势。我做管理者十多年，看到每个员工都有不同的特长，有的擅长数字，有的擅长人际，有的擅长写作。这些知道自己优势并且在这方面刻意练习
2023-11-02 一帆f
发现浸润心田的感觉：今天一个机缘之下突然想分享我的婆媳关系，我一边分享一边回忆我之前和儿媳妇关系的微妙变化，特别是分享到我能感受到儿媳妇的各种美好，现在也能心平气和的和老公平等对话，看到自己看到老公，以己推人以人推己自然而然的换位思考，心中有一种美好的能量在涌动，一种浸润心田的感觉从心胸向全身扩散，美好极了……我很想记住这种感觉，赶紧把它写下来以留纪念，也就是当我看见他人的美好，美好的美妙的浸润心
贫穷家庭的孩子考上985以后会怎样？ Mellisa蜜思言
我出生在一个贫穷的农村家庭，据我妈说，我出生的时候才4斤多，而她生完我以后月子里就瘦到70斤。家里一直很穷，父母都是在菜市场卖菜的，家里还有几亩地种庄稼的。我很小开始就要去帮忙，暑假的生活就是帮忙去卖菜和割稻谷，那时候自己对于割稻谷这种事情有着莫名的恐惧，生怕自己长大以后还是每年都要过着割稻谷这种日子。父母因为忙于生计无暇顾及我的学习，幸好我因为看到他们这样子的生活，内心里有深深的恐惧感，驱使着我
实时数据流计算引擎Flink和Spark剖析程小舰 flink spark 数据库 kafka hadoop
在过去几年，业界的主流流计算引擎大多采用SparkStreaming，随着近两年Flink的快速发展，Flink的使用也越来越广泛。与此同时，Spark针对SparkStreaming的不足，也继而推出了新的流计算组件。本文旨在深入分析不同的流计算引擎的内在机制和功能特点，为流处理场景的选型提供参考。（DLab数据实验室w.x.公众号出品）一.SparkStreamingSparkStreamin
48. 旋转图像 - 力扣（LeetCode） Fiee-77 #数组 leetcode 算法 python 数据结构数组
题目：给定一个n×n的二维矩阵matrix表示一个图像。请你将图像顺时针旋转90度。你必须在原地旋转图像，这意味着你需要直接修改输入的二维矩阵。请不要使用另一个矩阵来旋转图像。示例1：输入：matrix=[[1,2,3],[4,5,6],[7,8,9]]输出：[[7,4,1],[8,5,2],[9,6,3]]示例2：输入：matrix=[[5,1,9,11],[2,4,8,10],[13,3,6,
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb