zhubeibei168

自然语言处理之文本摘要：Transformer与文本摘要评价指标

在这里插入图片描述

自然语言处理与文本摘要简介

自然语言处理的基本概念

自然语言处理（Natural Language Processing，NLP）是人工智能领域的一个重要分支，它研究如何让计算机理解、解释和生成人类语言。NLP技术涵盖了语音识别、语义理解、情感分析、机器翻译、文本摘要等多个方面，其目标是使计算机能够像人类一样处理语言信息，从而在各种应用场景中提供智能化的语言服务。

语音识别示例

语音识别是NLP中的一个子领域，它将人类的语音转换为文本。下面是一个使用Python和speech_recognition库进行语音识别的简单示例：

import speech_recognition as sr

# 初始化识别器
r = sr.Recognizer()

# 从麦克风读取音频
with sr.Microphone() as source:
    print("请说话:")
    audio = r.listen(source)

# 使用Google的语音识别API
try:
    text = r.recognize_google(audio, language='zh-CN')
    print("你说的是: " + text)
except sr.UnknownValueError:
    print("无法识别语音")
except sr.RequestError as e:
    print("无法从服务请求结果; {0}".format(e))

语义理解示例

语义理解是NLP中的另一个关键领域，它涉及理解文本的含义。下面是一个使用spaCy库进行实体识别的示例：

import spacy

# 加载预训练的中文模型
nlp = spacy.load('zh_core_web_sm')

# 输入文本
text = "北京是中国的首都，拥有丰富的历史和文化。"

# 进行语义分析
doc = nlp(text)

# 打印识别到的实体
for ent in doc.ents:
    print(ent.text, ent.label_)

文本摘要的重要性与应用场景

文本摘要（Text Summarization）是NLP领域中的一个重要任务，它旨在从长篇文档中提取关键信息，生成简洁、连贯的摘要。文本摘要技术在新闻、学术论文、报告、社交媒体等场景中有着广泛的应用，能够帮助用户快速获取信息要点，提高信息处理效率。

新闻摘要示例

假设我们有一篇新闻文章，我们使用transformers库中的BERT模型来生成摘要：

from transformers import pipeline

# 初始化摘要生成器
summarizer = pipeline("summarization")

# 输入新闻文本
news_text = """
2023年，中国成功发射了火星探测器，标志着中国航天事业的又一重大突破。此次发射的火星探测器名为“天问一号”，它将执行火星环绕、着陆和巡视任务，旨在研究火星的地质结构、大气环境以及是否存在生命迹象。
"""

# 生成摘要
summary = summarizer(news_text, max_length=100, min_length=30, do_sample=False)
print("".join(summary[0]['summary_text']))

学术论文摘要示例

学术论文通常包含大量详细信息，文本摘要技术可以帮助读者快速了解论文的主要贡献。下面是一个使用transformers库中的T5模型生成学术论文摘要的示例：

from transformers import pipeline

# 初始化摘要生成器
summarizer = pipeline("summarization", model="t5-small")

# 输入论文文本
paper_text = """
本文提出了一种基于Transformer的新型文本摘要方法。该方法通过预训练的Transformer模型，能够有效地捕捉文本中的长距离依赖关系，从而生成高质量的摘要。实验结果表明，与传统方法相比，我们的方法在多个评价指标上取得了显著的提升。
"""

# 生成摘要
summary = summarizer(paper_text, max_length=100, min_length=30, do_sample=False)
print("".join(summary[0]['summary_text']))

社交媒体摘要示例

在社交媒体中，文本摘要可以帮助用户快速浏览大量信息。下面是一个使用transformers库中的BART模型生成社交媒体帖子摘要的示例：

from transformers import pipeline

# 初始化摘要生成器
summarizer = pipeline("summarization", model="facebook/bart-large-cnn")

# 输入社交媒体帖子文本
post_text = """
今天是个好日子，阳光明媚，我去了公园，看到了很多美丽的花。公园里人很多，大家都在享受美好的天气。我拍了很多照片，分享给大家。
"""

# 生成摘要
summary = summarizer(post_text, max_length=100, min_length=30, do_sample=False)
print("".join(summary[0]['summary_text']))

通过上述示例，我们可以看到文本摘要技术在不同场景中的应用，以及如何使用NLP库来实现这些功能。文本摘要不仅能够提高信息处理的效率，还能够帮助用户更好地理解和消化大量文本信息。

自然语言处理之文本摘要：Transformer模型在文本摘要中的应用

Transformer模型的架构与原理

Transformer模型是自然语言处理领域的一个重要突破，由Vaswani等人在2017年的论文《Attention is All You Need》中提出。它摒弃了传统的循环神经网络（RNN）和卷积神经网络（CNN）的架构，完全基于自注意力机制（Self-Attention Mechanism）和前馈神经网络（Feed Forward Neural Network），实现了并行计算，大大提高了训练效率。

自注意力机制

自注意力机制允许模型在处理序列数据时，关注输入序列中的所有位置，而不仅仅是前一个或后一个位置。这使得模型能够捕捉到输入序列中不同部分之间的依赖关系，而无需依赖于序列的顺序处理。

示例代码

import torch
import torch.nn as nn

class MultiHeadAttention(nn.Module):
    def __init__(self, embed_dim, num_heads):
        super(MultiHeadAttention, self).__init__()
        self.embed_dim = embed_dim
        self.num_heads = num_heads
        self.head_dim = embed_dim // num_heads
        self.query = nn.Linear(embed_dim, embed_dim)
        self.key = nn.Linear(embed_dim, embed_dim)
        self.value = nn.Linear(embed_dim, embed_dim)
        self.out = nn.Linear(embed_dim, embed_dim)

    def forward(self, query, key, value, mask=None):
        batch_size = query.size(0)
        query = self.query(query).view(batch_size, -1, self.num_heads, self.head_dim).transpose(1, 2)
        key = self.key(key).view(batch_size, -1, self.num_heads, self.head_dim).transpose(1, 2)
        value = self.value(value).view(batch_size, -1, self.num_heads, self.head_dim).transpose(1, 2)

        scores = torch.matmul(query, key.transpose(-2, -1)) / torch.sqrt(torch.tensor(self.head_dim, dtype=torch.float))
        if mask is not None:
            scores = scores.masked_fill(mask == 0, -1e9)
        attention = torch.softmax(scores, dim=-1)
        out = torch.matmul(attention, value).transpose(1, 2).contiguous().view(batch_size, -1, self.embed_dim)
        out = self.out(out)
        return out

# 假设我们有以下输入
query = torch.randn(1, 5, 512)  # (batch_size, seq_len, embed_dim)
key = torch.randn(1, 5, 512)
value = torch.randn(1, 5, 512)
mask = torch.tensor([[1, 1, 1, 1, 0]])  # (batch_size, seq_len)

# 创建多头注意力层
multihead_attn = MultiHeadAttention(512, 8)

# 计算注意力输出
output = multihead_attn(query, key, value, mask)
print(output.shape)  # 输出应为 (1, 5, 512)

前馈神经网络

Transformer中的前馈神经网络用于对自注意力层的输出进行非线性变换，以增加模型的表达能力。它通常由两个线性层和一个激活函数组成。

示例代码

class PositionwiseFeedForward(nn.Module):
    def __init__(self, d_model, d_ff, dropout=0.1):
        super(PositionwiseFeedForward, self).__init__()
        self.w_1 = nn.Linear(d_model, d_ff)
        self.w_2 = nn.Linear(d_ff, d_model)
        self.dropout = nn.Dropout(dropout)
        self.activation = nn.ReLU()

    def forward(self, x):
        return self.w_2(self.dropout(self.activation(self.w_1(x))))

# 假设我们有以下输入
x = torch.randn(1, 5, 512)  # (batch_size, seq_len, embed_dim)

# 创建前馈神经网络层
ffn = PositionwiseFeedForward(512, 2048)

# 计算前馈神经网络输出
output = ffn(x)
print(output.shape)  # 输出应为 (1, 5, 512)

使用Transformer进行文本摘要的方法

文本摘要是自然语言处理中的一个重要任务，其目标是从长文档中提取关键信息，生成简洁的摘要。Transformer模型因其并行处理能力和强大的序列建模能力，被广泛应用于文本摘要任务中。

编码器-解码器架构

在文本摘要中，Transformer通常采用编码器-解码器架构。编码器负责理解输入文档，而解码器则根据编码器的输出生成摘要。

示例代码

import torch
import torch.nn as nn
from torch.nn import TransformerEncoder, TransformerDecoder, TransformerEncoderLayer, TransformerDecoderLayer

class TextSummarizer(nn.Module):
    def __init__(self, vocab_size, d_model=512, nhead=8, num_encoder_layers=6, num_decoder_layers=6, dropout=0.1):
        super(TextSummarizer, self).__init__()
        self.encoder = TransformerEncoder(TransformerEncoderLayer(d_model, nhead, dim_feedforward=2048, dropout=dropout), num_encoder_layers)
        self.decoder = TransformerDecoder(TransformerDecoderLayer(d_model, nhead, dim_feedforward=2048, dropout=dropout), num_decoder_layers)
        self.embedding = nn.Embedding(vocab_size, d_model)
        self.fc = nn.Linear(d_model, vocab_size)
        self.src_mask = None
        self.trg_mask = None

    def forward(self, src, trg):
        src = self.embedding(src) * torch.sqrt(torch.tensor(self.embedding.embedding_dim, dtype=torch.float))
        trg = self.embedding(trg) * torch.sqrt(torch.tensor(self.embedding.embedding_dim, dtype=torch.float))
        src = self.encoder(src, self.src_mask)
        trg = self.decoder(trg, src, self.trg_mask, self.src_mask)
        output = self.fc(trg)
        return output

# 假设我们有以下输入
src = torch.randint(1000, (1, 50))  # (batch_size, src_seq_len)
trg = torch.randint(1000, (1, 20))  # (batch_size, trg_seq_len)

# 创建文本摘要模型
model = TextSummarizer(1000)

# 计算模型输出
output = model(src, trg)
print(output.shape)  # 输出应为 (1, 20, 1000)

训练与优化

训练Transformer模型进行文本摘要通常涉及以下步骤：

数据预处理：将文本数据转换为模型可以处理的格式，包括分词、构建词汇表、编码为数字序列等。
模型训练：使用大量文本数据对模型进行训练，优化模型参数以最小化损失函数。
摘要生成：在测试阶段，使用解码器生成摘要，通常采用贪婪搜索或束搜索（Beam Search）策略。

示例代码

# 假设我们有以下训练数据
src_data = torch.randint(1000, (100, 50))  # (batch_size, src_seq_len)
trg_data = torch.randint(1000, (100, 20))  # (batch_size, trg_seq_len)

# 定义损失函数和优化器
criterion = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters())

# 训练模型
for epoch in range(10):
    for i in range(len(src_data)):
        src = src_data[i].unsqueeze(0)
        trg = trg_data[i].unsqueeze(0)
        output = model(src, trg[:, :-1])
        loss = criterion(output.view(-1, output.size(-1)), trg[:, 1:].view(-1))
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

摘要生成

在摘要生成阶段，我们通常使用解码器的输出来预测下一个单词，然后将预测的单词添加到当前的摘要序列中，重复此过程直到生成完整的摘要。

示例代码

def generate_summary(model, src, max_len=50):
    model.eval()
    src = src.unsqueeze(0)
    src_mask = None
    memory = model.encoder(src, src_mask)
    trg = torch.zeros(1, 1).type_as(src.data)
    for i in range(max_len):
        trg_mask = nn.Transformer.generate_square_subsequent_mask(trg.size(0)).type_as(src.data)
        output = model.decoder(trg, memory, trg_mask, src_mask)
        output = model.fc(output)
        output = torch.argmax(output, dim=-1)
        trg = torch.cat((trg, output[:, -1:]), dim=1)
    return trg.squeeze(0)

# 使用模型生成摘要
summary = generate_summary(model, src_data[0])
print(summary)  # 输出应为一个数字序列，代表生成的摘要

通过上述步骤，我们可以使用Transformer模型有效地进行文本摘要任务，捕捉文本中的关键信息并生成简洁的摘要。

文本摘要评价指标详解

ROUGE指标的定义与计算

ROUGE指标概述

ROUGE (Recall-Oriented Understudy for Gisting Evaluation) 是一种广泛用于评估文本摘要质量的指标。它主要通过比较系统生成的摘要与人工撰写的参考摘要之间的重叠度来衡量摘要的准确性和完整性。ROUGE 有多个变体，包括 ROUGE-N、ROUGE-L 和 ROUGE-S。

ROUGE-N

ROUGE-N 计算的是 n-gram 的召回率和精确率。n-gram 是由 n 个连续词组成的序列。例如，当 n=2 时，我们计算的是 bigram 的重叠度。

计算公式

召回率 (Recall): $R_n = \frac{\sum_{s \in S} \text{Count}_{\text{match}}(n-gram_s)}{\sum_{r \in R} \text{Count}(n-gram_r)}$
精确率 (Precision): $P_n = \frac{\sum_{s \in S} \text{Count}_{\text{match}}(n-gram_s)}{\sum_{s \in S} \text{Count}(n-gram_s)}$
F1 值: $F1_n = 2 \cdot \frac{P_n \cdot R_n}{P_n + R_n}$

其中， $S$ 是系统生成的摘要， $R$ 是参考摘要， $\text{Count}_{\text{match}}(n-gram_s)$ 是系统摘要中与参考摘要中匹配的 n-gram 数量。

示例代码

from rouge import Rouge

# 初始化 ROUGE 计算器
rouge = Rouge()

# 系统生成的摘要
system_summary = "这是一篇关于自然语言处理的文章，讨论了文本摘要的最新进展。"

# 参考摘要
reference_summary = ["这篇文章讨论了自然语言处理中的文本摘要技术，包括最新的研究进展。"]

# 计算 ROUGE 得分
scores = rouge.get_scores(system_summary, reference_summary)

# 输出得分
print(scores)

ROUGE-L

ROUGE-L 使用最长公共子序列 (Longest Common Subsequence, LCS) 来计算摘要的相似度，这可以更好地捕捉到摘要中词的顺序信息。

计算公式

召回率 (Recall): $R_L = \frac{\text{LCS}(S, R)}{\text{Length}(R)}$
精确率 (Precision): $P_L = \frac{\text{LCS}(S, R)}{\text{Length}(S)}$
F1 值: $F1_L = 2 \cdot \frac{P_L \cdot R_L}{P_L + R_L}$

其中， $\text{LCS}(S, R)$ 是系统摘要 $S$ 和参考摘要 $R$ 的最长公共子序列的长度。

BLEU指标在文本摘要中的应用

BLEU指标概述

BLEU (Bilingual Evaluation Understudy) 最初是为机器翻译设计的评价指标，但也可以用于文本摘要的评估。它通过计算系统生成的摘要与参考摘要之间 n-gram 的精确率来衡量摘要的质量。

计算公式

BLEU 计算的是 n-gram 的精确率，同时考虑了系统摘要的长度。公式如下：

BLEU: $\cdot \exp(\sum_{n=1}^{N} w_n \log(p_n))$

其中， $BP$ 是长度惩罚因子， $w_n$ 是权重， $p_n$ 是 n-gram 的精确率。

示例代码

from nltk.translate.bleu_score import sentence_bleu

# 系统生成的摘要
system_summary = "这是一篇关于自然语言处理的文章，讨论了文本摘要的最新进展。"

# 参考摘要
reference_summary = [["这篇文章讨论了自然语言处理中的文本摘要技术，包括最新的研究进展。"]]

# 计算 BLEU 得分
score = sentence_bleu(reference_summary, system_summary)

# 输出得分
print(score)

METEOR与CIDEr指标介绍

METEOR指标

METEOR (Metric for Evaluation of Translation with Explicit ORdering) 是另一种用于评估文本摘要和机器翻译的指标。它通过计算系统生成的摘要与参考摘要之间的匹配度，同时考虑了词序和语义信息。

计算公式

METEOR 计算的是匹配分数，公式如下：

匹配分数: $F_{\text{METEOR}} = \frac{\text{MatchCount} + \alpha \cdot \text{Precision} \cdot \text{Recall}}{\text{MatchCount} + \alpha \cdot \text{Recall}}$

其中， $\text{MatchCount}$ 是系统摘要与参考摘要之间的匹配词数， $\alpha$ 是平衡精确率和召回率的参数。

CIDEr指标

CIDEr (Consensus-based Image Description Evaluation) 虽然最初是为图像描述生成设计的，但其原理也可以应用于文本摘要的评估。它通过计算系统生成的摘要与多个参考摘要之间的共识得分来衡量摘要的质量。

计算公式

CIDEr 计算的是基于 n-gram 的共识得分，公式如下：

CIDEr: $\sqrt[n]{\frac{1}{N} \sum_{i=1}^{N} \text{Count}_{\text{match}}(n-gram_i)}$

其中， $N$ 是参考摘要的数量， $\text{Count}_{\text{match}}(n-gram_i)$ 是系统摘要与第 $i$ 个参考摘要之间匹配的 n-gram 数量。

总结

文本摘要的评价指标如 ROUGE、BLEU、METEOR 和 CIDEr，各有侧重，但都是为了评估生成摘要与参考摘要之间的相似度。选择合适的指标取决于具体的应用场景和评估需求。

以上代码示例和计算公式提供了对文本摘要评价指标的深入理解，帮助读者掌握如何在实际项目中应用这些指标进行摘要质量的评估。

综合评价与案例分析

如何选择合适的评价指标

在自然语言处理的文本摘要任务中，选择合适的评价指标至关重要，它直接影响到模型性能的准确评估。文本摘要评价指标主要分为两类：自动评价指标和人工评价指标。

自动评价指标

自动评价指标通过计算摘要与参考摘要之间的相似度来评估摘要质量，常见的有：

ROUGE（Recall-Oriented Understudy for Gisting Evaluation）
- ROUGE是基于召回率的评价指标，它通过比较系统生成的摘要与参考摘要中n-gram的重叠来评估摘要的质量。ROUGE有多种变体，如ROUGE-1、ROUGE-2和ROUGE-L，分别基于unigram、bigram和最长公共子序列的匹配。
BLEU（Bilingual Evaluation Understudy）
- BLEU最初用于机器翻译，但也可以用于文本摘要。它基于精确率，计算系统生成的摘要与参考摘要中n-gram的匹配程度。BLEU更倾向于评估语法和词汇的准确性，而ROUGE则更关注信息的完整性。

人工评价指标

人工评价指标虽然耗时且成本较高，但能更全面地评估摘要的质量，包括：

连贯性
- 摘要是否流畅，逻辑是否连贯。
相关性
- 摘要是否涵盖了原文的主要信息。
冗余性
- 摘要是否存在重复信息。

选择评价指标的策略

选择评价指标时，应考虑摘要的类型（抽取式或生成式）、摘要的应用场景以及摘要的评估目标。例如，对于抽取式摘要，ROUGE可能是一个较好的选择，因为它能较好地评估信息的覆盖度；而对于生成式摘要，除了ROUGE，还应考虑BLEU来评估语法和词汇的准确性。

文本摘要评价指标的实际案例分析

案例背景

假设我们有一个新闻文章的摘要生成模型，使用Transformer架构，目标是生成高质量的新闻摘要。为了评估模型的性能，我们将使用ROUGE和BLEU指标。

数据准备

数据集包含新闻文章和对应的摘要。我们将使用其中的一部分数据作为测试集，以评估模型的摘要生成能力。

# 示例数据
articles = [
    "The quick brown fox jumps over the lazy dog. The quick brown fox jumps over the lazy dog again.",
    "A new study shows that eating more vegetables can improve your health. The study was conducted over a period of 5 years.",
    # 更多文章...
]

references = [
    "Fox jumps over dog.",
    "Eating vegetables improves health.",
    # 更多参考摘要...
]

# 生成的摘要
summaries = [
    "The brown fox jumps over the dog.",
    "A new study shows eating vegetables can improve health.",
    # 更多生成的摘要...
]

评价指标计算

使用Python中的nltk和rouge库来计算BLEU和ROUGE指标。

from nltk.translate.bleu_score import sentence_bleu
from rouge import Rouge

# 初始化ROUGE计算工具
rouge = Rouge()

# 计算BLEU和ROUGE指标
bleu_scores = []
rouge_scores = []

for ref, summary in zip(references, summaries):
    # BLEU
    bleu_score = sentence_bleu([ref.split()], summary.split())
    bleu_scores.append(bleu_score)
    
    # ROUGE
    scores = rouge.get_scores(summary, ref)
    rouge_scores.append(scores[0]['rouge-1']['f'])  # 取ROUGE-1的F1分数

# 输出平均得分
print("Average BLEU Score:", sum(bleu_scores) / len(bleu_scores))
print("Average ROUGE-1 F1 Score:", sum(rouge_scores) / len(rouge_scores))

结果分析

假设上述代码执行后，我们得到的平均BLEU得分为0.6，平均ROUGE-1 F1得分为0.7。这表明模型在语法和词汇准确性方面表现良好（BLEU），同时在信息覆盖度方面也表现不错（ROUGE-1）。然而，这些分数只是初步的评估，我们还需要结合人工评价来全面评估摘要的质量，确保摘要的连贯性和相关性。

总结

在文本摘要任务中，选择和使用合适的评价指标是评估模型性能的关键。自动评价指标如ROUGE和BLEU提供了快速的评估方法，但人工评价仍然是评估摘要质量不可或缺的一部分。通过结合自动和人工评价，我们可以更全面地理解模型的性能，从而进行有效的模型优化和改进。

以上案例分析展示了如何在文本摘要任务中使用自动评价指标进行模型性能评估。通过计算BLEU和ROUGE得分，我们能够初步了解模型在语法准确性、词汇选择和信息覆盖度方面的表现。然而，为了获得更全面的评估，人工评价是必不可少的，它能帮助我们判断摘要的连贯性、相关性和冗余性，从而确保摘要的质量。

实践与优化

基于Transformer的文本摘要系统搭建

在自然语言处理领域，文本摘要技术旨在从长篇文档中提取或生成简洁的摘要，以快速传达文档的主要信息。近年来，Transformer模型因其在序列到序列任务上的卓越表现，成为文本摘要任务的首选架构。本节将详细介绍如何使用Transformer模型搭建一个文本摘要系统，包括模型架构、数据预处理、训练流程和参数调整。

模型架构

Transformer模型由Vaswani等人在2017年提出，其核心是自注意力机制，能够有效处理序列数据，无需依赖于循环神经网络（RNN）。在文本摘要中，Transformer通常作为编码器-解码器架构的一部分，其中编码器处理输入文本，解码器生成摘要。

编码器

编码器由多层Transformer组成，每层包括多头自注意力（Multi-Head Self-Attention）和前馈神经网络（Feed Forward Network）。自注意力机制允许模型关注输入序列中的所有位置，而不仅仅是前一个或后一个词。

解码器

解码器同样由多层Transformer组成，但还包括一个额外的自注意力层，用于处理解码器的输出。此外，解码器还包含一个编码器-解码器注意力层，用于从编码器的输出中提取信息。

数据预处理

数据预处理是文本摘要任务的关键步骤，包括文本清洗、分词、构建词汇表和序列编码。

文本清洗

文本清洗涉及去除HTML标签、特殊字符和停用词，以减少噪音并提高模型的训练效率。

分词与词汇表构建

使用分词器将文本分割成单词或子词，然后构建词汇表，为每个词分配一个唯一的ID。

序列编码

将文本转换为词汇表中的ID序列，同时为输入和输出序列添加特殊标记，如和，以指示序列的开始和结束。

训练流程

训练Transformer模型涉及前向传播、损失计算和反向传播。

前向传播

输入序列通过编码器，编码器的输出被送入解码器，解码器生成预测的摘要序列。

损失计算

使用交叉熵损失（Cross-Entropy Loss）来衡量模型预测序列与真实摘要序列之间的差异。

反向传播

根据计算的损失，通过反向传播更新模型参数，以最小化损失函数。

参数调整

调整模型参数，如学习率、批次大小和训练轮数，以优化模型性能。

学习率

使用学习率调度策略，如线性热身和余弦衰减，以在训练过程中动态调整学习率。

批次大小

批次大小影响模型的训练速度和内存使用。较大的批次可以加速训练，但可能需要更多的内存。

训练轮数

训练轮数决定了模型在训练数据上迭代的次数。过多的训练轮数可能导致过拟合，而过少则可能导致欠拟合。

代码示例

以下是一个使用PyTorch和Hugging Face的Transformers库搭建基于Transformer的文本摘要系统的示例代码：

import torch
from transformers import BartTokenizer, BartForConditionalGeneration

# 初始化模型和分词器
tokenizer = BartTokenizer.from_pretrained('facebook/bart-large-cnn')
model = BartForConditionalGeneration.from_pretrained('facebook/bart-large-cnn')

# 文本预处理
text = "自然语言处理是人工智能领域的一个重要分支，它研究如何让计算机理解、解释和生成人类语言。"
inputs = tokenizer([text], max_length=1024, return_tensors='pt')

# 生成摘要
summary_ids = model.generate(inputs['input_ids'], num_beams=4, max_length=5, early_stopping=True)
summary = [tokenizer.decode(g, skip_special_tokens=True, clean_up_tokenization_spaces=False) for g in summary_ids]
print("Summary:", summary)

代码解释

初始化模型和分词器：使用预训练的BART模型和其对应的分词器。
文本预处理：将输入文本转换为模型可以处理的张量格式。
生成摘要：调用模型的generate方法生成摘要，其中num_beams参数控制生成过程中的束搜索宽度，max_length限制摘要的最大长度。

提升文本摘要质量的技巧与策略

文本摘要的质量直接影响其在实际应用中的效果。以下是一些提升文本摘要质量的技巧和策略：

数据增强

通过数据增强技术，如随机删除、替换或插入单词，可以增加训练数据的多样性，从而提高模型的泛化能力。

指标优化

使用ROUGE（Recall-Oriented Understudy for Gisting Evaluation）等指标来评估摘要的质量，并在训练过程中优化这些指标。

集成学习

通过集成多个模型的预测，可以提高摘要的准确性和多样性。

代码示例

以下是一个使用ROUGE指标评估文本摘要质量的示例代码：

from rouge import Rouge

# 初始化ROUGE评估器
rouge = Rouge()

# 真实摘要和生成摘要
references = ["自然语言处理研究如何让计算机理解、解释和生成人类语言。"]
candidates = ["自然语言处理是人工智能领域的一个重要分支，它研究如何让计算机理解、解释和生成人类语言。"]

# 计算ROUGE指标
scores = rouge.get_scores(candidates, references, avg=True)
print("ROUGE-1:", scores['rouge-1']['f'])
print("ROUGE-2:", scores['rouge-2']['f'])
print("ROUGE-L:", scores['rouge-l']['f'])

代码解释

初始化ROUGE评估器：使用rouge库中的Rouge类。
计算ROUGE指标：调用get_scores方法，传入生成摘要（candidates）和真实摘要（references），计算ROUGE-1、ROUGE-2和ROUGE-L指标。

通过上述实践与优化策略，可以有效提升基于Transformer的文本摘要系统的性能和摘要质量。

你可能感兴趣的:(自然语言（二）,自然语言处理,transformer,easyui)

2022-10-20 体力劳动者
不因感觉稍纵即逝就不加记录。在女儿睡觉后我记下今天的小故事。接手新班级后，今天是第二次收到家长的感谢信（微信）。是我表扬次数最多的两位学生家长致来的感谢，他们明显感受到孩子自信、阳光了不少，写作业由被动变为了主动，家庭氛围也由鸡飞狗跳变成了其乐融融。在被顽皮的学生气得头晕之后，我感到了久违的价值感，责任感甚至使命感，我回复家长这样一句话：我们也需要家长的反馈好让我们的教育工作更有劲头。我也认识到，
移动端城市区县二级联动选择功能实现包 good2know
本文还有配套的精品资源，点击获取简介：本项目是一套为移动端设计的jQuery实现方案，用于简化用户在选择城市和区县时的流程。它包括所有必需文件：HTML、JavaScript、CSS及图片资源。通过动态更新下拉菜单选项，实现城市到区县的联动效果，支持数据异步加载。开发者可以轻松集成此功能到移动网站或应用，并可基于需求进行扩展和优化。1.jQuery移动端解决方案概述jQuery技术简介jQuery
日更006 终极训练营day3 懒cici
人生创业课（2）今天的主题：学习方法一：遇到有用的书，反复读，然后结合自身实际，列践行清单，不要再写读书笔记思考这本书与我有什么关系，我在哪些地方能用到，之后我该怎么用方法二：读完书没映像怎么办?训练你的大脑，方法：每读完一遍书，立马合上书，做一场分享，几分钟都行对自己的学习要求太低，要逼自己方法三：学习深度不够怎么办？找到细分领域的榜样，把他们的文章、书籍、产品都体验一遍，成为他们的超级用户，向
（二）SAP Group Reporting (GR) 核心子模块功能及数据流向架构解析
数据如何从子公司流转到合并报表的全过程，即数据采集→合并引擎→报表输出，特别是HANA内存计算如何优化传统ETL瓶颈。SAPGroupReporting(GR)核心模块功能及数据流向的架构解析，涵盖核心组件、数据处理流程和关键集成点，适用于S/4HANA1809+版本：一、核心功能模块概览模块功能关键事务码/FioriApp数据采集(DataCollection)整合子公司财务数据（SAP/非SA
day15｜前端框架学习和算法 universe_01 前端算法笔记
T22括号生成先把所有情况都画出来，然后（在满足什么情况下）把不符合条件的删除。T78子集要画树状图，把思路清晰。可以用暴力法、回溯法和DFS做这个题DFS深度搜索：每个边都走完，再回溯应用：二叉树搜索，图搜索回溯算法=DFS+剪枝T200岛屿数量（非常经典BFS宽度把树状转化成队列形式，lambda匿名函数“一次性的小函数，没有名字”setup语法糖：让代码更简洁好写的语法ref创建：基本类型的
你要记住，最重要的是:随时做好准备，为了你可能成为更好的自己，放弃现在的自己。霖霖z
打卡人:周云日期:2018年11月09日【日精进打卡第180天】【知～学习】《六项精进》0遍共214遍《通篇》1遍共106遍《大学》2遍共347遍《坚强工作，温柔生活》ok《不抱怨的世界》104-108页《经典名句》你要记住，最重要的是:随时做好准备，为了你可能成为更好的自己，放弃现在的自己。【行～实践】一、修身：（对自己个人）1、坚持打卡二、齐家：（对家庭和家人）打扫卫生，接送孩子，洗衣做饭，陪
SpringMVC执行流程（原理），通俗易懂国服冰 SpringMVC spring mvc
SpringMVC执行流程（原理），通俗易懂一、图解SpringMVC流程二、进一步理解Springmvc的执行流程1、导入依赖2、建立展示的视图3、web.xml4、spring配置文件springmvc-servlet5、Controller6、tomcat配置7、访问的url8、视图页面一、图解SpringMVC流程图为SpringMVC的一个较完整的流程图，实线表示SpringMVC框架提
48. 旋转图像 - 力扣（LeetCode） Fiee-77 #数组 leetcode 算法 python 数据结构数组
题目：给定一个n×n的二维矩阵matrix表示一个图像。请你将图像顺时针旋转90度。你必须在原地旋转图像，这意味着你需要直接修改输入的二维矩阵。请不要使用另一个矩阵来旋转图像。示例1：输入：matrix=[[1,2,3],[4,5,6],[7,8,9]]输出：[[7,4,1],[8,5,2],[9,6,3]]示例2：输入：matrix=[[5,1,9,11],[2,4,8,10],[13,3,6,
日更50天有什么收益？星湾二宝
坚持在平台上日更50天了，平台也为我生成了日更50天徽章，小开心一下这份坚持。日更50天徽章那坚持50天都有哪些收益呢？收益一，就是最直观的那些钻和贝，我这边确实不太高，但是这些贝足够支撑我保持会员的资格，能够在发文的时候帮助友友们去除广告，方便阅读。钻和贝收益二，文章的收获，日更50天，坚持写作3.7万文字，书写的文字也从开始的流水账/碎碎念逐渐加入自己的思考和观点。以前，一个念头会一晃而过，如
深入解析JVM工作原理：从字节码到机器指令的全过程
一、JVM概述Java虚拟机(JVM)是Java平台的核心组件，它实现了Java"一次编写，到处运行"的理念。JVM是一个抽象的计算机器，它有自己的指令集和运行时内存管理机制。JVM的主要职责：加载：读取.class文件并验证其正确性存储：管理内存分配和垃圾回收执行：解释或编译字节码为机器指令安全：提供沙箱环境限制恶意代码二、JVM架构详解JVM由三个主要子系统组成：1.类加载子系统类加载过程分为
Spring进阶 - SpringMVC实现原理之DispatcherServlet处理请求的过程倾听铃的声后端 spring java mvc 开发语言分布式
前文我们有了IOC的源码基础以及SpringMVC的基础，我们便可以进一步深入理解SpringMVC主要实现原理，包含DispatcherServlet的初始化过程和DispatcherServlet处理请求的过程的源码解析。本文是第二篇：DispatcherServlet处理请求的过程的源码解析。@pdaiSpring进阶-SpringMVC实现原理之DispatcherServlet处理请求的
Linux系统配置（应用程序） 1风天云月 Linux linux 应用程序编译安装 rpm http
目录前言一、应用程序概述1、命令与程序的关系2、程序的组成3、软件包封装类型二、RPM1、RPM概述2、RPM用法三、编译安装1、解包2、配置3、编译4、安装5、启用httpd服务结语前言在Linux中的应用程序被视为将软件包安装到系统中后产生的各种文档，其中包括可执行文件、配置文件、用户手册等内容，这些文档被组织为一个有机的整体，为用户提供特定的功能，因此对于“安装软件包”与“安装应用程序”这两
MotionLCM 部署优化踩坑解决bug AI算法网奇 aigc与数字人深度学习宝典文生motion
目录依赖项windowstorchok：渲染黑白图问题解决：humanml3d：sentence-t5-large下载数据：报错：Nomodulenamed'sentence_transformers'继续报错：fromtransformers.integrationsimportCodeCarbonCallback解决方法：推理相关转mesh：module‘matplotlib.cm‘hasno
Java | 多线程经典问题 - 售票 Ada54
一、售票需求1）同一个票池2）多个窗口卖票，不能出售同一张票二、售票问题代码实现（线程与进程小总结，请戳：Java|线程和进程，创建线程）step1：定义SaleWindow类实现Runnable接口，覆盖run方法step2：实例化SaleWindow对象，创建Thread对象，将SaleWindow作为参数传给Thread类的构造函数，然后通过Thread.start()方法启动线程step3
车载刷写架构 --- 刷写思考扩展汽车电子实验室电子电器架构——刷写方案架构开发语言关于网关转发性能引起的思考汽车中央控制单元HPC软件架构车载诊断进阶篇
我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：做到欲望极简，了解自己的真实欲望，不受外在潮流的影响，不盲从，不跟风。把自己的精力全部用在自己。一是去掉多余，凡事找规律，基础是诚信；二是系统思考、大胆设计、小心求证；三是“一张纸制度”，也就是无论多么复杂的工作内容，要在一张纸上描述清楚；四是要坚决反对虎头蛇尾，反对繁文缛节，反对老
《路远连着天》第二章在路上 7 亚宁
大路镇的街道两旁尽是店铺，气派者是红门柱子雕花门窗，一般则多为布匹小百货店，还有几家门面朝外的车马大店，和一家颇有气势的典当铺。街上来往人还真不少，有挑担叫卖水果的，有背篓子路过的，还有衣冠楚楚，悠哉悠哉，甩着双手散步的有钱爷。耿六想着先寻姑妈家，还是先到兵营看那几个土匪呢？也只是一转念，他选择了后者，跟在几个闲人后，就来到了在镇外山头上曾看到过的那处飘着晴天白日旗的兵营门外。这里，围观的人乱哄哄
读书打卡《别想太多啦》 chenchen_68ed
第一，世间之事，不去尝试永远不知道其中的奥秘，在尝试中有失败是必然的。如果担心失败，那什么都学不会。第二，经历的失败越多，越会对失败者抱有宽容的态度，“原来如此，我也经历过类似的失败啦，那只是暂时的”。经历越多失败的长者，越能包容别人，这也就是所谓的“越年长越宽容”。成熟的人，就是在众多失败经历中不断学习，并接纳别人的失败。对于他人的小小过失不吹毛求疵，自己的心态会更加平和。在不断失败中学习，让自
图论算法经典题目解析：DFS、BFS与拓扑排序实战周童學数据结构与算法深度优先算法图论
图论算法经典题目解析：DFS、BFS与拓扑排序实战图论问题是算法面试中的高频考点，本博客将通过四道LeetCode经典题目（均来自"Top100Liked"题库），深入讲解图论的核心算法思想和实现技巧。涵盖DFS、BFS、拓扑排序和前缀树等知识点，每道题配有Java实现和易错点分析。1.岛屿数量(DFS遍历)问题描述给定一个由'1'(陆地)和'0'(水)组成的二维网格，计算岛屿的数量。岛屿由水平或
营销活动-大转盘無缺520
写在前面最近，首先营销活动工具这块我是再熟悉不过了。曾经做了不下20个活动工具，然后通过监控活动数据反推活动的好坏。文中主要讲解幸运大转盘营销工具一.大转盘定义大转盘是比较常见的营销活动工具，它是通过消费者用户控制【开始/停止】操作获得奖品物品。用户在不知道自己能获得什么奖品的条件下，然后通过抽奖，大概率的获得未知的奖品。类似最近流行的盲盒玩法。二.为什么做大转盘大转盘是最常用的抽奖类的活动工具之
5G基站信号加速器！AD8021ARZ-REEL7亚德诺超低噪声高速电压放大器专利失真消除技术! 深圳市尚想信息技术有限公司 5G通信高速运放 ADI黑科技 8K视频医疗超声
AD8021ARZ-REEL7ADI：重新定义高速放大器的性能极限！一、产品简介AD8021ARZ-REEL7是ADI（亚德诺半导体）推出的超低噪声高速电压反馈放大器，采用XFCB工艺和专利失真消除技术，专为4K/8K视频处理、医疗成像、5G通信等超高频应用设计。以1.8GHz带宽和0.1nV/√Hz超低噪声，成为高速信号调理的终极解决方案！二、五大颠覆性优势军工级信号保真度1.8GHz-3dB带
常规笔记本和加固笔记本的区别 luchengtech 电脑三防笔记本加固计算机加固笔记本
在现代科技产品中，笔记本电脑因其便携性和功能性被广泛应用。根据使用场景和需求的不同，笔记本可分为常规笔记本和加固笔记本，二者在多个方面存在显著区别。适用场景是区分二者的重要标志。常规笔记本主要面向普通消费者和办公人群，适用于家庭娱乐、日常办公、学生学习等相对稳定的室内环境。比如，人们在家用它追剧、处理文档，学生在教室用它完成作业。而加固笔记本则专为特殊行业设计，像军事、野外勘探、工业制造、交通运输
C++ ：vector的模拟诚自然成 c++开发语言
目录一、vector的迭代器二、vector的构造函数默认构造函数参数构造函数迭代器范围构造函数拷贝构造函数swap:交换vector重载赋值符析构函数reserve:扩容vectorresize:调整大小push_back:添加元素empty:判空pop_back:后删获取大小与容量：size(),capacity()重载operator[]：元素访问insert：插入元素erase:删除一个元
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
心力践行营十二期一阶学习打卡 LX_王彤彤
姓名：王彤彤时间：2021年4月24日一：朗读师父的十大人生哲学二：师父的早安分享感悟很喜欢这句话：所有的行动都是基于目标的尝试，没有所谓的失败，只是不同尝试后得到的不同结果，让我们更好地调整下一次的行动。三：感恩日记1.我太幸福了，我很感恩姑姑，因为姑姑放假又投喂了我，还给我带了饺子回家，这让我感觉很幸福。谢谢，谢谢，谢谢。2.我太幸福了，我很感恩师父晚上的直播，因为听他的分享我知道怎么更好的去
7月29日星期二今日早报简报微语报早读微语早读生活
7月29日星期二，农历闰六月初五，早报#微语早读。1、国家育儿补贴方案公布！3周岁前每娃每年3600元；2、火狐浏览器官宣关闭北京公司，将终止中国账户服务；3、税务总局：2021年以来查处网络主播偷逃税案件360余起，查补税款30多亿元；4、江苏省体育局：职业俱乐部获男足中超冠军奖补3000万元；5、深圳出现首宗基孔肯雅热病例；6、税务总局：从今年个税汇算看，超1亿纳税人依法申请退税1300多亿，
02-Breakout靶机攻略 ZLlllllll0 02-Breakout靶机
第一步搭建靶机下载地址：https://download.vulnhub.com/empire/02-Breakout.zip下载好了之后直接用VM打开然后右击虚拟机，把网络连接改成nat模式第二步，信息收集然后开启虚拟机，左上角编辑，虚拟网络编辑器里面看一下靶机是哪个网段。打开kali用nmap扫一下的这个网段的存活主机，也就是扫除这个靶机的具体ip地址nmap192.168.109.1/24扫
人性四条 37f656f2331b
第一条：你想给别人讲道理，你就要混的比他好，让别人闭嘴的从来都不是道理，而是身份。第二条：不花钱就想解决问题的人永远都离不开底层的囚笼，很多时候我们需要的不是一碗鸡汤，而是一个巴掌，巴掌越多，就越管用。第三条：所有的人脉都是假象，想与高层次的人建立人脉，只有三种方式，你具备同等的财富，你具备别人需要的能力和资源，你具备同频的智慧，除此之外，皆是假象。第四条：再好的朋友帮忙，都要记得送礼或是请客吃饭
积极配合，防疫有我临泽四中初一六班领读人刘玮
2021年10月19日，疫情又突然来到我们身边，西安确诊了两名上海退休教师患有新冠肺炎，重点是他们刚从我们美丽的七彩丹霞和平山湖大峡谷旅游离开。紧接着张掖甘州区发现了核酸检测阳性病例，听到了这个消息，我们每一个人都很紧张，因为从来没有近距离遇到过这样的事情。10月20日，学校停课，所以我们又要经历第二次疫情假期，不过这个假期非常特殊，要求全民多次做核酸检测。秋天才过一半，肺炎疫情的突然到来，给我们
2018-08-29精进打卡米兰王
姓名:王兰英【日精进打卡第25天】【知～学习】《六项精进》1遍共39遍《大学》1遍共50遍【经典名句分享】一切都是最好的安排。【行～实践】一、修身：（对自己个人）1，散步1小时。2，每天坚持读书。二、齐家：（对家庭和家人）1，指导孩子开车。2，和家人一起逛超市。三、建功：（对工作）用心做好每件事。｛积善｝：发愿从2018年8月5日起1年内365个善事。今日1善，累计27善。【省～觉悟】正人先正己。
元宇宙中的视觉技术：虚拟化身与场景生成 xcLeigh 计算机视觉CV 元宇宙虚拟化身场景生成 AIGC 数字孪生
元宇宙中的视觉技术：虚拟化身与场景生成前言一、元宇宙与视觉技术的深度关联1.1元宇宙概念深度剖析1.2视觉技术：元宇宙的“灵魂之窗”二、虚拟化身：数字世界的“第二自我”2.1虚拟化身技术的深度解析2.1.1核心技术构成2.1.2技术实现原理与流程2.2虚拟化身的应用领域及案例展示2.2.1游戏娱乐领域2.2.2教育培训领域三、场景生成：构建元宇宙的虚拟天地3.1场景生成技术全景透视3.1.1关键技
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。