Mechanotrooper

Day09【基于Tripletloss实现的简单意图识别对话系统】

基于Tripletloss实现的表示型文本匹配

- - 目标
  - 数据准备
  - 参数配置
  - 数据处理
  - - Triplet Loss目标
    - Triplet Loss计算公式
    - 公式说明
  - 模型构建
  - - 网络结构设计
    - 网络训练目标
    - 损失函数设计
  - 主程序
  - 推理预测
  - - 类初始化
    - 加载问答知识库
    - 文本向量化
    - 知识库查询
    - 主程序`main`测试
    - 测试效果
  - 参考博客

目标

在此之前已经实现了基于余弦相似度实现的文本匹配¹，本文将实现基于tripletloss实现文本匹配，并实现简单的意图识别问答系统。主要做法同样是基于给定的词表，将输入的文本基于jieba分词分割为若干个词，然后将词基于词表进行初步编码，之后经过网络表征层得到文本的表征向量，只不过最后在训练的时候使用TripletMarginLoss而不是之前的CosineEmbeddingLoss，推理预测时还是使用文本的表征向量。

数据准备

预训练模型bert-base-chinese预训练模型

词表文件chars.txt

类别标签文件schema.json

{
  "停机保号": 0,
  "密码重置": 1,
  "宽泛业务问题": 2,
  "亲情号码设置与修改": 3,
  "固话密码修改": 4,
  "来电显示开通": 5,
  "亲情号码查询": 6,
  "密码修改": 7,
  "无线套餐变更": 8,
  "月返费查询": 9,
  "移动密码修改": 10,
  "固定宽带服务密码修改": 11,
  "UIM反查手机号": 12,
  "有限宽带障碍报修": 13,
  "畅聊套餐变更": 14,
  "呼叫转移设置": 15,
  "短信套餐取消": 16,
  "套餐余量查询": 17,
  "紧急停机": 18,
  "VIP密码修改": 19,
  "移动密码重置": 20,
  "彩信套餐变更": 21,
  "积分查询": 22,
  "话费查询": 23,
  "短信套餐开通立即生效": 24,
  "固话密码重置": 25,
  "解挂失": 26,
  "挂失": 27,
  "无线宽带密码修改": 28
}

训练集数据train.json训练集数据

验证集数据valid.json验证集数据

参数配置

config.py

# -*- coding: utf-8 -*-

"""
配置参数信息
"""
# -*- coding: utf-8 -*-

"""
配置参数信息
"""

Config = {
    "model_path": "model_output",
    "schema_path": "../data/schema.json",
    "train_data_path": "../data/train.json",
    "valid_data_path": "../data/valid.json",
    "pretrain_model_path":r"../../../bert-base-chinese",
    "vocab_path":r"../../../bert-base-chinese/vocab.txt",
    "max_length": 20,
    "hidden_size": 256,
    "epoch": 10,
    "batch_size": 128,
    "epoch_data_size": 10000,     #每轮训练中采样数量
    "positive_sample_rate":0.5,  #正样本比例
    "optimizer": "adam",
    "learning_rate": 1e-3,
    "triplet_margin": 1.0,
}

数据处理

loader.py

# -*- coding: utf-8 -*-

import json
import re
import os
import torch
import random
import jieba
import numpy as np
from torch.utils.data import Dataset, DataLoader
from collections import defaultdict
"""
数据加载
"""


class DataGenerator:
    def __init__(self, data_path, config):
        self.config = config
        self.path = data_path
        self.tokenizer = load_vocab(config["vocab_path"])
        self.vocab = load_vocab(config["vocab_path"])
        self.config["vocab_size"] = len(self.vocab)
        self.schema = load_schema(config["schema_path"])
        self.train_data_size = config["epoch_data_size"] #由于采取随机采样，所以需要设定一个采样数量，否则可以一直采
        self.data_type = None  #用来标识加载的是训练集还是测试集 "train" or "test"
        self.load()

    def load(self):
        self.data = []
        self.knwb = defaultdict(list)
        with open(self.path, encoding="utf8") as f:
            for line in f:
                line = json.loads(line)
                #加载训练集
                if isinstance(line, dict):
                    self.data_type = "train"
                    questions = line["questions"]
                    label = line["target"]
                    for question in questions:
                        input_id = self.encode_sentence(question)
                        input_id = torch.LongTensor(input_id)
                        self.knwb[self.schema[label]].append(input_id)
                #加载测试集
                else:
                    self.data_type = "test"
                    assert isinstance(line, list)
                    question, label = line
                    input_id = self.encode_sentence(question)
                    input_id = torch.LongTensor(input_id)
                    label_index = torch.LongTensor([self.schema[label]])
                    self.data.append([input_id, label_index])
        return

    def encode_sentence(self, text):
        input_id = []
        if self.config["vocab_path"] == "words.txt":
            for word in jieba.cut(text):
                input_id.append(self.vocab.get(word, self.vocab["[UNK]"]))
        else:
            for char in text:
                input_id.append(self.vocab.get(char, self.vocab["[UNK]"]))
        input_id = self.padding(input_id)
        return input_id

    #补齐或截断输入的序列，使其可以在一个batch内运算
    def padding(self, input_id):
        input_id = input_id[:self.config["max_length"]]
        input_id += [0] * (self.config["max_length"] - len(input_id))
        return input_id

    def __len__(self):
        if self.data_type == "train":
            return self.config["epoch_data_size"]
        else:
            assert self.data_type == "test", self.data_type
            return len(self.data)

    def __getitem__(self, index):
        if self.data_type == "train":
            return self.random_train_sample() #随机生成一个训练样本
        else:
            return self.data[index]

    #随机生成3元组样本，2正1负
    def random_train_sample(self):
        standard_question_index = list(self.knwb.keys())
        # 先选定两个意图，之后从第一个意图中取2个问题，第二个意图中取一个问题
        p, n = random.sample(standard_question_index, 2)
        # 如果某个意图下刚好只有一条问题，那只能两个正样本用一样的；
        # 这种对训练没帮助，因为相同的样本距离肯定是0，但是数据充分的情况下这种情况很少
        if len(self.knwb[p]) == 1:
            s1 = s2 = self.knwb[p][0]
        #这应当是一般情况
        else:
            s1, s2 = random.sample(self.knwb[p], 2)
        # 随机一个负样本
        s3 = random.choice(self.knwb[n])
        # 前2个相似，后1个不相似，不需要额外在输入一个0或1的label，这与一般的loss计算不同
        return [s1, s2, s3]


#加载字表或词表
def load_vocab(vocab_path):
    token_dict = {}
    with open(vocab_path, encoding="utf8") as f:
        for index, line in enumerate(f):
            token = line.strip()
            token_dict[token] = index + 1  #0留给padding位置，所以从1开始
    return token_dict

#加载schema
def load_schema(schema_path):
    with open(schema_path, encoding="utf8") as f:
        return json.loads(f.read())

#用torch自带的DataLoader类封装数据
def load_data(data_path, config, shuffle=True):
    dg = DataGenerator(data_path, config)
    dl = DataLoader(dg, batch_size=config["batch_size"], shuffle=shuffle)
    return dl

还是一样自定义数据加载器 DataGenerator，用于加载和处理文本数据。主要区别在于训练时采样策略的处理，random_train_sample函数选取2个正样本1个负样本作为anchor、positive、negative。triplet loss训练要求positive样本和anchor相比较negative样本更接近，也即同类样本更加接近，不同类样本更加远离。它在面部识别、图像检索、个性化推荐等领域得到了广泛应用。

Triplet Loss目标

其目标是通过三元组（triplet）数据，即：一个锚点（anchor）、一个正样本（positive）和一个负样本（negative）来学习特征空间，使得：

锚点与正样本之间的距离应该尽可能小。
锚点与负样本之间的距离应该尽可能大。

Triplet Loss计算公式

假设：

( a ) 是锚点样本（anchor）。
( p ) 是与锚点相同类别的正样本（positive）。
( n ) 是与锚点不同类别的负样本（negative）。

那么，Triplet Loss 的计算公式为：
$\max \left( \| f(a) - f(p) \|_2^2 - \| f(a) - f(n) \|_2^2 + \alpha, 0 \right)$

其中：

$f (x)$ 是输入样本 $x$ 的特征向量（通常由神经网络模型生成）。
$f(a) - f(p) \|_2^2$ 是锚点 $a$ 和正样本 $p$ 之间的欧几里得距离的平方。
$f(a) - f(n) \|_2^2$ 是锚点 $a$ 和负样本 $n$ 之间的欧几里得距离的平方。
$\| \cdot \|_2$ 表示欧几里得距离（L2 距离）。
$\alpha$ 是一个超参数，称为“边际”或“阈值”，用于控制负样本与锚点之间的最小距离差，防止损失值过小。

公式说明

锚点与正样本的距离： $f(a) - f(p) \|_2^2$
这项度量锚点和正样本之间的相似性，目的是最小化这个距离。
锚点与负样本的距离： $f(a) - f(n) \|_2^2$
这项度量锚点和负样本之间的差异，目标是最大化这个距离。
边际 $\alpha$ ：
用于确保锚点与负样本之间的距离至少大于锚点与正样本之间的距离加上一个边际 $\alpha$ ，从而避免了负样本距离过近的情况。

模型构建

model.py

# -*- coding: utf-8 -*-

import torch
import torch.nn as nn
from torch.optim import Adam, SGD
"""
建立网络模型结构
"""

class SentenceEncoder(nn.Module):
    def __init__(self, config):
        super(SentenceEncoder, self).__init__()
        hidden_size = config["hidden_size"]
        vocab_size = config["vocab_size"] + 1
        max_length = config["max_length"]
        self.embedding = nn.Embedding(vocab_size, hidden_size, padding_idx=0)
        # self.layer = nn.LSTM(hidden_size, hidden_size, batch_first=True, bidirectional=True)
        self.layer = nn.Linear(hidden_size, hidden_size)
        self.dropout = nn.Dropout(0.5)

    #输入为问题字符编码
    def forward(self, x):
        sentence_length = torch.sum(x.gt(0), dim=-1)
        x = self.embedding(x)
        #使用lstm
        # x, _ = self.layer(x)
        #使用线性层
        x = self.layer(x)
        # x.shape[1]表示kernel_size，表示池化窗口的大小，
        # 输入是一个形状为 (batch_size, channels, length) 张量
        x = nn.functional.max_pool1d(x.transpose(1, 2), x.shape[1]).squeeze()
        return x


class SiameseNetwork(nn.Module):
    def __init__(self, config):
        super(SiameseNetwork, self).__init__()
        self.sentence_encoder = SentenceEncoder(config)
        self.margin = config["triplet_margin"]
        self.loss = nn.TripletMarginLoss(self.margin,2)


    # 计算余弦距离  1-cos(a,b)
    # cos=1时两个向量相同，余弦距离为0；cos=0时，两个向量正交，余弦距离为1
    def cosine_distance(self, tensor1, tensor2):
        tensor1 = torch.nn.functional.normalize(tensor1, dim=-1)
        tensor2 = torch.nn.functional.normalize(tensor2, dim=-1)
        cosine = torch.sum(torch.mul(tensor1, tensor2), axis=-1)
        return 1 - cosine

    def cosine_triplet_loss(self, a, p, n, margin=None):
        ap = self.cosine_distance(a, p)
        an = self.cosine_distance(a, n)
        if margin is None:
            diff = ap - an + 0.1
        else:
            diff = ap - an + margin
        res = diff[diff.gt(0)]
        if len(res) == 0:
            return torch.tensor(1e-6)
        return torch.mean(res)

    #sentence : (batch_size, max_length)
    def forward(self, sentence1, sentence2=None, sentence3=None):
        #同时传入3个句子,则做tripletloss的loss计算
        if sentence2 is not None and sentence3 is not None:
            vector1 = self.sentence_encoder(sentence1)
            vector2 = self.sentence_encoder(sentence2)
            vector3 = self.sentence_encoder(sentence3)
            return self.loss(vector1, vector2, vector3)
            return self.cosine_triplet_loss(vector1, vector2, vector3, self.margin)
        #单独传入一个句子时，认为正在使用向量化能力
        else:
            return self.sentence_encoder(sentence1)


def choose_optimizer(config, model):
    optimizer = config["optimizer"]
    learning_rate = config["learning_rate"]
    if optimizer == "adam":
        return Adam(model.parameters(), lr=learning_rate)
    elif optimizer == "sgd":
        return SGD(model.parameters(), lr=learning_rate)

网络结构设计

该代码实现了一个Siamese Network，主要用于计算文本的相似度。模型由两部分组成：SentenceEncoder和SiameseNetwork。SentenceEncoder是一个句子编码器，用于将输入的文本转换为固定维度的向量表示。它通过一个嵌入层（embedding layer）将单词转换为稠密的向量表示，然后通过线性层进行特征提取。为了捕获句子的全局信息，使用最大池化（MaxPool）操作，从每个维度中选择最大的值，这有助于保留关键信息。SiameseNetwork包含两个这样的编码器，分别用于处理两个输入句子，并将其输出向量进行比较。

网络训练目标

Siamese网络的训练目标是让相似的句子对的向量表示更接近，不相似的句子对的向量表示更远离。为了实现这一目标，模型通过计算两个输入句子的相似度来进行优化。这个过程通常使用对比学习的方法，在每一轮训练时，网络通过最小化句子对之间的距离来优化其参数。在训练过程中，网络将接受来自数据集的句子对，每一对包含两个句子和它们的标签，标签表示句子对是否相似。通过这种方式，模型学习到如何将相似的句子映射到相近的向量空间，并将不相似的句子映射到较远的空间。

损失函数设计

模型的损失函数设计主要有两种选择，具体取决于使用的距离度量方法。首先，SiameseNetwork类支持使用余弦相似度来计算句子对之间的相似度。这种方式通过计算两个向量的余弦值来度量它们的相似性，值越大表示越相似。其次，模型还支持使用三元组损失（Triplet Loss）。三元组损失是一种常用的度量学习方法，它通过比较一个“锚”句子、正样本（相似句子）和负样本（不相似句子）的距离，确保正样本距离锚点更近，负样本距离锚点更远。三元组损失函数通过最小化这个距离差异来训练模型，从而优化句子编码器的表示能力，提升模型的相似度计算精度。
该模型通过最小化损失函数来优化句子编码器的参数，从而提升句子相似度的预测能力，广泛应用于文本相似度计算、语义匹配等任务。模型的训练和推理过程需要通过对比句子对（或三元组）来进行优化，最终使得模型能够准确判断两个句子之间的语义相似性。

主程序

main.py

# -*- coding: utf-8 -*-

import torch
import os
import random
import os
import numpy as np
import logging
from config import Config
from model import SiameseNetwork, choose_optimizer
from loader import load_data

logging.basicConfig(level = logging.INFO,format = '%(asctime)s - %(name)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)

"""
模型训练主程序
"""

def main(config):
    #创建保存模型的目录
    if not os.path.isdir(config["model_path"]):
        os.mkdir(config["model_path"])
    #加载训练数据
    train_data = load_data(config["train_data_path"], config)
    #加载模型
    model = SiameseNetwork(config)
    # 判断是否有 GPU 支持
    mps_flag = torch.backends.mps.is_available()
    device = torch.device("cpu")
    model = model.to(device)
    if  not mps_flag:
        device = torch.device("mps")  # 使用 Metal 后端
        print("Using GPU with Metal backend")
        model = model.to(device)  # 将模型迁移到 Metal 后端（MPS）
    else:
        print("Using CPU")  # 如果没有 GPU，则使用 CPU
    # # 标识是否使用gpu
    # cuda_flag = torch.cuda.is_available()
    # if cuda_flag:
    #     logger.info("gpu可以使用，迁移模型至gpu")
    #     model = model.cuda()
    #加载优化器
    optimizer = choose_optimizer(config, model)
    #训练
    for epoch in range(config["epoch"]):
        epoch += 1
        model.train()
        logger.info("epoch %d begin" % epoch)
        train_loss = []
        for index, batch_data in enumerate(train_data):
            optimizer.zero_grad()
            # if mps_flag:  #如果gpu可用则使用gpu加速
                # batch_data = [d.to('mps') for d in batch_data]
            anchor_ids, positive_ids, negative_ids = batch_data
            anchor_ids = anchor_ids.to(device)
            positive_ids = positive_ids.to(device)
            negative_ids = negative_ids.to(device)
            loss = model(anchor_ids, positive_ids, negative_ids)  #计算loss
            train_loss.append(loss.item())
            #每轮训练一半的时候输出一下loss，观察下降情况
            if index % int(len(train_data) / 2) == 0:
                logger.info("batch loss %f" % loss)
            loss.backward()  #反向传播梯度计算
            optimizer.step() #更新模型参数
        logger.info("epoch average loss: %f" % np.mean(train_loss))
    model_path = os.path.join(config["model_path"], "epoch_%d.pth" % epoch)
    torch.save(model.state_dict(), model_path)
    return


if __name__ == "__main__":
    main(Config)

主程序核心流程包括数据加载、模型训练以及反向传播更新。

训练数据加载：通过load_data函数从config["train_data_path"]路径加载训练数据，并返回train_data。每个训练数据包含一个三元组（anchor, positive, negative），这些数据在训练过程中用于计算Siamese Network的损失。
模型训练过程：
- 首先，创建SiameseNetwork模型并将其迁移到适当的设备（CPU或GPU/Metal后端）。模型通过model.to(device)迁移到指定设备，确保可以利用GPU加速训练。
- 然后，定义优化器optimizer，并开始训练过程。每个epoch内，程序遍历所有训练数据，获取当前batch的三元组（anchor_ids, positive_ids, negative_ids）。
损失计算与反向传播：
- 对于每个batch，模型计算当前三元组的损失：loss = model(anchor_ids, positive_ids, negative_ids)。这里，模型通过计算anchor和positive、negative之间的相似度来得到损失。
- 损失计算后，通过loss.backward()进行反向传播，计算梯度。梯度反向传播使得模型能够更新其参数以最小化损失。
- optimizer.step()则根据计算得到的梯度更新模型的参数，从而逐步优化模型。
训练日志：每个batch的损失会输出，用于跟踪训练进度，每个epoch结束时，计算并输出平均损失。

最终，训练完成后，模型参数会被保存至指定路径。

推理预测

predict.py

# -*- coding: utf-8 -*-
import jieba
import torch
import logging
from loader import load_data
from config import Config
from model import SiameseNetwork, choose_optimizer

"""
模型效果测试
"""

class Predictor:
    def __init__(self, config, model, knwb_data):
        self.config = config
        self.model = model
        self.train_data = knwb_data
        if torch.cuda.is_available():
            self.model = model.cuda()
        else:
            self.model = model.cpu()
        self.model.eval()
        self.knwb_to_vector()

    #将知识库中的问题向量化，为匹配做准备
    #每轮训练的模型参数不一样，生成的向量也不一样，所以需要每轮测试都重新进行向量化
    def knwb_to_vector(self):
        self.question_index_to_standard_question_index = {}
        self.question_ids = []
        self.vocab = self.train_data.dataset.vocab
        self.schema = self.train_data.dataset.schema
        self.index_to_standard_question = dict((y, x) for x, y in self.schema.items())
        for standard_question_index, question_ids in self.train_data.dataset.knwb.items():
            for question_id in question_ids:
                #记录问题编号到标准问题标号的映射，用来确认答案是否正确
                self.question_index_to_standard_question_index[len(self.question_ids)] = standard_question_index
                self.question_ids.append(question_id)
        with torch.no_grad():
            question_matrixs = torch.stack(self.question_ids, dim=0)
            if torch.cuda.is_available():
                question_matrixs = question_matrixs.cuda()
            self.knwb_vectors = self.model(question_matrixs)
            #将所有向量都作归一化 v / |v|
            self.knwb_vectors = torch.nn.functional.normalize(self.knwb_vectors, dim=-1)
        return

    def encode_sentence(self, text):
        input_id = []
        if self.config["vocab_path"] == "words.txt":
            for word in jieba.cut(text):
                input_id.append(self.vocab.get(word, self.vocab["[UNK]"]))
        else:
            for char in text:
                input_id.append(self.vocab.get(char, self.vocab["[UNK]"]))
        return input_id

    def predict(self, sentence):
        input_id = self.encode_sentence(sentence)
        input_id = torch.LongTensor([input_id])
        if torch.cuda.is_available():
            input_id = input_id.cuda()
        with torch.no_grad():
            test_question_vector = self.model(input_id) #不输入labels，使用模型当前参数进行预测
            res = torch.mm(test_question_vector.unsqueeze(0), self.knwb_vectors.T)
            hit_index = int(torch.argmax(res.squeeze())) #命中问题标号
            hit_index = self.question_index_to_standard_question_index[hit_index] #转化成标准问编号
        return  self.index_to_standard_question[hit_index]


if __name__ == "__main__":
    knwb_data = load_data(Config["train_data_path"], Config)
    model = SiameseNetwork(Config)
    model.load_state_dict(torch.load("model_output/epoch_10.pth"))
    pd = Predictor(Config, model, knwb_data)
    sentence = "发什么有短信告诉说手机话费"
    res = pd.predict(sentence)
    print(res)
    while True:
        sentence = input("请输入:")
        print(pd.predict(sentence))

这段代码主要是基于Siamese网络的文本匹配，实现简单文本意图识别的问答系统。通过训练得到的模型，系统能够将输入的问题与知识库中的问题进行相似度比较，并返回最匹配的标准问题。主要功能是将输入问题与预训练模型进行匹配，并返回最相关的标准问题。代码流程包括问题向量化、输入句子编码、相似度计算和最终的预测结果输出。

类初始化

class Predictor:
    def __init__(self, config, model, knwb_data):
        self.config = config
        self.model = model
        self.train_data = knwb_data
        if torch.cuda.is_available():
            self.model = model.cuda()
        else:
            self.model = model.cpu()
        self.model.eval()
        self.knwb_to_vector()

__init__方法中，config是配置文件，model是训练好的Siamese网络模型，knwb_data是训练数据。
model.eval()：将模型设置为推理模式，禁用掉训练时的dropout等机制。
knwb_to_vector()方法被调用，目的是将训练数据中的问题转化为向量，以便后续进行匹配。

加载问答知识库

def knwb_to_vector(self):
    self.question_index_to_standard_question_index = {}
    self.question_ids = []
    self.vocab = self.train_data.dataset.vocab
    self.schema = self.train_data.dataset.schema
    self.index_to_standard_question = dict((y, x) for x, y in self.schema.items())
    for standard_question_index, question_ids in self.train_data.dataset.knwb.items():
        for question_id in question_ids:
            self.question_index_to_standard_question_index[len(self.question_ids)] = standard_question_index
            self.question_ids.append(question_id)
    with torch.no_grad():
        question_matrixs = torch.stack(self.question_ids, dim=0)
        if torch.cuda.is_available():
            question_matrixs = question_matrixs.cuda()
        self.knwb_vectors = self.model(question_matrixs)
        self.knwb_vectors = torch.nn.functional.normalize(self.knwb_vectors, dim=-1)

该方法的主要作用是将知识库中的问题转化为向量，以便之后与输入的句子进行相似度匹配。
question_index_to_standard_question_index记录问题编号与标准问题编号的映射，用来标记最终答案的准确性。
question_matrixs是所有问题的ID集合，经过模型转化后，得到问题的向量表示knwb_vectors。
torch.nn.functional.normalize()对所有向量进行归一化，使得它们的长度为1，便于计算相似度。

文本向量化

def encode_sentence(self, text):
    input_id = []
    if self.config["vocab_path"] == "words.txt":
        for word in jieba.cut(text):
            input_id.append(self.vocab.get(word, self.vocab["[UNK]"]))
    else:
        for char in text:
            input_id.append(self.vocab.get(char, self.vocab["[UNK]"]))
    return input_id

该方法将输入的文本句子转换为词或字的ID序列。如果配置文件中指定的词汇表路径是words.txt，则使用jieba进行分词，否则按字符逐一处理。
如果某个词或字符在词汇表中不存在，则使用[UNK]代替。

知识库查询

def predict(self, sentence):
    input_id = self.encode_sentence(sentence)
    input_id = torch.LongTensor([input_id])
    if torch.cuda.is_available():
        input_id = input_id.cuda()
    with torch.no_grad():
        test_question_vector = self.model(input_id)
        res = torch.mm(test_question_vector.unsqueeze(0), self.knwb_vectors.T)
        hit_index = int(torch.argmax(res.squeeze()))
        hit_index = self.question_index_to_standard_question_index[hit_index]
    return self.index_to_standard_question[hit_index]

predict方法用于对用户输入的句子进行查询预测。
首先，将句子转化为ID序列input_id。
然后，输入到模型中得到句子的向量表示test_question_vector。
torch.mm计算该句子向量与所有知识库问题向量的相似度。
通过torch.argmax(res.squeeze())得到最相似问题的索引，进而通过question_index_to_standard_question_index和index_to_standard_question映射回标准问题。

主程序`main`测试

if __name__ == "__main__":
    knwb_data = load_data(Config["train_data_path"], Config)
    model = SiameseNetwork(Config)
    model.load_state_dict(torch.load("model_output/epoch_10.pth"))
    pd = Predictor(Config, model, knwb_data)
    sentence = "发什么有短信告诉说手机话费"
    res = pd.predict(sentence)
    print(res)
    while True:
        sentence = input("请输入:")
        print(pd.predict(sentence))

首先，通过load_data函数加载训练数据，并初始化模型SiameseNetwork。
加载训练好的模型参数（如从epoch_10.pth文件中读取）。
创建Predictor实例，并对某个示例句子进行预测（如“发什么有短信告诉说手机话费”）。
进入循环，不断接收用户输入的句子并返回预测结果。

测试效果

请输入:导航到流量余额查询菜单
套餐余量查询
请输入:协议预存款的金额有规定吗
月返费查询
请输入:我收到一个信息是怎么回事
宽泛业务问题
请输入:

参考博客

1.基于余弦相似度实现的文本匹配

1 ↩︎

你可能感兴趣的:(自然语言处理,文本匹配,意图识别,自然语言处理)

免费排版助手：智能修正段落 + 删除干扰符，杂乱文本一键变规范
各位文字工作者们！你们有没有被排版折磨到崩溃的时候？我跟你们说，我之前排版一篇文章，那简直就像在走迷宫，头晕眼花的！不过后来我发现了一款软件——排版助手！软件下载地址安装包这玩意儿是个文章智能排版工具，专门给新闻编辑、文摘网站这些文字工作者用的。它功能老多了，能修正段落，把那些乱七八糟的段落变得规规矩矩；还能删除干扰符，就像给文章做了个大扫除，把没用的东西都清理掉；简繁转换也不在话下，不管是简体还
2025年SDK游戏盾终极解析：重新定义手游安全的“隐形护甲” 上海云盾商务经理杨杨游戏安全
副标题：从客户端加密到AI反外挂，拆解全链路防护如何重塑游戏攻防天平引言：当传统高防在手游战场“失效”2025年全球手游市场规模突破$2000亿，黑客单次攻击成本却降至$30——某SLG游戏因协议层CC攻击单日流失37%玩家，某开放世界游戏遭低频DDoS瘫痪6小时损失千万。传统高防IP的致命短板暴露无遗：无法识别伪造客户端流量、难防协议篡改、误杀率超15%。而集成于游戏终端的SDK游戏盾，正以“源
【项目实战】容错机制与故障恢复：保障系统连续性的核心体系本本本添哥 004 -研效与DevOps运维工具链 002 -进阶开发能力分布式
在分布式系统中，硬件故障、网络波动、软件异常等问题难以避免。容错机制与故障恢复的核心目标是：通过主动检测故障、自动隔离风险、快速转移负载、重建数据一致性，最大限度减少故障对业务的影响，保障系统“持续可用”与“数据不丢失”。以下从核心机制、实现方式、典型案例等维度展开说明。一、故障检测：及时发现异常节点故障检测是容错的第一步，需通过多维度手段实时感知系统组件状态，确保故障被快速识别。1.健康检查与心
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
mysql复习立夏的李子 mysql 数据库 database
mysqlselect语法selectfromjoinwheregroupbyhavingorderbylimit联合查询innerjoin（）leftjoin（以左表为基准，匹配右表，不匹配的返回左表，右表以null值填充）rightjoind··(去除列重复的数据)索引类型主键索引(PrimaryKey)唯一索引(Unique)常规索引(Index)全文索引(FullText)索引准则索引不是
【Coze搞钱实战】3. 避坑指南：对话流设计中的6个致命错误（真实案例） AI_DL_CODE Coze平台对话流设计客服Bot避坑用户流失封号风险智能客服配置故障修复指南
摘要：对话流设计是智能客服Bot能否落地的核心环节，直接影响用户体验与业务安全。本文基于50+企业Bot部署故障分析，聚焦导致用户流失、投诉甚至封号的6大致命错误：无限循环追问、人工移交超时、敏感词过滤缺失、知识库冲突、未处理否定意图、跨平台适配失败。通过真实案例拆解每个错误的表现形式、技术根因及工业级解决方案，提供可直接复用的Coze配置代码、工作流模板和检测工具。文中包含对话流健康度检测工具使
魔搭平台实战：手把手教你训练SDXL模型，解锁AI绘画新纪元 Liudef06小白特殊专栏 AIGC 人工智能 AI作画人工智能 AIGC
魔搭平台实战：手把手教你训练SDXL模型，解锁AI绘画新纪元随着多模态AI技术的爆发式发展，StableDiffusionXL（SDXL）等文生图模型正在彻底重塑创意产业工作流。本文将深入解析如何在魔搭平台高效训练SDXL模型，并探讨AI绘画技术对设计行业的革命性影响。一、SDXL模型架构解析1.1双文本编码器设计SDXL采用双文本编码器架构，显著提升提示词理解能力：#SDXL文本编码器结构示意c
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
Jupyter Notebook：数据科学的“瑞士军刀” a小胡哦机器学习基础人工智能机器学习
在数据科学的世界里，JupyterNotebook是一个不可或缺的工具，它就像是数据科学家手中的“瑞士军刀”，功能强大且灵活多变。今天，就让我们一起深入了解这个神奇的工具。一、JupyterNotebook是什么？JupyterNotebook是一个开源的Web应用程序，它允许你创建和共享包含实时代码、方程、可视化和解释性文本的文档。它支持多种编程语言，其中Python是最常用的语言之一。Jupy
减肥淘气的库里
图片发自App减肥一定要向袁姗姗学习！简直就是我心中的瘦身女神我喜欢袁姗姗很久了！每次看见她的动态，我都会特别的关注！我减肥的动力也是看见她的微博动态，我想成为她这样的魔鬼身材！听说她最近在soul参加语音匹配，我一定要去参加一下和她互动，要是能和她聊一下天，那简直要幸福死！
PDF转Markdown - Python 实现方案与代码 Eiceblue Python Python PDF pdf python 开发语言 vscode
PDF作为广泛使用的文档格式，转换为轻量级标记语言Markdown后，可无缝集成到技术文档、博客平台和版本控制系统中，提高内容的可编辑性和可访问性。本文将详细介绍如何使用国产Spire.PDFforPython库将PDF文档转换为Markdown格式。技术优势：精准保留原始文档结构（段落/列表/表格）完整提取文本和图像内容无需Adobe依赖的纯Python实现支持Linux/Windows/mac
基于随机森林的白酒风味智能分类系统：从数据到洞察的完整实践笙囧同学 python
作者：笙囧同学|中科院计算机大模型方向硕士|全栈开发爱好者座右铭：偷懒是人生进步的阶梯联系方式：[email protected]各大平台账号/公众号：笙囧同学前言大家好，我是笙囧同学！今天给大家分享一个超级有趣且技术含量爆表的项目——白酒风味智能分类系统。作为一个既爱技术又爱美酒的程序员，我花了大量时间研究如何用机器学习的方法来"品酒"，让AI帮我们识别白酒的风味特征。这个项目融合了机器学习、数
PaddleOCR 快速开始张欣-男 PaddlePaddle PaddleOCR OCR
1.安装1.1安装PaddlePaddle#GPUcudapipinstallpaddlepaddle-gpu#CPUpipinstallpaddlepaddle1.2安装PaddleOCRwhl包pipinstallpaddleocr2.便捷使用2.1命令行使用2.1.1中英文模型检测+方向分类器+识别全流程：–use_angle_clstrue设置使用方向分类器识别180度旋转文字，–use_
基于Python引擎的PP-OCR模型库推理张欣-男 python ocr 开发语言 PaddleOCR PaddlePaddle
基于Python引擎的PP-OCR模型库推理1.文本检测模型推理#下载超轻量中文检测模型：wgethttps://paddleocr.bj.bcebos.com/PP-OCRv3/chinese/ch_PP-OCRv3_det_infer.tartarxfch_PP-OCRv3_det_infer.tarpython3tools/infer/predict_det.py--image_dir=".
数据库基础概念梳理 22:30Plane-Moon 数据库
1.数据存储类型表(Table):存储结构化数据的标准方式，数据以行和列的形式组织，具有固定的格式。非结构化数据(UnstructuredData):如音频、视频、图片、文本文档等，其格式不固定，不易直接用表存储。2.SQL的核心优势SQL尤其擅长处理和操作存储在表中的结构化数据。2.1数据类型约束(DataTypeConstraints):定义列可存储的数据种类。整数类型:TINYINT(1字节
Ubuntu Docker 安装Redis LLLL96 Ubuntu docker docker redis ubuntu
目录介绍1.数据结构丰富2.高性能3.持久化1.拉取Redis镜像2.创建挂载目录(可选)3.配置Redis持久化(可选)4.使用配置文件运行容器5.查看redis日志介绍1.数据结构丰富Redis支持多种数据结构，包括：字符串（String）:可以用来存储任何类型的数据，例如文本、数字或二进制数据。哈希（Hash）:存储字段和值的映射，适合用于表示对象。列表（List）:有序的字符串列表，可以用
项目:事半功倍的法宝佳妈在人间
之前，我们都在讲如何解决一件小事儿，对于长期的、复杂的、重大的事情，我们就需要在项目的维度统筹管理。一、项目的定义项目是一组为了实现同一个目的的行动。短期完不成，需要用一段时间，需要很多个步骤才能完成的事。这些事情不简单，不像是一个步骤就能完成单一日历和清单事件，但它们又是非常重要的。项目是基于一个特定的成果产生的一系列日程与清单事件，匹配相关资源比如金钱、人员的集合。二、易效能项目PAS法则易效
Amazon广告投放：如何精准筛选并添加关键词？新置元人工智能亚马逊广告 amazon
在亚马逊广告投放领域，关键词的选择是影响广告效果的核心要素之一。一个精准的关键词策略不仅能够提升广告的曝光度，还能确保产品能够被真正的目标受众看到，从而实现更高的转化率。然而，关键词的筛选并不是一个简单的操作，它需要结合数据分析、市场趋势和消费者行为模式进行科学的规划。一、关键词筛选的必要性：为什么精准匹配如此重要？1.提升广告投放的精准度关键词的精准度决定了广告是否能够投放给真正有购买意愿的用户
Qt 下拉框QComboBox控件：从入门到实战
一、QComboBox核心功能解析1.核心属性属性说明当前示例场景count列表项总数统计学历下拉框中的选项数量editable是否允许用户编辑学历选择时可输入自定义学历currentText当前选中项的文本获取用户选择的"硕士"文本currentData当前选中项的附加数据获取太原对应的区号"0351"currentIndex当前选中项的索引位置(从0开始)确定"硕士"在列表中的位置2.核心方法
2025最新Mybatis-plus教程（三）
四、MyBatis-Plus条件构造器（一）条件构造器介绍在MyBatis-Plus中提了构造条件的类Wrapper，它可以根据自己的意图定义我们需要的条件。Wrapper是一个抽象类，一般情况下我们用它的子类QueryWrapper来实现自定义条件查询。（二）selectOne方法@TestpublicvoidtestSelectOne(){ QueryWrapperqueryWrapper=n
搜索引擎技术选型 dusty_giser
近期，业主对POI检索提出了一些想法，针对之前简单的WordSegment分词和模糊匹配搜索需要进行一些更为符合业主需求的调整。于是这几天对搜索引擎进行了一些技术选型；一、ApacheLucene Lucene是一个开源的高性能、可扩展的全文检索引擎工具包，但不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎。所以它是一套信息检索工具包，可以说是当今最先进
【测试用例】银行授信业务小邓在Working 测试用例测试用例功能测试性能测试安全测试交互测试一致性测试
一、功能测试：授信申请流程：验证客户能正常提交授信申请，并检查信息完整性和准确性。测试申请被拒绝或需要额外信息时的系统反馈。反欺诈与风控系统集成：验证系统能调用反欺诈接口并正确处理返回结果。测试系统调用风控接口获取授信建议和额度管理决策。用户信息校验与九要素验证：验证系统对客户提供的九要素信息进行准确性和一致性校验。测试校验失败时的错误提示和处理逻辑。重复授信检查与处理：验证系统能识别并处理重复授
【测试用例】银行冲正业务
一、冲正申请阶段冲正原因测试点验证冲正原因的选择是否符合预设的业务规则。验证冲正原因的输入是否支持自由文本，并检查文本长度限制。验证系统是否能够正确保存冲正原因，并在需要时正确显示。冲正金额测试点验证冲正金额的输入格式是否正确（如是否只接受数字、是否有金额上限等）。验证冲正金额与原交易金额的匹配性（如是否一致、是否小于原交易金额等）。验证系统是否能够正确处理冲正金额为0或负数的异常情况。冲正账户信
高铁站违规撑伞识别误检率↓79%：陌讯多模态融合算法实战解析 2501_92722744 算法人工智能目标检测计算机视觉目标跟踪
原创声明本文为原创技术解析，核心技术参数与架构参考自《陌讯技术白皮书》，禁止未经授权的转载与改编。一、行业痛点：密集场景下的违规撑伞识别难题在高铁站、地铁站等交通枢纽，违规撑伞（如非雨天在站台、通道内持伞）可能引发客流拥堵、设备刮擦等安全隐患。然而，传统视觉识别方案面临三大核心挑战：环境干扰大：进出站口光线突变（正午强光/夜间弱光）导致伞面特征提取不稳定，某枢纽站点实测数据显示，阴雨天违规撑伞识别
2022-05-23 一夕秉
接受不了自己的无知会不会是一种自卑感很强的高级动物？如果高级，愿是高级的谦卑也愿意是谦卑的高级，像吸尘器一样，连无知也能坦荡接受。以前总有很多为什么，现在亦是如此，并不着急去寻找答案，当静下来时，一切真相如是。烦恼就此过，买路钱留下多少如人饮水。又是一个午夜，自言自语的耍着无聊是为了不无聊，好玩即刻行动，字眼亦是如此，当中参杂许多不识别状态，也就是不经验的状态，处于创造能够发生的状态。斑竹，别被字
Java学习-----JVM的垃圾回收算法
在Java虚拟机（即JVM）中，垃圾收集是自动内存管理的核心机制，其主要作用是识别并回收不再使用的对象所占用的内存空间，以避免内存泄漏和溢出。不同的垃圾收集算法有着不同的实现思路和适用场景，下面将详细介绍JVM中4种常见的垃圾收集算法。（一）标记-清除算法标记-清除算法是最基础的垃圾收集算法，它分为“标记”和“清除”两个阶段。在标记阶段，会遍历所有对象，标记出需要回收的垃圾对象；在清除阶段，会清除
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现不同水果的检测识别（C#代码，UI界面版）
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现不同水果的检测识别（C#代码，UI界面版））工业相机使用YoloV8模型实现不同水果的检测识别工业相机通过YoloV8模型实现不同水果的检测识别的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入Yo
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name