迷雾总会解

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))

文章目录

- Sequence Labeling Problem
- - Sequence Labeling
  - - Definition
    - Application
    - Example Task：POS tagging
  - Outline(大纲)
  - HMM
  - - 介绍
    - 什么样的问题需要HMM模型
    - How you generate a sentence?
    - - step 1
      - step 2
    - HMM的数学表达
    - Estimating the probabilities(概率估计)
    - How to do POS Tagging?(如何进行词性标记)
    - Viterbi Algorithm(维特比算法)
    - Summary(总结)
    - Drawbacks(缺点)
  - Conditional Random Field (CRF,条件随机场)
  - - P(x,y) for CRF
    - Feature Vector
    - Training Criterion
    - Inference
    - CRF vs HMM
    - - Synthetic Data(合成数据)
    - Summary
  - Structured Perceptron/SVM
  - - Structured Perceptron
    - Structured Perceptron vs CRF
    - Structured SVM
    - Structured SVM – Error Function
    - 不同方法的比较
  - 为什么不用RNN
  - 把传统方法和深度学习整合在一起
  - Concluding Remarks

Sequence Labeling Problem

上一章节我们讲到结构化学习的一种方法—结构化支持向量机，本章学习另一种结构化学习的方法—序列标注。

Sequence Labeling

Definition

$\rightarrow Y$

序列标注的问题可以理解为：机器学习所要寻找的目标函数的输入是一个序列，输出也为一个序列，并且假设输入输出的序列长度相同，即输入可以写成序列向量的形式，输出也为序列向量。该任务可以利用循环神经网络来解决，但本章节我们可以基于结构化学习的其它方法进行解决(两步骤，三问题)。

Application

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第2张图片

命名实体识别：就是给定一个句子来识别这个句子中的人名，地名，组织名称等信息

比如：

给定一个句子：“Harry Potter is a student of Hogwarts and lived on Privet Drive.”

就可以得出：Harry Potter是人名，Hogwarts 是组织名，Privet Drive是人名

但是对于中文的抽取很麻烦，例如下面两句要抽取人名：

楊公再興之神
馮氏埋香之塚

Example Task：POS tagging

POS tagging：标记一个句子中每个word的词性。

词性有很多的类别，名词下面就可以分成proper（专有名词）、common（一般名词）。动词可以分成main（主动词），modals（情态动词）等等。

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第3张图片

现在要做的就是输入一个句子(比如，John saw the saw)，系统将会标记John为专有名词，saw为动词，the为限定词，saw为名词；

词性标注是自然语言处理中非常典型和重要的task，是许多文字理解的基石，比如要先有词性标注，后续才能比较方便地做句法分析和词义消歧，或者抽key word（一般是名词），自动检测出哪些词汇是名词的话，就可以先去掉一些不可能的词汇。

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第4张图片

如果今天找到一个字典，告诉我们说每个词汇的词性是什么，那不就解决词性标注的问题了吗？写一个hash table，hash table告诉我们说“the”的output是“D"，那词性标注的问题不就解决了吗？这里困难的点是，词性标注光靠查表是不够的，要知道一整个sequence的信息才有可能把每一个word的词性找出来。

第一个"saw"更有可能是动词V，而不是名词N；
然而，第二个"saw"是名词N，因为名词N更可能跟在冠词“the”后面。

所以要把词性标注做好的话，必须考虑整个sequence的信息。

Outline(大纲)

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第5张图片

HMM

介绍

隐马尔科夫模型（Hidden Markov Model，以下简称HMM）是比较经典的机器学习模型了，它在语言识别，自然语言处理，模式识别等领域得到广泛的应用。当然，随着目前深度学习的崛起，尤其是RNN，LSTM等神经网络序列模型的火热，HMM的地位有所下降。但是作为一个经典的模型，学习HMM的模型和对应算法，对我们解决问题建模的能力提高以及算法思路的拓展还是很好的。本文是HMM系列的第一篇，关注于HMM模型的基础。

什么样的问题需要HMM模型

首先我们来看看什么样的问题解决可以用HMM模型。使用HMM模型时我们的问题一般有这两个特征：

我们的问题是基于序列的，比如时间序列，或者状态序列。
们的问题中有两类数据，一类序列数据是可以观测到的，即观测序列；而另一类数据是不能观察到的，即隐藏状态序列，简称状态序列。

有了这两个特征，那么这个问题一般可以用HMM模型来尝试解决。这样的问题在实际生活中是很多的。比如：我现在在打字写博客，我在键盘上敲出来的一系列字符就是观测序列，而我实际想写的一段话就是隐藏序列，输入法的任务就是从敲入的一系列字符尽可能的猜测我要写的一段话，并把最可能的词语放在最前面让我选择，这就可以看做一个HMM模型了。再举一个，我在和你说话，我发出的一串连续的声音就是观测序列，而我实际要表达的一段话就是状态序列，你大脑的任务，就是从这一串连续的声音中判断出我最可能要表达的话的内容。

从这些例子中，我们可以发现，HMM模型可以无处不在。但是上面的描述还不精确，下面我们用精确的数学符号来表述我们的HMM模型。

How you generate a sentence?

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第6张图片

我们如何生成一个句子呢?

这里主要是两个步骤：

step1：

当你想要说一句话的时候，你第一件在心里做的事情是先产生一个POS sequence，这个sequence是根据你脑中的grammar产生的（你大脑中对人类语言的理解）。

step2：

根据每一个tag（PN、V、D、N），去找一个符合tag的词汇，变成一个word sequence。文字和词性的关系可以从一个词典中得到。

step 1

当你想要说一句话的时候，你第一件在心里做的事情是先产生一个POS sequence，这个sequence是根据你脑中的grammar产生的（你大脑中对人类语言的理解）。

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第7张图片

实际上这就是一个马尔科夫链，例如：

要说一句话，放在句首的0.5的几率是冠词，0.4的几率是专有名词，0.1的几率是动词

这里随机sample一下，假设第一个词是专有名词PN，PN后面80%几率是动词V，10%几率是冠词，10%几率直接结束。然后再随机sample一下。一直往下，直到end。

注意：每一个词后面接什么词合起来的几率应该是1，不是1就是ppt有问题。

当我们要计算"PN V D N"这样的一个序列的概率：
$\ \ \ V\ \ \ D \ \ \ N") = 0.4 × 0.8 × 0.25 × 0.95 ×0.1$

step 2

根据我们脑袋中的词典，把相应的词根据词性放到相应位置。

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第8张图片

根据每一个tag（PN、V、D、N），在词典中找一个符合tag的词汇，变成一个word sequence。

名词罐子里面有五个词，sample出John的几率是0.2，同理：得到saw的几率是0.17，the的几率是0.63，最后saw的几率是0.17，根据词性这句话出现的几率为：
$\ \ saw \ \ the \ \ saw"|"PN \ \ V \ \ D \ \ N") = 0.2×0.17×0.63×0.17$

HMM的数学表达

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第9张图片

HMM实际上就是在描述下面这件事情：

数学表达为：
$P (x, y) = P (y) P (x ∣ y)$
来看看右边分别怎么算的：
$P (y) = P (P N ∣ s t a r t) \times P (V ∣ P N) \times P (D ∣ V) \times P (N ∣ D)$

$P (x ∣ y) = P (J o h n ∣ P N) \times P (s a w ∣ V) \times P (t h e ∣ D) \times P (s a w ∣ N)$

用更加一般化的数学表达HMM：

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第10张图片

输入： $x=x_{1}, x_{2} \cdots x_{L}$

输出： $y=y_{1}, y_{2} \cdots y_{L}$

Step1 计算y的概率就是各个词性出现的条件概率积，这个条件概率称为 Transition probability(转移概率)
$P(y)=P\left(y_{1} | s t a r t\right)\times \prod_{l=1}^{L-1} P\left(y_{l+1} | y_{l}\right) \times P\left(e n d | y_{L}\right) \tag{1}$
Step2 会计算x|y的概率，是词性产生word的条件概率积，这个条件概率称为 Emission probability(发散概率)
$y)=\prod_{l=1}^{L} P\left(x_{l} | y_{l}\right) \tag{2}$

写到一起：
$P(y)=P\left(y_{1} | s t a r t\right)\times \prod_{l=1}^{L-1} P\left(y_{l+1} | y_{l}\right) \times P\left(e n d | y_{L}\right) × \prod_{l=1}^{L} P\left(x_{l} | y_{l}\right) \tag{3}$
那么问题来了，怎么算这两个几率呢？

Estimating the probabilities(概率估计)

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第11张图片

怎么算转移概率、发射概率？

这个就要从训练数据中得到，先收集一大堆的训练数据（sentence），每个sentence词汇都标注好词性了。每一个sentence就是一笔training data。

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第12张图片

那么算公式(1)中的 $P(y_{l+1}|y_l)$ 这个概率就是计算：
$\frac{P\left(y_{l+1}=s^{\prime} | y_{l}=s\right)}{\left(s \text { and } s^{\prime} \text { are tags }\right)}=\frac{\operatorname{count}\left(s \rightarrow s^{\prime}\right)}{\operatorname{count}(s)}$
s和s ′ 是tag（词性标签）， $c o u n t (s)$ 就是在训练集中s出现的次数， $count(s\rightarrow s')$ 就是在训练集中s后面接s’的次数。

算公式(2)中的 $P\left(x_{l} | y_{l}\right)$ 这个概率就是计算：
$\frac{P\left(x_{l}=t | y_{l}=s\right)}{(s \text { is tag, and } t \text { is word })}=\frac{\operatorname{count}(s \rightarrow t)}{\operatorname{count}(s)}$
s是tag，t是word， $P(x_l=t|y_i=s)$ 的意思就是给一个词性，产生一个词汇的概率。 $c o u n t (s)$ 就是在训练集中s出现的次数， $count(s\rightarrow t)$ 在训练集中词性为s且词汇为t的次数。

讲到这里，老师解释了一下HMM在处理语音序列的时候表达式不是这样的，处理语音序列的时候，HMM里面的都是一个个高斯分布形成的GMM，不是像这里用统计的方法算出来的，GMM要用EM来解，这里不用。为什么？老师也没说，自己想。。。

How to do POS Tagging?(如何进行词性标记)

有两个上面算出来的概率之后，要做什么呢？

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第13张图片

回到原来的问题，给一个句子x，要找y，x是我们看得到的，而y是隐藏的，这也就是为什么叫Hidden的原因！那找出y就要靠 $P (x, y)$

用概率来说就是，在给定x 的条件下出现的几率的y 就是我们要求的y：
$\arg \max\limits_{y\in Y} P(y|x)$
上式可以写成：
$\arg \max\limits_{y\in Y} \frac{P(x,y)}{P(x)}$
由于分母P ( x ) 是固定的，所以上式等价于：
$\arg \max\limits_{y\in Y} P(x,y)$
这个最有可能的y就是穷举所有的y，然后带入公式P ( x , y )里面，然后找到最大的那个~！，我们把它记为 $\tilde{y}$

下面来分析一下这个做法：

Viterbi Algorithm(维特比算法)

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第14张图片

从前面我们可以知道给定一个x真正要求的是：
$\tilde{y} = \arg \max\limits_{y\in Y} P(x,y)$
如果是穷举所有可能的情况，那么假设现在有s个词性，sequnce长度是L，那有可能的y就是 $s^L$ 个！这个是非常大的数量。

但是用Viterbi Algorithm来解决这个问题，其算法时间复杂度为： $O(LS^2)$ ！

那么什么是Viterbi-Algorithm算法呢？

维特比算法是一个特殊但应用最广的动态规划算法。利用动态规划，可以解决任何一个图中的最短路径问题。而维特比算法是针对一个特殊的图-篱笆网了（Lattice）的有向图最短路径问题而提出来的。它之所以重要，是因为凡是使用隐马尔科夫模型描述的问题都可以用它解码，包括当前的数字通信、语音识别、机器翻译、拼音转汉字、分词等。

更多的就不介绍了，可以看这篇文章： Viterbi-Algorithm(维特比算法)

Summary(总结)

HMM的过程：

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第15张图片

HMM也是结构化学习的一种方法，就要回答三个问题：

Q1：评估
$F (x, y) = P (x, y) = P (y) P (x ∣ y)$
该评估函数可以理解为x与y的联合概率。
Q2:推理
$\tilde{y}=\arg \max _{y \in \mathbb{Y}} P(x, y)$
定一个x，求出最大的y，使得我们定义函数的值达到最大(即维特比算法)。
Q3：训练

从训练数据集中统计得到P(y)与P(x | y)

该过程就是计算几率的问题或是统计语料库中词频的问题。

Drawbacks(缺点)

HMM会有什么问题？

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第16张图片

在做Q2推理的时候，我们是把让P(x,y)最大的y作为output：
$\tilde{y}=\arg \max _{y \in \mathbb{Y}} P(x, y)$
如果我们要让HMM得到正确的结果，我们会希望正确的 $\tilde{y}$ ：
$\hat{y}) : P(x, \hat{y})>P(x, y)$
但是HMM可以做到这件事情吗？

HMM可能无法做到这件事情，在HMM训练中，你会发现它并没有保证可以让错误的y的P(x,y)一定是小的。

可能你会很懵逼，我们这里举一个例子来说明一下：

假设从语料库中的数据是统计出来(如上图右边所示)：

转移概率
- N后面接V的概率是9/10： $\frac{9}{10}$
- N后面接D的概率是1/10： $\frac{1}{10}$
分散概率
- V词性是word a的概率是1/2： $\frac{1}{2}$
- V词性是word c的概率是1/2： $\frac{1}{2}$
- D词性是word a的概率是1： $P (a ∣ D) = 1$

可以看到，每一种词性的转移概率和发散概率各自的总和是1！

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第17张图片

假设我们知道在 $l - 1$ 时刻词性标记为N，即 $\mathrm{y}_{\mathrm{l}-1}=\mathrm{N}$ ，在 $l$ 时刻我们看到的单词为a，现在需要求出 $y_{l}=?$ 即 $y_l$ 最有可能的词性是什么？

根据我们之前得到的概率，我们可以得到：

$y_l = V$ 的概率为0.9 × 0.5 = 0.45
$y_l = D$ 的概率为0.1 × 1 = 0.1

所以最有可能的词性是V

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第18张图片

可是如果我们观察下训练数据（如上图右边所示，和我们前面看的不同之处在于加了状态P，但其他的跟前面讲的概率相同）， $N \to V \to c$ 出现9次， $P \to V \to a$ 出现9次， $N \to D \to a$ 出现1次，那么N后面接V的概率是0.9，N后面接D的概率是0.1。V产生a的概率是0.5，产生c的概率是0.5，D产生a的概率是1。

根据训练数据，告诉我们说是V，但是你不觉得有问题吗？

在训练数据里，已经告诉你 $N \to D \to a$ ，但是你还是预测为V，这不是很奇怪吗。

对HMM来说，它会给一些在训练数据里没出现过的sequence高的概率（例如上面例子的 $N \to D \to a$ )。

也就是说HMM算法只会按照概率的高低来进行估计，并不管这个序列是否出现过（HMM自己脑补了未出现过的东西）。

但这个脑补的过程也不能说就是个坏事：

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第19张图片

由于训练数据很少，也就是意味在真实的数据中是有可能出现训练数据中没有出现过的序列的，因此HMM在训练数据很少的时候性能反而比较好。也就是说训练数据多的时候HMM的表现并没有比较好。

隐马尔可夫模型会产生未卜先知的情况，是因为转移概率(Transition probability)和发散概率(Emission probability)，在训练时是分开建模的，两者是相互独立的。因此解决这个现象就是用更加复杂的模型，把这两个东西都考虑起来，即我们也可以用一个更复杂的模型来模拟两个序列之间的可能性，但要避免过拟合！

下面要讲的CRF就是用同样的模型，解决这个问题。

Conditional Random Field (CRF,条件随机场)

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第20张图片

CRF描述的也是P(x, y)的问题，但与条件随机场表示形式很不一样(本质上是在训练阶段不同)，其几率正比于 $exp(w\cdot ϕ(x,y))$ ：
$\mathrm{P}(x, y) \propto \exp (w \cdot \phi(x, y)) \tag{1}$

$ϕ (x, y)$ 为一个特征向量；
w是一个权重向量，可以从训练数据中学习得到；
$\cdot ϕ(x,y))$ 总是正的，可以大于1。所以说是概率的话就不太对，只能说和概率是成正比的。

那我们不就不知道真正的P(x,y)是什么了吗？

没关系，CRF不关心P(x,y)，真正关心的是P(y|x)：
$x)=\frac{P(x, y)}{\sum_{y^{\prime}} P\left(x, y^{\prime}\right)} \tag{2}$
由公式(1)的正比可以得到：
$\frac{\exp (w \cdot \phi(x, y))}{R} \tag{3}$
公式(2)的分母部分我们也可以得出：
$\sum_{y\prime}P(x,y\prime) = \sum_{y\prime\in Y}\frac{\exp (w \cdot \phi(x, y\prime))}{R} \tag{4}$
将公式(3)和公式(4)带入公式(2)：
$x)=\frac{\frac{\exp (w \cdot \phi(x, y))}{R}}{\sum_{y\prime\in Y}\frac{\exp (w \cdot \phi(x, y\prime))}{R} } = \frac{\exp (w \cdot \phi(x, y))}{\sum_{y\prime\in Y}\exp (w \cdot \phi(x, y\prime)) } \tag{5}$
分母中是对所有的y进行求和，因此和x是相互独立的，可以把公式(5)写成：
$\frac{\exp (w \cdot \phi(x, y))}{Z(x)}$

P(x,y) for CRF

你可能会奇怪，为什么概率会正比于两个向量的内积，跟HMM完全不一样呀！

emm…其实是一样的！

为什么说CRF和HMM是一样的呢？是有人证明了的，CRF只不过是training上不一样，我们来看，在HMM里面是这样计算P ( x , y ) 的：
$y)=P\left(y_{1} | s t a r t\right) \prod_{l=1}^{L-1} P\left(y_{l+1} | y_{l}\right) P\left(e n d | y_{L}\right) \prod_{l=1}^{L} P\left(x_{l} | y_{l}\right) \tag{1}$
按乘法变加法的套路，对公式（1）的两边取对数
${\log P(x, y)} {=\log P\left(y_{1} | \operatorname{star} t\right)+\sum_{l=1}^{L-1} \log P\left(y_{l+1} | y_{l}\right)+\log P\left(\text {end} | y_{L}\right)} {\quad+\sum_{l=1}^{L} \log P\left(x_{l} | y_{l}\right)} \tag{2}$

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第21张图片

我们先来看一下上面红色方框的部分，把这一项做下整理就得到了：
$\sum_{l=1}^{L} \log P\left(x_{l} | y_{l}\right) = \sum_{s,t}logP(t|s) \times N_{s,t}(x,y)$

$\sum_{l=1}^{L}$ 穷举所有可能的标记s和所有可能的单词t；
$\log P\left(x_{l} | y_{l}\right)$ 表示给定标记s的单词取对数的形式；
$N_{s, t}(x, y)$ 表示为单词t被标记成s的事情，在(x, y)对中总共出现的次数。

如果有10个可能的词性(s=10)和10000个词汇(t=10000)，那这里就是summation $\sum_{s,t} = 10*10000$ 项。

可能有点难理解，这里对于上面的转换再举一个具体的例子吧：

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第22张图片

举个例子：有一个sentence x “The dog ate the homework”，每一个word都有一个tag的label。
$\begin{aligned} & x: The \ dog \ ate \ the \ homework \\ & y:\ D \ \ \ \ \ N\ \ \ V\ \ \ D\ \ \ \ \ \ \ \ \ \ \ \N \end{aligned}$
我们来分别计算每一个pair (x, y)出现的次数(不考虑大小写)：

“the”被标记为D（冠词），这个(x,y) pair出现的次数为2次： $N_{D,the}(x,y) = 2$
“dog”被标记为N（名词）的次数为1次： $N_{N,dog}(x,y) = 1$
“ate”被标记为V（动词）的次数为1次： $N_{V,ate}(x,y)=1$
“homework”被标记为N（名词）的次数为1次： $N_{N,homework}(x,y) = 1$
其他词汇和词性的次数为0次： $N_{s,t}(x,y) = 0$

计算下所有的概率的乘积：
$\begin{aligned} \sum_{l=1}^{L} \log P\left(x_{l} | y_{l}\right) & {=\log P(\text {the} | D)+\log P(\operatorname{dog} | N)+\log P(\text {ate} | V)} {+\log P(\text {the} | D)+\log P(\text {homework} | N)} \\ & = {\log P(\text { the } | D) \times 2+\log P(\operatorname{dog} | N) \times 1+\log P(a t e | V) \times 1} {+\log P(\text {homework} | N) \times 1} \end{aligned}$
可以看到，我们对概率对数之和整理之后，其实就可以得到下列等式：
$\sum_{l=1}^{L} \log P\left(x_{l} | y_{l}\right) = \sum_{s,t}logP(t|s) \times N_{s,t}(x,y) \tag{3}$
对于公式(2)的其他项我们也可以做一样的转化：

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第23张图片

其中：

第一项：
$\log P(y_1|start) = \sum_s\log P(s|start)\times N_{start,x}(x,y) \tag{4}$
表示对所有标记的词性s放在句首的几率取对数，再乘上在(x, y)对中，标记s放在句首所出现的次数。
第二项：
$\sum_{l=1}^{L-1} \log P\left(y_{l+1} | y_{l}\right)=\sum_{s, s^{\prime}} \log P\left(s^{\prime} | s\right) \times N_{s, s^{\prime}}(x, y) \tag{5}$
表示计算s后面的标记后面跟s’在(x, y)里面所出现的次数，再乘上s后面跟s’的几率取对数。
第三项：
$\log P\left(\text {end} | y_{L}\right)=\sum_{s} \log P(e n d | s) \times N_{s, \text {end}}(x, y) \tag{6}$
表示对所有标记的词性s放在句尾的几率取对数，再乘上在(x, y)对中，标记s放在句尾所出现的次数。

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第24张图片

将我们上面推导得到的公式(3),(4),(5),(6)带进公式(2)：
${\log P(x, y)} {=\log P\left(y_{1} | \operatorname{star} t\right)+\sum_{l=1}^{L-1} \log P\left(y_{l+1} | y_{l}\right)+\log P\left(\text {end} | y_{L}\right)} {\quad+\sum_{l=1}^{L} \log P\left(x_{l} | y_{l}\right)} \tag{2}$
中，就可以得到：
$\begin{aligned} {\log P(x, y)} = & \sum_{s, t} \log P(t | s) \times N_{s, t}(x, y) {+\sum_{s} \log P(s | \text {start}) \times N_{\text {start}, s}(x, y)} \\ & {+\sum_{s, s^{\prime}} \log P\left(s^{\prime} | s\right) \times N_{s, s^{\prime}}(x, y)}+\sum_{s} \log P(e n d | s) \times N_{s, e n d}(x,y) \end{aligned} \tag{7}$
其实看我们上面的式子，我们可以发现四项中每一个其实都是两个数相乘然后相加：

summation over所有的tag跟word
summation over所有的tag
summation over所有的tag和tag
summation over所有的tag

最后四项求和。那么近一步我们就可以将公式(7)描述成两个向量的inner product：
$\log P(x, y) =\left[\begin{array}{c}{\vdots} \\ {\log P(t | s)} \\ {\vdots} \\ {\vdots} \\ {\log P(s | s t a r t)} \\ {\vdots} \\ {\log P\left(s^{\prime} | s\right)} \\ {\vdots} \\ {\log P(e n d | s)} \\ {\vdots}\end{array}\right]\cdot \left[\begin{array}{c}{\vdots} \\ {N_{s, t}(x, y)} \\ {\vdots} \\ \vdots \\ {N_{\text {start}, s}(x, y)} \\ {\vdots} \\ {N_{s, s^{\prime}}(x, y)} \\ {\vdots} \\ {N_{s, e n d}(x, y)} \\ \vdots \end{array}\right] \tag{8}$
进而可以用 $w\cdot ϕ(x,y)$ 表示，第二个向量是依赖于(x, y)的，是(x,y)所形成的Feature，写成 $\phi(x,y)$ 。

对公式(8)两边同时取指数e：
$exp(w\cdot \phi(x,y))$
到这里就从HMM的形式推导到CRF的形式了，说明两个是一码事，但是注意，在CRF的定义中，上面的式子不是等号是正比于 $\propto$ ， 这点我们前面也有提及，下面来看看为什么：

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第25张图片

从我们上面推出的公式(8)中，我们可以得出：
$w=\left[\begin{array}{c}{\vdots} \\ {\log P(t | s)} \\ {\vdots} \\ {\vdots} \\ {\log P(s | s t a r t)} \\ {\vdots} \\ {\log P\left(s^{\prime} | s\right)} \\ {\vdots} \\ {\log P(e n d | s)} \\ {\vdots}\end{array}\right] \phi(x, y)=\left[\begin{array}{c}{\vdots} \\ {N_{s, t}(x, y)} \\ {\vdots} \\ \vdots \\ {N_{\text {start}, s}(x, y)} \\ {\vdots} \\ {N_{s, s^{\prime}}(x, y)} \\ {\vdots} \\ {N_{s, e n d}(x, y)} \\ \vdots\end{array}\right] \tag{9}$
由上面的 $w$ 向量，我们可以知道每一个权重和几率是有对应关系的，而在 $w$ 中，权重其实一共分为四种，对应着公式(3),(4),(5),(6)中的每一个子项：

词性 s 时为word为 t 的概率：
$w_{s,t} = logP(x_i = t|y_i=s) \rightarrow P(x_i = t|y_i=s) = e^{w_{s,t}}$
句首是s概率：
$w_{start,s} = \log P(s|start) \rightarrow P(s|start) = e^{w_{start,s}}$
词性 s 时后面的词性为 s’ 的概率：
$w_{s,s\prime} = logP(y_i = s\prime|y_{i-1}=s) \rightarrow P(y_i = s\prime|y_{i-1}=s) = e^{w_{s,s\prime}}$
句尾为s的概率：
$w_{s,end} = \log P(end|s) \rightarrow P(end|s) = e^{w_{s,end}}$

也就是在 w 里面，每一个weight都对应到HMM里的某个概率取 log，如果想转回概率的话，就把 w 取exp。

而w在训练的过程中，w里面的值是可正可负的，值是负的话，取exp的值是小于1的，可以解释为一个概率，但是如果exp大于1的话，就不能解释为概率了。还有就是given s(tags)后对t(word) summation ，没有办法保证和是1 （因为 $P(x_i=t|y_i=s)$ 取了log）。所以没办法说 $P (x, y) = e x p (w \cdot ϕ (x, y))$ ) ，于是就改成正比。

一开始我看见上面的说法的时候，有点疑惑：根据公式(9)中的w，每一项概率P都是小于1的，那么取log后，不是一定小于0吗？为什么会可正可负呢？如果都是小于0，最后 $w\cdot \phi(x,y)$ 后再取一个指数e，是一定小于1大于0的，满足概率的呀！？

想了一下，我的理解是：我们在训练的时候，w会随着训练而进行修改，而我们每次训练的时候，可能并不能保证修改后的值是一定小于1的。我们并不能按照概率的思想来想训练的时候w的变化情况！

Feature Vector

下面来看CRF的Feature Vector是什么样子，就是 $\phi(x,y)$ 这个东西，我们前面已经求出来了：
$\phi(x, y)=\left[\begin{array}{c}{\vdots} \\ {N_{s, t}(x, y)} \\ {\vdots} \\ \vdots \\ {N_{\text {start}, s}(x, y)} \\ {\vdots} \\ {N_{s, s^{\prime}}(x, y)} \\ {\vdots} \\ {N_{s, e n d}(x, y)} \\ \vdots\end{array}\right]$
我们前面也说了， $\phi(x,y)$ 包含两个大部分：

第一个部分是有关tag（词性）和 word（词汇）的关系
第二个部分是有关tag（词性）和 tag（词性）之间的关系

又可分为四个小部分;

第一个部分是有关tag（词性）和 word（词汇）的关系
第三个部分是句子开头的tag（词性），即start 和 tag 的关系
第二个部分是句子中tag（词性）和 tag（词性）之间的关系
第四个部分是句子结尾的tag（词性），即end 和 tag的关系

下面直接看例子：

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第26张图片

先看第一个部分，如上图右边的向量。

定义 $N_{s,t}(x,y)$ ：为词性s和词汇t在(x, y)对中出现的次数。

定义如果有S个tag，有L个可能的词汇，那向量维度就是 $S \times L$ ，例如有10种词性，10000个可能的词汇，那向量的长度就是100000维。

向量里面是所有词性跟所有词汇的pair，今天如果给一个(x,y)的pair，“the”标示为D出现2次的话，那向量维度D,the就对应2，没出现的pair都是0。可以想象这个向量的维度非常大，但有值的地方可能很少（稀疏）。

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第27张图片

在第二个部分中，是如上图右边的向量。

定义 $N_{S, S^{\prime}}(x, y) :$ 为标记s和s’在(x, y)对中连续出现的次数。

$N_{D, D}(x, y)$ 表示D后面出现D在(x, y)对中出现的次数，在这个例子中D和D没有接在一起过，所以次数为0；D后面接N出现过2次…

如果有S个可能的标记，其维度为 $\times S + 2S$ (对所有的标记对，我们都需要一个维度，每一个标记跟start产生的对也是一个维度，每一个标记跟end所产生的对又是一个维度，因此所有标记的对为s的平方，start跟end的对为s)。

然后把part1和part2的向量接在一起作为 $\phi(x,y)$ ，这个向量有它自己的含义，跟HMM想要model的东西是一样的。

但是CRF牛叉的地方在于，因为CRF把概率描述成 $w$ 和 $\phi(x,y)$ 的inner product，所以这个特征向量可以不这样定义，可以自己来定义 $\phi(x,y)$ 的形式！

Training Criterion

下面来看CRF如何训练：

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第28张图片

假设我们有一组训练数据：
$\left\{\left(x^{1}, \hat{y}^{1}\right),\left(x^{2}, \hat{y}^{2}\right), \cdots\left(x^{N}, \hat{y}^{N}\right)\right\}$
找到一个权重向量 $W^{*}$ 去最大化目标函数 $O (w)$ ；
$w^{*}=\arg \max _{w} \mathrm{O}(w) \tag{1}$
其中目标函数 $O (w)$ 为：
$O(w)=\sum_{n=1}^{N} \log P\left(\hat{y}^{n} | x^{n}\right)$
表示为我们要寻找一个w，使得最大化给定的 $x_n$ 所产生 $\hat{y}^{n}$ 正确标记的几率，再取对数进行累加。

你会发现和交叉熵很像，交叉熵也是最大化正确维度的几率再取对数，只不过此时是针对整个序列而言的。给定一整个sequence x，我们要让正确的sequence的概率的log越大越好。

根据概率公式：
$\begin{array}{l}{P(y | x)} {=\frac{P(x, y)}{\sum_{y^{\prime}} P\left(x, y^{\prime}\right)}}\end{array}$
我们可以很容易对目标函数中的项 $P(\hat{y}^n|x^n)$ 进行转换：
$\log P\left(\hat{y}^{n} | x^{n}\right)=\log P\left(x^{n}, \hat{y}^{n}\right)-\log \sum_{y^{\prime}} P\left(x^{n}, y^{\prime}\right) \tag{2}$
根据公式(1)知道我们的目标是maximize 目标函数，因此公式(2)真正要做的事情其实就是：

最大化 $\log P\left(x^{n}, \hat{y}^{n}\right)$ ，最大化在训练数据里看到的pair $(x^{n}, \hat{y}^{n})$ 的概率
最小化 $\log \sum_{y^{\prime}} P\left(x^{n}, y^{\prime}\right)$ ，最小化训练数据没有看到的pair的概率

因为是maximize 目标函数，我们又可以知道应该使用Gradient Ascent来更新w的数值：

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第29张图片

Gradient descent：梯度下降里，最小化代价函数C，计算C的梯度，然后θ减去 $η \nabla C (θ)$ （即往负梯度方向走）:
$\theta \rightarrow \theta-\eta \nabla C(\theta)$
Gradient Ascent：梯度上升了，是θ加上 $η \nabla C (θ)$ （即往梯度方向走）：
$\theta \rightarrow \theta+\eta \nabla O(\theta)$

上面只是通用的公式，下面来看看具体怎么弄：

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第30张图片

先写出目标函数：
$O(w)=\sum_{n=1}^{N} \log P\left(\hat{y}^{n} | x^{n}\right)=\sum_{n=1}^{N} O^{n}(w)$
对目标函数中每一项求梯度，可以得到：
$\nabla O^{n}(w)=\left[\begin{array}{c}{\vdots} \\ {\partial O^{n}(w) / \partial w_{s, t}} \\ {\vdots} \\ {\partial O^{n}(w) / \partial w_{s, s^{\prime}}}\\ \vdots\end{array}\right]$
我们w有很多很多，有的w对应到一个tag和一个word的pair，有的w是对应两个tag的pair。

我们来看看 $\frac{\partial O^n(w)}{\partial w_{s,t}}$ 如何计算，另外一个 $\frac{\partial O^n(w)}{\partial w_{s,s\prime}}$ 是类似的，就不说了！

注意，下面的步骤有点复杂，可以跳过哦~我们后面会直接将偏导后的结果！但其实也并不复杂！

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第31张图片

我接下里的过程过程和ppt中的过程有点不大一样，我是根据最终的目标函数来推倒的，但想法是相同的。

有前面可知，我们的目标函数中的每一项其实就是：
$O^n(w) = \log P\left(\hat{y}^{n} | x^{n}\right)=\log P\left(x^{n}, \hat{y}^{n}\right)-\log \sum_{y^{\prime}} P\left(x^{n}, y^{\prime}\right)$
由(下面这个式子在我们将CRF开始的时候就已经说过并且证明了)：
$\mathrm{P}(x, y) \propto \exp (w \cdot \phi(x, y)) \rightarrow P(x,y) = \frac{\exp (w \cdot \phi(x, y))}{R}$
进一步推导：
$\begin{aligned} O^n(w) & = \log \frac{\exp (w \cdot \phi(x, \hat{y}^n))}{R} - \log \frac{\sum_{y\prime}exp\left(w\cdot\phi(x^n,y\prime)\right)}{R} \\ &= \log \exp (w \cdot \phi(x, \hat{y}^n)) - \log R - \log \sum_{y\prime}exp\left(w\cdot\phi(x^n,y\prime)\right) + \log R \\ &= w \cdot \phi(x, \hat{y}^n) - \log \sum_{y\prime}exp\left(w\cdot\phi(x^n,y\prime)\right) \end{aligned} \tag{1}$
上式中，最后的结论的第一项其实可以化为：
$\cdot \phi(x,\hat{y}^n) = \sum_{s,t}w_{s,t}\cdot N_{s,t}(x^n,\hat{y}^n)+\sum_{s,s\prime}w_{s,s\prime}\cdot N_{s,s\prime}(x^n,\hat{y}^n) \tag{2}$
其实，也很好理解，因为我们的权值和特征总体上分为两大类，前面有介绍，我们这里就以 $w_{s,t}$ 来计算，另一个 $w_{s,s\prime}$ 也是类似的！

现在来对公式(1)求梯度(偏导)：
$\frac{\partial O^n(w)}{\partial w_{s,t}} =\frac{\partial w\cdot\phi(x,\hat{y}^n)}{\partial w_{s,t}}+\frac{\partial \log \sum_{y\prime}exp\left(w\cdot\phi(x^n,y\prime)\right)}{\partial w_{s,t}} \tag{3}$
因此，根据公式(2)，我们公式(3)的第一项就是：
$\frac{\partial w\cdot\phi(x,\hat{y}^n)}{\partial w_{s,t}} = N_{s,t}(x^n,\hat{y}^n) \tag{4}$

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第32张图片

上面我们已经将公式(3)的第一项求导的结果算出来了，就是(4)，因此现在我们现在要计算公式(3)的第二项：
$\begin{aligned} \frac{\partial \log \sum_{y\prime}exp\left(w\cdot\phi(x^n,y\prime)\right)}{\partial w_{s,t}} &= \frac{1}{\sum_{y\prime}exp\left(w\cdot\phi(x^n,y\prime)\right)}\cdot \frac{\partial \sum_{y\prime}exp\left(w\cdot\phi(x^n,y\prime)\right)}{\partial w_{s,t}} \\ &= \frac{1}{\sum_{y\prime}exp\left(w\cdot\phi(x^n,y\prime)\right)}\cdot \sum_{y\prime}exp\left(w\cdot\phi(x^n,y\prime)\right)\cdot \phi(x^n,y\prime) \\ &= \sum_{y\prime} \frac{exp\left(w\cdot\phi(x^n,y\prime)\right))}{\sum_{y\prime} exp\left(w\cdot\phi(x^n,y\prime)\right)} \cdot N_{s,t}(x^n,y\prime) \\ &= \sum_{y\prime} \frac{P(x^n,y\prime)}{P(x^n)} \cdot N_{s,t}(x^n,y\prime) \\ &= \sum_{y\prime}P(y\prime|x^n) \cdot N_{s,t}(x^n,y\prime) \end{aligned} \tag{5}$
将公式(4)和公式(5)带入公式(3)，可以求出梯度为：
$\begin{aligned} \frac{\partial O^n(w)}{\partial w_{s,t}} &=\frac{\partial w\cdot\phi(x,\hat{y}^n)}{\partial w_{s,t}}+\frac{\partial \log \sum_{y\prime}exp\left(w\cdot\phi(x^n,y\prime)\right)}{\partial w_{s,t}} \\ &= N_{s,t}(x^n,\hat{y}^n) + \sum_{y\prime}P(y\prime|x^n) \cdot N_{s,t}(x^n,y\prime) \end{aligned}$
至此证明完毕！

前面没看懂也没事，主要是这个结论：

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第33张图片

$\begin{aligned} \frac{\partial O^n(w)}{\partial w_{s,t}} &= N_{s,t}(x^n,\hat{y}^n) + \sum_{y\prime}P(y\prime|x^n) \cdot N_{s,t}(x^n,y\prime) \end{aligned}$

第一项是word t被标识为tag s，在pair $(x^n,\hat{y}^n)$ 中出现的次数
第二项是，summation over所有可能的y ，summation 中每个term是（word t被标识为tag s在 $x^n$ 跟任意一个y的pair中出现的次数）乘上（给定 $x^n$ 后任意一个y的概率），y是所有可能出现的sequence，所以非常多。

算出来偏微分的结果，是要跟 $w_{s,t}$ 做相加，第一项和第二项是互相对抗的

第一项，如果算出来是正的，参数就会增加，算出来是负的，参数就会减少。这个式子告诉我们，如果 $s, t$ 这个pair在正确的训练数据 $(x^n,\hat{y}^n)$ 中出现的次数越多，那 $w_{s,t}$ 就会越大。
第二项告诉我们，如果 $s, t$ 这个pair在任意一个 $x^n,y)$ pair里出现的次数很多的话，那 $w_{s,t}$ 应该变小

如果 $s, t$ 在正确答案里出现的很多，那对应的 $w_{s,t}$ 就会增加，但是如果不只是在正确答案里出现的次数多，在随便哪个y跟 $x^n$ pair里出现的次数也多的话，就应该减小 $w_{s,t}$ 。

今天你要在第二项summation over所有可能的y，可能会卡住，不知道怎么算。但没有关系，这个也可以用维特比算法算。

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第34张图片

之前是算了某一个w的偏微分，现在对整个w的偏微分向量就是（正确的 $\hat{y}$ 形成的特征向量）-（任意y’形成的特征向量∗y’的条件概率）：
$\bigtriangledown O(w) = \phi(x^n,\hat{y}^n)-\sum_{y\prime}P(y\prime|x^n)\phi(x^n,y\prime)$
如果我们把随机梯度上升的式子列出来的话

每次都取一笔数据 $(x^n,\hat{y}^n)$ ：
$\rightarrow w+\eta\left(\phi(x^n,\hat{y}^n)-\sum_{y\prime}P(y\prime|x^n)\phi(x^n,y\prime)\right)$

Inference

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第35张图片

把ww向量算出来后，就可以做Q2：推理了！

我们知道现在要做的事情是，给一个x，找一个y让 $P (y ∣ x)$ 最大，在HMM里已经知道，等同于最大化 $P (y ∣ x)$ 。在CRF里又知道， $P (y ∣ x)$ 是正比于 $e x p (w \cdot ϕ (x, y))$ ，代进去等同于是最大化 $w \cdot ϕ (x, y)$ ：
$\begin{aligned} y &=\arg \max _{y \in Y} P(y | x)=\arg \max _{y \in Y} P(x, y) \\ &=\arg \max _{y \in Y} w \cdot \phi(x, y) \end{aligned}$
也可以用维特比算法做。

CRF vs HMM

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第36张图片

CRF的训练过程中，不只会增加 $P(x,\hat{y})$ ，还会减少任意一个y和x形成pair的概率；
而HMM并没有减少概率这件事情。

我们知道说，如果要得到正确的答案，会希望：
$\hat{y}) : P(x, \hat{y})>P(x, y)$
CRF是增加 $\hat{y})$ ，减小 $P (x, y)$ ，所以CRF更有可能得到正确的结果。

举例来说，用之前HMM的例子：

根据训练数据，HMM给了如上图左下方所示的结果（直接统计来的），HMM说 $y_i$ 应该是V：
$P(V|N)\cdot P(a|V) = 0.45 \gt P(D|N)\cdot P(a|D) = 0.1$
但你会发现这种情况在我们的训练数据(上图左下角)中并没有出现过！
但是CRF不关心概率，就是调整w参数使得正确的(x,y) pair的分数比较大。所以CRF可能调来调去，使得P(a|V)到0.1，使得 $y_i$ 可能是D：
$P(D|N)\cdot P(a|D)=0.1 \gt P(V|N)\cdot P(a|V) = 0.09$

Synthetic Data(合成数据)

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第37张图片

以下是一个综合的实验，比较CRF和HMM有什么不一样。

在这个实验里面，input是小写的a到z ，output是大写的A到E：
$x_{i} \in\{a-z\}, y_{i} \in\{A-E\}$
然后我们要生成一些人工数据，这些数据使用HMM生成的，但用的不是一般的HMM，用的是一个mixed-order HMM(混合顺序隐马尔科夫模型)。

转移概率是：
$\alpha P\left(y_{i} | y_{i-1}\right)+(1-\alpha) P\left(y_{i} | y_{i-1}, y_{i-2}\right)$
如果 $\alpha=1$ ，则后面一项是0，就是一般的HMM的转移概率。今天 $\alpha$ 的值可以任意调整，考虑一个order的比率大，还是两个order的比率大。
发射概率是：
$\alpha P\left(x_{i} | y_{i}\right)+(1-\alpha) P\left(x_{i} | y_{i}, x_{i-1}\right)$
如果 $\alpha=1$ ，也就是一般的HMM。

比较HMM和CRF（都是一般的HMM和CRF），HMM只考虑一个order（ $\alpha=1$ 的状况）。

一般而言，如果 $\alpha$ 越小，那么跟一般的HMM和CRF差距越大，得到的performance越差。但是我们想要知道在这种情况下，到底是HMM坏得比较厉害，还是CRF坏得比较厉害。

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第38张图片

上图是实验的结果，每个圈圈是不同的 $\alpha$ 得到的结果。从左下到右上代表 $\alpha$ 由大到小，每个点都做HMM和CRF的实验，横轴和纵轴代表HMM和CRF犯错的百分比。

可以想象如果一个点在45度角的右侧，代表说HMM犯得错多，CRF犯得错少。从实验结果可以发现，非实心的点是 $\alpha \gt \frac{1}{2}$ ，接近一般的HMM或者CRF，在这个状况下HMM是比CRF好的，也不用意外，因为数据是从HMM产生的，所以HMM的假设更贴近数据的产生方式。 $\alpha \lt \frac{1}{2}$ 时，也就是数据的产生方式和HMM、CRF的假设都不合时，这时候CRF就会比HMM好。因此此时HMM只能按照概率，而CRF会调整参数去fit数据，就算有些假设没有被model在CRF里面，也可以借由调整参数考虑到这些假设，所以当你的模型和数据背后的假设不合时，CRF的表现就会比较好。

Summary

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第39张图片

上图是CRF的总结。CRF也是一个结构化学习的方法，解决了3个问题。

Q1：评估

F(x,y)是P(y|x)：
$x)=\frac{\exp (w \cdot \phi(x, y))}{\sum_{y^{\prime} \in \mathbb{Y}} \exp \left(w \cdot \phi\left(x, y^{\prime}\right)\right)}$
Q2：推理

找使 $w \cdot ϕ (x, y)$ 最大的 $\tilde{y}$ ，利用维特比算法求解：
$\tilde{y}=\arg \max _{y \in \mathbb{Y}} P(y | x)=\arg \max _{y \in \mathbb{Y}} w \cdot \phi(x, y)$
Q3：训练

一般文献是写成相乘：
${w^{*}=\arg \max _{w} \prod_{n=1} P\left(\hat{y}^{n} | x^{n}\right)}$

但是也可以取log，变成相加(这中形式也是我们前面所讲的)：
$w^* = \arg \max\limits_w \sum_{n=1}^{N} \log P\left(\hat{y}^{n} | x^{n}\right)$
使用梯度上升求解w：
${\mathbf{w} \rightarrow w+\eta\left(\phi\left(x^{n}, \hat{y}^{n}\right)-\sum_{y^{\prime}} P\left(y^{\prime} | x^{n}\right) \phi\left(x^{n}, y^{\prime}\right)\right)}$

Structured Perceptron/SVM

Structured Perceptron

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第40张图片

也是那三个问题吧，我们前面已经讲烂了~：

Q1：评估
$w\cdot \phi(x,y)$
你可以会说，如果x,y都是sequence的话，这个ϕ()应该定成什么样子？

可以选择自己喜欢的方式，最简单的方式就是拿CRF的形式做就好了。
Q2：推理
$\tilde{y} = \arg \max_{y\in Y}w\cdot \phi(x,y)$
一样使用维特比算法求解。
Q3：训练

对所有的训练数据n，和所有不等于 $\hat{y}$ 的y，我们希望让 $w\cdot \phi(x^n,\hat{y}^n)$ 大于 $w\cdot \phi(x^n,y)$ ：
$\forall n,\forall y \in Y,y\ne\hat{y}^n ：\ \ \ \ \ \ w \cdot \phi\left(x^{n}, \hat{y}^{n}\right)>w \cdot \phi\left(x^{n}, y\right)$
这件事在结构化感知机里，我们会找一个 $\tilde{y}$ （根据目前的w，让式子最大）：
$\tilde{y}^{n}=\arg \max _{y} w \cdot \phi\left(x^{n}, y\right)$
接下来更新w：
$\rightarrow w+\phi\left(x^{n}, \hat{y}^{n}\right)-\phi\left(x^{n}, \tilde{y}^{n}\right)$

Structured Perceptron vs CRF

机器学习-63-Structured Learning-04-Sequence Labeling Problem(结构化学习-序列标注(HMM,CRF))_第41张图片

你有没有觉得结构化感知机w更新很眼熟呢，和CRF的梯度上升很像？

在CRF梯度上升里，如果忽略掉 $\eta$ （学习率），那跟结构化感知机一样都有两项（绿色线项和紫色线项）。绿色项是一样的，紫色项虽然看起来不一样，但其实是很有关系的：

Structured Perceptron里则是某一个 $\tilde{y}$ 的特征向量，而 $\tilde{y}$ 可以让 $w⋅ϕ(x^n,y)$ 最大， $\tilde{y}$ 其实就是让概率 $P(y|x^n)$ 最大y：
$\begin{array}{l}{\tilde{y}^{n}=\arg \max _{y} w \cdot \phi\left(x^{n}, y\right)} \\ \phi(x^n,\tilde{y}^n)\end{array}$
这一项也叫做Hard(硬范畴)！
CRF里是summation over所有的y的特征向量，再做weight sum：
$\sum_{y^{\prime}} P\left(y^{\prime} | x^{n}\right) \phi\left(x^{n}, y^{\prime}\right)$
这一项也叫做Soft(软范畴)！

所以Structured Perceptron是减去Hard(硬范畴)：
$\begin{array}{l}{\tilde{y}^{n}=\arg \max _{y} w \cdot \phi\left(x^{n}, y\right)} \\ {w \rightarrow w+\phi\left(x^{n}, \hat{y}^{n}\right)-\phi\left(x^{n}, \tilde{y}^{n}\right)}\end{array}$
而CRF是Soft（软范畴）：
$\mathrm{w} \rightarrow w+\eta\left(\underline{\phi\left(x^{n}, \hat{y}^{n}\right)}-\sum_{y^{\prime}} P\left(y^{\prime} | x^{n}\right) \phi\left(x^{n}, y^{\prime}\right)\right)$

你可能感兴趣的:(李宏毅机器学习,自然语言处理,机器学习,结构化学习)

x86-64汇编语言训练程序与实战十除以十等于一
本文还有配套的精品资源，点击获取简介：汇编语言是一种低级语言，与机器代码紧密相关，特别适用于编写系统级代码及性能要求高的应用。nasm编译器是针对x86和x86-64架构的汇编语言编译器，支持多种语法风格和指令集。项目Euler提供数学和计算机科学问题，鼓励编程技巧应用，前100个问题的答案可共享。x86-64架构扩展了寄存器数量并引入新指令，提升了数据处理效率。学习汇编语言能够深入理解计算机底层
三菱PLC全套学习资料及应用手册 good2know
本文还有配套的精品资源，点击获取简介：三菱PLC作为工业自动化领域的核心设备，其系列产品的学习和应用需要全面深入的知识。本次资料包为学习者提供从基础到进阶的全方位学习资源，包括各种型号PLC的操作手册、编程指南、软件操作教程以及实际案例分析，旨在帮助用户系统掌握PLC的编程语言、指令系统及在各类工业应用中的实施。1.三菱PLC基础知识入门1.1PLC的基本概念可编程逻辑控制器（PLC）是工业自动化
日更006 终极训练营day3 懒cici
人生创业课（2）今天的主题：学习方法一：遇到有用的书，反复读，然后结合自身实际，列践行清单，不要再写读书笔记思考这本书与我有什么关系，我在哪些地方能用到，之后我该怎么用方法二：读完书没映像怎么办?训练你的大脑，方法：每读完一遍书，立马合上书，做一场分享，几分钟都行对自己的学习要求太低，要逼自己方法三：学习深度不够怎么办？找到细分领域的榜样，把他们的文章、书籍、产品都体验一遍，成为他们的超级用户，向
day15｜前端框架学习和算法 universe_01 前端算法笔记
T22括号生成先把所有情况都画出来，然后（在满足什么情况下）把不符合条件的删除。T78子集要画树状图，把思路清晰。可以用暴力法、回溯法和DFS做这个题DFS深度搜索：每个边都走完，再回溯应用：二叉树搜索，图搜索回溯算法=DFS+剪枝T200岛屿数量（非常经典BFS宽度把树状转化成队列形式，lambda匿名函数“一次性的小函数，没有名字”setup语法糖：让代码更简洁好写的语法ref创建：基本类型的
《极简思维》第三部分小洋苏兮
整理你的人际关系如何改善人际关系？摘录：因为人际关系问题是人们生活中不快乐的主要原因。感想：感觉这个说的挺对，之前我总是埋头学习，不管舍友不管自己的合作伙伴的一些事情，但实际上，这学期关注了之后好多了摘录：“亲密关系与社交会让你健康而快乐。这是基础。太过于关注成就或不太关心人际关系的人都不怎么快乐。基本上来说，人类就是建立在人脉关系上的。”感想：但是如果有时想的太多就不太好，要以一个开放的心态跟别
你要记住，最重要的是:随时做好准备，为了你可能成为更好的自己，放弃现在的自己。霖霖z
打卡人:周云日期:2018年11月09日【日精进打卡第180天】【知～学习】《六项精进》0遍共214遍《通篇》1遍共106遍《大学》2遍共347遍《坚强工作，温柔生活》ok《不抱怨的世界》104-108页《经典名句》你要记住，最重要的是:随时做好准备，为了你可能成为更好的自己，放弃现在的自己。【行～实践】一、修身：（对自己个人）1、坚持打卡二、齐家：（对家庭和家人）打扫卫生，接送孩子，洗衣做饭，陪
贫穷家庭的孩子考上985以后会怎样？ Mellisa蜜思言
我出生在一个贫穷的农村家庭，据我妈说，我出生的时候才4斤多，而她生完我以后月子里就瘦到70斤。家里一直很穷，父母都是在菜市场卖菜的，家里还有几亩地种庄稼的。我很小开始就要去帮忙，暑假的生活就是帮忙去卖菜和割稻谷，那时候自己对于割稻谷这种事情有着莫名的恐惧，生怕自己长大以后还是每年都要过着割稻谷这种日子。父母因为忙于生计无暇顾及我的学习，幸好我因为看到他们这样子的生活，内心里有深深的恐惧感，驱使着我
2019-06-05 第十七把巴鲁克
今天去实验田里实习，见到了福寿螺真的可怕且牛皮，六级也快来了，说实话还是害怕。我昨天考了环工原理，真的太难了，太烦了，理工科真的难，烦。实验报告还是没写，要抓紧速度抓紧时间，还是应该学会努力学习，远离一些不上进的事物。
为什么焦虑、抑郁、自残的青少年越来越多？精神健康
很多家长觉得没缺孩子吃的穿的，他们有安稳的生活，他们有什么可焦虑、抑郁的，但现在的孩子，学习压力越来越大，每天休息的时间越来越少，出现焦虑抑郁是很正常的。从发展的角度看，青少年时期，人的身体、情绪，智力、人格都急剧发展，正从未成熟走向成熟，情绪起伏不定，易冲动，再者，由于缺乏生活经验，以及来自于家长、学校、社会的各种要求和压力，从而不知所措，心中的焦虑、恐惧、彷徨得不到及时的排解，从而导致心理上的
读书打卡《别想太多啦》 chenchen_68ed
第一，世间之事，不去尝试永远不知道其中的奥秘，在尝试中有失败是必然的。如果担心失败，那什么都学不会。第二，经历的失败越多，越会对失败者抱有宽容的态度，“原来如此，我也经历过类似的失败啦，那只是暂时的”。经历越多失败的长者，越能包容别人，这也就是所谓的“越年长越宽容”。成熟的人，就是在众多失败经历中不断学习，并接纳别人的失败。对于他人的小小过失不吹毛求疵，自己的心态会更加平和。在不断失败中学习，让自
2023-01-26 胡喜平
我觉得《可见的学习》一书确实从底层逻辑说清楚了，教学的本质。可是太多术语和概念，一时间难以消化啊。而且知道和懂得有距离，运用就更不行了，需要高手和专家的指导。我需要多听听新课标的讲座了，来反复印证。读论文也有了一点点灵感，明天修改我的论文。
平静得接受自己的笨拙 20190118 晨间日记吴伯符
图片发自App最近做了一个关于微习惯的分享，这里有八个字：微量开始，超额完成。这里的言下之意其实是要你在一开始的时候，平静地接受自己的笨拙。接受自己的笨拙，理解自己的笨拙，放慢速度尝试，观察哪里可以改进，再反复练习，观察自己哪里可以再进一步改进，再反复…这是学习一切技能的必须的过程。这里的两个关键点是：1.尽快的开始这个过程，这就能够用到微习惯的微量开始。2.尽快的度过这个过程，这就需要用到超额完
二十四节气组诗谷雨离陌_6639
图片来源网络，若侵犯了你的权益，请联系我删除6.谷雨文/离陌背上行囊背上如行囊的我从此任行程马不停蹄今天家乡的田野春雨快马加鞭播下希望的种子观音不语目送着我和夏天一道在观音山出关图片来源网络，若侵犯了你的权益，请联系我删除你好啊，我是离陌，已然在懵懂中走过了16年的岁月，为了珍惜当下的每一秒，所以立志做一名终身学习者。文学对于我来说是一种信仰，诗歌是我的生命。人生之道，四通八达，即入文学，自当持之
你好，2020年瑄瑄妍妍的妈咪
早上好，今天是2020年的第一天，也就是元旦，新年新的一天开始了。新的开始，重新规划未来的一年。从今天开始，用了一个新的记账软件，之前的随手记软件，也没有删除，只是重新下载了一个别的软件，开始一个新的记账旅程，对于理财开支，有个新的规划。通过小红书视频软件，学习了不少育儿知识，和各种不同的美食，以后动手制作，给宝宝做健康美味的营养餐。学习方面，继续学英语吧！虽然是抽出时间学的，进度也比较慢，但是积
常规笔记本和加固笔记本的区别 luchengtech 电脑三防笔记本加固计算机加固笔记本
在现代科技产品中，笔记本电脑因其便携性和功能性被广泛应用。根据使用场景和需求的不同，笔记本可分为常规笔记本和加固笔记本，二者在多个方面存在显著区别。适用场景是区分二者的重要标志。常规笔记本主要面向普通消费者和办公人群，适用于家庭娱乐、日常办公、学生学习等相对稳定的室内环境。比如，人们在家用它追剧、处理文档，学生在教室用它完成作业。而加固笔记本则专为特殊行业设计，像军事、野外勘探、工业制造、交通运输
《云襄传》：云襄做的局是浑水摸鱼吗？书生号贺
云襄入南都是要浑水摸鱼吗？他是云台的高材生吗？他为啥笃定师父一定会让他留在南都？他为啥觉得他能够做局成功？他是在经商吗？还是在经营人心与欲望？云襄是云台弟子，云台属千门的一支，另一支叫凌渊，云台教人经商之道，重智慧，凌渊以武力取胜，但倍受打压。云襄学习十五年，下高山奔越州，途经南洋，因恩人闻聪被害，囚于白驹镇，念于情分，被卷入这样一个局面里，结识了舒亚南与金十两，于是，复仇小组成立，目标是南都漕帮
心力践行营十二期一阶学习打卡 LX_王彤彤
姓名：王彤彤时间：2021年4月24日一：朗读师父的十大人生哲学二：师父的早安分享感悟很喜欢这句话：所有的行动都是基于目标的尝试，没有所谓的失败，只是不同尝试后得到的不同结果，让我们更好地调整下一次的行动。三：感恩日记1.我太幸福了，我很感恩姑姑，因为姑姑放假又投喂了我，还给我带了饺子回家，这让我感觉很幸福。谢谢，谢谢，谢谢。2.我太幸福了，我很感恩师父晚上的直播，因为听他的分享我知道怎么更好的去
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
闭组进行时... 李亚青_强化班
今天是2019年12月1号距离开始三月学习的日子:2019年10月07,已经过去将近两个月，回顾这一阶段的学习，收获了什么?又学会了什么呢?图片发自App我想，收获最大的就是身边这一群人吧,有和蔼可亲的学姐，贴心的学长，嬉戏打闹，玩的不亦乐乎，但也同样认真踏实学习小伙伴图片发自App本以为在这样的时刻，有太多太多话，太多太多想法想要表达，可言到此处，又觉得似乎没有什么想要说的了还是那句话，幸运遇到
2021-10-23 赵甄文的幸福
秀荣感恩日记Day42[烟花]感恩语录感恩自己有能力有好身体，可以到处走动，做自己想做的事情10.23感恩日记今天做的事情瑜伽一小时户外散步一小时泡脚20分钟学习打卡和孩子沟通[爱心]感动的瞬间今天瑜伽回来，发现老公在厨房里做鱼。每次老公有时间休息的时候都会给我做硬菜。刘姐约我一起去公园散步晒太阳。虽然完美错过，但心里还是暖暖的。每天睁开眼打开手机，先去自己的群里逛一逛，每每发现有人点赞或者互动都
孤独的守候怒吼的生命
孤独了时光岁月了寂寞带来了惆怅那些孤独的日子里我们珍惜奋斗起来品味人生的真谛做到更好奋斗当中的你是那么努力格外自律学习起来五彩斑斓那些日子时光匆匆人生的机会很多需要把握痛苦的回忆记得住那些忧愁孤苦五一的日子寂寞当中的你时光荏苒独自带给我荒草学习起来努力奋斗可是我们做的还不够把握发展生活带给我们更多希望静静的述说你的故事你的精彩人生当中我们总是努力把握生活带给我们更多的学习生活当中我们奋斗可是做的还
AI模型训练中过拟合和欠拟合的区别是什么？ workflower 人工智能算法人工智能数据分析
在AI模型训练中，过拟合和欠拟合是两种常见的模型性能问题，核心区别在于模型对数据的学习程度和泛化能力：欠拟合（Underfitting）-定义：模型未能充分学习到数据中的规律，对训练数据的拟合程度较差，在训练集和测试集上的表现都不好（如准确率低、损失值高）。-原因：-模型结构过于简单（如用线性模型解决非线性问题）；-训练数据量不足或特征信息不充分；-训练时间太短，模型尚未学到有效模式。-表现：训练
2018-08-29精进打卡米兰王
姓名:王兰英【日精进打卡第25天】【知～学习】《六项精进》1遍共39遍《大学》1遍共50遍【经典名句分享】一切都是最好的安排。【行～实践】一、修身：（对自己个人）1，散步1小时。2，每天坚持读书。二、齐家：（对家庭和家人）1，指导孩子开车。2，和家人一起逛超市。三、建功：（对工作）用心做好每件事。｛积善｝：发愿从2018年8月5日起1年内365个善事。今日1善，累计27善。【省～觉悟】正人先正己。
陶勇：要不要参加分班考试学习？看完再说。陶勇
每年到了升学季，有很多培训机构都特别忙，为什么呢？因为有成千上万的学生，会选择升学前的分班考试的培训。比如说，小升初的孩子，到了暑假，很多孩子都会去选择一个初中，初一的分班考试的培训，那考入高中的孩子也有很多孩子会选择这种新高一的分班考试的培训。当然了，我个人认为这种选择并不是孩子自身的选择，主要还是家长的选择。当然也有少数孩子会对自己有比较高的要求，他们也会主动的去选择。为什么要去上分班考试的这
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
求解——妊娠纹霜哪个牌子好？皮肤专家推荐的热门秘诀！ zhangxing0100
妊娠纹会严重影响女性的美观，那孕期的女性朋友该如何避免减少妊娠纹的出现呢?下面美腹丽人小编为大家分享了预防妊娠纹的方法，赶紧一起来学习吧!一、预防妊娠纹的饮食习惯1、多食用对皮肤内胶原纤维有利的食品来增强皮肤的弹性。2、控制糖分摄入，少吃色素含量高的食物。3、早晚两杯脱脂牛奶，多食用维丰富的蔬菜、水果和富含维生素及矿物质的食物，增加细胞膜的通透性和皮肤的新陈代谢功能。4、正确的喝水习惯可以提速皮肤
2023-01-07 阿诗玛_6209
姓名：赵丽娟【日精进打卡第1783天】【知～学习】读书《经营与会计》ok《活法》3-47-8【经典名句】执着追求并从中得到最大快乐的人，才是成功者。——梭罗一、修身：（对自己个人）1、保持心态平和.2、坚持打卡.坚持读书。3、早晨喝杯温水.4、坚持烫脚，养成早睡早起的习惯.二、齐家：三、建功：（对工作）｛积善｝：发愿从2018年1月28日起见善行善，今日0善。【省～觉悟】1,睡觉时把手机放到离自己
认命修运每日一省（16）星_6329
命每个人的命都是父母带来的，我们每个人都没有权利选择父母，没有权利选择自己的出生。一个人从出生的那一刻就注定了你的命。我所说的认命，就是客观的接受自己的父母，接受自己的家庭。不对抗，不较劲。有些人是含着金汤匙出生的，有些人刚一出生拥有的财富可能是我们一生都得不到的。有些人是踩着泥坑出生的。有些人一出生就是等着继承皇位的。运在我们成长的过程当中，我们付出努力，学习知识，成长自己，帮助他人。我们有权利
Zread.AI：一键将GitHub项目转化为结构化中文手册的AI代码维基工具
Zread.AI：一键将GitHub项目转化为结构化中文手册的AI代码维基工具文章来源：PoixeAI文章目录Zread.AI工具概述核心功能优势亮点典型应用场景上手指南注意事项官网地址Zread.AI由智谱Z.ai推出，是一款面向开发者的AI代码维基工具，可在几秒内把任何公开GitHub仓库转化为结构化中文手册，并通过独家Buzz面板聚合commits、issues与相关新闻，让项目脉搏一目了然
学C++的五大惊人好处
为什么要学c++学c++有什么用学习c++的好处有1.中考可以加分2.高考可能直接录取3.就业广且工资高4.在未来30--50年c++一定是一个很受欢迎的职业5.c++成功的例子deepsick等AI智能C++语言兼备编程效率和编译运行效率的语言C++语言是C语言功能增强版,在c语言的基础上添加了面向对象编程和泛型编程的支持既继承了C语言高效，简洁，快速和可移植的传统,又具备类似Java、Go等其
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理