shelley__huang

简明条件随机场CRF介绍 | 附带纯Keras实现

文章目录

1. softmax和crf的异同

1.1. 逐帧softmax

1.2. 条件随机场
2. 数学

2.1. 模型概要
2.2. 线性链CRF
2.3. 归一化因子
2.4. 动态规划

3. 实现

3.1. 实现要点
3.2. 代码速览
3.3. 实现要点

4. 参考文献
reference

笔者去年曾写过文章《果壳中的条件随机场（CRF In A Nutshell）》[1]，以一种比较粗糙的方式介绍了一下条件随机场（CRF）模型。然而那篇文章显然有很多不足的地方，比如介绍不够清晰，也不够完整，还没有实现，在这里我们重提这个模型，将相关内容补充完成。

本文是对 CRF 基本原理的一个简明的介绍。当然，“简明”是相对而言中，要想真的弄清楚 CRF，免不了要提及一些公式，如果只关心调用的读者，可以直接移到文末。

1. softmax和crf的异同

按照之前的思路，我们依旧来对比一下普通的逐帧 softmax 和 CRF 的异同。

1.1. 逐帧softmax

CRF 主要用于序列标注问题，可以简单理解为是给序列中的每一帧都进行分类，既然是分类，很自然想到将这个序列用 CNN 或者 RNN 进行编码后，接一个全连接层用 softmax 激活，如下图所示：

1.2. 条件随机场

然而，当我们设计标签时，比如用 s、b、m、e 的 4 个标签来做字标注法的分词，目标输出序列本身会带有一些上下文关联，比如 s 后面就不能接 m 和 e，等等。逐标签 softmax 并没有考虑这种输出层面的上下文关联，所以它意味着把这些关联放到了编码层面，希望模型能自己学到这些内容，但有时候会“强模型所难”。

而 CRF 则更直接一点，它将输出层面的关联分离了出来，这使得模型在学习上更为“从容”：

▲ CRF在输出端显式地考虑了上下文关联

2. 数学

当然，如果仅仅是引入输出的关联，还不仅仅是 CRF 的全部，CRF 的真正精巧的地方，是它以路径为单位，考虑的是路径的概率。

2.1. 模型概要

假如一个输入有 n 帧，每一帧的标签有 k 中可能性，那么理论上就有k^n中不同的输入。我们可以将它用如下的网络图进行简单的可视化。在下图中，每个点代表一个标签的可能性，点之间的连线表示标签之间的关联，而每一种标注结果，都对应着图上的一条完整的路径。

▲ 4tag分词模型中输出网络图

而在序列标注任务中，我们的正确答案是一般是唯一的。比如“今天天气不错”，如果对应的分词结果是“今天/天气/不/错”，那么目标输出序列就是 bebess，除此之外别的路径都不符合要求。

换言之，在序列标注任务中，我们的研究的基本单位应该是路径，我们要做的事情，是从 $k^n$ 条路径选出正确的一条，那就意味着，如果将它视为一个分类问题，那么将是 $k^n$ 类中选一类的分类问题。

这就是逐帧 softmax 和 CRF 的根本不同了：前者将序列标注看成是 n 个 k 分类问题，后者将序列标注看成是 1 个 $k^n$ 分类问题。

具体来讲，在 CRF 的序列标注问题中，我们要计算的是条件概率：
$P(y_1,...,y_n|x_1,...,x_n)=P(y_1,...,y_n|x),x=(x_1,...,x_n)$

为了得到这个概率的估计，CRF 做了两个假设：

假设一：该分布是指数族分布。

这个假设意味着存在函数 $f(y_1,…,y_n;x)$ ，使得：

其中 Z(x) 是归一化因子，因为这个是条件分布，所以归一化因子跟 x 有关。这个 f 函数可以视为一个打分函数，打分函数取指数并归一化后就得到概率分布。

假设二：输出之间的关联仅发生在相邻位置，并且关联是指数加性的。

这个假设意味着 f(y1,…,yn;x) 可以更进一步简化为：

这也就是说，现在我们只需要对每一个标签和每一个相邻标签对分别打分，然后将所有打分结果求和得到总分。

2.2. 线性链CRF

尽管已经做了大量简化，但一般来说，(3) 式所表示的概率模型还是过于复杂，难以求解。于是考虑到当前深度学习模型中，RNN 或者层叠 CNN 等模型已经能够比较充分捕捉各个 y 与输出 x 的联系，因此，我们不妨考虑函数 g 跟 x 无关，那么：

这时候 g 实际上就是一个有限的、待训练的参数矩阵而已，而单标签的打分函数 $h(y_i;x)$ 我们可以通过 RNN 或者 CNN 来建模。因此，该模型是可以建立的，其中概率分布变为：

这就是线性链 CRF 的概念。

2.3. 归一化因子

为了训练 CRF 模型，我们用最大似然方法，也就是用：

作为损失函数，可以算出它等于：

其中第一项是原来概率式的分子的对数，它目标的序列的打分，虽然它看上去挺迂回的，但是并不难计算。真正的难度在于分母的对数 logZ(x) 这一项。

归一化因子，在物理上也叫配分函数，在这里它需要我们对所有可能的路径的打分进行指数求和，而我们前面已经说到，这样的路径数是指数量级的（ $k^n$ ），因此直接来算几乎是不可能的。

事实上，归一化因子难算，几乎是所有概率图模型的公共难题。幸运的是，在 CRF 模型中，由于我们只考虑了临近标签的联系（马尔可夫假设），因此我们可以递归地算出归一化因子，这使得原来是指数级的计算量降低为线性级别。

具体来说，我们将计算到时刻 t 的归一化因子记为 $Z_t$ ，并将它分为 k 个部分：

其中

分别是截止到当前时刻 t 中、以标签 1,…,k 为终点的所有路径的得分指数和。那么，我们可以递归地计算：

它可以简单写为矩阵形式：

其中

，而 G 是对 g(yi,yj) 各个元素取指数后的矩阵，即

；而

是编码模型

（RNN、CNN等）对位置 t+1 的各个标签的打分的指数，即

，也是一个向量。式 (10) 中，ZtG 这一步是矩阵乘法，得到一个向量，而 ⊗ 是两个向量的逐位对应相乘。

▲ 归一化因子的递归计算图示。从t到t+1时刻的计算，包括转移概率和j+1节点本身的概率

如果不熟悉的读者，可能一下子比较难接受 (10) 式。读者可以把 n=1,n=2,n=3 时的归一化因子写出来，试着找它们的递归关系，慢慢地就可以理解 (10) 式了。

2.4. 动态规划

写出损失函数 −logP(y1,…,yn|x) 后，就可以完成模型的训练了，因为目前的深度学习框架都已经带有自动求导的功能，只要我们能写出可导的 loss，就可以帮我们完成优化过程了。

那么剩下的最后一步，就是模型训练完成后，如何根据输入找出最优路径来。跟前面一样，这也是一个从 k^n 条路径中选最优的问题，而同样地，因为马尔可夫假设的存在，它可以转化为一个动态规划问题，用 viterbi 算法解决，计算量正比于 n。

动态规划在本博客已经出现了多次了，它的递归思想就是：一条最优路径切成两段，那么每一段都是一条（局部）最优路径。在本博客右端的搜索框键入“动态规划”，就可以得到很多相关介绍了，所以不再重复了。

3. 实现

经过调试，基于 Keras 框架下，笔者得到了一个线性链 CRF 的简明实现，这也许是最简短的 CRF 实现了。这里分享最终的实现并介绍实现要点。

3.1. 实现要点

前面我们已经说明了，实现 CRF 的困难之处是 −logP(y1,…,yn|x) 的计算，而本质困难是归一化因子部分 Z(x) 的计算，得益于马尔科夫假设，我们得到了递归的 (9) 式或 (10) 式，它们应该已经是一般情况下计算 Z(x) 的计算了。

那么怎么在深度学习框架中实现这种递归计算呢？要注意，从计算图的视角看，这是通过递归的方法定义一个图，而且这个图的长度还不固定。这对于 PyTorch这样的动态图框架应该是不为难的，但是对于TensorFlow或者基于 TensorFlow 的 Keras 就很难操作了（它们是静态图框架）。

不过，并非没有可能，我们可以用封装好的 RNN 函数来计算。我们知道，RNN 本质上就是在递归计算：

新版本的 TensorFlow 和 Keras 都已经允许我们自定义 RNN 细胞，这就意味着函数 f 可以自行定义，而后端自动帮我们完成递归计算。于是我们只需要设计一个 RNN，使得我们要计算的 Z 对应于 RNN 的隐藏向量。

这就是 CRF 实现中最精致的部分了。

至于剩下的，是一些细节性的，包括：

为了防止溢出，我们通常要取对数，但由于归一化因子是指数求和，所以实际上是

这样的格式，它的计算技巧是：

TensorFlow 和 Keras 中都已经封装好了对应的 logsumexp 函数了，直接调用即可；

对于分子（也就是目标序列的得分）的计算技巧，在代码中已经做了注释，主要是通过用“目标序列”点乘“预测序列”来实现取出目标得分；
关于变长输入的 padding 部分如何进行 mask？我觉得在这方面 Keras 做得并不是很好。

为了简单实现这种 mask，我的做法是引入多一个标签，比如原来是 s、b、m、e 四个标签做分词，然后引入第五个标签，比如 x，将 padding 部分的标签都设为 x，然后可以直接在 CRF 损失计算时忽略第五个标签的存在，具体实现请看代码。

3.2. 代码速览

纯 Keras 实现的 CRF 层，欢迎使用。

# -*- coding:utf-8 -*-

from keras.layers import Layer
import keras.backend as K


class CRF(Layer):
    """纯Keras实现CRF层
    CRF层本质上是一个带训练参数的loss计算层，因此CRF层只用来训练模型，
    而预测则需要另外建立模型。
    """
    def __init__(self, ignore_last_label=False, **kwargs):
        """ignore_last_label：定义要不要忽略最后一个标签，起到mask的效果
        """
        self.ignore_last_label = 1 if ignore_last_label else 0
        super(CRF, self).__init__(**kwargs)
    def build(self, input_shape):
        self.num_labels = input_shape[-1] - self.ignore_last_label
        self.trans = self.add_weight(name='crf_trans',
                                     shape=(self.num_labels, self.num_labels),
                                     initializer='glorot_uniform',
                                     trainable=True)
    def log_norm_step(self, inputs, states):
        """递归计算归一化因子
        要点：1、递归计算；2、用logsumexp避免溢出。
        技巧：通过expand_dims来对齐张量。
        """
        states = K.expand_dims(states[0], 2) # (batch_size, output_dim, 1)
        trans = K.expand_dims(self.trans, 0) # (1, output_dim, output_dim)
        output = K.logsumexp(states+trans, 1) # (batch_size, output_dim)
        return output+inputs, [output+inputs]
    def path_score(self, inputs, labels):
        """计算目标路径的相对概率（还没有归一化）
        要点：逐标签得分，加上转移概率得分。
        技巧：用“预测”点乘“目标”的方法抽取出目标路径的得分。
        """
        point_score = K.sum(K.sum(inputs*labels, 2), 1, keepdims=True) # 逐标签得分
        labels1 = K.expand_dims(labels[:, :-1], 3)
        labels2 = K.expand_dims(labels[:, 1:], 2)
        labels = labels1 * labels2 # 两个错位labels，负责从转移矩阵中抽取目标转移得分
        trans = K.expand_dims(K.expand_dims(self.trans, 0), 0)
        trans_score = K.sum(K.sum(trans*labels, [2,3]), 1, keepdims=True)
        return point_score+trans_score # 两部分得分之和
    def call(self, inputs): # CRF本身不改变输出，它只是一个loss
        return inputs
    def loss(self, y_true, y_pred): # 目标y_pred需要是one hot形式
        mask = 1-y_true[:,1:,-1] if self.ignore_last_label else None
        y_true,y_pred = y_true[:,:,:self.num_labels],y_pred[:,:,:self.num_labels]
        init_states = [y_pred[:,0]] # 初始状态
        log_norm,_,_ = K.rnn(self.log_norm_step, y_pred[:,1:], init_states, mask=mask) # 计算Z向量（对数）
        log_norm = K.logsumexp(log_norm, 1, keepdims=True) # 计算Z（对数）
        path_score = self.path_score(y_pred, y_true) # 计算分子（对数）
        return log_norm - path_score # 即log(分子/分母)
    def accuracy(self, y_true, y_pred): # 训练过程中显示逐帧准确率的函数，排除了mask的影响
        mask = 1-y_true[:,:,-1] if self.ignore_last_label else None
        y_true,y_pred = y_true[:,:,:self.num_labels],y_pred[:,:,:self.num_labels]
        isequal = K.equal(K.argmax(y_true, 2), K.argmax(y_pred, 2))
        isequal = K.cast(isequal, 'float32')
        if mask == None:
            return K.mean(isequal)
        else:
            return K.sum(isequal*mask) / K.sum(mask)

除去注释和 accuracy 的代码，真正的 CRF 的代码量也就 30 行左右，可以说跟哪个框架比较都称得上是简明的 CRF 实现了。

用纯 Keras 实现一些复杂的模型，是一件颇有意思的事情。目前仅在 TensorFlow 后端测试通过，理论上兼容 Theano、CNTK 后端，但可能要自行微调。

3.3. 实现要点

我的 Github 中还附带了一个使用 CNN+CRF 实现的中文分词的例子，用的是 Bakeoff 2005 语料，例子是一个完整的分词实现，包括 viterbi 算法、分词输出等。

Github地址：https://github.com/bojone/crf/

相关的内容还可以看我之前的文章：

中文分词系列：基于双向LSTM的seq2seq字标注 [2]

中文分词系列：基于全卷积网络的中文分词 [3]

4. 参考文献

[1]. 果壳中的条件随机场 (CRF In A Nutshell)

https://kexue.fm/archives/4695

[2]. 中文分词系列：基于双向LSTM的seq2seq字标注

https://kexue.fm/archives/3924

[3]. 中文分词系列：基于全卷积网络的中文分词

https://kexue.fm/archives/4195

reference

https://www.jiqizhixin.com/articles/2018-05-23-3

ES-LTR粗排模块 poins jenkins 运维
ES-LTR粗排模块官方资源：https://github.com/HeiBoWang/elasticsearch-learning-to-rankElasticsearch学习排名插件使用机器学习提高搜索相关性排名。它为维基媒体基金会和Snagajob等地方的搜索提供了动力！这个插件有什么功能此插件：允许您在Elasticsearch中存储特征（Elasticsearch查询模板）记录特征得分（
python清华大学出版社答案_Python机器学习及实践 weixin_39805119 python清华大学出版社答案
第1章机器学习的基础知识1.1何谓机器学习1.1.1传感器和海量数据1.1.2机器学习的重要性1.1.3机器学习的表现1.1.4机器学习的主要任务1.1.5选择合适的算法1.1.6机器学习程序的步骤1.2综合分类1.3推荐系统和深度学习1.3.1推荐系统1.3.2深度学习1.4何为Python1.4.1使用Python软件的由来1.4.2为什么使用Python1.4.3Python设计定位1.4.
UNDERSTANDING HTML WITH LARGE LANGUAGE MODELS liferecords LLM 语言模型人工智能自然语言处理
UNDERSTANDINGHTMLWITHLARGELANGUAGEMODELS相关链接：arXiv关键字：大型语言模型、HTML理解、Web自动化、自然语言处理、机器学习摘要大型语言模型（LLMs）在各种自然语言任务上表现出色。然而，它们在HTML理解方面的能力——即解析网页的原始HTML，对于自动化基于Web的任务、爬取和浏览器辅助检索等应用——尚未被充分探索。我们为HTML理解模型（经过微调
OpenCV（一个C++人工智能领域重要开源基础库）简介愚梦者 OpenCV 人工智能人工智能 opencv c++图像处理计算机视觉开源
返回：OpenCV系列文章目录（持续更新中......）上一篇：OpenCV4.9.0配置选项参考下一篇：OpenCV4.9.0开源计算机视觉库安装概述引言：OpenCV（全称OpenSourceComputerVisionLibrary）是一个基于开放源代码发行的跨平台计算机视觉库，可以用来进行图像处理、计算机视觉和机器学习等领域的开发。该库由英特尔公司于1999年开始开发，最初是为了加速处理器
零基础机器学习(5)之线性回归模型的性能评估一只特立独行猪机器学习机器学习线性回归人工智能
文章目录线性回归模型的性能评估1.举例1-单一特征2.举例2-多特征线性回归模型的性能评估评估线性回归模型时，首先要建立评估的测试数据集（测试集不能与训练集相同），然后选择合适的评估方法，实现对线性回归模型的评估。回归任务中最常用的评估方法有均方误差、均方根误差和预测准确率（确定系数）。1.举例1-单一特征分别对两个模型进行评估，输入的测试集如表所示。面积/（m2）售价/（万元）面积/（m2）售价
2022-05-14 败者食尘_40a0
本文结构速览：一、SQL题二、机器学习&概率论三、开放性问题01SQL题面试真题：现有一张用户签到表（user_sign_d）,标记用户每日是否签到，表结构如下sign_date:日期user_id:用户IDif_sign:当日是否签到,1表示签到，0表示未签到问题①：请计算截止到当前每个用户已经连续签到的天数（输出表仅包含当天签到的所有用户，计算其连续签到的天数）输出表结构如下：user_id:
Android 实现照片抠出人像。 No Promises﹉ android
谢谢阅览、关注！！一、各平台的实现方式：1.Android实现方式：使用图像处理库（如OpenCV）：集成OpenCV库，利用其图像处理功能进行边缘检测和图像分割；使用机器学习模型（如TensorFlowLite）：集成TensorFlowLite和预训练的人像分割模型；使用第三方API服务：利用如百度AI、腾讯AI等提供的在线API进行图像处理。步骤：集成必要的库或API、加载和处理图像、应用抠
Python机器学习笔记：CART算法实战战争热诚
完整代码及其数据，请移步小编的GitHub传送门：请点击我如果点击有误：https://github.com/LeBron-Jian/MachineLearningNote前言在python机器学习笔记：深入学习决策树算法原理一文中我们提到了决策树里的ID3算法，C4.5算法，并且大概的了
机器学习是什么三花学编程机器学习
机器学习是什么？机器学习，这一词汇在当今的科技领域中可谓炙手可热，其影响深远，不仅改变了科学研究的方式，也推动了社会的快速发展。那么，机器学习到底是什么呢？机器学习，顾名思义，是机器（通常指计算机）进行学习的过程。这个过程模仿了人类的学习方式，通过经验积累，不断优化自身性能，最终能够在没有人类直接干预的情况下，进行决策或预测。简单来说，机器学习就是让计算机具备从数据中学习并自动改进的能力。机器学习
最新ChatGPT支持下的PyTorch机器学习与深度学习 zkzhzy ChatGPT 机器学习 python 机器学习深度学习 pytorch chatgpt 数据分析人工智能
近年来，随着AlphaGo、无人驾驶汽车、医学影像智慧辅助诊疗、ImageNet竞赛等热点事件的发生，人工智能迎来了新一轮的发展浪潮。尤其是深度学习技术，在许多行业都取得了颠覆性的成果。另外，近年来，Pytorch深度学习框架受到越来越多科研人员的关注和喜爱。郁磊（副教授）主要从事AI人工智能、大语言模型及软件开发、生理系统建模与仿真、生物医学信号处理，具有丰富的科研经验，主编《MATLAB智能算
神奇的微积分科学的N次方人工智能人工智能 ai
微积分在人工智能（AI）领域扮演着至关重要的角色，以下是其主要作用：优化算法：•梯度下降法：微积分中的导数被用来计算损失函数相对于模型参数的梯度，这是许多机器学习和深度学习优化算法的核心。梯度指出了函数值增加最快的方向，通过沿着负梯度方向更新权重，可以最小化损失函数并优化模型。•反向传播：在神经网络训练中，微积分的链式法则用于计算整个网络中每个参数对于最终损失函数的影响（偏导数），这一过程就是反向
机器学习简介 Dayueban
@我的博客：有味写在前面在年前将要进行靶向代谢组学测定的样品送去公司，随之想想，还有一个半月的时间数据才会回来，那么这段时间是不是可以先学习下分类数据如何分析呢（PS:因为数据是属于分类性质的），所以不久前买的一本书——《机器学习与R语言》稍微系统学一遍，该书为美国的BrettLantz所著，翻译工作由我国学者李洪成、许金炜、李舰完成。学习本书的主要目的是了解机器学习的思想，以及所应用的领域，当然
regression机器学习回归预测模型参考学习后自我总结饮啦冰美式机器学习回归学习
简单来说，就是将样本的特征矩阵映射到样本标签空间。回归分析帮助我们理解在改变一个或多个自变量时，因变量的数值会如何变化。线性模型线性回归用于建立因变量和一个或多个自变量之间的线性关系模型。在线性回归中，假设因变量（被预测变量）与自变量（预测变量）之间存在着线性关系，也就是说，因变量的数值可以通过自变量的线性组合来预测。普通最小二乘线性回归。通过最小化实际观测值与模型预测值之间的误差平方和，可以找到
线性回归和逻辑回归对比学习-含代码和数据 M.D 线性回归逻辑回归学习
线性回归和逻辑回归是两种常见的机器学习算法，它们在一些方面相似，但在其他方面则有明显的不同。以下是它们的对比以及您提供的代码示例：线性回归(LinearRegression)线性回归用于预测连续的数值。这种模型假设自变量和因变量之间存在线性关系。fromsklearn.linear_modelimportLinearRegressionimportmatplotlib.pyplotaspltimp
【Conda】详细讲解程序员不想敲代码啊 conda
Conda1.前言2.关键特点3.Conda命令1.前言Conda是一个流行的包管理器和环境管理器，主要用于Python编程语言，但也可以用来安装、运行和更新包和环境中的任何语言，如R、Ruby、Lua、Scala、Java等。Conda主要是为了方便数据科学、机器学习和类似应用的需要而设计的，但它对任何类型的软件都是适用的。下面，我将概述Conda的几个关键特点和常用命令：2.关键特点环境管理：
机器学习常用框架碧落&凡尘机器学习人工智能
机器学习是人工智能的一个重要分支，它通过让计算机系统利用数据自我学习来改进任务执行的能力。在机器学习领域，有许多成熟的框架被广泛使用，这些框架提供了构建和训练机器学习模型的工具。以下是一些常用的机器学习框架：TensorFlow：由Google开发，是一个开源的软件库，用于数据流编程，广泛应用于各类机器学习任务。它支持分布式计算，能够在大规模数据集上训练复杂的模型。PyTorch：由Faceboo
TensorFlow的介绍和简单案例科学的N次方人工智能 tensorflow 人工智能 python
TensorFlow是一个开源的机器学习框架，由Google开发和维护。它旨在使构建和训练机器学习模型变得更加容易，同时提供高度灵活性和可扩展性。TensorFlow基于数据流图的概念。数据流图是一个由节点和边组成的有向图，其中节点表示操作，边表示数据的流动。TensorFlow通过在数据流图中定义操作和变量来表示机器学习模型，并使用图的计算能力进行训练和推理。TensorFlow支持多种机器学习
基于Python和OpenCV的产品码识别与验证案例 GT开发算法工程师 python opencv 开发语言人工智能计算机视觉
引言：本案例展示了如何使用Python结合OpenCV库来实现产品码的识别与验证。首先，通过图像预处理技术（如灰度化、二值化、降噪等）优化产品码图像，然后利用OpenCV中的模板匹配或机器学习算法（如SVM、神经网络等）来定位并识别产品码。目录原理：代码部分：注意：原理：产品码识别与验证的核心在于图像处理与模式识别技术。首先，通过图像处理技术提取出产品码区域，去除背景干扰，增强产品码的可识别性。然
机器学习中的 K-均值聚类算法及其优缺点刘小董学习心得机器学习
K-均值聚类算法是一种常用的无监督学习算法，用于将样本数据划分为K个不同的簇。其基本思想是通过迭代去优化簇的中心位置，使得每个样本点到所属簇的中心点的距离最小。算法步骤如下：初始化K个簇的中心点，可以随机选择K个样本点作为初始中心点。对于每个样本点，计算其与各个簇中心点的距离，并将其划分到距离最近的簇中。更新每个簇的中心点，将其设为该簇中所有样本点的均值。重复步骤2和步骤3，直到达到停止条件（例如
挑战杯机器学习股票大数据量化分析与预测系统 - python 挑战杯 laafeer python
文章目录0前言1课题背景2实现效果UI界面设计web预测界面RSRS选股界面3软件架构4工具介绍Flask框架MySQL数据库LSTM5最后0前言优质竞赛项目系列，今天要分享的是机器学习股票大数据量化分析与预测系统该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：3分创新点：3分更多资料,项目分享：https://gitee.com
阿里云分布式深度学习训练架构Whale qwfys200 Reading 阿里云分布式深度学习
阿里云分布式深度学习训练架构Whale阿里云分布式深度学习训练架构Whale参考文献Whale基于Tensorflow深度学习分布式训练框架|学习笔记Whale:EfficientGiantModelTrainingoverHeterogeneousGPUs阿里云机器学习平台PAI论文高效大模型训练框架Whale入选USENIXATC’22
Python入门指南：从基础到应用袁公白 python 开发语言
引言：在这个数据驱动的时代，Python已经成为最受欢迎的编程语言之一。它以其简洁的语法、强大的库支持和广泛的应用领域而闻名。无论你是编程新手还是希望扩展你的技能集，学习Python都是一个明智的选择。在这篇博客中，我们将深入探讨Python的基础知诀，并通过实际代码示例来展示其在数据分析、网络爬虫和机器学习等领域的应用。I.Python基础知识A.数据类型Python提供了多种内置的数据类型，包
探索机器学习：智能时代的魔法 ChenDuBr 机器学习人工智能机器学习
在智能科技的浪潮中，机器学习如同一股神秘的力量，悄然改变着我们的世界。它不仅仅是编程代码的延伸，更是一种让机器通过“学习”来解决问题的魔法。本文将带你深入了解机器学习的奥秘，探索它的世界，并展望未来的无限可能。机器学习的奇幻定义想象一下，如果你的电脑或手机能够像孩子一样学习新事物，而且速度更快、记忆力更好，那就是机器学习的魅力所在。机器学习让机器通过海量数据的“熏陶”，自我进化，无需人类一步步指导
【机器学习】支持向量机 | 支持向量机理论全梳理对偶问题转换，核方法，软间隔与过拟合 Qodicat 支持向量机机器学习算法
支持向量机走的路和之前介绍的模型不同之前介绍的模型更趋向于进行函数的拟合，而支持向量机属于直接分割得到我们最后要求的内容1支持向量机SVM基本原理当我们要用一条线（或平面、超平面）将不同类别的点分开时，我们希望这条线尽可能地远离最靠近它的点。这些最靠近线的点被称为支持向量。而这条线到最靠近它的点的距离被称为间隔。支持向量机就是要找到一个最大间隔的线（或平面、超平面），这样可以更好地区分不同类别的点
ChatGPT GPT4科研应用、数据分析与机器学习、论文高效写作、AI绘图技术夏日恋雨人工智能 chatgpt 数据分析 AI大数据机器学习 python 数据挖掘
原文链接：ChatGPTGPT4科研应用、数据分析与机器学习、论文高效写作、AI绘图技术https://mp.weixin.qq.com/s?__biz=MzUzNTczMDMxMg==&mid=2247596849&idx=3&sn=111d68286f9752008bca95a5ec575bb3&chksm=fa823ad6cdf5b3c0c446eceb5cf29cccc3161d746bd
深度学习如何入门？ nanshaws yolov5 深度学习
深度学习是机器学习的一个子领域，它基于人工神经网络的研究。入门深度学习可以分为以下几个步骤：基础知识准备：（1）掌握基础数学知识，特别是线性代数、概率论和统计学、微积分。（2）学习编程语言，Python是目前最流行的深度学习语言，因其简洁易学且有大量的库支持。（3）了解机器学习基础，包括监督学习和非监督学习的概念、模型评估与选择等。学习深度学习理论：（1）理解神经网络的基本组成，如神经元、激活函数
机器学习、深度学习、神经网络之间的关系你好，工程师 AI 机器学习
机器学习（MachineLearning）、深度学习（DeepLearning）和神经网络（NeuralNetworks）之间存在密切的关系，它们可以被看作是一种逐层递进的关系。下面简要介绍它们之间的关系：机器学习（MachineLearning）：机器学习是一种人工智能的分支，关注如何通过数据让计算机系统从经验中学习，提高性能。机器学习算法可以分为监督学习、无监督学习、半监督学习和强化学习等不同
随机森林原理&sklearn实现一稻道人机器学习算法&预测模型 Python 随机森林 sklearn 算法
原理定义随机森林就是通过集成学习的思想将多棵树集成的一种算法，它的基本单元是决策树，而它的本质属于机器学习的一大分支——集成学习（EnsembleLearning）方法。随机森林的名称中有两个关键词，一个是“随机”，一个就是“森林”。随机森林应该是机器学习算法时最先接触到的集成算法，集成学习的家族：Bagging：个体评估器之间不存在强依赖关系，一系列个体学习器可以并行生成。代表算法：随机森林（R
你说什么是机器学习呢 guguguyuan 人工智能
机器学习这个词是让人疑惑的，首先它是英文名称MachineLearning(简称ML)的直译，在计算界Machine一般指计算机。这个名字使用了拟人的手法，说明了这门技术是让机器“学习”的技术。但是计算机是死的，怎么可能像人类一样“学习”呢？传统上如果我们想让计算机工作，我们给它一串指令，然后它遵照这个指令一步步执行下去。有因有果，非常明确。但这样的方式在机器学习中行不通。机器学习根本不接受你输入
【个人学习笔记】概率论与数理统计知识梳理【五】已经是全速前进了概率论
文章目录第五章、大数定律及中心极限定理一、大数定律1.1基本概念1.2弱大数定理二、中心极限定理独立同分布的中心极限定理定理总结第五章、大数定律及中心极限定理写博客比想象中费劲得多，公式得敲好久，所以只得随缘更更了，想写一些机器学习相关的东西，但是强迫症又不允许我把这个扔掉不管，我太难了Orz这一节的内容比较深，即使我是一个喜欢数学的工科生，也没有精力再去深究了，各式各样的大数定律及中心极限定理我
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY [email protected] 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa