逻辑回归(中)

逻辑回归(中)_第1张图片
MachineLearninginMarketing

交叉熵


在深度学习中说到的交叉熵,和最大似然估计是一回事,只不过上式交叉熵中可以从二项分布扩展到多分类问题。

有关交叉熵的定义和推导我们在决策树中已经介绍过

  • 也称为相对熵、鉴别信息 Kullback 熵,Kullback-Leible 散度等
  • 假设 p(x) q(x) 是 X 中取值的两个概率分布,则 p 对 q 的相对熵就是
  • 说明
    • 交叉熵可以度量两个随机变量的距离
    • 一般


    • 什么是交叉熵,P(x) 是未知的,我们实际上用q(x) 来逼近 p(x)
      我们只能根据数据推测 P(x)
      对于连续有下面公式,而对于离散就是我们上面看到公式

损失函数

通过了解困惑度和推导困惑度,可以让我们更加深入的理解交叉熵意义,也可以轻易量化模型的性能。
我们首先来看一下这个交叉熵公式

  • 上面式子中 c 为分类编号
  • 为所有的分类数量
  • 其中 Y 表示真实值,使用独热编码形式表示
  • 其中 表示估计值

那么假设 其意义是样本集合中有 3 种类别,而当前样本属于第 3 类,因为向量前两位都是 0 只有第 3 位是 1。矩阵为 这里是通过模型计算出对样本的所属类别估计概率分布,他们概率和为 1

那么这将值带入交叉熵公式,因为 0 乘以一个值为 0 忽略前两项,我们重点看一下第 3 项,如果 值越大也就是越接近 1 那么取log 就是 0 所以只要我们估计值越接近真实,交叉熵就近视为 0 。相反如果 logy 预测值接近于 0 就是一个很大负数再取负号就是一个很大正数也就是交叉熵就会很大。这样一来我们就可以用交叉熵来衡量函数好坏

我们考虑一下如果模型什么也没学到,例如这里 N 这里表示我们分类问题总共可能类别。举个例子apple banana 和 orange 三类水果,模型给出结果是该水果是三个类别可能都是 1/3 那么也就是表示什么都没说,这样我们就不需要他建议


对等式两边同时取 e

  • 如果模型没有学到任何东西
  • 如果模型有一定分类能力那么就是

你可能感兴趣的:(逻辑回归(中))