Tig_Free

深度学习(DL)与卷积神经网络(CNN)学习笔记随笔-03-基于Python的LeNet之LR

原地址可以查看更多信息

本文主要参考于：Classifying MNIST digits using Logistic Regression
python源代码（GitHub下载　　CSDN免费下载）

　　0阶张量叫标量(scarlar)；1阶张量叫向量(vector)；2阶张量叫矩阵(matrix)
　　
　　本文主要内容：如何用python中的theano包实现最基础的分类器–LR(Logistic Regression)。
　　一、模型
　　
　　由概率论知识总结出模型，二分类用公式(1)，多分类用公式(2)；为了求解公式(2)中的最优参数（ W 和 b ），推导出目标函数公式(3)
　　
　　逻辑回归是一种线性分类器。它的参数包括权重矩阵 W 和偏置 b 。通过将输入向量映射到一组超平面进行多分类（一个超平面可以分两类，多个超平面可以进行多分类）。输入向量到超平面的距离作为输入样本属于对应类别的概率。
　　输入向量 x 属于第 Y=i 类的概率模型表示如下：
　

　　其中，

W 和

b 是参数，

P(Y=i|x) 是条件概率，意思是在变量

x 的条件下，

Y=i 的概率。 举例： P(Y=0|x) 表示输入的样本x被识别为数字0的概率。这个并不难理解，只要学过概率论的话，不是问题。
　
　　

softmaxi(Wx+b) 可以理解为

x 属于

i 的概率，具体含义看下边内容。这个表达式更清楚地说明了

x 的运算过程，即：

x 与

W 点乘，再与

b 矩阵/向量相加，然后把结果传入

softmax 分类器，得到分类结果为

i 。那么，

softmax 是如何工作的呢（具体含义是什么呢）？就是公式（1）中最终的结果表达式。下面分析这个表达式。
　
　　

eWix+bi 可以理解为表示样本

x 属于第

i 类的概率。那么

∑Nj=0eWjx+bj 显然是表示

x 属于每一类的概率之和。为什么两者要做除法呢？答案是： 归一化。这样，最终

P(Y=i) 的累加和就是1。
　
　　首先看看

eWix+bi 是怎么来的。因为逻辑回归的假设函数是

sigmoid 函数，即

h(x)=11+e−(Wx+b) ，而

softmax 是多分类，所以其假设函数就是

h (x) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ p (Y = 0 | x) p (Y = 1 | x) ⋮ p (Y = N | x) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ = 1 \sum N j = 0 e W j x + b j ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ e W 0 x + b 0 e W 1 x + b 1 ⋮ e W N x + b N ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ (2)

　　从公式（2）很容易看出是如何归一化的了。找到这个列向量中最大值的下标

k ，就代表样本x属于第

k 类的概率最大。因此，模型的最终预测公式为：

y p r e d = a r g m a x P (Y = i | x) (3)

argmax 函数的作用是返回矩阵中每一行或每一列最大数的下标。在这里，矩阵

Pm∗n 的元素构成是每一行代表一个样本(即共有

m 个样本)，每一列代表当前样本属于该列下标(0-n)类别的概率。 举例：第0行第0列元素是第0行中最大数下标。则表示：第0行所代表的样本被分类为0的概率是最大的。那么以此类推，最终的结果就表示每一个样本所分类别的最大概率。

　　至此，概率模型已经分析完毕。下边就是如何用python实现计算输入样本的概率值了。代码如下（代码中会涉及到Theano的使用，因此如果有解释不到的函数，请参考我的Theano官方教程翻译及学习笔记系列博文，以上博文因正在编写，临时可参考Theano实现卷积运算代码详解）：

# 初始化权值W，shared是用来为了GPU运算的。
self.W = theano.shared(
     value=numpy.zeros(
          (n_in, n_out),
          dtype=theano.config.floatX),
     name='W',
     borrow=True
     )

# 初始化偏置b
self.b = theano.shared(
     value=numpy.zeros(
          (n_out,),
          dtype=theano.config.floatX),
     name='b',
     borrow=True
     )

# 下面就是概率公式(1)的代码实现，其中dot是点乘运算；input是输入向量x；
self.p_y_given_x = T.nnet.softmax(T.dot(input, self.W) + self.b)

# 对输入样本的预测，是公式(3)的代码实现，axis表示函数argmax要按照行返回最大数
self.y_pred = T.argmax(self.p_y_given_x, axis=1)

　　由于水平有限，思路可能会有一些乱，但是对照公式（1-3）慢慢整理一下还是可以理解的。现在所写的代码只是实现了公式的计算，相当于定义了一个函数，输入样本矩阵x，输出预测矩阵y。但是，如果能预测的准呢？下面且看第二部分。

　　二、定义代价函数
　　
　　要最优化公式(3)的参数，那么根据经验编写出代价函数，即公式(4)
　　
　　由机器学习的知识知道，要想使得模型预测结果最佳，即 W 和 b 取得最佳参数，那么就要根据假设函数定义一个代价函数，当代价函数最小化时，预测结果最优。（为什么要根据假设函数？因为模型公式就是基于假设函数编写的）

　　在多分类的逻辑回归中，经常用负对数似然函数作为代价函数，记为A。最小化函数A就等价于最大化A中的似然函数。似然函数 L 和代价函数 ℓ 定义如下：
　　

深度学习(DL)与卷积神经网络(CNN)学习笔记随笔-03-基于Python的LeNet之LR_第1张图片

D 是数据集（输入样本集）；

|D| 表示样本总数；

θ 是模型参数（由

W 和

b 构成）；
　　公式

L 表示，先对每一个输入样本进行公式（1）操作，然后对结果取log对数，最后将所有样本的概率对数求和。
　　公式

ℓ 表示取

L 的负数。
　　
　　那么，怎么最小化那一堆的非线性函数呢？ 梯度下降法。梯度下降法是到目前为止最简单的用来最小化任意非线性函数的方法。因此，这里也同样采取该方法，不过是经过改进的，即 批量随机梯度下降法(MSGD-stochastic gradient method with mini-batches)听起来很炫，其实很简单。梯度下降是更新整体样本；随机梯度下降是更新一个样本；而批量随机梯度则是介于两者之间，更新一部分样本。具体解释看这里。
　　
　　现在基本介绍完了代价函数了，下面来看一下代价函数的代码，注意是传入一块（minibatch）样本数据，而不是一个或整个样本。
　　

# y.shape返回y的行数和列数，则y.shape[0]返回y的行数，即样本的总个数，因为一行是一个样本。
# T.arange(n)，则是产生一组包含[0,1,...,n-1]的向量。
# T.log(x)，则是对x求对数。记为LP
# LP[T.arange(y.shape[0]),y]是一组向量，其元素是[ LP[0,y[0]], LP[1,y[1]], 
# LP[2,y[2]], ...,LP[n-1,y[n-1]] ]
# T.mean(x)，则是求向量x中元素的均值。
return -T.mean(T.log(self.p_y_given_x)[T.arange(y.shape[0]), y])

　　对照公式（4）看一下，
　　 P(Y=yi|xi) 就是传入的self.p_y_given_x；
　　 log(P) 就是T.log(p)；
　　 ∑ 求和就是代码中的 LP[T.arange(y.shape[0]),y]；
　　 ℓ=−L 就是return中的取反。
　　还有一点就是公式中没有求均值，而代码中加入了T.mean的均值运算。这是因为公式（4）还欠缺一部分就是除以 |D| ，因此其完整的公式为：
　　

K = 1 | D | L (θ = {W, b}, D) = 1 | D | \sum i = 0 | D | log (P (Y = y (i) | x (i), W, b)) ℓ (θ = {W, b}, D) = - K

　　为什么要用均值，若不是和值呢？这里是因为用的批量随机梯度下降法来最小化代价函数，不同的样本输入块可能对学习速率产生不同的影响。因此用均值是为了降低学习速率对输入样本块的依赖性。
　　 三、创建LR的python类
　　
　　1. 创建类。

class LR(object):
    """
    逻辑归回的实现是基于博文中给出的公式，需要预先设定好参数W和b。最小化方法用的批量随机梯度下降法MSGD。
    因此传入数据是一块一块的。
    """
    def __init__(self, input, n_in, n_out):
        """
        初始化函数！此类实例化时调用该函数       

        按照Python定义类的格式给出如下定义，需要传入的参数分别为：

        input的类型为 TensorType，类似于形参，起象征性的作用，并不包含真实的数据；
        input传入值为 minibatch样本数据，该数据是一个m*n的矩阵。m表示此minibatch块共有m个样本；n表示每一个样本的实际数据。
                     在mnist实验中，n=784=28*28，因为每一张图片是28*28像素的。

        n_in 的类型为 int；
        n_in 传入值为 每个输入样本的单元数(应该是图片的高*宽(28*28=784)，但是在我们的实验数据中，
                     已经把图片数据矩阵存储为了行向量(784*1)，因此这个地方传入的就是数据域中的data列的长度，
                     即n_in=784，具体的样本数据是传入input里面)

        n_out的类型为 int
        n_out传入值为 输出结果的类别数，就是数据域中的标签的范围。此处就是0-9共10个数字。所以n_out=10。就是10分类。
        """

        # 初始化权值矩阵
        # numpy.zeros((m,n),dtype='float32') 是产生一组 m行n列的全0矩阵，每个矩阵元素存储为float32类型。
        # shared()函数是将生成的矩阵封装为shared类型，该类型可以用于GPU加速运算，没有其他用途。
        self.W = theano.shared(
            value = numpy.zeros(
                (n_in, n_out),
                dtype = 'float32'            
            ),            
            name = 'W',
            borrow = True
        )

        # 初始化偏置值
        # b是一个向量，长度为n_out,就是每一种分类都有一个偏置值
        self.b = theano.shared(
            value = numpy.zeros(
                (n_out,),
                dtype = 'float32'            
            ),
            name = 'b',
            borrow = True        
        )

        # 计算公式(1)，具体解释见博文 http://blog.csdn.net/niuwei22007/article/details/47705081
        self.p_y_given_x = T.nnet.softmax(T.dot(input, self.W) + self.b)

        # 计算公式(3)
        self.y_pred = T.argmax(self.p_y_given_x, aixs = 1)

        # 组织模型用到的参数，即把W和b组装成list，便于在类外引用。
        self.param = [self.W, self.b]

        # 记录模型的具体输入数据，便于在类外引用
        self.input = input


    def negative_log_likelihood(self, y):
        """
        负对数似然函数，即代价函数。 

        需要传入的参数为：

        y 的类型为 TensorType，类似于形参，起象征性的作用，并不包含真实的数据；
        y 传入值为 input对应的标签向量，如果input的样本数为m，则input的行数就是m，那么y就是一个m行的列向量。
        """
        # 计算完整的公式（4），具体解释见博文 http://blog.csdn.net/niuwei22007/article/details/47705081 
        return -T.mean(T.log(self.p_y_given_x)[T.arange(y.shape[0]), y])

    def errors(self, y):
        """
        误差计算函数。传入的参数参考negative_log_likelihood.

        其作用就是统计预测正确的样本数占本批次总样本数的比例。               
        """

        # 检查 传入正确标签向量y和前面做出的预测向量y_pred是否是具有相同的维度。如果不相同怎么去判断某个样本预测的对还是不对？
        # y.ndim返回y的维数
        # raise是抛出异常
        if y.ndim != self.y_pred.ndim:
            raise TypeError("y doesn't have the same shape as self.y_pred")

        # 继续检查y是否是有效数据。依据就是本实验中正确标签数据的存储类型是int
        # 如果数据有效，则计算：
        # T.neq(y1, y2)是计算y1与y2对应元素是否相同，如果相同便是0，否则是1。
        # 举例：如果y1=[1,2,3,4,5,6,7,8,9,0] y2=[1,1,3,3,5,6,7,8,9,0]
        # 则，err = T.neq(y1,y2) = [0,1,0,1,0,0,0,0,0,0],其中有3个1，即3个元素不同
        # T.mean()的作用就是求均值。那么T.mean(err) = (0+1+0+1+0+0+0+0+0+0)/10 = 0.3,即误差率为30%
        if y.dtype.startswith('int'):
            return T.mean(T.neq(self.y_pred, y))
        else:
            raise NotImplementedError()

　　２.实例化LR类的方式：

# 因为LR中的input是TensorType类型，因此引用时，也需要定义一个TensorType类型
# x表示样本的具体数据
x = T.matrix('x')
# 同样y也应该是一个TensorType类型，是一个向量，而且数据类型还是int，因此定义一个T.ivector。
# 其中i表示int，vector表示向量。详细可以参考Theano教程。
# y表示样本的标签。
y = T.ivector('y')

# x就是input样本，是一个矩阵，因此定义一个T.matrix
# n_in，n_out的取值在此不再赘述，可以翻看上边的博文。
# 在实例化时，会自动调用LR中的__init__函数
classifier = LR(input=x, n_in=28*28, n_out=10)

# 代价函数，依据公式(3)计算生成。这是一个符号变量，cost并不是一个具体的数值。当传入具体的数据后，
# 其才会有具体的数据产生。
cost = classifier.negative_log_likelihood(y)

　　四、训练模型
　　我们先回顾一下如何进行模型训练。
　　【1】根据概率论的知识总结出一个概率模型，二分类用公式(1)；多分类用公式(2)；
　　【2】求解出模型中的参数（即公式(2)中的 W 和 b ），因为参数没有确定值，所以我们的目标是使概率模型产出的概率（即公式(3)的结果）距离正确结果越接近越好。
　　【3】根据经验以及步骤2中的目标编写出代价函数，即公式(4)；通过最小化公式(4)获得最优参数 W 和 b 。
　　【4】采用批量随机梯度下降法最小化公式(4)。本节主要讲述如何用梯度下降法最小化代价函数。先说一下思路，就是先根据上边计算出的cost(代价函数)对 W 和 b 分别求偏导，然后根据梯度更新 W 和 b 的值。计算误差；再根据新的 W 和 b 求偏导，如此迭代下去，直到误差符合要求或者迭代达到一定次数结束循环，此时的 W 和 b 即可以认为是目前最优的。
　　
　　若要在大多数的编程语言中实现梯度下降算法，需要手动的推导出梯度表达式 ∂ℓ∂W 和 ∂ℓ∂b （ ℓ 就是公式(4)），这是一个非常麻烦的推导，而且最终结果也很复杂，特别是考虑到数值稳定性的问题的时候。
　　
　　然而，在Theano这个工具中，这个变得异常简单。因为它已经把求梯度这种运算给封装好了，不需要手动推导公式，只需要按照格式传入数据即可。下面来看一下代码。

# 对W求导，只需要调用函数T.grad，把用代码计算出的公式(4)的结果作为cost传入（就是前边已经计算出来的cost），
# 指定求(偏)导对象为classifier.W(classifier就是前边自己定义的LR类)
g_W = T.grad(cost=cost, wrt=classifier.W)
# 对b求偏导，原理一样。
g_b = T.grad(cost=cost, wrt=classifier.b)

　　计算完了梯度，就要根据梯度进行权值偏置值的更新。操作如下：

# updates相当于一个更新器，说明了哪个参数需要更新，以及更新公式
# 下面代码指明更新需要参数W，更新公式是(原值-学习速率*梯度值)
updates = [(classifier.W, classifier.W - learning_rate * g_W),
# 参数b的更新类似于W           
           (classifier.b, classifier.b - learning_rate * g_b)]

　　现在我们就可以编写模型训练函数了。代码就两句话，但是解释一大堆，希望能帮助初学者了解function的工作原理。

# 上边所提到的TensorType都是符号变量，符号变量只有传入具体数值时才会生成新的数据。
# theano.function也是一个特色函数。在本实验中，它会生成一个叫train_model的函数。
# 该函数的参数传递入口是inputs，就是将需要传递的参数index赋值给inputs
# 该函数的返回值是通过outputs指定的，也就是返回经过计算后的cost变量。
# 更新器updates是用刚刚定义的update

# givens是一个很实用的功能。它的作用是：在计算cost时会用到符号变量x和y（x并没有显示的表达出来，
# 函数negative_log_likehood用到了p_y_given_x，而计算p_y_given_x时用到了input，input就是x）。
# 符号变量经过计算之后始终会有一个自身值，而此处计算cost不用x和y的自身值，那就可以通过givens里边的表达式
# 重新指定计算cost表达式中的x和y所用的值，而且不会改变x和y原来的值。

##举个简单的例子：
# state = shared(0)
# inc = T.iscalar('inc')
# accumulator = function([inc], state, updates=[(state, state+inc)])
# state.get_value()  #结果是array(0)，因为初始值就是0
# accumulator(1)     #会输出结果array(0)，即原来的state是0，但是继续往下看
# state.get_value()  #结果是array(1)，根据updates得知，state=state+inc=0+1=1
# accumulator(300)   #会输出结果array(1)，即原来的state是1，但是继续往下看
# state.get_value()  #结果是array(301)，根据updates得知，state=state+inc=1+300=301
##此时state=301，继续做实验
# fn_of_state = state * 2 + inc
##foo用来代替更新表达式中的state，即不用state原来的值，而用新的foo值，但是fn_of_state表达式不变
# foo = T.scalar(dtype=state.dtype)
##skip_shared函数是输入inc和foo,输出fn_of_state,通过givens修改foo代替fn_of_state表达式中的state
# skip_shared = function([inc, foo], fn_of_state, givens=[(state, foo)]) 
# skip_shared(1, 3)  #会输出结果array(7)，即fn_of_state=foo * 2 + inc = 3*2+1 = 7
##再来看看state的原值是多少呢？
# state.get_value()  #会输出结果array(301)，而不是foo的值3
##因为每一次都需要用新的x和y去计算cost值，而不是用原来的上一次的x和y去计算，因此需要用到givens
##希望通过这个小例子能说清楚givens的作用。
train_model = theano.function(
    inputs = [index],
    outputs = cost,
    updates = update,
    givens = {
        # x:仅仅是表示第一个数据用来代替x，而不去重新声明一个和x结构类型相同的符号变量了；y同理
        # trian_set_x是训练数据集中的x分量，就是样本的数据部分，trian_set_x[a:b]代表取数组中下标从a开始，到下标b之前的数据。
        # train_set_y是训练数据集中的y分量，就是样本的标签部分。
        x: trian_set_x[index * batch_size:(index + 1) * batch_size],
        y: trian_set_y[index * batch_size:(index + 1) * batch_size]
    }
)

　　每一次调用train_model(index)，都会计算并返回输入样本块的cost，然后执行一次MSGD，并更新 W 和 b 。整个学习算法的一次迭代这样循环调用train_model （总样本数/样本块数）次。假设总样本60000个，一个样本块600个，那么一次迭代就需要调用100次train_model。而模型的训练又需要进行多次迭代，直到达到迭代次数或者误差率达到要求。
　　
　　五、测试模型
　　
　　模型测试需要用到LR中的errors函数。下面来看一下测试模型函数test_model和验证模型函数validate_model。有了上面训练模型的基础，相信这个测试模型会很容易理解。

# 测试模型基本不需要说太多了，首先测试不需要更新数据，因此没有updates，但是测试需要用到givens来代替cost计算公式中x和y的数值。
# 测试模型采用的数据集是测试数据集test_set_x和test_set_y
test_model = thenao.function(
    inputs = [index],
    outputs = classifier.errors(y),
    givens = {
         x: test_set_x[index * batch_size: (index + 1) * batch_size],
         y: test_set_y[index * batch_size: (index + 1) * batch_size]
    }
)

# 验证模型和测试模型的不同之处在于计算所用的数据不一样，验证模型用的是验证数据集。
validate_model = theano.function(
    inputs=[index],
    outputs=classifier.errors(y),
    givens={
        x: valid_set_x[index * batch_size: (index + 1) * batch_size],
        y: valid_set_y[index * batch_size: (index + 1) * batch_size]
    }
)

　　一块一块的讲了这么多代码，或许都看晕了，下面就看一下整合之后的代码会更清晰。
　　六、整合代码
　　python源代码带注释下载
　　只有一个lr.py，直接用python命令执行即可。
　　七、参考目录
　　

Classifying MNIST digits using Logistic Regression
DeepLearning tutorial（1）Softmax回归原理简介+代码详解
深度学习(DL)与卷积神经网络(CNN)学习笔记随笔-02-基于Python的卷积运算

Deepseek技术深化：驱动大数据时代颠覆性变革的未来引擎荣华富贵8 spring boot 搜索引擎后端缓存 redis
在大数据时代，信息爆炸和数据驱动的决策逐渐重塑各行各业。作为一项前沿技术，Deepseek正在引领新一轮技术革新，颠覆传统数据处理与分析方式。本文将从理论原理、应用场景和前沿代码实践三个层面，深入剖析Deepseek技术如何为大数据时代提供颠覆性变革的解决方案。一、技术背景与核心思想1.1大数据挑战与机遇在数据量呈指数级增长的背景下，传统数据处理方法面临数据存储、计算效率和信息提取精度的诸多挑战。
学C++的五大惊人好处
为什么要学c++学c++有什么用学习c++的好处有1.中考可以加分2.高考可能直接录取3.就业广且工资高4.在未来30--50年c++一定是一个很受欢迎的职业5.c++成功的例子deepsick等AI智能C++语言兼备编程效率和编译运行效率的语言C++语言是C语言功能增强版,在c语言的基础上添加了面向对象编程和泛型编程的支持既继承了C语言高效，简洁，快速和可移植的传统,又具备类似Java、Go等其
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践 Liudef06小白特殊专栏人工智能 AIGC 架构人工智能 deepseek
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践DeepSeek大模型正重塑游戏开发范式，本文将深入解析如何利用这一革命性技术构建下一代大型游戏，涵盖从架构设计到项目管理的全流程实践。目录DeepSeek游戏引擎核心架构1.1神经符号系统融合架构1.2动态世界生成引擎智能NPC与剧情系统2.1角色人格建模技术2.2动态叙事生成算法大型项目管理体系3.1敏捷-AI混合开发流
19.0-《超越感觉》-说服他人 SAM52
Becausethoughtfuljudgmentsdeservetobeshared,andthewaytheyarepresentedcanstronglyinfluencethewayothersreacttothem.因为经过深思熟虑的判断值得分享，而这些判断的呈现方式会强烈影响其他人对它们的反应。Bylearningtheprinciplesofpersuasionandapplying
2018年中南大学中英翻译某翁
参考：20180827235856533.jpg【1】机器学习理论表明，机器学习算法能从有限个训练集样本上得到较好的泛化【1】Machinelearningtheoryshowsthatmachinelearningalgorithmcangeneralizewellfromfinitetrainingsetsampleslimited有限的infinite无限的【2】这似乎违背了一些基本的逻辑准
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
时序预测 | MATLAB实现贝叶斯优化CNN-GRU时间序列预测(股票价格预测) Matlab机器学习之心 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍股票价格预测一直是金融领域一个极具挑战性的课题。其内在的非线性、随机性和复杂性使得传统的预测方法难以取得令人满意的效果。近年来，深度学习技术，特别是卷积神经网络(CNN)和门控循环单元(GRU)的结合，为时
时序预测 | MATLAB实现BO-CNN-GRU贝叶斯优化卷积门控循环单元时间序列预测 Matlab算法改进和仿真定制工程师 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍时间序列预测在各个领域都具有重要的应用价值，例如金融市场预测、气象预报、交通流量预测等。准确地预测未来趋势对于决策制定至关重要。近年来，深度学习技术在时间序列预测领域取得了显著进展，其中卷积神经网络(CNN)和门控循环单元(GRU)由于其强
DeepBI助力亚马逊广告投放：精准获取竞品ASIN，抢占更多流量新置元创业创新 amazon 亚马逊广告
想在亚马逊广告投放中抢占更多流量？关键就在于精准添加竞品ASIN！通过DeepBI，你可以轻松找到与你产品高度相关的竞品，自动添加到广告中，提升曝光率。系统不仅智能分析竞品，还根据最新的数据调整出价策略，让你以最低成本获取最大回报。想要在竞争激烈的市场中脱颖而出，提升广告效果，DeepBI帮你精准定位、优化投放，让每一笔广告投入都物超所值！一、精准获取与添加竞品ASIN的重要性在亚马逊广告投放中，
Python STL概念学习与代码实践体制教科书
本文还有配套的精品资源，点击获取简介：通过”py_stl_learning”项目，学习者可以使用Python实现和理解C++STL的概念，包括数据结构、算法、容器适配器、模板和泛型容器等。Python中的列表、集合、字典等数据结构与STL中的vector、set、map等类似，而Python的itertools和functools模块提供了STL风格的算法功能。Python通过其面向对象的特性以及
Day 2-DeepMind and London hospital focus AI on spotting eye diseases from scans 罗禹
篇章分析段落大意总起1.What-讲述DeepMindAI在健康领域的运用，及地位。分论现状及已有成果2.How-DeepMind如何运转，与过往方式人工诊断比较的优势。3.What-现阶段成果及未来发展：临床实践运用转化为学术成果，文章发表。未来将进一步进行临床实验。引用+前景4.通过引用DeepMindHealth负责人的话，来阐明未来前景。实操阐述5.What-算法机械学习的具体材料，及临床
基于深度学习的目标检测算法综述：从RCNN到YOLOv13，一文看懂十年演进！人工智能教程深度学习目标检测算法人工智能自动驾驶 YOLO 机器学习
一、引言：目标检测的十年巨变2012年AlexNet拉开深度学习序幕，2014年RCNN横空出世，目标检测从此进入“深度时代”。十年间，算法从两阶段到单阶段，从Anchor-base到Anchor-free，从CNN到Transformer，从2D到3D，从监督学习到自监督学习，迭代速度之快令人目不暇接。本文将系统梳理基于深度学习的目标检测算法，带你全面了解技术演进、核心思想、代表算法、工业落地与
智慧建筑：科技引领房地产与建筑业的未来 RedPhoenix45
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE智慧建筑：科技引领房地产与建筑业的未来随着科技的飞速发展，人工智能（AI）和智能化工具正以前所未有的速度改变着各行各业。在房地产与建筑领域，这种变革尤为显著。从建筑设计到施工管理，再到物业管理，智能化技术正在重塑行业的每一个环节。本文将探讨如何利用先进的智能化工具提升房地产与建筑行业的效率，并介绍一款革命性的开发工具——它
智慧施工：AI技术赋能建筑安全监测新纪元
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！智慧施工：AI技术赋能建筑安全监测新纪元在现代建筑行业中，施工安全始终是核心关注点之一。随着科技的飞速发展，人工智能（AI）和大数据分析逐渐成为提升施工安全的重要工具。本文将探讨如何利用智能化软件和大模型API来构建高效的施工安全监测系统，并介绍一款强大的开发工具——InsCodeAIIDE的应用场景及其
每周一段仿写-181028 Zeroun_Ph
Theneedfornewlearningstylesdoesnotmeanignoringthewaysinthepast.TheInternetagebringssomechallengesnotseenbefore,mostobviouslyandmostworryinglyuselessinformationblast.Butfragmentationoflearningandtheine
八大国产 AI 模型全景对比：阿里 Qwen、百度文心、腾讯混元、字节豆包、华为盘古、DeepSeek、Kimi、MiniMax 的技术解析与选型指南 charles666666 人工智能百度交互语言模型 transformer 产品经理
“在国产AI模型百花齐放的今天，企业技术决策者稍有不慎，就可能陷入性能与成本的双重困境。如何穿越技术迷雾，找到真正适配业务场景的那把钥匙？”一、开篇引言当技术选型决定企业AI落地成败，你还在凭感觉决策吗？当前国产AI模型市场，模型同质化现象严重，各厂商宣传资料中充满夸张的性能指标，但真正落地到企业实际业务场景中，却常常出现适配性不佳、部署成本不可控等问题。企业急需一份基于真实数据与场景验证的深度解
考研长难句-1-29 EasyNetCN
Onfirstlearning,thiswasthesociallyconcernedchancellortryingtochangelivesforthebetter,completewith"reforms"toanobviouslyindulgentsystemthatdemandstoolittleeffortfromthenewlyunemployedtofindwork,andsubs
《目标法则》：如何找到你的明确首要目标？女朱姝涵
我们每个人都想找到自己最终要确定的目标，但是很多人终其一生都在寻找中，都没有找到自己最需要的目标。在一本书中，结合成功学之父拿破仑•希尔里面的理念，可以助力你找到自己最终的目标。该书就是《目标法则—大师的积极思维课》。作者是米奇•霍洛维茨，作家，企鹅出版社编辑，著有《隐秘美国》《神奇俱乐部》等获奖图书。是很多时报的专栏作家，更是CNN，哥伦比亚广播等有声书讲师，一生在研究拿破仑•希尔的思想。什么是
Mamba架构的模型（内容由deepseek辅助汇总） Jiang_Immortals 人工智能
基于Mamba架构的模型近年来在效率和性能上展现出显著突破，以下按架构类型分类列出当前表现最出色的代表模型及其核心特点：一、纯SSM架构模型FalconMamba-7B关键创新：首个通用大规模纯Mamba模型，由阿布扎比TII开发，基于Mamba-1改进，增加RMS归一化层提升训练稳定性13。性能表现：在综合基准（IFEval、BBH、MMLU-PRO等）平均得分15.04，超越Llama3.1-
DeepSeek在大数据领域正掀起一场深刻的变革智海观潮 AI 大数据 deepseek AI
随着人工智能技术的飞速发展，DeepSeek作为一款行业领先的开源大模型，正在大数据领域掀起一场深刻的变革。其强大的数据处理和分析能力，为各行业带来了新的机遇和变革，推动数据与业务的深度融合。以下是DeepSeek在大数据领域的一些典型的潜在应用：1.加速数据处理与分析流程在传统的大数据应用中，数据收集、预处理和分析往往是一个繁琐且耗时的工程。DeepSeek凭借其高效的算法和强大的计算能力，极大
强化学习入门三（SARSA）第六五签算法模型算法人工智能
SARSA算法详解SARSA是强化学习中另一种经典的时序差分（TD）学习算法，与Q-Learning同属无模型（model-free）算法，但在更新策略上有显著差异。SARSA的名称来源于其更新公式中涉及的五个元素：状态（State）、动作（Action）、奖励（Reward）、下一状态（NextState）、下一动作（NextAction），即(S,A,R,S’,A’)。SARSA与Q-Lear
2025年最新五大顶级大模型技术对比分析报告 it_czz 人工智能
2025年最新五大顶级大模型技术对比分析报告执行摘要本报告基于2025年最新数据，深度分析当前最顶尖的5个已发布大语言模型：KimiK2(月之暗面)、Claude3.5Sonnet、GPT-4o、Gemini2.5Pro、DeepSeekR1，从技术架构、成本效益、性能表现、适配场景等多个维度进行全面对比。核心发现KimiK2：中文优化最强，超长上下文处理能力突出，本土化程度最高Claude3.5
RAGFlow 框架调研报告 it_czz 架构
RAGFlow框架调研报告1.概述RAGFlow是一个开源的检索增强生成（RAG）框架，专注于深度文档理解和高精度检索。它通过先进的文档解析能力和可视化调试功能，为企业提供了一个强大的知识库问答解决方案。1.1核心特性深度文档处理：内置DeepDoc引擎，支持复杂文档解析高精度检索：提供可视化分块和引用追踪多模态支持：支持文本、图片、PDF、Excel等多种格式开源自托管：完全开源，支持私有化部署
【YOLO系列】YOLOv1详解：模型结构、损失函数、训练方法及代码实现一碗白开水一 yolo系列助你拿捏AI算法 YOLO 人工智能目标检测计算机视觉
YOLOv1（YouOnlyLookOnce）：实时目标检测的革命性突破✨motivation在目标检测领域，传统方法如R-CNN系列存在计算冗余、推理速度慢的问题。2016年提出的YOLO（YouOnlyLookOnce）首次实现端到端单阶段检测，将检测速度提升至45FPS（FasterR-CNN仅7FPS），彻底改变了实时目标检测的格局。其核心思想是将检测视为回归问题，实现"看一眼即知全貌"的
如何评价开课吧机器学习特训营这个课程？ cda2024 机器学习人工智能
开场：点明主题，吸引眼球在当今数据驱动的时代，机器学习（MachineLearning）已经成为各个行业不可或缺的技术之一。无论是金融、医疗、制造还是零售，机器学习的应用都为这些领域带来了巨大的变革。面对这样的趋势，许多人都希望能够掌握这门技术，从而提升自己的职业竞争力。那么，当我们谈论“如何评价开课吧机器学习特训营这个课程”时，实际上是在探讨一个非常具体且重要的问题：对于那些希望进入或深入机器学
表征学习：机器认知世界的核心能力与前沿突破大千AI助手人工智能 #OTHER Python 学习人工智能机器学习神经网络表征学习 RL 特征工程
一、定义与背景：从特征工程到自动化学习表征学习（RepresentationLearning），又称特征学习（FeatureLearning），是机器学习的核心技术领域，其核心目标是通过算法自动学习数据的内在特征表示，将复杂多变的原始数据（如图像、文本、语音）转化为低维、富含语义信息的向量形式，从而提升下游任务（如分类、回归、聚类）的效率和精度。与传统依赖人工设计特征的特征工程（FeatureEn
Crome：因果鲁棒奖励建模框架——破解LLM对齐中的奖励黑客难题大千AI助手人工智能 #OTHER Python 人工智能深度学习神经网络大模型因果推断奖励黑客 RewardHacking
Crome（CausalRobustRewardModeling）是由GoogleDeepMind联合麦吉尔大学和魁北克人工智能研究所（MILA）于2025年提出的创新框架，旨在解决大语言模型（LLM）对齐中奖励模型（RM）的奖励黑客（RewardHacking）问题。该框架通过因果数据增强与反事实训练机制，显著提升RM对真实质量属性（如事实性、安全性）的敏感性，同时抑制对虚假属性（如文本长度、格
踏上人工智能之旅（一）-----机器学习之knn算法 Sunhen_Qiletian 人工智能机器学习算法 python
目录一、机器学习是什么（1）概述（2）三种类型1.监督学习（SupervisedLearning）：2.无监督学习（UnsupervisedLearning）：3.强化学习（ReinforcementLearning）：二、KNN算法的基本原理：1.距离度量：2.K值的选择：3.投票机制和投票：三、Python实现KNN算法1.导入必要的库和数据：2.提取特征和标签：3.导入KNN分类器并训练模型
大模型基础知识（万字详解）掘金安东尼 python 机器学习人工智能
在数学上，deepseek多轮自蒸馏可以理解为对学生模型施加一系列滚动KL散度约束：LMSD=∑i=1nαi⋅KL(pTi(x)∥pSi(x))\mathcal{L}_{MSD}=\sum_{i=1}^{n}\alpha_i\cdot\text{KL}(p_{T_i}(x)\parallelp_{S_i}(x))LMSD=i=1∑nαi⋅KL(pTi(x)∥pSi(x))其中，TiT_iTi和Si
基于深度学习的图像分类：使用ShuffleNet实现高效分类 Blossom.118 机器学习与人工智能深度学习分类人工智能机器学习数据挖掘 python 目标检测
前言图像分类是计算机视觉领域中的一个基础任务，其目标是将输入的图像分配到预定义的类别中。近年来，深度学习技术，尤其是卷积神经网络（CNN），在图像分类任务中取得了显著的进展。ShuffleNet是一种轻量级的深度学习架构，专为移动和嵌入式设备设计，能够在保持较高分类精度的同时，显著减少计算量和模型大小。本文将详细介绍如何使用ShuffleNet实现高效的图像分类，从理论基础到代码实现，带你一步步掌
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情

深度学习(DL)与卷积神经网络(CNN)学习笔记随笔-03-基于Python的LeNet之LR

你可能感兴趣的:(CNN,Deep,Learning)