Hong0207

机器学习-线性模型

线性模型

- 线性回归
- 正则化 Regularization
- 对数线性回归 log-linear regression
- 对数几率回归
- - 数学基础：极大似然估计 MLE
  - 数学基础：贝叶斯公式 Bayes
- 线性判别分析 (Linear Discriminant Analysis LDA)
- - 数学基础：拉格朗日乘子法
  - 数学基础：广义特征值
  - 数学基础：广义瑞利商
- 多分类问题
- 类别不平衡问题 class-imbalance

基本形式： $f(x) = w^T x + b$ ，其中，w是1*d维的向量，w和b确定后，模型就确定了。

线性回归

目的：使f(x)接近y值
如何达到目的，在x和y是已知的情况下，确定w和b的值即可
- 如何确定w和b？
  - 最小二乘法：
    - $\ \ min_(w,b) \ \ \sum(f(x)-y)^2$
    - 即 $\ \ min_(w,b) \ \ \sum(y - wx - b)^2$
  - 最小二乘法几何意义：试图找到一个直线，使得样本到直线上的欧氏距离之和最小
  - 求最小值问题：就是分别对w、b求解其导数=0的过程
  - 在多元线性回归中，同理，只不过x从向量变成了矩阵
    - 令 $w^* = (w;b) = (w_1; w_2; ...; w_d; b)$ ，从一元线性回归方程中可得：
      - $w^*=arg \ \ min_{w^*} \ \ (y-Xw^*)^T (y-Xw^*)$ ，其中 X表示m*d维的x
        
        为什么一元线性回归的平方形式在多元中可以写成其乘以其转置的形式？
        
        这样成立的前提是X为满秩矩阵或者正定矩阵（full-rank or positive definite matrix）
      - 对 $w^*$ 求导并让其导数式=0即可求得最优解，因此
        
        $w^* = (X^TX)^{-1} X^T y$ ，其中， $X^TX)^{-1}$ 为 $X^TX)$ 的逆矩阵
        
        逆矩阵：
        
        只有方阵才有逆矩阵
        
        矩阵和其逆矩阵相乘等于单位矩阵（从左上到右下的对角线上的元素为1，其余元素为0），效果等于实数中一个数乘以其倒数就等于1

正则化 Regularization

理想情况， $X^TX$ 是满秩的，但是实际情况中多数不是满秩，此时可解出多个w，且都能使均方误差最小化，如果选择一个w作为输出？—正则化项

什么是正则化？
- 让w的个数最小化就是正则化
- 形式： $\frac{\lambda}{2} ||W||^2_2, \lambda >= 0$ ，其中 $W||^2_2$ 表示二范数
- 整体结构： $min\{\sum(y-W^Tx) + \frac{\lambda}{2}||W||^2_2\}, \lambda>=0$

对数线性回归 log-linear regression

对数线性回归解决的了，线性模型输出值之间可能存在跨度太大的问题，即将输出标记控制在指数尺度上。

通过 $ln y = w^Tx +b$ ，试图让 $e^{w^Tx+b}$ 逼近y。

对数线性回归适合与回归问题
对数几率回归则适用于分类问题

对数几率回归

二分类问题中， $\in \{0,1\}$ ，线性回归的预测值是实值，不好用与分类中，而 “单位阶跃函数” unit-step，可以将值转换为0/1.

但是单位阶跃函数不连续，所以不能直接作用在线性回归上，而对数几率函数可以替代单位阶跃函数，且它是连续的。

对数几率函数： $y=\frac{1}{1+e^{-(w^Tx+b)}}$
它是一种 Sigmoid函数，将 $w^Tx+b)$ ，设为 z，该函数将z转化为接近0或1的值
其中几率为，得到正例的可能性和 1 - 得到正例的可能性（即反例）的比值，对这个几率取对数就是叫对数几率（log odds, logit)
$ln\frac{y}{1-y}=w^Tx+b$
对数几率回归优点：
- 不仅可以预测类别，还可以得到近似的概率预测
- 对数几率函数是任意阶可导的凸函数（凸函数是可以直接用于求最优解的函数）
求解对数几率函数中的w和b：极大似然估计

数学基础：极大似然估计 MLE

什么时候用极大似然估计：模型已定，参数未知
采样要满足的假设：所有采样都要独立同分布
正态分布下的极大似然估计的公式：
- $f(x)=\frac{1}{\sqrt{2\pi}\sigma} exp(-\frac{(x-\mu)^2}{2\sigma^2})$

$P(x|\theta)$ 输入有两个，一个x，一个是模型的参数 $\theta$

概率函数： $\theta$ 已知，x是变量；描述对于不同样本点x，其出现概率是多少
似然函数：x已知， $\theta$ 是变量；描述对于不同的模型参数，出现x这个样本点的概率是多少。

极大似然估计的数学例子

如何求极大似然估计？
- 令其导数=0，理解起立就是，函数有切线，函数中不同的位置对应着不同的切线，如何找到极值点？就是当它切线与x轴平行的时候，即切线斜率=0的时候，而这个切线斜率就是函数对应的导数。

数学基础：贝叶斯公式 Bayes

区分概率和统计：前者已知模型和参数，推数据；后者已知数据，推模型和参数。
贝叶斯公式:
- $P(A|B)=\frac{P(B|A)P(A)}{P(B)}$ ，核心就是条件概率和联合概率
- 把B展开：
  - $P(A|B)=\frac{P(B|A)P(A)}{P(B|A)|(A)+P(B|\sim A)P(\sim A)}$ ，其中 ~A表示非A
贝叶斯公式就是在描述，How much you can trust evidence
- 理解公式和思想的例子：一辆车的警报响了；
  - 事件A表示车被砸
  - 事件B表示警报响
  - P(A|B)表示警报响了并且车被砸了概率
  - P(B|A)表示车被砸引发了警报的概率
  - P(B|~A)表示警报响了，但是车并没有被砸

线性判别分析 (Linear Discriminant Analysis LDA)

线性判别分析主要用于分类问题，也叫 Fisher判别分析，是一种监督降维方法
LDA思想：设法将样本投影到一条直线上，使样本在这条线上最容易分类；要求，同类近，异类远
线性判别模型：采用直线或超平面将样本直接切开，表示为 y = f(w^T x + b)，划分平面表示为 w^T x + b = 0。常见模型，逻辑回归（sigmod函数）、感知机（激活函数）
其中 w就是我们要找的投影线的向量，我们只关心向量方向，而不关心模长
为了让异类样本相隔远，就需要让异类均值的差大，让同类间离散小，就需要同类的协方差小
最大化目标： $J=\frac{||w^T \mu_0 - w^T \mu_1||^2_2}{w^T \Sigma_0 w + w^T \Sigma_1 w}$ 展开得 $\frac{w^T(\mu_0 - \mu_1)(\mu_0 - \mu_1)^Tw}{w^T(\Sigma_0+\Sigma_1)w}$
类内方差小 min，类间均值大 max
- within-class scatter matrix: $S_w = \Sigma_0 + \Sigma_1$
- between-class scatter matrix: $S_b = (\mu_0-\mu_1)(\mu0-\mu_1)^T$
改写后， $\frac{w^T S_b w}{w^T S_w w}$ ，这就是LDA的最大化目标，即 Sb和Sw的广义瑞利商（generalized rayleigh quotient），要求的就是 max J
- 此时，max J 不可解，因为w会被约掉；但由于w的大小并不会影响最终结果，因为只需要确定w方向。因此，解决方案就是固定w的大小，固定的方式有很多种，书中是将分母大小固定， $w^T S_w w = 1$ ：
  - 已知 Sw的大小是固定的，为什么？因为给定样本后，Sw是个固定的矩阵，是个常量；这么做就等价于固定w的模长（不管固定分子还是分母都是可以的，因为样本给定后，均值和方差都是固定的）
- 所以 max J = $w^T S_b w$ ，s.t. $w^T S_w w=1$
- 而通常优化问题都是转化成最小化问题，那么此时 max J -> min J:
  - $min_w J = - w^T S_b w$ ，s.t. $w^T S_w w=1$
  - 求解带约束的优化问题的常用方法：拉格朗日乘子法

数学基础：拉格朗日乘子法

对于仅含约束的优化问题：
- $min_x f(x)$ ，s.t. $h_i(x)=0$ ，i = 1,2,…,n
其中自变量x属于实数，f(x)和hi(x)均有连续的一阶偏导数。首先推出其拉格朗日函数：
- $\lambda) = f(x) + \sum_{i=1}^n \lambda_i h_i(x)$
其中 $\lambda = (\lambda_1, \lambda_2,...,\lambda_n)^T$ 为拉格朗日乘子。然后对拉格朗日函数关于x求偏导。并令导数=0，再搭配约束条件 $h_i(x)=0$ 解出x，求解出所有x即为上述优化问题的所有可能（极值点）（只能求出1个或者多个局部极值点，不能确定哪个是想要的）
求解 w
- $min_w J = - w^T S_b w$ ，s.t. $w^T S_w w-1=0$ ，其中 $w^T S_w w-1=0$ 就是 h(x)
- 由拉格朗日乘子法可得拉格朗日函数： $\lambda) = -w^TS_b w + \lambda(w^TS_w w - 1)$ ，也就是 f(x)+h(x)
- 对 w 求偏导：
  - $\frac{\partial L(w, \lambda)}{\partial w} = - \frac{\partial (w^T S_b w)}{\partial w} + \lambda \frac{\partial (w^T S_w w - 1)}{\partial w}$
  - $-(S_b + S_b^T)w + \lambda(S_w + S^T_w)w$
- 由于 Sb=Sb^T，Sw=SwT（因为Sb和Sw都是对称矩阵），所以：
  - $\lambda) = -2 S_b w + 2 \lambda S_w w$
- 令上式 = 0：
  - $S_b w = \lambda S_w w$ (广义特征值)
    - 特征值： $\lambda x$
    - 广义特征值： $\lambda B x$
- 将Sb和Sw展开： $(\mu_0-\mu_1)(\mu_0-\mu_1)^T w = \lambda S_w w$
  - 其中， $\mu_0$ 和 $\mu_1$ 是列向量，它们相减还是列向量， $(\mu_0-\mu_1)^T$ 是行向量，w是列向量；行向量*列向量 = 实数，所以：
  - 令 $(\mu_0 - \mu_1)^T w = \gamma$ ，则：
    - $\gamma (\mu_1 - \mu_2) = \lambda S_w w$
    - $\frac{\gamma}{\lambda} S^{-1}_w (\mu_0 - \mu_1)$
- 由于最终求解的w不关心其大小，只关心方向，所以令常数项=1，即 $\frac{\gamma}{\lambda}=1$ ，此时有：
  - $S^{-1}_w (\mu_0 - \mu_1)$

数学基础：广义特征值

定义：设A, B为 n阶方阵，若存在 $\lambda$ ，使得方程 $Ax=\lambda Bx$ 存在非零解，则称 $\lambda$ 为A相对于 B的特征广义指，x为A相对于B的属于广义特征值 $\lambda$ 的特征向量。
- 特别地，当 B = I（单位矩阵）时，广义特征值问题退化为标准特征值问题。

数学基础：广义瑞利商

定义：设A, B为 n阶厄米（Hermitian）矩阵，且B正定，称 $R(x)=\frac{x^H Ax}{x^H Bx}$ (x != 0) 为A相对于B的广义瑞利商。
- 特别地，当 B = I（单位矩阵）时，广义瑞利商退化为瑞利商。
- 其中，当矩阵是实数矩阵时，厄米矩阵就等于转置，即 $A^H=A^T$ ，此时 A和A^H对称；而当元素为复数时，会有不同。
性质：假设， $\lambda_i, x_i (i=1,2,...,n)$ 为A相对于B的广义特征值和特征向量，且 $\lambda_1 <= \lambda_2 <= ... <= \lambda_n$ ，则有：
- $min_{x != 0} \ \ R(X) = \frac{x^H Ax}{x^H bx} = \lambda_1, \ \ x^* = x_1$
- $max_{x!=0} \ \ R(x) = \frac{x^H Ax}{x^H Bx} = \lambda_n, \ \ x^* = x_n$

多分类问题

学习：一般是利用二分类学习器解决多分类问题，通过拆解法，将多分类任务拆为若干个二分类任务求解。
测试：对这些分类器的预测结果集成得到多分类结果。
拆分策略：
- One vs One
  - 将N个类别两两配对，产生N(N-1)/2个二分类任务（也就是训练N(N-1)/2个分类器）
  - 测试阶段，新样本提交给所有的分类器，得到N(N-1)/2个分类结果，把预测最多的类别作为最终结果
  - 存储开销和测试开销会大
- One vs Rest
  - 将一个类的样例作为正例，其余全部作为反例，来训练N个分类器
  - 测试阶段，仅有一个分类器预测为正类，则对应的类别标记作为最终分类结果；若有多个分类器预测为正类，则根据置信度最大的分类器的类别标记作为分类结果
  - 存储开销和测试时间开销通常小于上一个；如果类别很多的情况下，测试时间开销就大于上一个，因为她需要用到全部样例，而上一个朱需要用到两个类的样例
  - 预测性能，二者差不多
- Many vs Many
  - 每次将若干个类作为正类，若干个其他类作为反类。正反类构造必须有特殊的设计，不能随意选取，常用技术：纠错输出码（Error Correction Output Codes, ECOC）
    - ECOC是将编码的思想引入类别拆分，尽可能在解码过程中具有容错性
    - 工作过程：
      - 编码：对N个类别做M次划分，每次划分将两部分类别分别划分为正反类，从而形成一个二分类训练集，这样产生M个训练集，可以训练出M个分类器
      - 解码：M个分类器分别对测试样本进行预测，这些预测标记组成一个编码。将编码与每个类别的各自编码进行比较，返回其中距离最小的类别作为最终预测结果
    - 类别划分通过编码矩阵（coding matrix）指定，常见形式二元码、三元码

类别不平衡问题 class-imbalance

前提：分类任务中，不同类别的训练样例数母差别很大，比如，正类样例少，反类样例特别多
类别不平衡处理的基本方法：
- 基本策略：再缩放（rescaling）
  - 几率y/(1-y)反映了正例可能性和反例可能性之比，若其 > 1，则预测为正例；
    - 然而，训练集中正反例数目不同时，令m^{+表示正例数目，m}-表示反例数目，则，目测几率是 m^+/m-
    - 由于，通常假设训练集是真实样本总体的无偏采样，因此观测几率就代表了真实几率。于是，只要分类器的预测几率高于观测几率就判定为正例：
    - y/(1-y) > m^+/m-，则预测为正例
    - 而分类器基于 y/(1-y)进行决策，因此，需要对预测值进行调整，即再缩放：
    - $\frac{y'}{1-y'} = \frac{y}{1-y} \frac{m^-}{m^+}$
  - 弊端：假设往往不成立，即，训练集是真实样本总体的无偏采样
- 主流做法1：欠采样（undersampling）
  - 直接对训练集里的反类样例进行欠采样，即去除一些反例，使得正反数目接近
  - 优势：开销小
  - 弊端：不能随意丢弃反例，会丢失重要信息，需要通过特定算法来处理
- 主流做法2：过采样（oversampling）
  - 对训练集里的正类样例进行过采样，即增加一些正例使得正反数目接近
  - 弊端：不能随便对样例进行重复采样，否则会过拟合
- 主流做法3：阈值移动（threshold-moving）
  - 直接基于原始训练集进行学习，但是在训练好的分类器进行预测时，将 $\frac{y'}{1-y'} = \frac{y}{1-y} \frac{m^-}{m^+}$ 嵌入到其决策过程中

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
python笔记14介绍几个魔法方法抢公主的大魔王 python python
python笔记14介绍几个魔法方法先声明一下各位大佬，这是我的笔记。如有错误，恳请指正。另外，感谢您的观看，谢谢啦！(1).__doc__输出对应的函数，类的说明文档print(print.__doc__)print(value,...,sep='',end='\n',file=sys.stdout,flush=False)Printsthevaluestoastream,ortosys.std
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
环境搭建 | Python + Anaconda / Miniconda + PyCharm 的安装、配置与使用
本文将分别介绍Python、Anaconda/Miniconda、PyCharm的安装、配置与使用，详细介绍Python环境搭建的全过程，涵盖Python、Pip、PythonLauncher、Anaconda、Miniconda、Pycharm等内容，以官方文档为参照，使用经验为补充，内容全面而详实。由于图片太多，就先贴一个无图简化版吧，详情请查看Python+Anaconda/Minicond
你竟然还在用克隆删除？Conda最新版rename命令全攻略！曦紫沐 Python基础知识 conda 虚拟环境管理
文章摘要Conda虚拟环境管理终于迎来革命性升级！本文揭秘Conda4.9+版本新增的rename黑科技，彻底告别传统“克隆+删除”的繁琐操作。从命令解析到实战案例，手把手教你如何安全高效地重命名Python虚拟环境，附带版本检测、环境迁移、故障排查等进阶技巧，助你提升开发效率10倍！一、颠覆认知：Conda居然自带重命名功能？很多开发者仍停留在“Conda无法直接重命名环境”的认知阶段，实际上自
centos7安装配置 Anaconda3
Anaconda是一个用于科学计算的Python发行版,Anaconda于Python，相当于centos于linux。下载[root@testsrc]#mwgethttps://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.2.0-Linux-x86_64.shBegintodownload:Anaconda3-5.2.0-L
Pandas：数据科学的超级瑞士军刀科技林总 DeepSeek学AI 人工智能
**——从零基础到高效分析的进化指南**###**一、Pandas诞生：数据革命的救世主****2010年前的数据分析噩梦**：```python#传统Python处理表格数据data=[]forrowincsv_file:ifrow[3]>100androw[2]=="China":data.append(float(row[5])#代码冗长易错！```**核心痛点**：-Excel处理百万行崩
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
【Jupyter】个人开发常见命令 TIM老师 #Pycharm &VSCode python Jupyter
1.查看python版本importsysprint(sys.version)2.ipynb/py文件转换jupyternbconvert--topythonmy_file.ipynbipynb转换为mdjupyternbconvert--tomdmy_file.ipynbipynb转为htmljupyternbconvert--tohtmlmy_file.ipynbipython转换为pdfju
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
用 Python 开发小游戏：零基础也能做出《贪吃蛇》
本文专为零基础学习者打造，详细介绍如何用Python开发经典小游戏《贪吃蛇》。无需复杂编程知识，从环境搭建到代码编写、功能实现，逐步讲解核心逻辑与操作。涵盖Pygame库的基础运用、游戏界面设计、蛇的移动与食物生成规则等，让新手能按步骤完成开发，同时融入SEO优化要点，帮助读者轻松入门Python游戏开发，体验从0到1做出游戏的乐趣。一、为什么选择用Python开发《贪吃蛇》对于零基础学习者来说，
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
数据中台中的数据科学工作台：Jupyter集成方案 AI大数据智能洞察大数据与AI人工智能 jupyter 信息可视化 ide ai
数据中台中的数据科学工作台：Jupyter集成方案关键词：数据中台、数据科学工作台、JupyterNotebook、数据科学、机器学习、数据可视化、协作开发摘要：本文深入探讨了在数据中台架构中集成JupyterNotebook作为数据科学工作台的完整解决方案。我们将从数据中台的基本概念出发，详细分析Jupyter在数据科学工作流中的核心作用，介绍多种集成方案和技术实现细节，并通过实际案例展示如何构
lesson20：Python函数的标注你的电影很有趣 python 开发语言
目录引言：为什么函数标注是现代Python开发的必备技能一、函数标注的基础语法1.1参数与返回值标注1.2支持的标注类型1.3Python3.9+的重大改进：标准集合泛型二、高级标注技巧与最佳实践2.1复杂参数结构标注2.2函数类型与回调标注2.3变量注解与类型别名三、静态类型检查工具应用3.1mypy：最流行的类型检查器3.2Pyright与IDE集成3.3运行时类型验证四、函数标注的工程价值与
Jupyter Notebook：数据科学的“瑞士军刀” a小胡哦机器学习基础人工智能机器学习
在数据科学的世界里，JupyterNotebook是一个不可或缺的工具，它就像是数据科学家手中的“瑞士军刀”，功能强大且灵活多变。今天，就让我们一起深入了解这个神奇的工具。一、JupyterNotebook是什么？JupyterNotebook是一个开源的Web应用程序，它允许你创建和共享包含实时代码、方程、可视化和解释性文本的文档。它支持多种编程语言，其中Python是最常用的语言之一。Jupy
2018年中南大学中英翻译某翁
参考：20180827235856533.jpg【1】机器学习理论表明，机器学习算法能从有限个训练集样本上得到较好的泛化【1】Machinelearningtheoryshowsthatmachinelearningalgorithmcangeneralizewellfromfinitetrainingsetsampleslimited有限的infinite无限的【2】这似乎违背了一些基本的逻辑准
Django学习笔记（一）
学习视频为：pythondjangoweb框架开发入门全套视频教程一、安装pipinstalldjango==****检查是否安装成功django.get_version()二、django新建项目操作1、新建一个项目django-adminstartprojectproject_name2、新建APPcdproject_namedjango-adminstartappApp注：一个project
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
Python 程序设计讲义（26）：字符串的用法——字符的编码睿思达DBA_WGX Python 讲义 python 开发语言
Python程序设计讲义（26）：字符串的用法——字符的编码目录Python程序设计讲义（26）：字符串的用法——字符的编码一、字符的编码二、`ASCII`编码三、`Unicode`编码四、使用`ord()`函数查询一个字符对应的`Unicode`编码五、使用`chr()`函数查询一个`Unicode`编码对应的字符六、`Python`字符串的特征一、字符的编码计算机默认只能处理二进制数，而不能处
【Python】pypinyin-汉字拼音转换工具鸟哥大大 Python python 自然语言处理
文章目录1.主要功能2.安装3.常用API3.1拼音风格3.2核心API3.2.1pypinyin.pinyin()3.2.2pypinyin.lazy_pinyin()3.2.3pypinyin.load_single_dict()3.2.4pypinyin.load_phrases_dict()3.2.5pypinyin.slug()3.3注册新的拼音风格4.基本用法4.1库导入4.2基本汉字
python编程第十四课：数据可视化小小源助手 Python代码实例信息可视化 python 开发语言
Python数据可视化：让数据“开口说话”在当今数据爆炸的时代，数据可视化已成为探索数据规律、传达数据信息的关键技术。Python凭借其丰富的第三方库，为数据可视化提供了强大而灵活的解决方案。本文将带你深入了解Matplotlib库的基础绘图、Seaborn库的高级可视化以及交互式可视化工具Plotly，帮助你通过图表清晰地展示数据背后的故事。一、Matplotlib库基础绘图Matplotlib
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
Python数据可视化：用代码绘制数据背后的故事 AAEllisonPang Python 信息可视化 python 开发语言
引言：当数据会说话在数据爆炸的时代，可视化是解锁数据价值的金钥匙。Python凭借其丰富的可视化生态库，已成为数据科学家的首选工具。本文将带您从基础到高级，探索如何用Python将冰冷数字转化为引人入胜的视觉叙事。一、基础篇：二维可视化的艺术表达1.1Matplotlib：可视化领域的瑞士军刀importmatplotlib.pyplotaspltimportnumpyasnpx=np.linsp
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p