超级简历WonderCV

mysql聚类函数_Mahout – Clustering (聚类篇)

文档，变成了一个独立的文件。

一共有21578个txt，即数据集中含有21578篇文档：-)

说下命名规则吧，例如：文件名：./reuters-out/reut2-006.sgm-246.txt，表示来自于./reuters-sgm/reut2-006.sgm中的第246篇文档，下标从0开始。

4、转换成SequenceFile

对于传统的文本聚类算法而言，下一步应该是：将文本转化为词的向量空间表示。

然而，不要太着急哦。

由于Mahout运行在Hadoop上，HDFS是为大文件设计的。如果我们把上述21578个txt都拷贝上去，这样是非常不合适的

设想下：假设对1000万篇新闻进行聚类，难道要拷贝1000w个文件么？这会把name node搞挂的。

因此，Mahout采用SequenceFile作为其基本的数据交换格式。

内置的seqdirectory命令(这个命令设计的不合理，应该叫directoryseq才对)，可以完成文本目录->SequenceFile的转换过程。

[crayon-53b01de37e09b762719714/]

上述命令蕴含了2个大坑，在其他文档中均没有仔细说明：

(1) -xm sequential，表示在本地执行，而不是用MapReduce执行。如果是后者，我们势必要将这些小文件上传到HDFS上，那样的话，还要SequenceFile做甚……

(2) 然而seqdirectory在执行的时候，并不因为十本地模式，就在本地文件系统上寻找。而是根据-i -o的文件系统前缀来判断文件位置。也就是说，默认情况，依然十在HDFS上查找的……所以，这个file://的前缀是非常有必要的。

其他2个参数：

-c UTF8：编码。

-chunk 64：64MB一个Chunk，应该和HDFS的BLOCK保持一致或者倍数关系。

5、转换为向量表示

为了适应多种数据，聚类算法多使用向量空间作为输入数据。

由于我们先前已经得到了处理好的SequenceFile，从这一步开始，就可以在Hadoop上进行啦。

[crayon-53b01de37e0a0174103784/]

开始text->Vector的转换：

[crayon-53b01de37e0a4989317262/]

输入和输出不解释了。在Mahout中的向量类型可以称为sparse。

参数说明如下：

-ow( 或?--overwrite)：即使输出目录存在，依然覆盖。

--weight(或 -wt) tfidf：权重公式，大家都懂的。其他可选的有tf (当LDA时建议使用)。

--maxDFPercent(或 -x) 85：过滤高频词，当DF大于85%时，将不在作为词特征输出到向量中。

--namedVector (或-nv)：向量会输出附加信息。

其他可能有用的选项：

--analyzerName(或-a)：指定其他分词器。

--minDF：最小DF阈值。

--minSupport：最小的支持度阈值，默认为2。

--maxNGramSize(或-ng)：是否创建ngram，默认为1。建议一般设定到2就够了。

--minLLR(或 -ml)：The minimum Log Likelihood?Ratio。默认为1.0。当设定了-ng > 1后，建议设置为较大的值，只过滤有意义的N-Gram。

--logNormalize(或 -lnorm)：是否对输出向量做Log变换。

--norm(或 -n)：是否对输出向量做p-norm变换，默认不变换。

看一下产出：

[crayon-53b01de37e0a8438258109/]

说明各个文件的用途：

dictionary.file-0：词文本 -> 词id(int)的映射。词转化为id，这是常见做法。

frequency.file：词id -> 文档集词频(cf)。

wordcount(目录)：词文本 -> 文档集词频(cf)，这个应该是各种过滤处理之前的信息。

df-count(目录)：词id -> 文档频率(df)。

tf-vectors、tfidf-vectors (均为目录)：词向量，每篇文档一行，格式为{词id:特征值}，其中特征值为tf或tfidf。有用采用了内置类型VectorWritable，需要用命令"mahout vectordump -i "查看。

tokenized-documents：分词后的文档。

二、KMeans

1、运行K-Means

[crayon-53b01de37e0ad260803464/]

参数说明如下：

-i：输入为上面产出的tfidf向量。

-o：每一轮迭代的结果将输出在这里。

-k：几个簇。

-c：这是一个神奇的变量。若不设定k，则用这个目录里面的点，作为聚类中心点。否则，随机选择k个点，作为中心点。

-dm：距离公式，文本类型推荐用cosine距离。

-x ：最大迭代次数。

--clustering：在mapreduce模式运行。

--convergenceDelta：迭代收敛阈值，默认0.5，对于Cosine来说略大。

输出1，初始随机选择的中心点：

[crayon-53b01de37e0b1701364962/]

输出2，聚类过程、结果：

[crayon-53b01de37e0b5761109176/]

其中，clusters-k(-final)为每次迭代后，簇的20个中心点的信息。

而clusterdPoints，存储了簇id -> 文档id 的映射。

2、查看簇结果

首先，用clusterdump，来查看k(20)个簇的信息。

[crayon-53b01de37e0b9933747704/]

要说明的是，clusterdump似乎只能在本地执行……所以先把数据下载到本地吧。

参数说明：

-i ：我们只看最终迭代生成的簇结果。

-d ：使用词 -> 词id 映射，使得我们输出结果中，可以直接显示每个簇，权重最高的词文本，而不是词id。

-dt：上面映射类型，由于我们是seqdictionary生成的，so。。

-o：最终产出目录

-n：每个簇，只输出20个权重最高的词。

看看dump结果吧：

一共有20行，表示20个簇。每行形如：

[crayon-53b01de37e0bd439905248/]

其中前面的12722是簇的ID，n=1305即簇中有这么多个文档。c向量是簇中心点向量，格式为词文本:权重(点坐标)，r是簇的半径向量，格式为词文本:半径。

下面的Top Terms是簇中选取出来的特征词。

3、查看聚类结果

其实，聚类结果中，更重要的是，文档被聚到了哪个类。

遗憾的是，在很多资料中，都没有说明这一点。前文我们已经提到了，簇id -> 文档id的结果，保存在了clusteredPoints下面。这也是mahout内置类型存储的。我们可以用seqdumper命令查看。

[crayon-53b01de37e0c3990690636/]

其中，-d和-dt的原因同clusterdump。

如果不指定-o，默认输出到屏幕，输出结果为形如：

[crayon-53b01de37e0c7109527914/]

其实，这个输出是一个SequenceFile，大家自己写程序也可以读出来的。

Key是ClusterID，上面clusterdump的时候，已经说了。

Value是文档的聚类结果：wt是文档属于簇的概率，对于kmeans总是1.0，/reut2-000.sgm-0.txt就是文档标志啦，前面seqdirectionary的-nv起作用了，再后面的就是这个点的各个词id和权重了。

三、Fuzzy-KMeans

KMeans是一种简单有效的聚类方法，但存在一些缺点。

例如：一个点只能属于一个簇，这种叫做硬聚类。而很多情况下，软聚类才是科学的。例如：《哈利波》属于小说，也属于电影。Fuzzy-Kmeans 通过引入“隶属度”的方式，实现了软聚类。

1、算法简介

详细的介绍转载自：http://home.deib.polimi.it/matteucc/Clustering/tutorial_html/cmeans.html

2、工具用法

执行Fuzzy-KMeans

[crayon-53b01de37e0cc813279082/]

新增算法的柔软参数m，若m接近于1则接近于KMeans；随着m增加，会有越来越多的聚簇重叠(越多的点同时属于多个聚簇)。

3、查看隶属度

如上文所述，在Fuzzy-KMeans中，点以一定的 “概率” 隶属于聚簇。

我们可以用seqdumper查看隶属度：

[crayon-53b01de37e0d0577023900/]

其中的 w: xxx.xxx表示了隶属度，应当是 0～1之间的数。

四、Canopy

KMeans算法还有一个缺陷： k需要预先给定，在很多场景下，聚类形状都是预先无法知道的，k更无从谈起。因此，往往先用别的算法进行粗略聚类，同时确定初始值，然后再用KMeans算法。

1、算法简介

Canopy Clustering 算法提出于2000年。优点是计算速度快，缺点是结果准确性较低。

尽管如此，其结果依然可以大致描述聚类中心的位置。因此，常用来与KMeans算法配合使用。

(1) 将数据集向量化得到一个list后放入内存，选择两个距离阈值：T1和T2，其中T1 > T2，对应上图，实线圈为T1，虚线圈为T2，T1和T2的值可以用交叉校验来确定；

(2) 从list中任取一点P，用低计算成本方法快速计算点P与所有Canopy之间的距离(如果当前不存在Canopy，则把点P作为一个Canopy)，如果点P与某个Canopy距离在T1以内，则将点P加入到这个Canopy；

(3) 如果点P曾经与某个Canopy的距离在T2以内，则需要把点P从list中删除，这一步是认为点P此时与这个Canopy已经够近了，因此它不可以再做其它Canopy的中心了；

(4) 重复步骤2、3，直到list为空结束。

我再来简单概括一下：阈值T1 > T2。到簇中心点的距离 < T2的点，必须属于本聚簇(硬)。T2 < 到簇中心点距离 < T1的点，可以属于多个聚簇(软)。在后续计算可以被合并。

2、聚类用法

执行Canopy聚类

[crayon-53b01de37e0d6300925810/]

如上所述，在距离的计算方面，我们选择了欧式距离。阈值T1=150, t2=75。

输出结果，也可以用ClusterDump查看。

[crayon-53b01de37e0d9194884494/]

这是一个粗略、大致的结果。在实际应用中，经常被用来作为K-Means的初始聚簇中心，来代替随机选择的K个中心点。这一做法有2个优点：

(1) 无需决定K，因为我们的预设往往是不准的。

(2) 使用Canopy的聚类结果，是一个大致准确的中心点。而随机选择很可能陷入局部最优。

在执行k-means时，若我们不指定k，则会使用-c的路径作为初始聚簇中心点，并跳过随机选择的过程。

[crayon-53b01de37e0dd402255813/]

3、参数选择

最后，我们讨论以下Canopy的参数T1和T2。

T1 > T2，具体值是文档及距离计算公式而定。

若T1过大，会使得许多点属于多个Canopy，造成各个簇的中心点距离比较近，使得簇之间的区分不明显。

若T2过大，强标记数据点的数量会增加，从而减少簇个数。

若T2过小，会增加簇的个数，以及计算时间。

网上有人给出了这个做法，仅供参考：

对数据进行采样。

计算所有文档之间的平均距离(使用要在Canopy中用的距离公式)。

T1 = 平均距离 * 2；T2 = 平均距离。

上述做法有一定道理，但我认为，以下更加合理：

对数据进行采样。

选择一个T2，T1 = 2 * T1。

进行聚类，并评测聚类效果，可使用k-fold交叉验证。

迭代选择下一个T2。

直到找到最优的T1 T2。

五、Spectral

1、谱聚类算法简介

谱聚类算法，参考了文章《Mahout Spectral聚类》。

谱聚类算法是一种较为现代的图聚类算法。与K-Means等传统聚类相比，它具有以下特点：

可以对非欧式距离空间的点进行聚类。传统K-Means将点视为向量，并计算距离。而谱聚类算法要求直接给出两样本间相似度的矩阵。使得一些不便于在欧式空间计算的多特征聚类问题，有了更好的解法。(例如，性别，年龄2个特征，在欧式空间中就没有显著意义)。

上面的这一更宽泛的约束条件，使得谱聚类对样本空间的形状无限制，并能收敛于全局最优解(无需使用)。

一种典型的谱聚类算法的大致流程是：

构建样本集的相似度矩阵W。

对相似度矩阵W进行稀疏化，形成新的相似度矩阵A。

构建相似度矩阵A的拉普拉斯矩阵L。

计算拉普拉斯矩阵L的前k个特征值与特征向量，构建特征向量空间。

将前k个特征向量(列向量)组合成N*k的矩阵，每一行看成k维空间的一个向量，利用K-means或其它经典聚类算法对该矩阵进行聚类。

其中，转化为拉普拉斯矩阵实际是一个降维的过程。正是这一特点，使得谱聚类能够处理超大规模的数据。

2、Mahout中的谱聚类

上文已经提到：

传统K-Means等聚类中，需要将每个样本转化为一个向量。

谱聚类中，则需要直接给一个矩阵，其中存储了任意两个样本之间的相似度。

例如：

在实际应用中，相似矩阵(affinity matrix)是相当稀疏的。所以，Mahout采用了邻接矩阵的输入格式，即(i, j, affinity)表示第i个样本与第j个样本的相似度是affinity。

同时，还需要输入矩阵的维度。原因应该是很好理解的。

如上图中的数据，转化完毕后，就是：

[crayon-53b01de37e0e4242100190/]

Mahout中，将谱聚类与KMeans进行了整合，执行命令：

[crayon-53b01de37e0e8224631814/]

参数说明：

-i ：输入的相似度矩阵，邻接矩阵。

-k：目标聚成2个簇。

-o：聚簇中间结果。

-d：相似度矩阵维度为6，也即样本共6个。

-x：100，最多迭代100次。

-cd：收敛阈值，默认0.5

其他可选参数：

-ssvd：使用svd矩阵分解降维。

-q：svd相关。

输出的目录结构，与K-Means等相似：

[crayon-53b01de37e0ec354492758/]

说明一下：

sc-spectral/clusters-0：初始聚簇。

sc-spectral/kmeans_out/clusteredPoints：最终结果，样本->聚簇映射。

sc-spectral/kmeans_out/clusters-1-final：最终聚簇的信息。

先看一下聚簇映射：

[crayon-53b01de37e0f0022291383/]

如上所示，这个顺序，是按照输入样本顺序来的。Key 1表示属于第2个簇，0表示第1个簇。distance是点与簇的相似距离。

然后来看一下簇中心：

[crayon-53b01de37e0f5188247652/]

输出结果：

[crayon-53b01de37e0f9805498536/]

于 K-Means一样，VL-XX是簇名称，n代表簇中含有几个元素。c是簇中心，r是簇半径。

然而奇怪的是，我们可以发现，上面的n都是错的，而下面簇中点的打印是对的不知道是什么Bug...

六、LDA

LDA是一种主题模型，它是一种考虑了词贡献的，较为高级的“聚类”算法，主要功能为：

给定主题数k，输出文档属于每个主题的概率(越大表示越贴近该主题)。

输出每个主题中，权重最大的几个词。相当于传统聚类之后的Tag。

关于算法、原理方面，本文就不做过多的介绍了，感兴趣的可以查看相关论文。

考虑到LDA的特性，提取特征的时候，我们需要使用tf而非tfidf：

[crayon-53b01de37e0ff989623009/]

Mahout实现的LDA有个大坑：tf的vector，词必须是Ingeter类型，即要我们把word转换成wordid。

[crayon-53b01de37e103542436583/]

生成的有2个子目录，我们只用下面这个matrix：

[crayon-53b01de37e106258174359/]

LDA训练：

[crayon-53b01de37e10a495964197/]

上述参数，说明一下：

-k 主题数20

-dt：输出的?

-o：输出的?

-x：迭代100次，其实对于LDA，1000～2000次是比较合理的。

-nt：词的数量，即dictionary.file-0的大小。

PS：Mahout这个LDA，执行效率真心不高，也可能是我的数据太小，机器太少。

文档->主题的概率

[crayon-53b01de37e10e726233742/]

输出共21578行，代表了文档集合中的所有文档。

Key是文档id，与文件的对应关系可以在/user/coder4/reuters-cvb-vectoers/docIndex中查看。

Value是文档属于Topic 0~19的概率。按照值Sort一下，就能知道文档属于哪个主题的概率最大。

[crayon-53b01de37e112067009078/]

主题->词的概率

[crayon-53b01de37e116215799178/]

一共有20行有效输出，Key 0~19，代表了20个主题。

每个Value中有41806个词的权重。表示了词属于当前主题的权重。

本来有个LDAPrintTopics，可以直接打印Topic对应的词的，但是年久失修，已经不能用在新版的cvb的LDA上了。大家可以写程序对上免每个Topic中词的权重进行排序，从而获得每个主题的代表词。

day15｜前端框架学习和算法 universe_01 前端算法笔记
T22括号生成先把所有情况都画出来，然后（在满足什么情况下）把不符合条件的删除。T78子集要画树状图，把思路清晰。可以用暴力法、回溯法和DFS做这个题DFS深度搜索：每个边都走完，再回溯应用：二叉树搜索，图搜索回溯算法=DFS+剪枝T200岛屿数量（非常经典BFS宽度把树状转化成队列形式，lambda匿名函数“一次性的小函数，没有名字”setup语法糖：让代码更简洁好写的语法ref创建：基本类型的
Java | 多线程经典问题 - 售票 Ada54
一、售票需求1）同一个票池2）多个窗口卖票，不能出售同一张票二、售票问题代码实现（线程与进程小总结，请戳：Java|线程和进程，创建线程）step1：定义SaleWindow类实现Runnable接口，覆盖run方法step2：实例化SaleWindow对象，创建Thread对象，将SaleWindow作为参数传给Thread类的构造函数，然后通过Thread.start()方法启动线程step3
在线人数统计业务设计（场景八股文）
业务问题在当经的网站中，在线人数的实时统计已经是一个必不可少的模块了，并且该统计功能最好能够按不同的时间间隔做的统计，现在需要你设计一个在线人数统计的模块，你应该怎么进行设计的呢？背景一个网校下会有多个学员。目前平台大概有十个，平台对应的网校大概五十几个，平均一个网校会有5w个用户，预计总人数为200w，最该学员的在线人数在10w左右。设计思路最开始的时候，想到的就是使用mysql直接实现，但是明
Aop +反射实现方法版本动态切换
需求分析在做技术选型的时候一直存在着两个声音，mongo作为数据库比较mysql好，mysql做为该数据比mongo好。当然不同数据库都有有着自己的优势，我们在做技术选型的时候无非就是做到对数据库的扬长避短。mysql最大的优势就是支持事务，事务的五大特性保证的业务可靠性，随之而来的就是事务会产生的问题：脏读、幻读、不可重复度，当然我们也会使用不同的隔离级别来解决。（最典型的业务问题：银行存取钱）
深入理解汇编语言子程序设计与系统调用网安spinage 汇编语言开发语言汇编算法
本文将全面解析汇编语言中子程序设计的核心技术以及系统调用的实现方法，涵盖参数传递的多种方式、堆栈管理、API调用等关键知识点，并提供实际案例演示。一、子程序设计：参数传递的艺术1.寄存器传参：高效简洁.386.modelflat,stdcalloptioncasemap:none.dataxdd5;定义变量ydd6sumdd?.code;函数定义：addxy1addxy1procpushebpmo
分支和循环（下） tryxr 服务器运维
写⼀个猜数字游戏游戏要求：1.电脑⾃动⽣成1~100的随机数2.玩家猜数字，猜数字的过程中，根据猜测数据的⼤⼩给出⼤了或⼩了的反馈，直到猜对，游戏结束1.随机数生成要想完成猜数字游戏，⾸先得产⽣随机数，那怎么产⽣随机数呢？randC语⾔提供了⼀个函数叫rand，这函数是可以⽣成随机数的，函数原型如下所⽰：intrand(void);rand函数会返回⼀个伪随机数，这个随机数的范围是在0~RAND_
C++ ：vector的模拟诚自然成 c++开发语言
目录一、vector的迭代器二、vector的构造函数默认构造函数参数构造函数迭代器范围构造函数拷贝构造函数swap:交换vector重载赋值符析构函数reserve:扩容vectorresize:调整大小push_back:添加元素empty:判空pop_back:后删获取大小与容量：size(),capacity()重载operator[]：元素访问insert：插入元素erase:删除一个元
mysql复习立夏的李子 mysql 数据库 database
mysqlselect语法selectfromjoinwheregroupbyhavingorderbylimit联合查询innerjoin（）leftjoin（以左表为基准，匹配右表，不匹配的返回左表，右表以null值填充）rightjoind··(去除列重复的数据)索引类型主键索引(PrimaryKey)唯一索引(Unique)常规索引(Index)全文索引(FullText)索引准则索引不是
python笔记14介绍几个魔法方法抢公主的大魔王 python python
python笔记14介绍几个魔法方法先声明一下各位大佬，这是我的笔记。如有错误，恳请指正。另外，感谢您的观看，谢谢啦！(1).__doc__输出对应的函数，类的说明文档print(print.__doc__)print(value,...,sep='',end='\n',file=sys.stdout,flush=False)Printsthevaluestoastream,ortosys.std
MySQL复习题
一.填空题1.关系数据库的标准语言是SQL。2.数据库发展的3个阶段中，数据独立性最高的是阶段数据库系统。3.概念模型中的3种基本联系分别是一对一、一对多和多对多。4.MySQL配置文件的文件名是my.ini或my.cnf。5.在MySQL配置文件中，datadir用于指定数据库文件的保存目录。6.添加IFNOTEXISTS可在创建的数据库已存在时防止程序报错。7.MySQL提供的SHOWCREA
Qwen3 大模型实战：使用 vLLM 部署与函数调用（Function Call）全攻略曦紫沐大模型大模型部署 Qwen3 vLLM 函数调用
文章摘要本文将带你从零开始，深入掌握如何使用Qwen3-8B大语言模型，结合vLLM进行高性能部署，并通过函数调用（FunctionCall）实现模型与外部工具的智能联动。我们将详细讲解部署命令、调用方式、代码示例及实际应用场景，帮助你快速构建基于Qwen3的智能应用。一、Qwen3简介与部署环境准备Qwen3是通义千问系列的最新一代大语言模型，具备强大的自然语言理解和生成能力，尤其在函数调用、工
[spring6: Mvc-网关]-源码解析
推荐阅读：[spring6:Mvc-函数式编程]-源码解析GatewayServerMvcAutoConfiguration@AutoConfiguration(after={HttpClientAutoConfiguration.class,RestTemplateAutoConfiguration.class,RestClientAutoConfiguration.class,FilterAu
lesson20：Python函数的标注你的电影很有趣 python 开发语言
目录引言：为什么函数标注是现代Python开发的必备技能一、函数标注的基础语法1.1参数与返回值标注1.2支持的标注类型1.3Python3.9+的重大改进：标准集合泛型二、高级标注技巧与最佳实践2.1复杂参数结构标注2.2函数类型与回调标注2.3变量注解与类型别名三、静态类型检查工具应用3.1mypy：最流行的类型检查器3.2Pyright与IDE集成3.3运行时类型验证四、函数标注的工程价值与
Mac OSX 下的mysql数据库文件存放位置 Bruuuces mysql mac osx 位置存放
之前我的mysql的系统数据库里的表被我玩坏了，万般无奈之下只得删除所有mysql的东西重新构建数据库。按照网上搜到的内容删除后重装发现数据库没有什么变化。于是自己在每个可能存放数据库文件的目录查找，最终确认目录位置如下:使用HomeBrew安装为/usr/local/var/mysql使用官方下载的dmg镜像安装为/usr/local/mysql删除这个目录再重新安装mysql就会重新生成系统数
Python 程序设计讲义（26）：字符串的用法——字符的编码睿思达DBA_WGX Python 讲义 python 开发语言
Python程序设计讲义（26）：字符串的用法——字符的编码目录Python程序设计讲义（26）：字符串的用法——字符的编码一、字符的编码二、`ASCII`编码三、`Unicode`编码四、使用`ord()`函数查询一个字符对应的`Unicode`编码五、使用`chr()`函数查询一个`Unicode`编码对应的字符六、`Python`字符串的特征一、字符的编码计算机默认只能处理二进制数，而不能处
mac os 10.9 mysql_MAC OSX 10.9 apache php mysql 环境配置 AY05 mac os 10.9 mysql
＃终端内运行sudoapachectlstart#启动Apachesudoapachectlrestart#重启Apachesudoapachectlstop#停止Apache＃配置Apachesudovi/private/etc/apache2/httpd.conf#将里面的这一行去掉前面的##LoadModulephp5_modulelibexec/apache2/libphp5.so＃配置P
mac升级mysql_Mac OSX下的MySQL数据库升级 weixin_39801714 mac升级mysql
MacOSX下的数据库升级最麻烦的不过权限的问题.本文的MySQL的安装方式为OSX下DMG磁盘镜像的安装方式,MacPorts/Homebrew的方式大同小异.从5.6.17升级到5.7.18安装目录信息ls-al/usr/local|grepmysqllrwxr-xr-x1rootwheel30B52100:39mysql@->mysql-5.6.17-osx10.7-x86_64drwxr-
【MySQL】MySQL数据库如何改名武昌库里写JAVA 面试题汇总与解析 spring boot vue.js sql java 学习
MySQL建库授权语句https://www.jianshu.com/p/2237a9649ceeMySQL数据库改名的三种方法https://www.cnblogs.com/gomysql/p/3584881.htmlMySQL安全修改数据库名几种方法https://blog.csdn.net/haiross/article/details/51282417MySQL重命名数据库https://
大学社团管理系统（11831） codercode2022 java spring boot spring echarts spring cloud sentinel java-rocketmq
有需要的同学，源代码和配套文档领取，加文章最下方的名片哦一、项目演示项目演示视频二、资料介绍完整源代码（前后端源代码+SQL脚本）配套文档（LW+PPT+开题报告）远程调试控屏包运行三、技术介绍Java语言SSM框架SpringBoot框架Vue框架JSP页面Mysql数据库IDEA/Eclipse开发四、项目截图有需要的同学，源代码和配套文档领取，加文章最下方的名片哦!
python学习笔记（汇总）朕的剑还未配妥 python学习笔记整理 python 学习开发语言
文章目录一.基础知识二.python中的数据类型三.运算符四.程序的控制结构五.列表六.字典七.元组八.集合九.字符串十.函数十一.解决bug一.基础知识print函数字符串要加引号，数字可不加引号，如print(123.4)print('小谢')print("洛天依")还可输入表达式，如print(1+3)如果使用三引号，print打印的内容可不在同一行print("line1line2line
001 Configuration结构体构造盖世灬英雄z DramSys c++人工智能
目录DramSys代码分析1Configuration结构体构造1.1`from_path`函数详解1.2构造过程总结这种设计的好处2Simulator例化过程2.1instantiateInitiatorDramSys代码分析1Configuration结构体构造好的，我们来详细解释一下DRAMSysConfiguration.cpp文件中from_path函数的配置构造过程。这个文件是DRAM
运算符重载紫诺不离
+、-、*、/、++、--、==、！=、*->、&&、||...对于内置数据类型，编译器知道如何做运算，编译器不知道如何让两个类进行运算如果向让自定义数据类型进行+法运算，就需要重载+运算符在成员函数或者全局函数里，重写一个+法运算符的函数函数名operator+(){}运算符重载也可以提供多个版本加法运算符类名+operator+(){};例：成员函数classPerson{public:Per
SQL笔记纯干货 AI入门修炼 oracle 数据库 sql
软件：DataGrip2023.2.3，phpstudy_pro,MySQL8.0.12目录1.DDL语句（数据定义语句）1.1数据库操作语言1.2数据表操作语言2.DML语句（数据操作语言）2.1增删改2.2题2.3备份表3.DQL语句（数据查询语言）3.1查询操作3.2题一3.3题二4.多表详解4.1一对多4.2多对多5.多表查询6.窗口函数7.拓展:upsert8.sql注入攻击演示9.拆表
Ubuntu24安装MariaDB/MySQL后不知道root密码如何解决
Ubuntu24.04安装MariaDB后root密码未知？解决方案在此在Ubuntu24.04上新安装MariaDB后，许多用户会发现自己不知道root用户的密码，甚至在安装过程中也没有提示设置密码。这是因为在较新的MariaDB版本中，默认情况下root用户采用了unix_socket身份验证插件。这意味着您可以使用操作系统的root用户权限直接登录MariaDB，而无需输入密码。本文将为您详
mysql创建线程处理链接请求斜不靠谱
mysqld通过RUN_HOOK(server_state,before_handle_connection,(NULL));调用/**Threadhandlerforaconnection@paramargConnectionobject(Channel_info)Thisfunction(normally)doesthefollowing:-Initializethread//初始化线程-In
零数学基础理解AI核心概念：梯度下降可视化实战九章云极AladdinEdu 人工智能 gpu算力深度学习 pytorch python 语言模型 opencv
点击“AladdinEdu，同学们用得起的【H卡】算力平台”，H卡级别算力，按量计费，灵活弹性，顶级配置，学生专属优惠。用Python动画演示损失函数优化过程，数学公式具象化读者收获：直观理解模型训练本质，破除"数学恐惧症"当盲人登山者摸索下山路径时，他本能地运用了梯度下降算法。本文将用动态可视化技术，让你像感受重力一样理解AI训练的核心原理——无需任何数学公式推导。一、梯度下降：AI世界的"万有
OnJava8-学习分享（附资源）李超同学学习书籍 onjava8
本书是布鲁斯•埃克尔时隔15年，继ThinkinginJava之后又一力作，基于Java的3个长期支持版（Java8、11、17），讲解Java核心语法，并对Java的核心变化进行详述。全书内容通俗易懂，配合示例讲解逐步深入，并结合实际开发需要，从语言底层设计出发，有效帮读者规避一些常见的开发陷阱。主体部分共22章，内容包含对象、操作符、控制流、初始化和清理、复用、多态、接口、内部类、集合、函数式
C语言基础-数组和指针的区别阿部春光 C语言数据结构算法
在C语言中，数组和指针是两个密切相关但又有显著区别的概念。下面我会详细解释它们之间的区别和联系。区别数组和指针在C语言中虽然经常一起使用，但它们是两个不同的概念，具有一些关键的区别：本质不同：数组：数组是一种数据结构，用于存储固定数量的同类型元素的连续内存块。数组名在某些上下文中（如取地址操作或sizeof操作符）代表整个数组，但在其他上下文中（如作为函数参数或用于指针算术）通常退化为指向数组第一
xgboost原理茶尽
阅读XGBoost与BoostedTree基学习器：CART每个叶子节点上面有一个分数不够厉害，所以找一个更强的模型treeensemble对每个样本的预测结果是每棵树预测分数的和目标函数采用boosting（additivetraining）方法，每一次都加入一个新的函数。依赖每个数据点上的误差函数的一阶导数和二阶导（区别于GBDT）。树的复杂度复杂度包含了一棵树里面的叶子个数和输出分数的L2模
Navicat练习与实操（第九节课内容总结见下篇）咩? android 前端 sql
MySQL练习练习题目现在有以下四张表Student学生ID学生名字学生生日学生性别s_ids_names_births_sexCourse课程ID课程名字教师IDc_idc_namet_idTeacher教师ID教师名字t_idt_nameScore学生ID课程ID学生分数s_idc_ids_score1.对以上表格分别建表(要求：id为各个表的主键、其他字段非空设置默认值为、给表以及表中字段设
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe

mysql聚类函数_Mahout – Clustering (聚类篇)

你可能感兴趣的:(mysql聚类函数)