A little storm

简单详细解析PrefixSpan算法（附Python源码实现）

PrefixSpan算法详解

一、一些概念
二、PrefixSpan算法思想及其流程
三、Python代码实现
四、一个基于真实数据库的例子
五、PrefixSpan算法优缺点

本文为博主原创文章，转载请注明出处，并附上原文链接。

原文链接：https://blog.csdn.net/qq_39872846/article/details/106290802

引言： PrefixSpan算法的全称是Prefix-Projected Pattern Growth,即前缀投影的模式挖掘，也是一种关联规则挖掘算法，就像Apriori算法，Fp-Growth算法一样，它们都是挖掘某个出现次数频繁的东西。Apriori和FpGrowth算法都是挖掘频繁项集，而PrefixSpan算法挖掘的是频繁序列。

在以下的文章中，我不会直接把标准的数学语言搬上来，这种数学语言虽然很简洁，但太抽象了，如果您喜欢这种严谨的数学语言，可以去看看其他文章。后面我会尽力形象的描述一些相关概念，尽量把概念的意思结合图示来描述，重在理解，可能存在一些不严谨的地方，或者文字过于冗余，请大家多多包涵！

一、一些概念

1、项集和序列的关系

刚才说到频繁项集和频繁序列，PrefixSpan算法挖掘的是频繁序列，Apriori和FpGrowth算法都是挖掘频繁项集。先看两个表格：

左边的数据记录称为项集，右边的数据记录称为序列。(网上找的图，右边表格有些字母是蓝色的，不要理会这个，当蓝色不存在)
左边表格的第四条记录 b，e，f
右边表格的第四条记录 eg(af)cbc

看出什么不同了吗？右边表格出现了重复字母，而且有些被圆括号括了起来。
可以这样理解，左边表格的每一条记录称为项集（由不同字母组成）。右边表格的每一条记录，是由多个项集组成的，而且，组成序列的项集是有先后顺序的。

在形象一点，以超市的购物记录为例：

左边表格代表的含义是：每一条记录，都是某个顾客的一次购物信息，这个信息就是顾客购买的商品种类（我们不关心他买的数量，只关心种类）。有一点需要注意，不同的记录可能是由相同的人产生的，（也就是这些不同的购物记录，可以是同一个人在不同时间去这个超市购物，产生的购物信息）。比如，小红今天去超市购买了a，b，d，明天她又去这个超市购买的a，c，d，后天她还是去这个超市购买了a，d，e。于是就产生了3条购物信息，都来自同一人，对应到左边的表格中，就是前3条记录。我们把每条购物信息称为一个项集。
右边表格代表的含义是：不同的记录一定是不同的人产生的，4条记录就说明有4个不同的顾客来这个超市购物。如果这个人今天也来购物，明天也来，后天也来购物，我们就必须把这3次购物信息，放在同一条数据记录中。具体做法是，把同一次的所有购物信息用括号括起来，在按照她购物的时间排序。以刚才的小红举例，她在不同时间去了超市3次，就产生了3次购物信息，按照购物时间，那么形成的序列就是（abd)(acd)(ade)，也就是右边表格的第一条记录。在强调一下，不同记录，一定来自不同的顾客。

还有一个地方需要注意，在看一下刚才两个表格的第四条记录：
左边表格的第四条记录 b，e，f
右边表格的第四条记录 eg(af)cbc
您应当注意到了，右边的第四条记录有些怪异，我重新写一下右边表格的第四条记录：(e )(g )(af )(c )(b )(c )，现在我把括号加全了，意思应该很明显了，这条记录代表这个顾客总共来这家超市购物过6次，如果以后她又来这家超市购物，哪就把第7次的购物信息加到这条记录的后面，不能创建新的记录（不同记录一定是不同顾客产生的）。在标准定义中，如果这个顾客某次去超市购物，只买了一个商品，默认就不加括号了。如果买了两个或两个以上，就加括号（估计是嫌麻烦，所以这样规定的，看起来更简洁了，以后看到这样形式的要注意）。

总结：不同的序列由不同的顾客产生，每一条序列由多个项集有序排列。

2、前缀、前缀投影（前缀投影又称后缀）的概念、以及求某条记录的前缀投影

这个概念很简单，我直接以一个例子说明：
看这个表格：

为了清晰起见，我把括号加全，见下表格（和上面的表格完全一样，就是把括号加全了，防止混淆）：

SID	序列（sequence）
10	( a )( abc )( ac)( d )( cf )
20	( ad )( c )( bc )( ae )
30	( ef )( ab )( df) ( c )( b )
40	( e )( g )( af )( c )( b )( c )

(上面的每个括号都代表一个项集，代表一次购物记录，不同ID代表不同顾客)
比如，对上面的表格求（a）序列的前缀：如下表

前缀	前缀序列（后缀）
（a）	( abc )( ac)( d )( cf )
（a）	( _d )( c )( bc )( ae )
（a）	( _b )( df) ( c )( b )
（a）	( _f )( c )( b )( c )

求前缀投影的方法是：对每条数据记录，从头开始扫描，如果不是前缀就删除这个元素，如果这个元素和前缀相同，也删除这个元素，此时对这一条记录的扫描停止，并开始下一条数据记录的扫描。

==为什么出现了一个下划线 ‘_’ 呢？==下划线称为占位符。看这个例子，这条数据记录 ( ef )( ab )( df) ( c )( b )，求（a）的前缀，按照刚才所说，从头扫描，把和前缀不相同的都依次删除，第三个元素和前缀相同，都是 a，此时发现这个 a 所在的项集有2个及2个以上的元素（即 ab 在同一个项集内），那么，删除 a 后，要用一个占位符下划线，代替 a 的位置。
在看这个例子 ( a )( abc )( ac)( d )( cf )，求（a）的前缀时，第一个恰好和 a 相同，而且 a 所在的项集只有她1个元素，那么直接删除就好，不用加下划线。

当然也可以求 (a)(a) 这个序列的前缀投影，用标准数学语言，可以写为 aa，（前面说了，如果某个项集只用1个元素就不用加括号了，为了直观方便，我就加了括号），(a)(a) 的前缀投影见下表格：

前缀	前缀投影（后缀）
(a)(a)	( _bc )( ac)( d )( cf )
(a)(a)	( e )
(a)(a)
(a)(a)

(表格中有些没有 (a)(a) 序列的前缀投影，是空)

我不在详细介绍如何求一个长度大于1 的序列，它的前缀投影如何求，在 二、PrefixSpan算法思想及其流程 这个段落中，我会介绍如何用程序实现，其实本质就是递归，我们只要直到长度为1的序列，它的前缀投影如何求即可，如何逐次递归，叠加，就可以求出一个长度大于1 的序列，它的前缀投影。（看不懂这段没关系，后面会详细介绍）

二、PrefixSpan算法思想及其流程

PrefixSpan算法的目的是挖掘出满足最小支持度的频繁序列，和 Apriori算法类似，它是从长度为1的前缀开始挖掘序列模式，搜索对应的前缀投影数据库，得到长度为1的前缀对应的频繁序列，然后递归的挖掘长度为2的前缀所对应的频繁序列，依次类推。直到某个前缀的前缀投影数据库为空时，就结束。

以实际的例子来讲解这个算法流程，设最小支持度为2：
所用数据库如下：

SID	序列（sequence）
10	( a )( abc )( ac)( d )( cf )
20	( ad )( c )( bc )( ae )
30	( ef )( ab )( df) ( c )( b )
40	( e )( g )( af )( c )( b )( c )

（特意把括号加全，看起来更清楚了）

step1 ：
扫描整个数据库，找出所有不同的元素，结果如下：
a b c d e f g 共7个不同元素
在求出每个元素在表格中出现的次数（如果某个元素在同一条数据记录中出现多次，也只认为是出现了一次，例如 ( a )( abc )( ac)( d )( cf ) 这个序列，a元素在这条记录中，出现了多次，但是只记为出现1次），最后结果如下（数字代表出现次数）：

显然 g 元素出现的次数比2小，所以直接删除，g元素单独出现的次数少，那么任何含g元素的序列，出现次数也一定少。（Apriori两大定律）。

那么将g 元素从上面的数据库中删除，一个都不留，结果如下（就是把第4条记录的g直接删除了）：
（下表记为 数据库1号，我就随便起个编号，方便后续的一个概念说明，不要在意）

SID	序列（sequence）
10	( a )( abc )( ac)( d )( cf )
20	( ad )( c )( bc )( ae )
30	( ef )( ab )( df) ( c )( b )
40	( e )( af )( c )( b )( c )

step2 ：
对与这个新的数据库，依次以刚才的频繁元素为前缀，求其前缀投影，结果如下图：

前缀投影的表格中，空白的意思是，该记录没有这个前缀的前缀投影。
- step3 ：
现在我们开始挖掘频繁序列，以 a 的前缀投影数据库为例：
（下面是 a 的投影数据库，记为数据库2号，为了方便后续说明特意起的名字）

同样的，对这个新的数据记录，求她的所有不同的元素，并求出现次数，结果如下表：

可能您已经注意到了， _b 这个元素明明只出现了1次（就在第3条记录中），为什么我写的是 2 次呢？

回想一下，下划线是什么意思，它是怎么来到。前面讲过，下划线叫占位符，就是为前缀占的位，这个下划线其实代表的就是元素 a。我们的数据库2号是 a 的前缀投影，所以这个下划线才代表a，_b其实就是（ab) ，a和b在同一个项集内。
（假如我们的数据库2号是元素 c 的前缀投影数据库，那么下划线代表其实就是元素 c。）

在来看这个例子，_b出现了一次， ab也出现了1次，合起来自然就是2次了。

step4 ：
刚才我们求出了a的投影数据库，也就是数据库2号。并且求出了这个数据库中，所有的频繁元素，如下图：

（可以看到递归的影子了把）
同样的，执行和前面相同的操作，以这些频繁元素为前缀，依次求这个数据库2号的前缀投影数据库，结果如下（注意 _b 和 b可不一样，求前缀投影时要格外注意，仔细观察这个新的投影数据库，看看以 b 为前缀的投影，和以 _b为投影的数据库有什么区别。提示一下，刚才说过 _b也可以看为 ab）：

step5 ：
接着我们再次递归，这次选刚才的 d 为前缀的投影数据库为例：
（就是下面这个数据库，我记为数据库3号，为了方便后续说明特意起的名字）

可以明显看到，这个数据库的所有元素，其出现次数都小于2，即没有频繁元素了，因此递归到这就结束了，不在往下递归了。也就是这一个分支的递归结束了，就是不在继续往后走了，开始往前看了。

（我要用到刚才标记的数据库2号和数据库3号了，如果忘了，请在看一下这两个数据库是怎么产生的）

简单回忆一下：
数据库3号是以d为前缀产生的前缀投影数据库，并且这个数据库3号没有频繁元素。

数据库2号是以a为前缀的投影数据库。
数据库2号的频繁元素分别是：a，b， _b， c， d， f。

这时候，一个重要的思想来了。此时程序往回走，就能求出一组频繁序列。
对于这条分支，(a)(d)就是一个频繁序列，（a）也是一个频繁序列，。
（写的有点乱，看不懂上面的话没事，请继续往下看）

(a)(d)为什么是一个频繁序列呢？
是因为 a 和 d 都是各自的数据库中的频繁元素。在进一步思考，刚才我说数据库3号是 d 为前缀的投影数据库，其实是错的，数据库3号应该是 (a)(d) 为前缀的投影数据库，（别忘了数据库2号是以a为前缀的投影数据库，数据库3号是以d为前缀产生的前缀投影数据库，而数据库3号是由数据库2号产生的，所以说数据库3号应该是 (a)(d) 为前缀的投影数据库）

（a）也是一个频繁元素，这个很显然，因为它本来就是数据库2号的频繁元素。或者说，数据库2号的所有频繁元素，都分别是一个频繁序列。

在试想一种情况，假设数据库2号依旧是以a为前缀的投影数据库，现在有一个数据库4号，数据库4号是在数据库2号的基础上，以_b 为前缀，求出的前缀投影数据库。
那么此时，频繁序列就是 (ab) 和 (a)两个，【仔细看看，注意 (a)(b) 和 (ab) 的区别， (a)(b) 是指 a和b在不同项集， (ab) 指a和b在同一个项集】，这应该很容易理解，下划线本就是占位符，现在不过是把 a 又替换回来了，代表 ab 是处于同一个项集的。

（说的还是有点乱，看下面这张图应该更加清晰，下图是算法的某两个分支，从上往下看即可）
step6 ：
其他分支也是类似的过程，上图可以看到大量的相同操作，这些相同的操作就可以用递归表示。

到这里，整个算法流程基本讲述完毕了，就是一个不断递归求前缀投影数据库的过程，具体的代码下个段落。

三、Python代码实现

运行环境：python3.6 PyCharm编译器
先给出运行结果：(图太长了，就截一半图把)

python源码实现：

import copy     #用与深拷贝

def getElem(dataList):      #求出这个数据集的所有不同的元素
    elem = []
    for i in dataList[:]:
        for j in i[:]:
            for k in j[:]:
                if k not in elem:       #这个元素没有出现过，就添加如这个列表
                    elem.append(k)

    elem = sorted(elem)     #排序
    #print(elem)
    return elem

def deleteNotFreElem(data, notFreElem):     #从数据集中删除出现次数不频繁的元素
    if len(notFreElem) == 0:
        return

    for i in data[:]:
        for j in i[:]:
            for k in j[:]:
                if k in notFreElem:
                    x = data.index(i)
                    y = i.index(j)
                    z = j.index(k)          #上面3行，获取这个元素所在的位置
                    data[ x ][ y ].remove(k)        #获取到位置后，移除这个不频繁的元素
        while [] in i:
            i.remove([])       #要是删除后，某个项变为空列表，就删除这个空列表
    while [] in data:
        data.remove([])        #要是删除后，某个项变为空列表，就删除这个空列表

    #print(data)
    return

def getPrefixData(e, data): #得到前缀投影的数据库
    copyData = list(copy.deepcopy(data))    #要用深拷贝deepcopy，深拷贝是创建一块地址，内容和原来一样，但两个完全没联系
                                  #浅拷贝copy  只是地址不同，但一个变化，另一个可能会变化？在这个里面是
                                                #若列表里全是不可变元素，则浅拷贝和深拷贝差不多
    flage = 0 #一个标志变量                     #但若列表里包含可变元素，如字典，多维列表，等，那浅拷贝就不合适了，得用深拷贝
    for i in copyData[:]:
        for j in i[:]:
            for k in j[:]:
                if len(j) <= 1:     #如果这一行的某一个项，只有 1 个元素，若不相等直接去除就是了
                    if e != k:
                        j.remove(k)     #如果不是e就移除，直到 k==e 时，停止
                    else:
                        j.remove(k)
                        flage = 1   #一个标志变量，如果 k==e ，则设置为 1 ，此时退出循环，加入 下一条 数据，去除它的前缀
                        break
                else:
                    if e != k:
                        j.remove(k)
                    else:
                        j.remove(k)
                        j[0] = '_'+j[0]         #这一行的某一个项的元素个数不是1个，当 k==e 时，去掉k，并且要在前面加下划线 ‘_’
                        flage = 1
                        break
            while [] in i:
                i.remove([])    #在求后缀过程中，某个项集成了空，就删除这个空的，别让它占位置

            if flage == 1:
                flage = 0       #进入下一条数据时，要把它置0
                break
    while [] in copyData:
        copyData.remove([])             #在求后缀过程中，某个项集成了空，就删除这个空的，别让它占位置
    #print(copyData)
    return copyData

#得到elem中每个元素的新的数据集，（就是在这个dataList数据集中，依次去掉每个元素，形成的新的数据集，为了递归往下挖掘）
def getAllPrefixData( elem, prefixE, dataList):
    data1 = list(copy.deepcopy(dataList))   #深拷贝一封数据集
    allPrefixData = []  #是一个四维列表，每一列都是在原来的数据集中，去除prefixE这个前缀后形成的新的数据集

    for e in elem:
        if set('_').issubset(e):        #  例如 _e 和 e 可不是同一个元素，要分开讨论
            temp = useCycleGetPrefixData(e, prefixE, data1)
            allPrefixData.append(temp)
        else:
            temp2 = getPrefixData( e,data1)
            allPrefixData.append( temp2 )   #求出 e 的后缀数据库后，加入这个类别

    return allPrefixData

#求某个前缀的 频繁元素 与 非频繁元素
def useCycleGetFreElem(dataList, prefixE, elem, minsup):     #如果是第一次循环，没有前缀，那么 prefixE就置为 -1

    elemsup = {}    #存放每个不同元素的出现次数，要尤其注意 _e  和 e 的区别
    for e in elem:
        for i in dataList[:]:
            for j in i:
                if set('_').issubset(e):      #  _e  和 e 的区别，   想想下划线是怎么来的，就是某个项集有2个元素及以上时，前缀字母删除后，加的下划线，这个下划线其实就是这个前缀字母
                    temp = e[1]
                    if set([prefixE, temp]).issubset(set(j)):   #当有下划线时，要格外注意，这个时候对 _e 计数，要看当前字面上一个元素是不是前缀元素，如果是，_e加1
                        elemsup[e] = elemsup.get(e, 0) + 1
                if e in j:
                    elemsup[e] = elemsup.get(e, 0) + 1
                    break
    #print(elemsup)
    freElem = []
    notFreElem = []
    for i in elemsup.keys():
        if elemsup[i] >= minsup:    #分辨频繁元素和非频繁元素
            freElem.append(i)
        else:
            notFreElem.append(i)
    #print(freElem)
    #print(elemsup)
    return freElem, notFreElem

def useCycleGetPrefixData(e,prefixE, data):  #这个是在带前缀的情况下，求某元素的投影
    copyData = list(copy.deepcopy(data))    #要用深拷贝deepcopy，深拷贝是创建一块地址，内容和原来一样，但两个完全没联系

    flage = 0   #标志变量，如果为1，表示循环要进入下一条数据记录
    for i in copyData[:]:
        for j in i[:]:
            if set('_').issubset(e):
                if set([prefixE, e[1]]).issubset(set(j)):   #下划线本来就是一个占位符，表示前缀字母，现在又变回来了了
                    for l in j[:]:
                        if (l == prefixE) or (l == e[1]):   #如果这个 两个字母 整体 在这个项集里，就把这个整体都移除，形成下一个前缀的投影，也就是新的数据记录
                            j.remove(l)
                    break
            for k in j[:]:
                if len(j) <= 1:
                    if e != k:
                        j.remove(k)
                    else:
                        j.remove(k)
                        flage = 1
                        break
                else:
                    if e != k:
                        j.remove(k)
                    else:
                        j.remove(k)
                        j[0] = '_'+j[0]
                        flage = 1
                        break
            while [] in i:
                i.remove([])

            if flage == 1:
                flage = 0
                break
    while [] in copyData:
        copyData.remove([])
    #print(copyData)
    return copyData


def cycleGetFreElem(preFixData, e, minsup):     #递归调用，求出频繁序列
    copyPreFixData = list(copy.deepcopy(preFixData))
    allFreSequence = [  ]    #存放这个项集的所有频繁序列,然后返回

    allElem = getElem(copyPreFixData)  #返回所有 单个 元素
    #print(allElem)
    freElem, notFreElem = useCycleGetFreElem(copyPreFixData, e, allElem, minsup)    #求某个前缀数据库的频繁元素，和GetFreElem基本一样，就是多了个参数
    #print(freElem, notFreElem)
    deleteNotFreElem(copyPreFixData, notFreElem)    #从数据集删除非频繁元素
    thisAllPrefixData = getAllPrefixData(freElem, e, copyPreFixData)    #得到这个元素的投影数据库，这个函数是为了循环专用的函数
    #print(thisAllPrefixData)

    for x in freElem:
        if set('_').issubset(set(x)):   #有下划线就把下划线在换为前缀字母，这个整体是在一起的
            newElem = [     [e , x[1]]    ]
            allFreSequence.append( newElem )    #生成频繁序列
        else:
            temp2 = [[e],[x]]       #没下划线，就分开放，在同一个序列，但是不在同1个项集
            allFreSequence.append( temp2 )      #生成频繁序列，加入

    lengthFreElem = len(freElem)
    for i in range(lengthFreElem):
        temp = cycleGetFreElem(thisAllPrefixData[i], freElem[i], minsup)    #递归调用，求下一个前缀的频繁序列，返回它的频繁序列
        for x in temp:  # x 就是表示它的前缀，是一个序列
            if set('_').issubset(x[0][0]):      #如果有下划线一定在最前面
                t = copy.deepcopy(x)
                t[0] = [e , str(t[0][0])[1] ]   #有下划线就把下划线在换为 前缀字母，这个整体是在一起的
                allFreSequence.append( t )
            else:
                t2 = copy.deepcopy(x)
                t2.insert(0, [e])   #没有下划线，就把前缀放入第一个位置
                allFreSequence.append(t2)

        #allFreElem.append(list(temp))
    #print(allFreSequence)
    return allFreSequence

def prefixSpan(dataList, minsup = 2):       #prefixSpan流程
    elem = getElem( dataList )  #得到数据集中所有不同的元素
    freElem, notFreElem = useCycleGetFreElem(dataList,'-1', elem, minsup)   #返回的是列表，不含支持度,一个是频繁项，一个是非频繁项，没有前缀就把 prefixE这个变量置为-1
    #print(freElem, notFreElem)         #  ['a', 'b', 'c', 'd', 'e', 'f'] ['g']
    deleteNotFreElem(dataList, notFreElem)      #从数据集中删除不频繁的元素
    #print(dataList)
    allPrefixData = getAllPrefixData(freElem, '-1' , dataList)      #返回每个频繁元素的后缀数据库，用一个4维列表表示
    #print(allPrefixData)

    allfreSequence = {}     #收集所有的频繁序列
    allListFreSequence = []      #也是收集所有的频繁序列，不过是列表表示，为了输出好看点，特意弄的
    lengthFreElem = len(allPrefixData)
    for x in range(lengthFreElem):
        l = cycleGetFreElem(allPrefixData[x], freElem[x], minsup)   #循环递归，得到频繁序列
        l.insert(0, [[freElem[x]]])     #把当前循环的前缀字母放入列表最前面
        #print(l)
        allfreSequence[freElem[x]] = l
        allListFreSequence.append(l)#收集所有的频繁序列，不过是用列表表示，为了输出好看点，特意弄的，当然你可以不用写

    for lengthE in range(lengthFreElem):    #这就是一个输出，我为了输出好看一点才加的，嫌麻烦就不用写下面这个循环了
        print(freElem[lengthE],'这个前缀的，它的频繁序列见下面--------------->>>>>>>>>>')
        for x in allListFreSequence[lengthE]:
            print(x)

    #print(allfreSequence)
    return allfreSequence


if __name__ == '__main__':

    #所用数据库如下
    mydata = [
        [['a'], ['a', 'b', 'c'], ['a', 'c'], ['d'], ['c', 'f']      ],
        [['a', 'd'], ['c'], ['b', 'c'], ['a', 'e']			        ],
        [['e' ,'f'] , ['a', 'b'], ['d', 'f'] , ['c'] ,['b']	    ],
        [['e'], ['g'] ,['a', 'f'] , ['c'] ,['b'] ,['c']		    ],
    ]
    minsup = 2
    q = prefixSpan( mydata, minsup )

    # for x in q:   #输出
    #     print(x,'::', q[x])

四、一个基于真实数据库的例子

（我这里还有一个模拟的数据库，从网上下载的，比文章讲述的例子数据量更大一些，而且我们需要对这个数据库进行一些处理才可以使用，我将上文的python算法做了一些改变，增加了一些函数，用来处理这种真实的数据库，从中挖掘频繁序列）
数据库下载链接：https://download.csdn.net/download/qq_39872846/12451382

python算法如下：（大部分和前面的差不多，就加了几个处理数据库的函数）

import copy

def mergeData(originData):      #合并原始的数据集， 返回一个合并后的数据集（1个用户可能会在不同时间多次去该超市购买物品。
                                                                # 我们现在就是将他所有产生的购买记录，合并为一个偏序集合）
    dataList = []               #偏序就是 与 时间有关的序列， 按时间顺序排序，同一个时间购买的物品用括号括起来

    i = 1   #dataList的列表中，第一行是表头，所以跳过
    allId = {}  #合并数据时，需要记录不同用户所在的位置（即合并后，这个用户产生的数据在第几行），因为你不知道用户会在什么时候再来买东西。
                                # 所以用字典记录，以后遇到这个用户后，就查询字典，看他的数据在第几行，#我们在把他这次的数据记录插进去
    count = 0 #表示，目前我们处理到第几行数据了，就是指向记录的指针
    length = len(originData)
    while(i<length):    # 记录没循环完，就不退出循环
        id = originData[i][0]           #获取id       观察这一个列表，发现 第0个元素是id， 第2个元素是 次数  第4个元素是item    第1、3、5就是制表符和换行符
        time = int(originData[i][2])    #获取time 用户第几次购买
        item = originData[i][4]         #购买的什么东西

        if id not in allId.keys():      #该用户以前没有购买过商品，第一次购买，那我就创建一个属于他的一个列表，以后每次购买时，就在这条列表中添加商品种类
            allId[id] = count       #记录这个用户在第几行 count是一个计数，表示目前总客户的数量，从0开始算
            dataList.append([])
            count = count + 1

        if time > len( dataList[ allId[id] ] ):    #用户会多次来购买，每次购买，就创建一个列表存放他这次购买的商品，按照时间把他买的商品加在属于他的那一行，
            dataList[ allId[id] ].append([])

        dataList[ allId[id] ][ time-1 ].append(item)    #按照时间把他买的商品加在属于他的那一
        i = i+1     #指向下一条记录
    return dataList

def getElem(dataList):      #求出这个数据集的所有不同的元素
    elem = []
    for i in dataList[:]:
        for j in i[:]:
            for k in j[:]:
                if k not in elem:       #这个元素没有出现过，就添加如这个列表
                    elem.append(k)

    elem = sorted(elem)     #排序
    #print(elem)
    return elem

def getFreElem(dataList, elem, minsup):     #得到出现次数频繁的元素，以及不频繁的元素。大于最小支持度就是频繁元素

    elemsup = {}
    for e in elem:
        for i in dataList[:]:
            for j in i:
                if e in j:
                    elemsup[e] = elemsup.get(e, 0) + 1          #统计每个元素在总记录总出现的次数，在同1条数据记录中出现多次，依旧认为是出现1次
                    break
    freElem = []
    notFreElem = []
    for i in elemsup.keys():
        if elemsup[i] >= minsup:        #如果出现次数大于等于最小支持度，就可以说是频繁元素
            freElem.append(i)
        else:
            notFreElem.append(i)        #收集不频繁的元素
    #print(freElem)
    #print(elemsup)
    return freElem, notFreElem

def deleteNotFreElem(data, notFreElem):     #从数据集中删除出现次数不频繁的元素
    if len(notFreElem) == 0:
        return

    for i in data[:]:
        for j in i[:]:
            for k in j[:]:
                if k in notFreElem:
                    x = data.index(i)
                    y = i.index(j)
                    z = j.index(k)          #上面3行，获取这个元素所在的位置
                    data[ x ][ y ].remove(k)        #获取到位置后，移除这个不频繁的元素
        while [] in i:
            i.remove([])       #要是删除后，某个项变为空列表，就删除这个空列表
    while [] in data:
        data.remove([])        #要是删除后，某个项变为空列表，就删除这个空列表
    #print(data)
    #print('1111111111111111')
    return

def getPrefixData(e, data):
    copyData = list(copy.deepcopy(data))    #要用深拷贝deepcopy，深拷贝是创建一块地址，内容和原来一样，但两个完全没联系
                                  #浅拷贝copy  只是地址不同，但一个变化，另一个可能会变化？在这个里面是
                                                #若列表里全是不可变元素，则浅拷贝和深拷贝差不多
    flage = 0 #一个标志变量                     #但若列表里包含可变元素，如字典，多维列表，等，那浅拷贝就不合适了，得用深拷贝
    for i in copyData[:]:
        for j in i[:]:
            for k in j[:]:
                if len(j) <= 1:     #如果这一行的某一个项，只有 1 个元素，若不相等直接去除就是了
                    if e != k:
                        j.remove(k)     #如果不是e就移除，直到 k==e 时，停止
                    else:
                        j.remove(k)
                        flage = 1   #一个标志变量，如果 k==e ，则设置为 1 ，此时退出循环，加入 下一条 数据，去除它的前缀
                        break
                else:
                    if e != k:
                        j.remove(k)
                    else:
                        j.remove(k)
                        j[0] = '_'+j[0]         #这一行的某一个项的元素个数不是1个，当 k==e 时，去掉k，并且要在前面加下划线 ‘_’
                        flage = 1
                        break
            while [] in i:
                i.remove([])    #在求后缀过程中，某个项集成了空，就删除这个空的，别让它占位置

            if flage == 1:
                flage = 0       #进入下一条数据时，要把它置0
                break
    while [] in copyData:
        copyData.remove([])             #在求后缀过程中，某个项集成了空，就删除这个空的，别让它占位置
    #print(copyData)
    return copyData

#得到elem中每个元素的新的数据集，（就是在这个dataList数据集中，依次去掉每个元素，形成的新的数据集，为了递归往下挖掘）
def getAllPrefixData( elem, prefixE, dataList):
    data1 = list(copy.deepcopy(dataList))   #深拷贝一封数据集
    allPrefixData = []  #是一个四维列表，每一列都是在原来的数据集中，去除prefixE这个前缀后形成的新的数据集

    for e in elem:
        if set('_').issubset(e):        #  例如 _e 和 e 可不是同一个元素，要分开讨论
            temp = useCycleGetPrefixData(e, prefixE, data1)
            allPrefixData.append(temp)
        else:
            temp2 = getPrefixData( e,data1)
            allPrefixData.append( temp2 )   #求出 e 的后缀数据库后，加入这个类别

    return allPrefixData

#求某个前缀的 频繁元素 与 非频繁元素
def useCycleGetFreElem(dataList, prefixE, elem, minsup):     #  和getFreElem不同，在个是求，在某个前缀的前提下，求支持度

    elemsup = {}    #存放每个不同元素的出现次数，要尤其注意 _e  和 e 的区别
    for e in elem:
        for i in dataList[:]:
            for j in i:
                if set('_').issubset(e):      #  _e  和 e 的区别，   想想下划线是怎么来的，就是某个项集有2个元素及以上时，前缀字母删除后，加的下划线，这个下划线其实就是这个前缀字母
                    temp = e[1]
                    if set([prefixE, temp]).issubset(set(j)):   #当有下划线时，要格外注意，这个时候对 _e 计数，要看当前字面上一个元素是不是前缀元素，如果是，_e加1
                        elemsup[e] = elemsup.get(e, 0) + 1
                    #print('22222222222222')
                if e in j:
                    elemsup[e] = elemsup.get(e, 0) + 1
                    break
    #print(elemsup)
    freElem = []
    notFreElem = []
    for i in elemsup.keys():
        if elemsup[i] >= minsup:    #分辨频繁元素和非频繁元素
            freElem.append(i)
        else:
            notFreElem.append(i)
    #print(freElem)
    #print(elemsup)
    return freElem, notFreElem

def useCycleGetPrefixData(e,prefixE, data):  #这个是在带前缀的情况下，求某元素的投影
    copyData = list(copy.deepcopy(data))    #要用深拷贝deepcopy，深拷贝是创建一块地址，内容和原来一样，但两个完全没联系

    flage = 0   #标志变量，如果为1，表示循环要进入下一条数据记录
    for i in copyData[:]:
        for j in i[:]:
            if set('_').issubset(e):
                if set([prefixE, e[1]]).issubset(set(j)):   #下划线本来就是一个占位符，表示前缀字母，现在又变回来了了
                    for l in j[:]:
                        if (l == prefixE) or (l == e[1]):   #如果这个 两个字母 整体 在这个项集里，就把这个整体都移除，形成下一个前缀的投影，也就是新的数据记录
                            j.remove(l)
                    break
            for k in j[:]:
                if len(j) <= 1:
                    if e != k:
                        j.remove(k)
                    else:
                        j.remove(k)
                        flage = 1
                        break
                else:
                    if e != k:
                        j.remove(k)
                    else:
                        j.remove(k)
                        j[0] = '_'+j[0]
                        flage = 1
                        break
            while [] in i:
                i.remove([])

            if flage == 1:
                flage = 0
                break
    while [] in copyData:
        copyData.remove([])
    #print(copyData)
    return copyData


def cycleGetFreElem(preFixData, e, minsup):
    copyPreFixData = list(copy.deepcopy(preFixData))
    allFreSequence = [  ]    #存放这个项集的所有频繁序列,然后返回

    allElem = getElem(copyPreFixData)  #返回所有 单个 元素
    #print(allElem)
    freElem, notFreElem = useCycleGetFreElem(copyPreFixData, e, allElem, minsup)    #求某个前缀数据库的频繁元素，和GetFreElem基本一样，就是多了个参数
    #print(freElem, notFreElem)
    deleteNotFreElem(copyPreFixData, notFreElem)    #从数据集删除非频繁元素
    thisAllPrefixData = getAllPrefixData(freElem, e, copyPreFixData)    #得到这个元素的投影数据库，这个函数是为了循环专用的函数
    #print(thisAllPrefixData)

    for x in freElem:
        if set('_').issubset(set(x)):   #有下划线就把下划线在换为前缀字母，这个整体是在一起的
            newElem = [     [e , x[1]]    ]
            allFreSequence.append( newElem )    #生成频繁序列
        else:
            temp2 = [[e],[x]]       #没下划线，就分开放，在同一个序列，但是不在同1个项集
            allFreSequence.append( temp2 )      #生成频繁序列，加入

    lengthFreElem = len(freElem)
    for i in range(lengthFreElem):
        temp = cycleGetFreElem(thisAllPrefixData[i], freElem[i], minsup)    #递归调用，求下一个前缀的频繁序列，返回它的频繁序列
        for x in temp:  # x 就是表示它的前缀，是一个序列
            if set('_').issubset(x[0][0]):      #如果有下划线一定在最前面
                t = copy.deepcopy(x)
                t[0] = [e , str(t[0][0])[1] ]   #有下划线就把下划线在换为 前缀字母，这个整体是在一起的
                allFreSequence.append( t )
            else:
                t2 = copy.deepcopy(x)
                t2.insert(0, [e])   #没有下划线，就把前缀放入第一个位置
                allFreSequence.append(t2)

        #allFreElem.append(list(temp))
    #print(allFreSequence)
    #print('ppppppppppppppppppppppppppp')
    return allFreSequence

def prefixSpan(dataList, minsup = 2):
    elem = getElem( dataList )  #得到数据集中所有不同的元素
    freElem, notFreElem = getFreElem(dataList, elem, minsup) #返回的是列表，不含支持度,一个是频繁项，一个是非频繁项
    #print(freElem, notFreElem)         #  ['a', 'b', 'c', 'd', 'e', 'f'] ['g']
    deleteNotFreElem(dataList, notFreElem)      #从数据集中删除不频繁的元素
    #print(dataList)
    allPrefixData = getAllPrefixData(freElem, '-1' , dataList)      #返回每个频繁元素的后缀数据库，用一个4维列表表示
    #print(allPrefixData)

    allfreSequence = {}     #收集所有的频繁序列
    allListFreSequence = []  # 也是收集所有的频繁序列，不过是列表表示，为了输出好看点，特意弄的
    lengthFreElem = len(allPrefixData)
    for x in range(lengthFreElem):
        l = cycleGetFreElem(allPrefixData[x], freElem[x], minsup)   #循环递归得到频繁序列
        l.insert(0, [[freElem[x]]])
        #print(l)
        allfreSequence[freElem[x]] = l
        allListFreSequence.append(l)  # 收集所有的频繁序列，不过是用列表表示，为了输出好看点，特意弄的，当然你可以不用写

    for lengthE in range(lengthFreElem):
        print(freElem[lengthE],'这个前缀，它的频繁序列见下面--------------->>>>>>>>>>')
        for x in allListFreSequence[lengthE]:
            print(x)
    #print(allfreSequence)
    return allfreSequence


if __name__ == '__main__':

    with open("runcase.txt", "r") as f:
        originDataList = f.readlines()  #获取原始数据，事务数据库，  用列表存储
    f.close()
    #print(dataList)
    #print(originDataList[1][4])    [1	2	3]   [1][4]=3    [1][0]=1   [1][2] = /t

    dataList = mergeData(originDataList)    #得到合并后的数据集， 是个3重列表
    #print(dataList)

    minsup = 2
    dictE = prefixSpan( dataList, minsup)
    # for x in dictE:
    #     print(x, '::', dictE[x])


'''
整理后的数据集就是下面这个
[   
    [   ['1', '4', '5'], ['2', '3', '6'], ['1', '4'], ['1', '2', '6'], ['1', '4', '6']  ],
    [   ['3', '4'], ['1', '2', '3', '6'], ['3', '4', '5'], ['6'], ['2', '5', '6'], ['1', '4', '6']  ],
    [   ['1', '3', '4'], ['1', '2', '6'], ['4'], ['2', '3', '5'], ['3', '4', '5'], ['2', '4']   ]
]
'''

五、PrefixSpan算法优缺点

PrefixSpan算法由于不用产生候选序列，且投影数据库缩小的很快，内存消耗比较稳定，作频繁序列模式挖掘的时候效果很高。比起其他的序列挖掘算法有较大优势。
PrefixSpan运行时最大的消耗在递归的构造投影数据库。如果序列数据集较大，项数种类较多时，算法运行速度会有明显下降。

由于本人学识尚浅，文章中的讲解和代码难免会有错误，还请大家指正，本人不胜感激！

你可能感兴趣的:(数据挖掘算法详解)

数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
数据挖掘算法：KNN、SVM、决策树详解大力出奇迹985 数据挖掘算法支持向量机
本文将详细解析数据挖掘领域中常用的三种经典算法：KNN（K近邻算法）、SVM（支持向量机）和决策树。首先分别阐述每种算法的核心原理、实现步骤，再分析它们的优缺点及适用场景，最后对这三种算法进行综合对比与总结。通过本文，读者能全面了解这三种算法的特性，为实际数据挖掘任务中算法的选择提供参考，助力提升数据处理与分析的效率和准确性。在当今信息爆炸的时代，数据挖掘技术在各行各业发挥着至关重要的作用，而算法
【LeetCode】算法详解#8 ---螺旋矩阵 Fanxt_Ja 算法算法 leetcode 矩阵 java 辅助空间
1.题目介绍给定一个m行n列的矩阵matrix，请按照顺时针螺旋顺序，返回矩阵中的所有元素。提示：m==matrix.lengthn==matrix[i].length1spiralOrder(int[][]matrix){intm=matrix.length;intn=matrix[0].length;//定义临时数组记录访问位置int[][]temp=newint[matrix.length]
强化学习入门三（SARSA）第六五签算法模型算法人工智能
SARSA算法详解SARSA是强化学习中另一种经典的时序差分（TD）学习算法，与Q-Learning同属无模型（model-free）算法，但在更新策略上有显著差异。SARSA的名称来源于其更新公式中涉及的五个元素：状态（State）、动作（Action）、奖励（Reward）、下一状态（NextState）、下一动作（NextAction），即(S,A,R,S’,A’)。SARSA与Q-Lear
Python爬虫实战：研究flanker相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 flanker
1.引言1.1研究背景与意义在当今信息爆炸的时代，互联网上的数据量呈现出指数级增长的趋势。如何从海量的网页数据中高效地获取有价值的信息，成为了一个重要的研究课题。网络爬虫作为一种自动获取网页内容的技术，能够帮助用户快速、准确地收集所需的信息，因此在信息检索、数据挖掘、舆情分析等领域得到了广泛的应用。Flanker技术是一种基于文本分析的信息提取技术，它能够从非结构化的文本中识别和提取出特定类型的信
Python hamming distance汉明距离算法详解及源码猿来如此yyy Python算法详解及源码算法 python 数据库人工智能服务器前端
Hamming距离是一种用于比较两个等长字符串之间的差异的度量方法。它被定义为两个字符串对应位置上不同字符的个数。换言之，它衡量的是将一个字符串变成另一个字符串所需要进行的最小替换操作次数。Hamming距离算法的优点包括：简单易实现：只需要比较字符串对应位置上的字符是否相同即可，算法逻辑较为简单。高效：算法的时间复杂度为O(n)，其中n为字符串的长度。Hamming距离算法的缺点包括：只适用于等
数据分析概念和总结小小少年Boy
参考：什么是数据分析？总结：决策=数据+分析数据分析的框架：明确分析目标、数据收集、数据清理、数据分析、数据报告、执行与反馈数据分析与数据挖掘，前者偏向于业务分析，后者偏向于数据库算法，借助数据来指导决策数据分析的框架1.首先是数据分析的目的性极强区别于数据挖掘的找关联、分类、聚类，数据分析更倾向于解决现实中的问题。我想解决什么问题？通过这次的分析能让我产生什么决策？比如是否在某个高校举办一场活动
高省没有邀请码怎么注册？高省app总部邀请码是什么？日常购物技巧呀
基于第三方电商平台海量数据挖掘与分析，“高省”APP通过内容制作、分享等方式，为消费者打通吃喝玩乐购全场景全业态，让消费者省心省钱省时省力，为平台和品牌方导流创造收入，拓展了商家新的销售渠道。高省app逐渐构筑起了集各大主流电商平台，外卖平台，旅游、票务、出行、加油等高频生活服务全场景的线上生活商城。高省是正规平台吗？高省还能做吗？最新资讯【高省】分会员和运营商，会员定位是自用的，而运营是针对推广
生信数据挖掘+实验验证 | 鉴定RECK基因为胃癌的保护性预后指标和肿瘤抑制因子（抑制ERK/MAPK 信号通路）生信宝库
前言image.png据相关统计，胃癌(GC)在所有癌症中的发生率位居第五位，相关死亡率排第四位。大多数GC患者在诊断时已处于晚期并发生肿瘤转移，导致预后不佳，5年总生存率低于30%。因此，迫切需要找到用于早期诊断和治疗的特异性、敏感性预后相关分子标志物，并阐明GC发生和转移的分子机制。本研究旨在探索RECK作为预后分子标志物的潜力，并揭示其在肿瘤发生和转移中的潜在机制。RECK（具有Kazal基
Floyd算法详解——包括解题步骤与编程 HOLD ON! 算法
Floyd算法详解——包括解题步骤与编程SweeNeil展开一、Floyd算法原理Floyd算法是一个经典的动态规划算法，它又被称为插点法。该算法名称以创始人之一、1978年图灵奖获得者、斯坦福大学计算机科学系教授罗伯特·弗洛伊德命名。Floyd算法是一种利用动态规划的思想寻找给定的加权图中多源点之间最短路径的算法,算法目标是寻找从点i到点j的最短路径。从任意节点i到任意节点j的最短路径不外乎2种
算法入门：BFS与DFS详解（C++实现） Jay_515 算法算法
深度优先与广度优先是算法世界的两大基石，掌握它们如同获得探索算法宇宙的钥匙一、初识BFS与DFS什么是BFS和DFS？BFS（广度优先搜索）：逐层遍历数据结构，先访问离起点最近的节点DFS（深度优先搜索）：沿着分支深入到底部，再回溯探索其他分支核心应用场景算法典型应用场景BFS最短路径问题、社交网络好友推荐、连通块分析DFS路径存在性判断、拓扑排序、解决回溯问题、图连通性检测二、BFS算法详解算法
厌氧菌数据挖掘可行性评估报告 pk_xz123456 算法 python 数据挖掘人工智能深度学习超分辨率重建数学建模神经网络
厌氧菌数据挖掘可行性评估报告前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家，觉得好请收藏。点击跳转到网站。1.项目概述本报告旨在评估使用Python从两个目标网站（https://www.dbdata.com/和https://pubmed.ncbi.nlm.nih.gov/）爬取20种厌氧菌的培养基、培养条件及文献来源信息的可行性。客户希望构建一个网站，使用户能
【Python-网络爬虫】爬虫的基础概念介绍敖云岚 python 爬虫开发语言
目录一、爬虫的介绍1.1爬虫的概念1.2爬虫的作用1.搜索引擎数据索引2.商业数据采集与分析3.舆情监控与社交分析4.学术研究与数据挖掘5.信息聚合与服务优化二、爬虫的分类三、爬虫的基本流程3.1基本流程3.2Robots协议一、爬虫的介绍1.1爬虫的概念爬虫的概念：通过模拟浏览器发送请求，从而获取响应1.2爬虫的作用1.搜索引擎数据索引搜索引擎如Google、百度等依赖爬虫技术构建庞大的网页索引
Java垃圾回收算法详解：从基础到高级全面解析
文章目录一、垃圾回收概述1.1为什么需要垃圾回收1.2垃圾回收的基本原理二、对象存活判断算法2.1引用计数法（ReferenceCounting）2.2可达性分析算法（ReachabilityAnalysis）三、垃圾回收算法分类3.1标记-清除算法（Mark-Sweep）3.2复制算法（Copying）3.3标记-整理算法（Mark-Compact）3.4分代收集算法（GenerationalC
机器学习从入门到实践：算法、特征工程与模型评估详解
目录摘要1.引言2.机器学习概述2.1什么是机器学习？2.2机器学习的发展历史2.3机器学习的应用3.机器学习算法分类3.1监督学习（SupervisedLearning）3.2无监督学习（UnsupervisedLearning）3.3半监督学习（Semi-SupervisedLearning）4算法详解4.1分类算法详解（1）逻辑回归（LogisticRegression）（2）决策树（Dec
数据挖掘实战-基于随机森林算法的空气质量污染预测模型艾派森数据挖掘实战合集信息可视化人工智能 python 数据挖掘随机森林
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍3.技术工具4.实验过程
KNN 算法进阶：从基础到优化的深度解析二向箔reverse 人工智能机器学习
在机器学习的广袤领域中，K-近邻算法（K-NearestNeighbors,KNN）以其简洁直观的理念，宛如一颗璀璨的明星，照亮了无数初学者踏入机器学习大门的道路。自1951年由EvelynFix和JosephHodges创立，并经ThomasCover进一步完善以来，KNN算法凭借其独特的魅力，在数据挖掘、推荐系统、物联网等众多领域发挥着中流砥柱的作用，成为了监督学习算法家族中不可或缺的一员。一
数据科学与大数据技术专业的核心课程体系及发展路径全解析 YangYang9YangYan 大数据
CDA数据分析师证书含金量高，适应了未来数字化经济和AI发展趋势，难度不高，行业认可度高，对于找工作很有帮助。一、课程体系三维地图二、核心课程能力矩阵课程模块关键技能行业应用场景工具链分布式计算Spark调优用户行为日志分析AWSEMR/Databricks数据挖掘特征工程金融反欺诈模型Scikit-learn实时数据处理Flink窗口计算物联网设备监控Kafka+Flink数据治理元数据管理企业
Python 爬虫进阶：优化代码设计，实现高效爬取与存储
随着数据的不断增多，爬虫技术已成为数据获取和数据挖掘中不可或缺的一部分。对于简单的爬虫来说，代码实现相对简单，但当爬取目标网站的数据量增大时，如何优化代码设计、提高爬取效率、确保数据的准确存储和避免被封禁，就成了爬虫开发中的关键问题。本篇文章将深入探讨如何优化Python爬虫的设计，主要关注以下几个方面：高效的网页爬取：如何提升爬虫的抓取效率。代码模块化设计：如何将爬虫任务拆解成可复用的模块。并发
数据挖掘领域经典算法——CART算法丨程序之道丨
简介CART与C4.5类似，是决策树算法的一种。此外，常见的决策树算法还有ID3，这三者的不同之处在于特征的划分：ID3：特征划分基于信息增益C4.5：特征划分基于信息增益比CART：特征划分基于基尼指数基本思想CART假设决策树是二叉树，内部结点特征的取值为“是”和“否”，左分支是取值为“是”的分支，右分支是取值为“否”的分支。这样的决策树等价于递归地二分每个特征，将输入空间即特征空间划分为有限
Day 17: 常见的聚类算法
聚类算法聚类算法是一种无监督学习技术，用于将数据集中的相似对象分组到不同的类别（称为“簇”）中，而不需要预先定义的标签。其核心目标是：同一簇内的数据点尽可能相似（高内聚性），不同簇之间的数据点尽可能不同（高分离性）。聚类广泛应用于数据挖掘、模式识别、图像处理等领域，如客户细分、文档分类或异常检测。聚类算法的基本原理聚类依赖于相似度度量（如欧氏距离）来评估数据点之间的接近程度。假设数据集包含nnn个
量化投资革命：卫星图像数据如何提升价值投资准确率 AI量化价值投资入门到精通 ai
量化投资革命：卫星图像数据如何提升价值投资准确率关键词：量化投资、卫星图像数据、价值投资、准确率提升、数据挖掘摘要：本文聚焦于量化投资领域，深入探讨卫星图像数据在提升价值投资准确率方面的关键作用。首先介绍量化投资与价值投资的背景，引出卫星图像数据的引入。接着详细阐述卫星图像数据的核心概念、与投资的联系以及数据处理的核心算法原理。通过数学模型和公式分析其如何助力投资决策。结合实际项目案例展示卫星图像
Scikitlearn：Python机器学习库 AI天才研究院 AI人工智能与大数据 AI大模型企业级应用开发实战 AI实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
-Scikit-learn：Python机器学习库1.背景介绍1.1什么是Scikit-learnScikit-learn是一个基于Python语言的开源机器学习库。它建立在NumPy、SciPy和matplotlib等优秀的科学计算库之上,为用户提供了一系列高效的数据挖掘和数据分析工具,涵盖了分类、回归、聚类、降维、模型选择和预处理等机器学习的各个方面。Scikit-learn的目标是提供一个高
【JS逆向基础】script框架是星凡呢 python与JS逆向 javascript 开发语言 ecmascript python JS逆向
scrapy框架1，基本介绍Scrapy一个开源和协作的框架，其最初是为了页面抓取(更确切来说,网络抓取)所设计的，使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛，可用于如数据挖掘、监测和自动化测试等领域，也可以应用在获取API所返回的数据(例如AmazonAssociatesWebServices)或者通用的网络爬虫。Scrapy是基于twisted
中国计算机学会（CCF）推荐学术会议-B（数据库／数据挖掘／内容检索）：CIDR 2026 爱思德学术数据分析系统架构数据库
CIDR2026TheConferenceonInnovativeDataSystemsResearch(CIDR)isasystems-orientedconference,complementaryinitsmissiontothemainstreamdatabaseconferenceslikeSIGMODandVLDB,emphasizingthesystemsarchitecturepe
中国计算机学会（CCF）推荐学术会议-A（数据库／数据挖掘／内容检索）：ACM KDD 2026 爱思德学术大数据人工智能数据挖掘
ACMKDD2026KDDisthepremierDataScienceandAIconference,hostingbothaResearchandanAppliedDataScienceTrack.TheconferencewilltakeplacefromAugust9to13,2026,inJeju,Korea.KDDhastwosubmissioncyclesperyear.Thisca
250714脑电分析课题进展——基础知识扩展与论文阅读
脑电分析课题进展目录脑电分析课题进展一、概要二、论文阅读（一）内容（二）创新（三）不足三、书籍阅读四、基础知识学习（一）机器学习（二）代码能力五、总结与展望一、概要本周课题进展聚焦于论文与书籍阅读，以及基础知识的学习（包括机器学习与PyTorch的代码学习）论文阅读以毕明川学姐的学位论文为参考《基于EEG的冥想状态数据挖掘研究》书籍阅读以李颖洁的《脑电信号分析方法及其应用》第一章内容为重点机器学习
软考 | 系统架构设计师：信息系统综合知识大纲（思维导图）啊有礼貌软考系统架构设计师架构师思维导图软件架构
1.计算机软件与网络基础知识1.1操作系统操作系统的类型和结构操作系统基本原理网络操作系统及网络管理嵌入式操作系统与实时操作系统1.2数据库系统数据库管理系统的类型、结构和性能评价常用的关系型数据库管理系统数据库模式数据库规范化分布式数据库系统，并行数据库系统数据仓库与数据挖掘技术数据库工程备份恢复1.3嵌入式系统嵌入式系统的特点嵌入式系统的硬件组成与设计嵌入式系统应用软件及开发平台嵌入式系统网络
AI系统Spark原理与代码实战案例讲解 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI系统Spark原理与代码实战案例讲解作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：Spark、大数据处理、分布式计算、机器学习、数据挖掘、实时流处理1.背景介绍1.1问题的由来在大数据时代,海量数据的高效处理和分析已成为各行各业的迫切需求。传统的数据处理方式难以应对数据量激增、数据类型多样化以及实时性要求高等挑战。为了解决这些问题,Ap
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag