阿优乐扬

疫情期间，我用python辅助统计班级打卡信息

前言：由于全国受到新型冠状病毒的影响，我们学校在已有的学工系统开发了 “每日一报”和“i签到” 两个功能来记录学生的身体状况和位置信息，确保并监督学生无误填写，每天辅导员都要多次从系统中导出今日打卡记录，并让班长提醒未打卡同学打卡或者有信息异常的同学重新确认信息。

文章目录

1、初步打卡情况简介
2、pandas导入数据

2.1、导入数据并查看
2.2、查看数据形状

3、每日一报未打卡人数

3.1、查看打卡情况
3.2、提取出未打卡的同学
3.3、提取出对应的学生

4、查找打卡信息异常同学

4.1、求众数
4.2、标明我要审核的表头
4.3、提取出该同学

5、查找体温异常的同学

5.1、体温预处理
5.2、没有填写具体体温
5.3、获取所有的异常体温

6、查询所有信息代码汇总
7、绘制打卡分布图

7.1、认识cpca

7.1.1、全文模式
7.1.2、查看同省重名的地点
7.1.3、加入自定义地点

7.2、cpca绘图
7.4、绘制分布密度

操作平台： win10，python37，jupyter
图片名字等信息均打码处理

1、初步打卡情况简介

刚开始的时候，辅导员每天导出打卡的名单，然后发到通知群里，每个班干再用Excel筛选出自己班的信息，进行相关的信息通知同学，全部打卡完成后，辅导员还需要查看每一个同学的信息是否填写有误。辅导员一共管理6班班级，共340名学生，每次都会在上面花费大量的时间，不小心还会筛选统计错误。

● 通知情况： 导出表格给班长查看打卡情况！

● 筛选出未信息通知学生： 需要一直统计催打卡，过程艰辛复杂！

● 领导反馈： 学生出现乱填乱写的情况很严重，需要老师来做好把关工作！

我每次筛选我们班的信息也感觉一点麻烦，先是在Excel中筛选出我们班的信息，然后在对“打卡情况进行”排序，再截屏发到班群里通知同学打卡，有时候还要一个一个的检查同学们是否打卡有误，这个估计也是每一个辅导员和班长都要共同面临的问题

《每日一报》打卡表格信息：

《i签到》打卡表格信息：

接下来到python出场了，用它完成全部过程的自动化统计，然后复制粘贴到消息通知群就可以了！

2、pandas导入数据

2.1、导入数据并查看

import pandas as pd
data1 = pd.read_excel("./data/测试/每日一报.xlsx")#导入每日一报数据
data1.columns#查看表头

Index(['学号', '姓名', '性别代码', '性别', '联系方式', '学院', '专业代码', '专业', '班级', '年级',
       '是否完成填报', '辅导员填报', '本人体温', '本人是否是疑似病例或确诊病例', '本人是否接触过疑似或确诊病例',
       '本人是否是湖北、武汉经历的人', '本人是否是确诊病例的密切接触者共同居住人员',
       '本人居住地是否是湖北省以外疫点人员（指生活的小区、单元楼发生确诊病例）', '本人昨天是否外出', '外出地点',
       '本人是否被社区列为重点排查对象', '被确定为重点排查对象时间', '是否解除隔离', '解除隔离时间', '具体解除时间',
       '家庭成员感染新冠状病毒情况', '居住地是否发生变化', '是否有发热、咳嗽等症状'],
      dtype='object')

2.2、查看数据形状

data.shape

(340, 28)

结果分析： 从学工系统中导出的《每日一报》表格一共有340行，也就是340人；一共有28列数据信息，其中大部分是需要填写的，其他信息可以更改。

3、每日一报未打卡人数

3.1、查看打卡情况

data['是否完成填报'].value_counts()

已完成    282
未完成     58
Name: 是否完成填报, dtype: int64

3.2、提取出未打卡的同学

data['是否完成填报'] == '未完成' 返回的结果为 True 和 False ，当它相等时返回True，提取返回 True 的所有数据，就是没有打卡的数据。

noDo = data[data['是否完成填报'] == '未完成'] #提取出未完成的学生
noDo.head()#显示前五行

3.3、提取出对应的学生

noDo = data[data['是否完成填报'] == '未完成'] #提取出未完成的学生
noDo_num = noDo.shape[0] #获取未打卡人数，如果全部完成，就不需要查找对应的同学
if noDo_num == 0:
    print ("▼ 每日一报已全部打卡完毕！")
else:
    print ("▼ 每日一报未打卡人数: %s（人）"%noDo_num)#记录未打卡人数
    for bj in range(len(noDo['班级'].unique())): #noDo['班级'].unique()取出所有未打卡的班级，并去重，计算班级数
        class_xinxi = noDo['班级'].unique()[bj] #依次取出每个
        index = noDo[noDo['班级'] == class_xinxi] #在该班级中取出对应的同学
        name_list = [] #每次循环到这里都会把它置空
        for name in index['姓名']:
            name_list.append(name)
        names = "、".join(name_list)#将数组变为字符串
        print (class_xinxi + "： "+ names +'\n')

结果如下：

备注： 找出《i签到》未打卡的同学，方式也是一样的，这里就不重述了。

4、查找打卡信息异常同学

由于在填写信息时，不小心很容易把自己的信息填写错，本来没有生病的也填写成生病，没有被隔离也填写为被隔离，所以必须要把这类信息找出来，让填写的同学确认一下，是否填写有误。
因为大部分同学的信息在选择填写时是一致的，所以我们可以选择众数比对的方式来找出不符合众数的值

4.1、求众数

（1）查看众数

# 取众数
mode = data['是否完成填报'].mode()[0] #它输出的值为数组，加上[0]提取第一个值为字符串，在这里几乎不会出现两个众数
mode

'已完成'

这样就找出了大部分同学填写的值，如果谁没有填这个值，那么就判定可能是异常值，并提取出该同学的信息。

（2）提取出异常的数据

do_data = data[data['是否完成填报'] == '已完成'] #只统计完成的同学，为打卡的为空值，以免被空值干扰众数
mode = do_data['本人是否是疑似病例或确诊病例'].mode()[0] #众数
dif_do = do_data[do_data['本人是否是疑似病例或确诊病例'] != mode] #提取出完成打卡中的异常值，不等于众数的就是异常值
dif_do

4.2、标明我要审核的表头

（1）提取出表头

columns =['本人是否是疑似病例或确诊病例', '本人是否接触过疑似或确诊病例', '本人是否是湖北、武汉经历的人', '本人是否是确诊病例的密切接触者共同居住人员', '本人居住地是否是湖北省以外疫点人员（指生活的小区、单元楼发生确诊病例）', '家庭成员感染新冠状病毒情况', '是否有发热、咳嗽等症状']
for col in columns:
    print (col)

本人是否是疑似病例或确诊病例
本人是否接触过疑似或确诊病例
本人是否是湖北、武汉经历的人
本人是否是确诊病例的密切接触者共同居住人员
本人居住地是否是湖北省以外疫点人员（指生活的小区、单元楼发生确诊病例）
家庭成员感染新冠状病毒情况
是否有发热、咳嗽等症状

（2）用法

data['本人是否是疑似病例或确诊病例']

0      否，身体健康
1      否，身体健康
2      否，身体健康
3      否，身体健康
4      否，身体健康
        ...  
335    否，身体健康
336    否，身体健康
337       NaN
338    否，身体健康
339    否，身体健康
Name: 本人是否是疑似病例或确诊病例, Length: 340, dtype: object

NaN 表示空值，没有数据，也就是没有打卡

（3）总结
我提取出我需要额外审核的列，把它放进 data[ ] 中，就可以获取到同学们打卡的所有信息了

4.3、提取出该同学

# 移除不必要的列
columns =['本人是否是疑似病例或确诊病例', '本人是否接触过疑似或确诊病例', '本人是否是湖北、武汉经历的人', '本人是否是确诊病例的密切接触者共同居住人员', '本人居住地是否是湖北省以外疫点人员（指生活的小区、单元楼发生确诊病例）', '家庭成员感染新冠状病毒情况', '是否有发热、咳嗽等症状']
do_data = data[data['是否完成填报'] == '已完成'] #只统计完成的同学，为打卡的为空值，以免被空值干扰众数

for col in columns:
    mode = do_data[col].mode()[0] #众数
    dif_do = do_data[do_data[col] != mode] #提取出完成打卡中的异常值，不等于众数的就是异常值
    dif_do_num = dif_do.shape[0] #统计异常值数量，如果为0，就结束这个循环
    if dif_do_num == 0:
        pass
    else:
        print ("●",col + "：",dif_do_num, "人")
        for bj in range(len(dif_do['班级'].unique())):
            class_xinxi = dif_do['班级'].unique()[bj]
            index = dif_do[dif_do['班级'] == class_xinxi]
            name_list = []
            for name in index['姓名']:
                name_list.append(name)
            names = "、".join(name_list)
            print (class_xinxi + "： "+ names)
        print ("")

结果：

5、查找体温异常的同学

医学上把人的正常体温定为：35.5~37.2℃之间，我就以它作为判断的标准。
由于打卡系统的温度信息是全手动填写的，所以容易出现各种各样的格式，如：
- 36, 36.3, 体温：36.4, 36.5度, 体温正常, 36.6℃, 36度7 等等
学校要求填写具体体温，所以必须要找出填写“体温正常”之类的学生，要求填写具体温度。

5.1、体温预处理

这个主要是把学生的体温标准化处理，让它可以正常进行大小判断。
原因：有些同学的体温是标准的数值，有些带了汉字，有些忘记小数点，有些带了特殊符号
列如：

import re
#学生可能出现的体温填写情况
text_list = ['36','36.3', '体温：36.4', '36.5度', '体温正常', '36.6℃','36度7', '38度8','3690', '368', '370度', '体温：38度1']
for txt in text_list:
    text = re.sub("[^0-9\u4e00.]", "", txt) #只保留数字“0~9”和“.”
    if text == '':
        print("text没有数值：", txt)
    else:
        if float(text) <  35.5 or float(text) > 37.2:
            #如果体温中有“度”字，如：36度8，用“度”字进行分隔，分别去掉干扰因子，下一步拼接完整，末尾接“0”防止小数点在末尾
            if "度" in txt:
                temperature = re.sub("[^0-9\u4e00.]","", txt.split('度')[0]) + "." + re.sub("[^0-9\u4e00.]","", txt.split('度')[1]) + "0"
                if float(temperature) < 35.5 or float(temperature) > 37.2:
                    print ("超过范围:",txt)
            else:
                print ("体温异常：", text)

text没有数值： 体温正常
超过范围: 38度8
体温异常： 3690
体温异常： 368
超过范围: 370度
超过范围: 体温：38度1

结果分析： 这样就可以找出没有填写具体体温的同学了。

5.2、没有填写具体体温

temperature_tab = do_data['本人体温'] #体温列
for i in do_data.index:       
    temperature = re.sub("[^0-9\u4e00.]","", str(temperature_tab[i])) #体温清洗，只保留"数值"和“.”
    if temperature == '':            
        print ("没有填写具体体温： ", do_data['班级'][i], do_data['姓名'][i], do_data['本人体温'][i])

运行结果：

5.3、获取所有的异常体温

所用上面的方法，先对一些带有汉字的体温进行预处理，再进行大小判断！

print ("\n◙以下同学的体温不在35.5~37.2度之间")
for i in do_data.index:#从数据索引中循环出索引
    temperature = re.sub("[^0-9\u4e00.]","", str(temperature_tab[i]))
    if temperature == '':
        continue #运行到这里后就结束程序当前运行，过滤掉没有数值的数据
    single_tem = do_data['本人体温'][i] #遍历个人体温
    # 为了预防学生填写的类型超过我的判断，设置一个异常捕捉
    try:
        if float(temperature) < 35.5 or float(temperature) > 37.2: #体温不在[3.5, 37.2]之间，进行下一步，初步判断异常
            #如果体温中有“度”字，如：36度8，用“度”字进行分隔，分别去掉干扰因子，下一步拼接完整
            if "度" in single_tem:
                temperature = re.sub("[^0-9\u4e00.]","", str(single_tem.split('度')[0])) + "." + re.sub("[^0-9\u4e00.]","", str(single_tem.split('度')[1])) + "0"
                print ("b"*50)
                if float(temperature) < 35.5 or float(temperature) > 37.2:
                    print (do_data['班级'][i], do_data['姓名'][i], single_tem)
            else:
                print (do_data['班级'][i], do_data['姓名'][i], single_tem)
    except:
        print (do_data['班级'][i], do_data['姓名'][i], single_tem)

运行结果：

6、查询所有信息代码汇总

在发通知时，最好的方法就是把填写有误的同学也提出了，方便让他改正。直接发输出的结果发到群里是很直观的方法，所有需要把我们需要的功能汇总在一起，一起输出结果。

import pandas as pd
import numpy as np
from pandas import DataFrame,Series
import re

#导入数据
data1 = pd.read_excel("./data/每日一报.xlsx")
data2 = pd.read_excel("./data/i签到.xlsx")
time = input("数据导出时间：") #输入时间，目的是方便直接复制到群里

"""查找出没有完成每日一报签到的同学"""
noDo = data1[data1['是否完成填报'] == '未完成'] #提取出未打卡的同学
noDo_num = noDo.shape[0]
if noDo_num == 0:
    print ("▼ 每日一报已全部打卡完毕！")
else:
    print ("▼ 每日一报未打卡人数: %s（人）"%noDo_num) #打印出人数
    for bj in range(len(noDo['班级'].unique())):
        class_xinxi = noDo['班级'].unique()[bj]
        index = noDo[noDo['班级'] == class_xinxi]
        name_list = []
        for name in index['姓名']:
            name_list.append(name)
        names = "、".join(name_list)
        print (class_xinxi + "： "+ names +'\n')
print ("")

"""查找出没有完成i签到打卡的同学"""
noDo = data2[data2['签到状态'] == '未签到'] #提取出未签到的同学
noDo_num = noDo.shape[0]
if noDo_num == 0:
    print ("◆ i签到已全部打卡完毕！")
else:
    print ("◆ i签到未打卡人数: %s（人）"%noDo_num)
    for bj in range(len(noDo['班级'].unique())):
        class_xinxi = noDo['班级'].unique()[bj]
        index = noDo[noDo['班级'] == class_xinxi]
        name_list = []
        for name in index['姓名']:
            name_list.append(name)
        names = "、".join(name_list)
        print (class_xinxi + "： "+ names +'\n')
        
print ("\n☢以下同学“每日一报”打卡的信息可能有误☟☟☟")
"""查找出表格中的异常值"""
# 移除不必要的列
columns =['本人是否是疑似病例或确诊病例', '本人是否接触过疑似或确诊病例', '本人是否是湖北、武汉经历的人', '本人是否是确诊病例的密切接触者共同居住人员', '本人居住地是否是湖北省以外疫点人员（指生活的小区、单元楼发生确诊病例）', '家庭成员感染新冠状病毒情况', '是否有发热、咳嗽等症状']
do_data = data1[data1['是否完成填报'] == '已完成'] 
for col in columns:
    mode = do_data[col].mode()[0] #众数
    dif_do = do_data[do_data[col] != mode] #提取与众数不一样的值，也就是异常值
    dif_do_num = dif_do.shape[0]    
    if dif_do_num == 0:
        pass
    else:
        print ("●",col + "：",dif_do_num, "人")
        for bj in range(len(dif_do['班级'].unique())): #班级去重dif_do['班级'].unique()
            class_xinxi = dif_do['班级'].unique()[bj] #提取出班级
            index = dif_do[dif_do['班级'] == class_xinxi]
            name_list = []
            for name in index['姓名']:
                name_list.append(name)
            names = "、".join(name_list)
            print (class_xinxi + "： "+ names)
        print ("")

"""找出没有填写具体体温的同学"""
temperature_tab = do_data['本人体温'] #体温列
for i in do_data.index:       
    temperature = re.sub("[^0-9\u4e00.]","", str(temperature_tab[i])) #体温清洗，只保留"数值"和“.”
    if temperature == '':            
        print ("没有填写具体体温： ", do_data['班级'][i], do_data['姓名'][i], do_data['本人体温'][i])

"""找出体温不在35.5~37.2度之间的同学"""       
print ("\n◙以下同学的体温不在35.5~37.2度之间")
for i in do_data.index:
    temperature = re.sub("[^0-9\u4e00.]","", str(temperature_tab[i]))
    if temperature == '':
        continue #运行到这里后就结束程序当前运行，过滤掉没有数值的数据
    single_tem = do_data['本人体温'][i] #遍历个人体温
    # 为了预防学生填写的类型超过我的判断，设置一个异常捕捉
    try:
        if float(temperature) < 35.5 or float(temperature) > 37.2: #体温不在[3.5, 37.2]之间，进行下一步，初步判断异常
            #如果体温中有“度”字，如：36度8，用“度”字进行分隔，分别去掉干扰因子，下一步拼接完整
            if "度" in single_tem:
                temperature = re.sub("[^0-9\u4e00.]","", str(single_tem.split('度')[0])) + "." + re.sub("[^0-9\u4e00.]","", str(single_tem.split('度')[1])) + "0"
                print ("b"*50)
                if float(temperature) < 35.5 or float(temperature) > 37.2:
                    print (do_data['班级'][i], do_data['姓名'][i], single_tem)#输出班级，姓名，体温
            else:
                print (do_data['班级'][i], do_data['姓名'][i], single_tem)
    except:
        print (do_data['班级'][i], do_data['姓名'][i], single_tem)

运行结果： 直接把它复制粘贴到通知群里就完事了☟☟☟

7、绘制打卡分布图

7.1、认识cpca

cpca官网： https://pypi.org/project/cpca/
cpca ： chinese_province_city_area_mapper：一个用于识别简体中文字符串中省，市和区并能够进行映射，检验和简单绘图的python模块。
安装：目前只支持python3 pip install cpca

7.1.1、全文模式

默认情况下transform方法的cut参数为True，即采用分词匹配的方式，这种方式速度比较快，但是准确率可能会比较低，如果追求准确率而不追求速度的话，建议将cut设为False（全文模式）
jieba分词并不能百分之百保证分词的正确性，所以我们引入了全文模式，不进行分词，直接全文匹配，使用方法如下:

location_str = ["贵州省黔西南布依族苗族自治州贞丰县210省道", "湖南省岳阳市岳阳楼区对门山路", "贵州省遵义市余庆县方竹街", "贵州省黔南布依族苗族自治州都匀市75国道"]
import cpca
df = cpca.transform(location_str, cut=False)
df

	省	市	区	地址
0	贵州省	黔西南布依族苗族自治州	贞丰县	黔西南布依族苗族自治州贞丰县210省道
1	湖南省	岳阳市	岳阳楼区	对门山路
2	贵州省	遵义市	余庆县	方竹街
3	贵州省	黔南布依族苗族自治州	都匀市	黔南布依族苗族自治州都匀市75国道

7.1.2、查看同省重名的地点

location_str = ["江苏省鼓楼区软件大道89号"]
import cpca
df = cpca.transform(location_str)
df

WARNING:root:鼓楼区 无法映射, 建议添加进umap中

	省	市	区	地址
0	江苏省		鼓楼区	软件大道89号

在结果中，它没有把市映射出来，因为还有其他的地名和鼓楼区同名，江苏省徐州市也有一个鼓楼区：

import cpca
cpca.province_area_map.get_relational_addrs(('江苏省', '鼓楼区'))

[('江苏省', '南京市', '鼓楼区'), ('江苏省', '徐州市', '鼓楼区')]

7.1.3、加入自定义地点

当程序发现重名区并且不知道将其映射到哪一个市时，会将其加入警告信息。
如果你想要让“鼓楼区”只映射到南京市的话，在transform方法中加入umap参数指定
映射即可：

location_str = ["江苏省鼓楼区软件大道89号"]
import cpca
df = cpca.transform(location_str, umap={"鼓楼区":"南京市"})
df

	省	市	区	地址
0	江苏省	南京市	鼓楼区	软件大道89号

7.2、cpca绘图

模块中还自带一些简单绘图工具，可以在地图上将上面输出的数据以热力图的形式画出来。
这个工具依赖folium，为了减小本模块的体积，所以并不会预装这个依赖，在使用之前请使用 pip install folium
代码运行结束后会在运行代码的当前目录下生成一个df.html文件，用浏览器打开即可看到
绘制好的地图。

如我绘制《i签到》中 17级信息管理与信息系统班 班同学定位打卡的分布图：
（1）查看信息

xinguan = data2[data2['班级'] == '17信息管理与信息系统班'] #提取出17信息管理与信息系统班信息
print (xinguan.shape)
print (xinguan.columns)

(57, 9)
Index(['序号', '姓名', '学号', '学院', '班级', '签到状态', '签到时间', '地址', '备注'], dtype='object')

（2）绘图

import cpca #用于划分中国的省份
from cpca import drawer #用于画图
import folium #导入地图
from folium.plugins import HeatMap

loc = cpca.transform(xinguan['地址'], cut=False)#转化地点
drawer.draw_locations(loc, "./std_loc.html")#画出具体地点

图中显示：有两名同学打卡位置没有在贵州

贵州板块放大后：

7.4、绘制分布密度

这里需要安装几个画图的库来辅助

pip install pyecharts
pip install echarts-countries-pypkg
pip install pyecharts-snapshot

通过额外传入一个样本的分类信息，能够在地图上以不同的颜色画出属于不同分类的样本散点图。
当鼠标移到点上时，它可以显示具体的位置。

绘制6个班的打卡位置：

import cpca #用于划分中国的省份库
from cpca import drawer#画中国地图库
processed = cpca.transform(data2['地址'], cut=False)#转化信管班地点
drawer.echarts_cate_draw(processed, processed["区"], "echarts_cates.html")#显示地理位置，区，并画图爆粗

你可能感兴趣的:(数据分析实战)

Python 数据分析实战：洞察 2025 热门行业发展新态势
目录一、案例背景二、代码实现2.1数据收集2.2数据探索性分析2.3数据清洗2.4数据分析2.4.1人工智能技术热点挖掘2.4.2汽车行业市场趋势分析2.4.3能源行业绿色能源发展预测三、主要的代码难点解析3.1数据收集3.2数据清洗-汽车市场数据异常值处理3.3数据分析-人工智能技术热点挖掘3.4数据分析-汽车行业市场趋势分析3.5数据可视化四、可能改进的代码4.1数据收集改进4.2数据清洗改进
数据分析综合应用 30分钟精通计划 z日火校招学习日记数据分析数据挖掘
数据分析综合应用30分钟精通计划（完整版含输出）⏰时间分配5分钟：数据加载与清洗基础10分钟：探索性数据分析(EDA)10分钟：数据分析实战案例5分钟：分析报告生成第一部分：数据加载与清洗基础(5分钟)1.模拟真实数据集importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimportwarningswarnings
python数据分析张俊红_Python数据分析实战基础 | 初识Pandas weixin_39678531 python数据分析张俊红
这是Python数据分析实战基础的第一篇内容，主要是和Pandas来个简单的邂逅。已经熟练掌握Pandas的同学，可以加快手速滑动浏览或者直接略过本文。01重要的前言这段时间和一些做数据分析的同学闲聊，我发现数据分析技能入门阶段存在一个普遍性的问题，很多凭着兴趣入坑的同学，都能够很快熟悉Python基础语法，然后不约而同的一头扎进《利用Python进行数据分析》这本经典之中，硬着头皮啃完之后，好像
Python基础应用于电影数据分析实战项目 Lemaden
本文还有配套的精品资源，点击获取简介：本项目“analysis-movie-dataset”旨在使用Python基础技能对电影数据集进行分析。项目通过导入Pandas和Numpy等核心数据处理库，加载和初步了解数据集，进行数据清洗，以及计算统计量和进行可视化分析。此外，将探讨如何利用Matplotlib和Seaborn库创建图表，以及运用Pandas和Scikit-learn库进行更复杂的数据分析
Excel数据分析实战之开宗明义: Excel与数据分析实战爱编程的喵喵 Excel数据分析实战 excel 数据分析数据挖掘
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了Excel数据分析实战的第一课：Ex
分享全国数字人才技能提升师资培训班第五期邀请函泰迪智能科技01 人工智能人工智能
线下（广州班）：大模型与AIGC多模态技术应用实战线下（青岛班）：Deepseek教学应用与智能体开发实战线上班（十二大专题）：DeepSeek大模型教学应用实战大模型与AIGC技术应用实战大模型部署与微调实战AIGC多模态技术应用实战数据分析与挖掘实战（泰迪杯竞赛方向）大数据分析与机器学习实战（数学建模方向）商务数据分析实战（Python）计算机视觉应用实战（Pytorch）大数据技术应用实战（
数据分析实战：用 Python 解决电商销售数据分析问题数字魔方操控师数据分析 python 数据挖掘
引言在当今数字化的电商时代，海量的销售数据蕴含着巨大的商业价值。通过有效的数据分析，企业能够深入了解销售趋势、客户行为，从而制定精准的营销策略和优化运营决策。Python作为一种强大的编程语言，拥有丰富的数据分析库，为我们处理和分析电商销售数据提供了便捷且高效的工具。本文将详细介绍如何运用Python的数据分析库对电商销售数据进行清洗、分析以及可视化展示。一、数据获取假设我们从电商平台获取了一份销
分享全国数字人才技能提升师资培训班第五期泰迪智能科技01 人工智能
线下（广州班）：大模型与AIGC多模态技术应用实战线下（青岛班）：Deepseek教学应用与智能体开发实战线上班（十二大专题）：DeepSeek大模型教学应用实战大模型与AIGC技术应用实战大模型部署与微调实战AIGC多模态技术应用实战数据分析与挖掘实战（泰迪杯竞赛方向）大数据分析与机器学习实战（数学建模方向）商务数据分析实战（Python）计算机视觉应用实战（Pytorch）大数据技术应用实战（
Pandas学习笔记(八) minxin_ Python Pandas pandas 笔记 python
合并与连接文章目录合并与连接导入本文需要的包和数据文件连接数据集连接后的DataFrame中的缺失值左连接内连接外连接通过索引合并代码挑战解决方案该文章内容为《Pandas数据分析实战》的学习笔记导入本文需要的包和数据文件importpandasaspdgroups1=pd.read_csv("pandas-in-action-master/chapter_10_merging_joining_a
Python数据分析实战：物流业数据分析 AI天才研究院 AI Agent 应用开发计算 AI大模型应用入门实战与进阶大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA 计算 AI大模型应用
文章目录Python数据分析实战：物流业数据分析1.背景介绍1.1问题的由来1.2研究现状1.3研究意义1.4本文结构2.核心概念与联系2.1物流数据类型2.2数据分析流程2.3常用分析方法2.4Python在数据分析中的角色2.5核心概念之间的联系3.核心算法原理&具体操作步骤3.1算法原理概述3.1.1时间序列预测-ARIMA模型3.1.2聚类分析-K-means算法3.1.3分类算法-随机森
【PostgreSQL数据分析实战：从数据清洗到可视化全流程】附录-C. 常用SQL脚本模板言析数智 postgresql 数据分析常用SQL脚本模板全量备份增量备份表级备份 JSON数据处理
点击关注不迷路点击关注不迷路点击关注不迷路文章大纲附录C.常用SQL脚本模板速查表一、数据清洗与预处理模板二、数据聚合与分析模板三、窗口函数应用模板四、性能优化与监控模板五、数据备份与恢复模板六、权限管理与安全模板七、事务与错误处理模板八、时间序列分析模板九、日志分析与诊断模板十、高级功能模板附录使用说明以下是《PostgreSQL数据分析实战：从数据清洗到可视化全流程》附录C的内容框架和核心知识
TCGA 数据分析实战 —— 突变及拷贝数分析名本无名生信数据库 R 数据分析实战数据分析网络数据挖掘
TCGA数据分析实战——突变及拷贝数分析文章目录TCGA数据分析实战——突变及拷贝数分析前言基因组分析数据预处理识别recurrentCNVrecurrentCNV基因注释基因组变异可视化OncoPrintcircosplot部分区域可视化前言在介绍完TCGAbiolinks的查询下载和数据分析功能之后，我们简单展示几个示例，来练练手，加深对这个包的理解和使用我们主要从基因组、转录组和表观组3个维
Pandas学习笔记(三) minxin_ Python Pandas pandas 笔记 python
Series对象(一)目录Series对象(一)导入本笔记需要用的包广播将Series传递给，Python任何内置函数，并产生一个可以预测的结果代码挑战解决方案：Series方法排序用`value_counts`方法计算值的个数代码挑战解决方案该文章内容为《Pandas数据分析实战》的学习笔记导入本笔记需要用的包importpandasaspdimportnumpyasnp广播s1=pd.Seri
python数据分析实战 fabio nelli百度云_Python数据分析实战内利（Fabio Nelli）,杜春晓 9787115432209... Carrey Wang python数据分析实战 fabio nelli百度云
商品描述：基本信息书名:Python数据分析实战定**价：59.00元作者:内利(FabioNelli)著，杜春晓译出版社：人民邮电出版社出版日期：2016-08-01ISBN：9787115432209字数：页码：290版次：1装帧：平装开本：16开目录目录nn致谢n译者序n第1章数据分析简介1n1．1数据分析1n1．2数据分析师的知识范畴2n1．2．1计算机科学2n1．2．2数学和统计学3n1
【PostgreSQL数据分析实战：从数据清洗到可视化全流程】2.4 正则表达式与文本处理（LIKE/REGEXP_MATCHES）言析数智 postgresql 数据分析正则表达式 REGEXP_MATCHES ILIKE ESCAPE
点击关注不迷路点击关注不迷路点击关注不迷路文章大纲PostgreSQL数据分析实战：正则表达式与文本处理（LIKE/REGEXP_MATCHES）2.4正则表达式与文本处理2.4.1LIKE运算符：基础模式匹配1.语法与通配符2.大小写敏感与ESCAPE子句3.性能特点2.4.2REGEXP_MATCHES函数：正则表达式引擎1.语法与核心功能2.正则表达式语法示例3.高级用法2.4.3深度对比：
【PostgreSQL数据分析实战：从数据清洗到可视化全流程】7.2 PostgreSQL与Python数据交互（psycopg2库使用）言析数智 PostgreSQL postgresql 数据分析 python psycopg2 execute_values 批量插入工具连接池优化
点击关注不迷路点击关注不迷路点击关注不迷路文章大纲PostgreSQL与Python数据交互：psycopg2库实战指南一、引言：数据交互的桥梁1.1psycopg2核心优势二、环境准备与基础连接2.1安装配置2.1.1安装psycopg22.1.2连接参数说明2.2建立连接实例三、数据交互核心操作3.1创建示例表3.2插入数据3.2.1单条插入3.2.2批量插入（性能提升50%+）3.3查询数据
【PostgreSQL数据分析实战：从数据清洗到可视化全流程】1.1 数据库核心概念与PostgreSQL技术优势言析数智数据库 postgresql 数据分析
点击关注不迷路点击关注不迷路点击关注不迷路文章大纲深度解析PostgreSQL核心架构与技术优势：从数据库原理到实战场景1.1数据库核心概念与PostgreSQL技术优势1.1.1关系型数据库核心架构解析1.1.1.1数据库系统的底层逻辑1.1.1.2数据模型与范式设计1.1.2PostgreSQL技术优势全景图1.1.2.1扩展性：从单机到云原生的进化1.1.2.2性能优化：从OLTP到OLAP
【PostgreSQL数据分析实战：从数据清洗到可视化全流程】4.2 数据类型转换（CAST函数/自定义函数）言析数智 PostgreSQL postgresql 数据分析数据库自定义函数 CTE FILTER
点击关注不迷路点击关注不迷路点击关注不迷路文章大纲PostgreSQL数据分析实战：数据清洗之数据类型转换（CAST函数/自定义函数）4.2数据类型转换：让数据「格式正确，类型对号」4.2.1数据类型混乱的典型场景4.2.2基础转换工具：CAST函数与类型转换语法1.显式转换：`CAST(expressionAStype)`或`expression::type`2.隐式转换：PostgreSQL自
【数据分析实战】使用 Matplotlib 绘制双 Y 轴图表拾荒的小海螺 Python 数据分析 matplotlib 数据挖掘
1、简述在数据分析过程中，我们经常遇到需要同时展示两组单位不同但共享X轴的数据，比如：温度&降水量销售额&广告投放股价&成交量这时候，使用双Y轴图表（twinaxesplot）是最合适的选择。本教程将介绍如何使用Python的matplotlib库轻松实现这一图表，并提供多个实际应用场景。2、使用twinx()创建双Y轴在Matplotlib中，实现双Y轴主要依赖于ax.twinx()方法，它会创
零基础上手Python数据分析 (18)：Matplotlib 基础绘图 - 让数据“开口说话” kakaZhui 30天入门python数据分析 python 数据分析 matplotlib pandas
写在前面——告别枯燥数字，拥抱可视化力量，掌握Matplotlib绘图基础欢迎来到“高效数据分析实战指南：Python零基础入门”专栏！经过前面Pandas模块的学习和实战演练，我们已经掌握了使用Python和Pandas进行数据处理、清洗、整合、分析的核心技能。我们能够从数据中提取信息、计算指标、发现规律。然而，仅仅得到一堆数字或表格，往往难以直观地理解数据、发现深层模式或有效地向他人传达我们的
大数据（2）Hadoop架构深度拆解：HDFS与MapReduce企业级实战与高阶调优一个天蝎座白勺程序猿大数据开发从入门到实战合集大数据 hadoop 架构
目录一、分布式系统的设计哲学演进1.1从Google三驾马车到现代数据湖二、企业级HDFS架构全景图2.1联邦架构的深度实践2.2生产环境容灾设计2.3性能压测方法论三、MapReduce引擎内核解密3.1Shuffle机制全链路优化3.2资源调度革命：从MRv1到YARN3.3企业级编码规范四、千亿级数据分析实战：运营商信令数据挖掘4.1场景描述4.2优化后的MR作业链4.3性能对比数据五、云原
Python 数据分析实战：跨境电商行业发展解析萧十一郎@ python python 数据分析开发语言
目录一、案例背景二、代码实现2.1数据收集2.2数据探索性分析2.3数据清洗2.4数据分析2.4.1跨境电商消费者地域分布分析2.4.2跨境电商商品销售与价格关系分析2.4.3跨境电商行业未来发展预测三、主要的代码难点解析3.1数据收集3.2数据清洗-销售数据处理3.3数据分析-跨境电商消费者地域分布分析3.4数据分析-跨境电商商品销售与价格关系分析3.5数据可视化四、可能改进的代码4.1数据收集
Python 数据分析实战：宠物经济行业发展洞察萧十一郎@ python python 数据分析宠物
目录一、案例背景二、代码实现2.1数据收集2.2数据探索性分析2.3数据清洗2.4数据分析2.4.1宠物用品用户满意度分析2.4.2宠物用品销售与价格关系分析2.4.3宠物经济行业未来发展预测三、主要的代码难点解析3.1数据收集3.2数据清洗-销售数据处理3.3数据分析-宠物用品用户满意度分析3.4数据分析-宠物用品销售与价格关系分析3.5数据可视化四、可能改进的代码4.1数据收集改进4.2数据清
数据分析实战：Shopee虾皮网销售数据分析 harvensage 数据分析数据分析数据挖掘
一、背景目标Shopee（虾皮网）是东南亚电商平台，覆盖新加坡、马来西亚、菲律宾、泰国、越南、巴西、墨西哥、哥伦比亚、智利等十余个市场，触达超10亿消费者！2023年Shopee总订单量达82亿，23年Q4总订单数同比增长46%！分析数据样本来自某爬虫系统爬取的Shopee网从2023年4月至2023年5月期间特定产品的销售数据。任务要求任务要求：从数据中获取在2023年5月上市的产品。使用问题1
Python 数据分析实战：电动汽车行业发展态势与市场策略洞察萧十一郎@ python python 数据分析开发语言
目录一、案例背景二、代码实现2.1数据收集与导入2.2数据探索性分析2.3数据清洗2.4数据分析2.4.1市场规模与增长趋势2.4.2消费者需求分析2.4.3企业竞争格局2.4.4政策影响分析2.4.5构建消费者购买意愿预测模型三、主要的代码难点解析3.1数据收集与导入3.2数据清洗-缺失值处理3.3数据清洗-异常值处理3.4数据分析-消费者需求分析3.5数据分析-构建消费者购买意愿预测模型四、可
Python 数据分析实战：电商平台用户行为洞察与营销策略优化萧十一郎@ python python 数据分析开发语言
目录一、案例背景二、代码实现2.1数据收集与导入2.2数据探索性分析2.3数据清洗2.4数据分析2.4.1用户行为随时间的变化2.4.2商品关联分析2.4.3用户购买转化率分析2.4.4用户价值分析（RFM模型）三、主要的代码难点解析3.1数据收集与导入3.2数据清洗-时间戳处理3.3数据分析-商品关联分析3.4数据分析-用户购买转化率分析3.5数据分析-用户价值分析（RFM模型）四、可能改进的代
Python数据分析实战案例 master_chenchengg python python Python python开发 IT
Python数据分析实战案例数据分析的魅力：Python与Pandas的完美结合初识Pandas：数据处理的瑞士军刀环境搭建：如何在本地安装Pandas第一步：加载和查看你的第一个数据集数据清洗的艺术：让数据更干净缺失值处理：填补或删除缺失数据异常值检测：找出数据中的“怪兽”重复数据处理：告别冗余数据探索与可视化：揭开数据的神秘面纱基本统计分析：了解数据的基本特征数据可视化：用图表讲述数据的故事相
使用Python抓取新闻媒体网站的最新头条与相关内容：深入的爬虫开发与数据分析实战 Python爬虫项目 2025年爬虫实战项目 python 爬虫数据分析数据挖掘人工智能开发语言
引言在互联网时代，新闻媒体网站是人们获取信息和了解世界的重要渠道。随着新闻的即时更新，获取最新头条并进行数据分析成为许多行业领域（如媒体、广告、舆情监测等）的重要需求。通过抓取新闻媒体网站的内容，我们不仅能获取各类新闻文章，还能为后续的数据分析、情感分析、舆情监控等提供基础数据。本篇博客将详细讲解如何使用Python编写一个爬虫，抓取新闻媒体网站的最新头条及其相关内容。我们将使用最新的技术栈，包括
nginx+flume网络流量日志实时数据分析实战_日志数据分析(1) 2401_84182578 程序员 nginx flume 数据分析
得到visits模型hadoopjar/export/data/mapreduce/web_log.jarcn.itcast.bigdata.weblog.clickstream.ClickStreamVisit网络日志数据分析-数据加载对于日志数据的分析，Hive也分为三层：ods层、dw层、app层创建数据库createdatabaseifnotexistsweb_log_ods;create
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag