Darin2017

插班实战演习

模块一：处理班级标签（重点：字符串处理，分列合并，长度填充等）

import pandas as pd
import os
import numpy as np
import datetime
today=str(datetime.date.today())


filepath='/Users/kangyongqing/Documents/kangyq/202311/班均及合班储备/最后校验/二批次组班/'
file1='02班级时间线上查询2023-12-19.xlsx'
file2='05新班级组班明细2023-12-19的副本.xlsx'

df1=pd.read_excel(filepath+file1,dtype='object')

print(df1.columns)

piv1=pd.pivot_table(df1,index='shijian',values='班级id',aggfunc='count')
piv2=pd.pivot_table(df1,index='xingqi',values='班级id',aggfunc='count')
piv3=pd.pivot_table(df1,index='班级id',values='xingqi',aggfunc='count')

df1.loc[:,'小时']=df1['shijian'].str.split(':').str[0]
df1.loc[:,'分钟']=df1['shijian'].str.split(':').str[1]
df1.loc[:,'规则小时']=df1['小时'].str.zfill(width=2)
df1.loc[:,'规则分钟']=df1['分钟'].str.zfill(width=2)
print(set(df1['小时']))
print(set(df1['规则小时']))
print(set(df1['分钟']))
print(set(df1['规则分钟']))
df1.loc[:,'规则时间']=df1['规则小时']+df1['规则分钟']

print(df1.head())

df1.sort_values(by=['班级id','xingqi'],ascending=True,inplace=True)

print(df1.head())

group=df1.groupby('班级id')
xq=pd.DataFrame({'星期集合':group['xingqi'].apply(lambda x:''.join([str(i) for i in x])),
                 '时间集合':group['规则时间'].apply(lambda y:''.join([str(u) for u in y]))}).reset_index()
df2=pd.merge(df1,xq,on='班级id',how='left')
df2.loc[:,'规则星期集合']=df2['星期集合'].str.zfill(width=2)
df2.loc[:,'班型时间']=df2['规则星期集合'].str.cat(df2['时间集合'],sep='')
print(df2.head())

df3=pd.DataFrame(df2.loc[:,['班级id','班型时间']])
df3.drop_duplicates(inplace=True)
print(df3.shape)
print(df3.head())

df4=pd.read_excel(filepath+file2,dtype='object')

df5=pd.merge(df4,df3,on='班级id',how='left')
df5.loc[:,'区域']=df5['班级名称'].str.split('-').str[0]
df5.loc[:,'版本']=df5['班级名称'].str.split('-').str[1]
df5.loc[:,'进度']=df5['班级名称'].str.split('-').str[2]
df5.loc[:,'班型名称']=df5['区域'].str.cat(df5['版本'],sep='-').str.cat(df5['进度'],sep='-').str.cat(df5['班型时间'],sep='-')

print(df5.columns)
print(df5.shape)

writer=pd.ExcelWriter(filepath+f'03新班级对应上课时间{today}.xlsx')
# piv1.to_excel(writer,sheet_name='时间透视')
# piv2.to_excel(writer,sheet_name='星期透视')
# piv3.to_excel(writer,sheet_name='班级透视')
df5.to_excel(writer,sheet_name='新班级上课时间',index=False)
writer._save()

模块二：字符串处理（重点：多种形式的字符串替换及分列合并）

import pandas as pd
import os
import numpy as np
import datetime
today=str(datetime.date.today())


filepath='/Users/kangyongqing/Documents/kangyq/202311/班均及合班储备/最后校验/二批次组班/'
file1='小班课迁移二批次插班名单整合2023-12-20处理.xlsx'
df1=pd.read_excel(filepath+file1,dtype='object')

print(df1.columns)
print(df1.head())

df1['地区']=df1['地区'].replace({'亚洲':'A','欧洲':'E','大洋洲':'O'})
print(set(df1['地区']))
df1['weekday']=df1['weekday'].str.replace('星期','')
df1['weekday']=df1['weekday'].str.replace(',','')
translate_table=str.maketrans('一二三四五六日','1234567')
df1['weekday']=df1['weekday'].str.translate(translate_table)
df1['weekday']=df1['weekday'].str.zfill(width=2)
print(set(df1['weekday']))

df1['转入课程']=df1['转入课程'].str.upper()
df1.loc[:,'版本']=df1['转入课程'].str.split(' ').str[0]+'TM'
df1['版本']=df1['版本'].str.replace('C2','')
print(set(df1['版本']))

df1.loc[:,'level']=df1['转入课程'].str.split(' ').str[2]
print(set(df1['level']))

df1.loc[:,'版本level']=df1['版本'].str.cat(df1['level'],sep='')
print(set(df1['版本level']))

df1['课程进度']=df1['课程进度'].replace({'正常进度':'NOR','非正常进度':'ABN'})
df1['进度']=df1['课程进度'].str.cat(df1['课频'].astype(str),sep='')
print(set(df1['进度']))

df1.loc[:,'时间']=df1['time'].str.replace(':','')
df1['时间']=df1['时间'].str.replace(',','')
df1.loc[:,'班型名称']=df1['地区'].str.cat(df1['版本level'],sep='-').str.cat(df1['进度'],sep='-').str.cat(df1['weekday'],sep='-').str.cat(df1['时间'],sep='')

print(df1.head())
print(df1.shape)

df2=pd.DataFrame(df1.loc[:,['student_user_id','班型名称']])
df2.rename(columns={'student_user_id':'学员id'},inplace=True)
writer=pd.ExcelWriter(filepath+f'04插班生班型名称{today}.xlsx')
df2.to_excel(writer,sheet_name='插班学生明细',index=False)
writer._save()

模块三：特殊需求处理（重点：lesson1的level下降一级，长字符串的处理）

import pandas as pd
import os
import numpy as np
import datetime
today=str(datetime.date.today())


filepath='/Users/kangyongqing/Documents/kangyq/202311/班均及合班储备/最后校验/二批次组班/'
file1='小班课迁移二批次插班名单整合.xlsx'
df1=pd.read_excel(filepath+file1,dtype='object')

print(df1.columns)
print(df1.head())

df1.loc[:,'level']=df1['转入课程'].str.split(' ').str[2].str.slice(1)
df1.loc[:,'lesson']=df1['转入课程'].str.split(' ').str[3].str.slice(1)
df1.loc[:,'处理level']=np.where(df1['lesson']=='1',df1['level'].astype('int')-1,df1['level'].astype('int'))
df1.loc[:,'新level']='L'+df1['处理level'].astype(str)
df1.loc[:,'前部']=df1['转入课程'].str.rpartition(' ')[0].str.rpartition(' ')[0]
df1.loc[:,'新转入课程']=df1['前部'].str.cat(df1['新level'],sep=' ').str.cat('L'+df1['lesson'],sep=' ')
print(df1.iloc[:,[5,6,7,8,9,10,11,12]].head())

df1.to_excel(filepath+f'小班课迁移二批次插班名单整合{today}处理.xlsx',index=False)

模块四：分批次插班迭代（重点：根据实际数据形态按指定规则插班，并输出结果明细及影响分析）

import pandas as pd
import os
import numpy as np
import datetime
today=str(datetime.date.today())


filepath='/Users/kangyongqing/Documents/kangyq/202311/班均及合班储备/最后校验/二批次组班/'
file1='03新班级对应上课时间2023-12-20.xlsx'
file2='04插班生班型名称2023-12-20.xlsx'

df1=pd.read_excel(filepath+file1,usecols=['学员id','班级id','班型名称','班级名称'],dtype='object')
df1['标签']='已创建新班'
df2=pd.read_excel(filepath+file2,dtype='object')
print(df1.columns,df1.shape)
print(df2.columns,df2.shape)
df3=pd.DataFrame(pd.pivot_table(df1,index=('班级id','班型名称'),values='学员id',aggfunc='count').reset_index())
df3.rename(columns={'学员id':'班容'},inplace=True)
df3.loc[:,'可容纳']=6-df3['班容']
print(df3.head())
print(df3.shape,df3['班容'].sum())
df4=pd.DataFrame(df3.loc[df3['可容纳'].between(1,3,inclusive='both'),:])
print(df4.shape,df4['班容'].sum())

df4.sort_values(by=['班型名称','班容'],ascending=True,inplace=True)
df4.loc[:,'索引']=range(len(df4))
df4.loc[:,'班级序号']=df4.groupby('班型名称')['索引'].rank(method='dense')

print(df4.head(10))
pici=df4.groupby('班级序号')['班级id'].count()
print(pici)

df5=pd.DataFrame(df4.loc[df4['班级序号']==1,:])
df52=pd.DataFrame(df4.loc[df4['班级序号']==2,:])
df53=pd.DataFrame(df4.loc[df4['班级序号']==3,:])

df6=pd.merge(df5,df2,on='班型名称',how='left')
print(df6.columns)
print(df6.shape)
df61=pd.DataFrame(df6.loc[df6['学员id'].notnull(),:])
print(df61.shape)
df61.loc[:,'学生索引']=range(len(df61))
df61.loc[:,'学生序号']=df61.groupby('班级id')['学生索引'].rank(method='dense')
df61['插班一']='插班一'
df62=df61[df61['学生序号'].astype('int')<=df61['可容纳'].astype('int')]
print(df62.shape)
print(df62.head())
#第一次插班完毕


#第二次插班开始
df22=pd.merge(df2,df62.loc[:,['学员id','插班一']],on='学员id',how='left')
df222=pd.DataFrame(df22.loc[df22['插班一'].isnull(),:])  #排除第一批插班成功的学生
print(df222.shape)

df7=pd.merge(df52,df222,on='班型名称',how='left')
print(df7.columns)
print(df7.shape)
df71=pd.DataFrame(df7.loc[df7['学员id'].notnull(),:])
print(df71.shape)
df71.loc[:,'学生索引']=range(len(df71))
df71.loc[:,'学生序号']=df71.groupby('班级id')['学生索引'].rank(method='dense')
df71['插班二']='插班二'
df72=df71[df71['学生序号'].astype('int')<=df71['可容纳'].astype('int')]
print(df72.shape)
print(df72.head())
#第二次插班完毕


#第三次插班开始
df23=pd.merge(df222,df72.loc[:,['学员id','插班二']],on='学员id',how='left')
df233=pd.DataFrame(df23.loc[df23['插班二'].isnull(),:])  #排除第二批插班成功的学生
print(df233.shape)

df8=pd.merge(df53,df233,on='班型名称',how='left')
print(df8.columns)
print(df8.shape)
df81=pd.DataFrame(df8.loc[df8['学员id'].notnull(),:])
print(df81.shape)
df81.loc[:,'学生索引']=range(len(df81))
df81.loc[:,'学生序号']=df81.groupby('班级id')['学生索引'].rank(method='dense')
df81['插班三']='插班三'
df82=df81[df81['学生序号'].astype('int')<=df81['可容纳'].astype('int')]
print(df82.shape)
print(df82.head())
#第三次插班完毕


#第四次插班开始，若有的话
df24=pd.merge(df233,df82.loc[:,['学员id','插班三']],on='学员id',how='left')
df244=pd.DataFrame(df24.loc[df24['插班三'].isnull(),:])  #排除第二批插班成功的学生
print(df244.shape)
print(df244.head())
#无法插班学生汇总


#已插班学生汇总
df9=pd.concat((df62.loc[:,['学员id','班级id','班型名称']],df72.loc[:,['学员id','班级id','班型名称']],df82.loc[:,['学员id','班级id','班型名称']]),axis=0)
print(df9.shape)
df9['班级名称']=''
df9['标签']='二批次插班'
print(df9.head())

df10=pd.concat((df1,df9),axis=0)

print(df10.shape)
print(df10.head())

df11=pd.pivot_table(df10,index='标签',values='学员id',aggfunc='count',margins=True)

df120=pd.pivot_table(df10[df10['标签']=='已创建新班'],index='班级id',values='学员id',aggfunc='count').reset_index().rename(columns={'学员id':'班容'})
df130=pd.pivot_table(df120,index='班容',values='班级id',aggfunc='count',margins=True)
df12=pd.pivot_table(df10,index='班级id',values='学员id',aggfunc='count').reset_index().rename(columns={'学员id':'班容'})
df13=pd.pivot_table(df12,index='班容',values='班级id',aggfunc='count',margins=True)
df13.loc[:,'班级数变化']=df13['班级id']-df130['班级id']


qbj=np.round(len(df1)/len(df1['班级id'].unique()),2)
print(qbj)
hbj=np.round(len(df10)/len(df10['班级id'].unique()),2)
print(hbj)

writer=pd.ExcelWriter(filepath+f'06二批次可插班明细{today}.xlsx',engine='openpyxl')
# df4.to_excel(writer,sheet_name='班级排序')
# pici.to_excel(writer,sheet_name='批次班级数')
# df5.to_excel(writer,sheet_name='第一次插班班级明细')
df10.to_excel(writer,sheet_name='插班后学员明细',index=False)
df11.to_excel(writer,sheet_name='批次统计')
df130.to_excel(writer,sheet_name='插班前班容分布')
df13.to_excel(writer,sheet_name='插班后班容分布')
wb=writer.book.create_sheet('班均')
wb.cell(row=1,column=1).value='插班前班均'
wb.cell(row=1,column=2).value='插班后班均'
wb.cell(row=2,column=1).value=qbj
wb.cell(row=2,column=2).value=hbj

writer._save()



from openpyxl import load_workbook
from openpyxl.utils import  get_column_letter
def reset_col(filename):
    wb=load_workbook(filename)
    for sheet in wb.sheetnames:
        ws=wb[sheet]
        df=pd.read_excel(filename,sheet).fillna('-')
        df.loc[len(df)]=list(df.columns)   #把标题行附件到最后一行
        for col in df.columns:
            index=list(df.columns).index(col)   #列序号
            letter=get_column_letter(index+1)   #列字母
            collen=df[col].apply(lambda  x:len(str(x).encode())).max()    #获取这一列长度的最大值 当然也可以用min获取最小值 mean获取平均值
            ws.column_dimensions[letter].width=collen*1.2+2               #也就是列宽为最大长度*1.2  可以自己调整
        wb.save(filename)

reset_col(writer)

Pandas：数据科学的超级瑞士军刀科技林总 DeepSeek学AI 人工智能
**——从零基础到高效分析的进化指南**###**一、Pandas诞生：数据革命的救世主****2010年前的数据分析噩梦**：```python#传统Python处理表格数据data=[]forrowincsv_file:ifrow[3]>100androw[2]=="China":data.append(float(row[5])#代码冗长易错！```**核心痛点**：-Excel处理百万行崩
使用Python操作Excel，删重复数据及keep参数用法并保存的例子白帽黑客艾登 python excel 开发语言 Python编程 Python学习技能分享
01Ex按列标题删重复的数据解析：我们使用了pandas库读取Excel文件，并使用drop_duplicates()函数删除重复数据。其中，subset参数指定了删除重复数据的列（列名），keep参数指定了保留哪个重复记录（默认为第一个记录）。inplace=True参数表示在原始数据上进行操作。最后，我们使用to_excel()函数将处理后的数据，保存到一个新的Excel文件中，其中index
【Python高阶开发】1. Pandas工业级时序数据处理实战：从振动传感器数据到轴承故障预警系统 AI_DL_CODE python pandas 时序数据处理振动传感器工业数据清洗特征工程
摘要：在工业设备健康监测中，振动传感器数据是评估设备状态的核心依据，但高频噪声干扰、数据传输缺失、多设备时间戳错位等问题严重影响分析准确性。本文基于PythonPandas构建工业级时序数据处理流水线，提出"时间校正-缺失填充-噪声过滤-特征提取"四步清洗法，针对工业场景设计专用策略：短时缺失采用线性插值、长时缺失标记异常，振动数据结合移动平均与Z-score检测保留真实特征。通过时域（峰值、峭度
使用 PyTorch 和 Pandas 进行 Kaggle 房价预测 Clang's Blog AI pytorch pandas 人工智能
文章目录1、环境设置2、数据下载3、数据预处理4、模型构建5、训练和验证6、训练模型并生成预测结果7、完整代码在本篇博文中，我们将探索如何使用PyTorch和Pandas库，构建一个用于Kaggle房价预测的模型。我们将详细讨论数据加载、预处理、模型构建、训练、验证及最终预测的全过程。1、环境设置我们首先需要导入所需的库，包括用于数据处理的pandas和numpy，以及用于深度学习的torch。i
Python爬虫【五十八章】Python数据清洗与分析全攻略：从Pandas到深度学习的异常检测进阶程序员_CLUB Python入门到进阶 python 爬虫 pandas
目录背景与需求分析第一章：结构化数据清洗实战（Pandas核心技法）1.1数据去重策略矩阵1.2智能缺失值处理体系第二章：深度学习异常检测进阶2.1自动编码器异常检测（时序数据）2.2图神经网络异常检测（关系型数据）第三章：综合案例实战案例1：金融交易反欺诈系统案例2：工业传感器异常检测第四章：性能优化与工程实践4.1大数据处理加速技巧4.2模型部署方案第五章：方法论总结与展望5.1方法论框架5.
【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts) 视频教程 - 微博文章数据可视化分析-文章分类下拉框实现 java1234_小锋 NLP NLLP微博舆情分析 python 自然语言处理 flask
大家好，我是java1234_小锋老师，最近写了一套【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts)视频教程，持续更新中，计划月底更新完，感谢支持。今天讲解微博文章数据可视化分析-文章分类下拉框实现视频在线地址：2026版【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts+爬虫)视频教程（火爆连载更
【Python】pandas.cut()函数的用法
pandas.cut()函数是一个非常有用的工具，用于将数值型数据按照指定的分箱或区间进行分割，从而将连续的数值变量转换为离散的类别变量。这在数据分析和机器学习的特征工程中尤其有用，因为它可以帮助揭示不同区间内的数据分布特征，或者简化模型的输入。基本用法pandas.cut()的基本语法如下：pandas.cut(x,bins,right=True,labels=None,retbins=Fals
Python Pandas.cut函数解析与实战教程皓月照山川 pandas python pandas 开发语言
PythonPandas.cut函数解析与实战教程摘要pandas.cut是数据分析工具库Pandas中一个极其强大且常用的函数。它的核心功能是将连续的数值型数据根据指定的间断点（bins）进行分割，转换成离散化的区间类别（categoricaldata）。这种操作在数据预处理、特征工程和数据可视化中至关重要，例如，将用户的年龄分段、将考试分数评级、或将销售额划分为不同的等级。本文章将从基础用法到
实践篇：构建基于LLM与本地Pandas的混合式数据分析引擎超人阿亚 pandas 数据分析数据挖掘
公众号：dify实验室基于LLMOps平台-Dify的一站式学习平台。包含不限于：Dify工作流案例、DSL文件分享、模型接入、Dify交流讨论等各类资源分享。在上一篇《思路探索：当大型语言模型遇见数据分析的现实挑战》中，我们阐述了团队确立的技术路线：利用大型语言模型（LLM）作为自然语言到代码的“翻译器”，并结合PythonPandas库作为后端的高性能“计算核心”。本文将从工程实践的角度，详细
python小工具合集 Aronup python excel 开发语言
小工具合集1.python切分excel2.python检查excel输出每列最大长度[目录下所有文件or目录下每个文件]1.python切分excel"""@Project：pythonProject@File：splitFile.py@IDE：PyCharm@Author：alice@Date：2025/3/2113:48"""importpandasaspdimportosdefsplit_
pandas.to_sql mysql_pandas to_sql weixin_39929595 pandas.to_sql mysql
实例：importpymysqlimportpandasaspdimportnumpyasnpfromsqlalchemyimportcreate_enginedf=pd.DataFrame([[1,"Bob",0],[2,"Kim",1]],columns=["id","name","sex"])dfidnamesex01Bob012Kim1fromsqlalchemyimportcreate_
pandas 读取sqlserver_Python中pandas函数操作数据库
将pandas的DataFrame数据写入MySQL+sqlalchemypython强大的处理数据的能力很大一部分来自Pandas，pandas不仅限于读取本地的离线文件，也可以在线读取数据库的数据，处理后再写回数据库中。pandas主要是以sqlalchemy方式与数据库建立链接，支持Mysql、postgresql、Oracle、MSSQLServer、SQLite等主流数据库。一：创建链接
DataFrame（数据框）追逐此刻 SQL sql
一种二维表格型数据结构，类似于电子表格（如Excel）或SQL表，由行（记录）和列（字段）组成。它是数据分析、机器学习和科学计算中最常用的数据结构之一，尤其在Python的Pandas库中被广泛使用。1.DataFrame的核心特点特点说明二维结构类似表格，有行（记录）和列（字段）。列名（ColumnNames）每列有一个名称（如name,age,salary）。行索引（Index）每行有一个索引
day 34 打卡 weixin_39908253 AI学习笔记 python 机器学习
day21常见的降维算法#先运行之前预处理好的代码importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimportseabornassnsimportwarningswarnings.filterwarnings('ignore')#设置中文字体plt.rcParams['font.sans-serif']=['SimHei']pl
论文复现 Rank consistent ordinal regression for neural networks withapplication to age estimation DeniuHe Pytorch 算法
importtorchimporttorch.nn.functionalasFfromtorchimportnnfromtorch.autogradimportVariableimportpandasaspdimportnumpyasnpfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccurac
Pytorch实现目标检测
importosimportrandomimportpandasaspdimportnumpyasnpimportcv2fromsklearn.model_selectionimporttrain_test_splitimporttorchfromtorch.utils.dataimportDataset,DataLoaderimporttorch.nnasnnimporttorch.nn.fun
【Python高阶开发】2. Dask分布式加速实战：TB级生产日志分析效率提升指南
摘要：随着工业4.0的深入推进，工业生产日志数据量呈指数级增长，某汽车制造厂日均产生2TB生产日志，传统单机Pandas处理面临内存不足、耗时过长、资源利用率低三大瓶颈。本文基于Dask分布式计算框架，构建工业级日志分析解决方案，通过“集群部署-高效加载-数据处理-性能优化”四步法，实现日志分析效率5倍提升。详细阐述Dask核心原理（任务调度、延迟计算、数据分区），对比单机与分布式架构差异，提供从
如何在 Python 中高效处理大数据：Pandas 的实战技巧程序员威哥 python 大数据 pandas
随着数据量的不断增大，Python成为数据科学和数据分析领域最受欢迎的编程语言之一。Pandas，作为Python中处理数据的强大库，以其简洁易用和强大的功能，成为数据分析的首选工具。然而，随着数据量的急剧增长，如何高效地处理和分析大数据成为了一个关键问题。本文将深入解析如何利用Pandas高效处理大数据，探索一些实用的技巧，帮助你提升数据处理性能和优化内存使用，让你能够在大数据分析中游刃有余。1
python学习DAY4打卡星仔编程 python学习打卡学习
DAY4缺失值的处理题目：初识pandas库与缺失数据的补全pandas是Python里一个强大且广泛使用的开源数据分析与处理库按照示例代码的要求，去尝试补全信贷数据集中的数值型缺失值打开数据（csv文件、excel文件）查看数据（尺寸信息、查看列名等方法）查看空值众数、中位数填补空值利用循环补全所有列的空值完成后在py文件中独立完成一遍，并且利用debugger工具来查看属性（不借助函数显式查看
python学习Day5打卡 WYH49 学习
day5离散特征的独热编码先按照示例代码过一遍，然后完成下列题目现在在py文件中一次性处理data数据中所有的连续变量和离散变量1.读取data数据importpandasaspddata=pd.read_csv(r"C:\Users\LENOVO\Desktop\daim\data.csv")fordesribe_featuresindata.columns:ifdata[desribe_fea
python学习DAY22打卡星仔编程 python学习打卡学习
作业：自行学习参考如何使用kaggle平台，写下使用注意点，并对下述比赛提交代码kaggle泰坦尼克号人员生还预测importwarningswarnings.filterwarnings("ignore")#忽略警告信息#数据处理清洗包importpandasaspdimportnumpyasnpimportrandomasrnd#可视化包importseabornassnsimportmatp
推荐系统如何开发一行代码通万物 python 人工智能推荐系统
推荐系统实现了基于协同过滤的推荐功能支持两种推荐模式：基于用户的协同过滤（寻找相似用户喜欢的物品）基于物品的协同过滤（寻找相似物品）主要功能：数据加载（支持自定义数据或内置的MovieLens数据集）模型训练模型评估（计算RMSE和MAE指标）为指定用户生成推荐列表使用前需要安装依赖库：pipinstallsurprisepandasnumpy可以通过修改sim_options参数来调整相似度计算
pandas库 DataFrame的常见操作
目录一.Pandas库的核心特点与应用场景1.表格数据处理2.与NumPy的区别3.数据转换二.Pandas与OpenPyXl的对比三.DataFrame与Series数据类型四.DataFrame常用操作排序：df.sort_values(by='列名',ascending=False)按指定列降序排序，整行数据同步调整，当参数值为ture时则为升序排序或默认升序排序数据替换：df['列名'].
数据分析利器：Pandas数据处理实战指南程序员Bears Python全栈成长笔记数据分析 pandas 数据挖掘
一、Pandas简介：数据分析的瑞士军刀Pandas是Python数据分析的核心库，它提供了两种主要数据结构：Series：一维带标签数组DataFrame：二维表格型数据结构（类似Excel表格）importpandasaspd#创建示例DataFramedata={'姓名':['张三','李四','王五'],'年龄':[25,30,28],'城市':['北京','上海','广州']}df=pd
Python 玩转 Excel：四大神器横向评测与实战指南
在数据驱动的时代，每天有超过3亿人使用Excel处理数据，但面对复杂报表、批量处理等场景时，传统操作往往力不从心。Python作为数据处理的瑞士军刀，与Excel的深度整合能力正在掀起一场办公效率革命。本文将深入剖析四大主流Python-Excel工具的技术特性，带您解锁自动化办公的终极形态。一、四大核心工具特性速览1.Pandas（数据分析之王）作为NumFOCUS基金会支持的项目，Pandas
数据分析必备神器：Pandas入门实战指南（零基础也能起飞[特殊字符]）
文章目录一、为什么Pandas是数据分析的神器？Pandas的三大超能力：二、5分钟极速上手（附实战代码）三、职场人必学的五个骚操作3.1数据清洗黑科技3.2多文件合并技巧3.3智能分组统计3.4时间序列分析3.5表格颜值改造四、避坑指南（血泪教训）4.1内存爆炸陷阱4.2索引混乱之谜4.3SettingWithCopy幽灵警告五、学习路线图（亲测有效）朋友们！！！今天咱们聊聊Python数据分析
pandas 的数据类型简单介绍-Series 与 DataFrame 江南野栀子 #Python 数据分析 python pandas 数据分析
目录1.Series1.1Series定义1.2Series构造2.DataFrame2.1DataFrame定义2.2DataFrame构造2.2.1使用pandas.DataFrame函数2.2.2使用pandas.DataFrame.from_dict函数2.2.3使用pandas.DataFrame.from_records函数2.2.4从csv、Excel、txt、mysql等等处获得数
Python 数据分析课程学习总结：从理论到实践的进阶之路
作为一名大学生，在2024-2025学年下学期接触《Python数据分析》这门课程时，我对数据分析的认知还停留在“用Excel做简单统计”的层面。但经过一学期的学习，我不仅掌握了Python数据分析的核心工具，更培养了用数据思维解决问题的能力。以下是我从知识吸收、实践打磨到思维重塑的完整学习总结。一、工具学习：从陌生到熟悉的跨越（一）Pandas：数据处理的得力助手最开始接触Pandas的时候，感
【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts) 视频教程 - 主页-评论用户时间占比环形饼状图实现
大家好，我是java1234_小锋老师，最近写了一套【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts)视频教程，持续更新中，计划月底更新完，感谢支持。今天讲解主页-评论用户时间占比环形饼状图实现视频在线地址：2026版【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts+爬虫)视频教程（火爆连载更新中.
Pandas 处理缺失数据
文章目录Pandas处理缺失数据缺失数据约定的权衡Pandas中的缺失数据None作为哨兵值NaN：缺失的数值数据Pandas中的NaN和NonePandas可空数据类型对缺失值的操作检测空值删除空值填充空值总结Pandas处理缺失数据许多教程中的数据与现实世界中的数据有很大不同，现实世界中的数据很少是干净且同质的。尤其是，许多有趣的数据集都会存在一定程度的数据缺失。更复杂的是，不同的数据来源可能
linux系统服务器下jsp传参数乱码 3213213333332132 java jsp linux windows xml
在一次解决乱码问题中，发现jsp在windows下用js原生的方法进行编码没有问题，但是到了linux下就有问题， escape,encodeURI,encodeURIComponent等都解决不了问题但是我想了下既然原生的方法不行，我用el标签的方式对中文参数进行加密解密总该可以吧。于是用了java的java.net.URLDecoder,结果还是乱码，最后在绝望之际，用了下面的方法解决了
Spring 注解区别以及应用 BlueSkator spring
1. @Autowired @Autowired是根据类型进行自动装配的。如果当Spring上下文中存在不止一个UserDao类型的bean，或者不存在UserDao类型的bean，会抛出 BeanCreationException异常，这时可以通过在该属性上再加一个@Qualifier注解来声明唯一的id解决问题。 2. @Qualifier 当spring中存在至少一个匹
printf和sprintf的应用 dcj3sjt126com PHP sprintf printf
<?php printf('b: %b c: %c d: %d <bf>f: %f', 80,80, 80, 80); echo ' '; printf('%0.2f %+d %0.2f ', 8, 8, 1235.456); printf('th
config.getInitParameter 171815164 parameter
web.xml <servlet> <servlet-name>servlet1</servlet-name> <jsp-file>/index.jsp</jsp-file> <init-param> <param-name>str</param-name>
Ant标签详解--基础操作 g21121 ant
Ant的一些核心概念： build.xml：构建文件是以XML 文件来描述的，默认构建文件名为build.xml。 project：每个构建文
[简单]代码片段_数据合并 53873039oycg 代码
合并规则:删除家长phone为空的记录,若一个家长对应多个孩子,保留一条家长记录,家长id修改为phone,对应关系也要修改。代码如下:
java 通信技术云端月影 Java 远程通信技术
在分布式服务框架中，一个最基础的问题就是远程服务是怎么通讯的，在Java领域中有很多可实现远程通讯的技术，例如：RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等，这些名词之间到底是些什么关系呢，它们背后到底是基于什么原理实现的呢，了解这些是实现分布式服务框架的基础知识，而如果在性能上有高的要求的话，那深入了解这些技术背后的机制就是必须的了，在这篇blog中我们将来
string与StringBuilder 性能差距到底有多大 aijuans
之前也看过一些对string与StringBuilder的性能分析，总感觉这个应该对整体性能不会产生多大的影响，所以就一直没有关注这块！由于学程序初期最先接触的string拼接，所以就一直没改变过自己的习惯！
今天碰到 java.util.ConcurrentModificationException 异常 antonyup_2006 java 多线程工作 IBM
今天改bug，其中有个实现是要对map进行循环，然后有删除操作，代码如下： Iterator<ListItem> iter = ItemMap.keySet.iterator(); while(iter.hasNext()){ ListItem it = iter.next(); //...一些逻辑操作 ItemMap.remove(it); } 结果运行报Con
PL/SQL的类型和JDBC操作数据库百合不是茶 PL/SQL表标量类型游标 PL/SQL记录
PL/SQL的标量类型: 字符,数字,时间,布尔,%type五中类型的 --标量：数据库中预定义类型的变量 --定义一个变长字符串 v_ename varchar2(10); --定义一个小数,范围 -9999.99~9999.99 v_sal number(6,2); --定义一个小数并给一个初始值为5.4 :=是pl/sql的赋值号
Mockito：一个强大的用于 Java 开发的模拟测试框架实例 bijian1013 mockito 单元测试
Mockito框架： Mockito是一个基于MIT协议的开源java测试框架。 Mockito区别于其他模拟框架的地方主要是允许开发者在没有建立“预期”时验证被测系统的行为。对于mock对象的一个评价是测试系统的测
精通Oracle10编程SQL(10)处理例外 bijian1013 oracle 数据库 plsql
/* *处理例外 */ --例外简介 --处理例外-传递例外 declare v_ename emp.ename%TYPE; begin SELECT ename INTO v_ename FROM emp where empno=&no; dbms_output.put_line('雇员名：'||v_ename); exceptio
【Java】Java执行远程机器上Linux命令 bit1129 linux命令
Java使用ethz通过ssh2执行远程机器Linux上命令，封装定义Linux机器的环境信息 package com.tom; import java.io.File; public class Env { private String hostaddr; //Linux机器的IP地址 private Integer po
java通信之Socket通信基础白糖_ java socket 网络协议
正处于网络环境下的两个程序，它们之间通过一个交互的连接来实现数据通信。每一个连接的通信端叫做一个Socket。一个完整的Socket通信程序应该包含以下几个步骤： ①创建Socket； ②打开连接到Socket的输入输出流； ④按照一定的协议对Socket进行读写操作； ④关闭Socket。 Socket通信分两部分：服务器端和客户端。服务器端必须优先启动，然后等待soc
angular.bind boyitech AngularJS angular.bind AngularJS API bind
angular.bind 描述：上下文，函数以及参数动态绑定，返回值为绑定之后的函数. 其中args是可选的动态参数，self在fn中使用this调用。使用方法： angular.bind(se
java-13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 bylijinnan java
import java.util.ArrayList; import java.util.List; public class KickOutBadGuys { /** * 题目：13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 * Maybe you can find out
Redis.conf配置文件及相关项说明（自查备用） Kai_Ge redis
Redis.conf配置文件及相关项说明 # Redis configuration file example # Note on units: when memory size is needed, it is possible to specifiy # it in the usual form of 1k 5GB 4M and so forth: #
[强人工智能]实现大规模拓扑分析是实现强人工智能的前奏 comsci 人工智能
真不好意思,各位朋友...博客再次更新... 节点数量太少,网络的分析和处理能力肯定不足,在面对机器人控制的需求方面,显得力不从心.... 但是,节点数太多,对拓扑数据处理的要求又很高,设计目标也很高,实现起来难度颇大...
记录一些常用的函数 dai_lm java
public static String convertInputStreamToString(InputStream is) { StringBuilder result = new StringBuilder(); if (is != null) try { InputStreamReader inputReader = new InputStreamRead
Hadoop中小规模集群的并行计算缺陷 datamachine mapreduce hadoop 并行计算
注：写这篇文章的初衷是因为Hadoop炒得有点太热，很多用户现有数据规模并不适用于Hadoop，但迫于扩容压力和去IOE（Hadoop的廉价扩展的确非常有吸引力）而尝试。尝试永远是件正确的事儿，但有时候不用太突进，可以调优或调需求，发挥现有系统的最大效用为上策。 -----------------------------------------------------------------
小学4年级英语单词背诵第二课 dcj3sjt126com english word
egg 蛋 twenty 二十 any 任何 well 健康的，好 twelve 十二 farm 农场 every 每一个 back 向后，回 fast 快速的 whose 谁的 much 许多 flower 花 watch 手表 very 非常，很 sport 运动 Chinese 中国的
自己实践了github的webhooks, linux上面的权限需要注意 dcj3sjt126com github webhook
环境, 阿里云服务器 1. 本地创建项目, push到github服务器上面 2. 生成www用户的密钥 sudo -u www ssh-keygen -t rsa -C "[email protected]" 3. 将密钥添加到github帐号的SSH_KEYS里面 3. 用www用户执行克隆, 源使
Java冒泡排序蕃薯耀冒泡排序 Java冒泡排序 Java排序
冒泡排序 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 10:40:14 星期二 http://fanshuyao.iteye.com/
Excle读取数据转换为实体List【基于apache-poi】 hanqunfeng apache
1.依赖apache-poi 2.支持xls和xlsx 3.支持按属性名称绑定数据值 4.支持从指定行、列开始读取 5.支持同时读取多个sheet 6.具体使用方式参见org.cpframework.utils.excelreader.CP_ExcelReaderUtilTest.java 比如： Str
3个处于草稿阶段的Javascript API介绍 jackyrong JavaScript
原文： http://www.sitepoint.com/3-new-javascript-apis-may-want-follow/?utm_source=html5weekly&utm_medium=email 本文中，介绍3个仍然处于草稿阶段，但应该值得关注的Javascript API. 1) Web Alarm API &
6个创建Web应用程序的高效PHP框架 lampcy Web 框架 PHP
以下是创建Web应用程序的PHP框架，有coder bay网站整理推荐： 1. CakePHP CakePHP是一个PHP快速开发框架，它提供了一个用于开发、维护和部署应用程序的可扩展体系。CakePHP使用了众所周知的设计模式，如MVC和ORM，降低了开发成本，并减少了开发人员写代码的工作量。 2. CodeIgniter CodeIgniter是一个非常小且功能强大的PHP框架，适合需
评"救市后中国股市新乱象泛起"谣言 nannan408
首先来看百度百家一位易姓作者的新闻：三个多星期来股市持续暴跌，跌得投资者及上市公司都处于极度的恐慌和焦虑中，都要寻找自保及规避风险的方式。面对股市之危机，政府突然进入市场救市，希望以此来重建市场信心，以此来扭转股市持续暴跌的预期。而政府进入市场后，由于市场运作方式发生了巨大变化，投资者及上市公司为了自保及为了应对这种变化，中国股市新的乱象也自然产生。首先，中国股市这两天
页面全屏遮罩的实现方式 Rainbow702 html css 遮罩 mask
之前做了一个页面，在点击了某个按钮之后，要求页面出现一个全屏遮罩，一开始使用了position:absolute来实现的。当时因为画面大小是固定的，不可以resize的，所以，没有发现问题。最近用了同样的做法做了一个遮罩，但是画面是可以进行resize的，所以就发现了一个问题，当画面被reisze到浏览器出现了滚动条的时候，就发现，用absolute 的做法是有问题的。后来改成fixed定位就
关于angularjs的点滴 tntxia AngularJS
angular是一个新兴的JS框架，和以往的框架不同的事，Angularjs更注重于js的建模，管理，同时也提供大量的组件帮助用户组建商业化程序，是一种值得研究的JS框架。 Angularjs使我们可以使用MVC的模式来写JS。Angularjs现在由谷歌来维护。这里我们来简单的探讨一下它的应用。首先使用Angularjs我
Nutz--->>反复新建ioc容器的后果 xiaoxiao1992428 DAO mvc IOC nutz
问题： public class DaoZ { public static Dao dao() { // 每当需要使用dao的时候就取一次 Ioc ioc = new NutIoc(new JsonLoader("dao.js")); return ioc.get(

插班实战演习

模块一：处理班级标签（重点：字符串处理，分列合并，长度填充等）

模块二：字符串处理（重点：多种形式的字符串替换及分列合并）

模块三：特殊需求处理（重点：lesson1的level下降一级，长字符串的处理）

模块四：分批次插班迭代（重点：根据实际数据形态按指定规则插班，并输出结果明细及影响分析）

你可能感兴趣的:(pandas)