Skrrapper

【无痛学Python】Pandas数据载入与预处理，看这一篇就够了！

【Python数据分析】Pandas数据载入与预处理，看这一篇就够了！

对于数据分析而言，数据大部分来源于外部数据，例如CSV文件、Excel文件以及数据库文件等等。

我们要把各种格式的数据转换成Pandas可处理的Series和DataFrame数据格式，进行完数据分析与处理之后再重新存储到外部文件中，这就是Pandas的数据载入与预处理。

数据载入

其实对于读/写文件和存储文件来说，不同类型文件的函数格式都差不多，遵循以下格式：

读/写文件：read_xxx

存储文件：to_xxx

区别主要还是在参数类型的不同上。

1.读/写文本文件

文本文件是一种由若干行字符构成的文件，同时它也是一种按照顺序来进行书写的文件。

文本文件分为普通的文本文件和CSV文件。

CSV文件是一种使用逗号分隔的文件格式，但因为有时候又不一定是逗号，所以也被称为 字符分隔文件 。

文本文件都以纯文本形式保存数据。

使用read_table()来读取文本文件

使用read_csv()来读取CSV文件

它们有如下的参数：

参数	说明
filepath	接受string，代表文件路径
sep	接受string，代表分隔符。table默认为[Tab]，csv默认为”,“ 。注意：如果分隔符指定错误，就会导致数据连成一片
header	接受int或sequence，将某行数据作为列名，默认为infer，即自动识别
names	接受array，表示列名，默认为None
index_col	接受int、sequence或False，表示索引列的位置，默认为None
dtype	接受dict，代表写入的数据类型（列名为key，数据格式为values），默认为None
engine	接受c或者python，代表你要使用编程语言引擎，默认为c
nrows	接受int，表示读取前n行，默认为None

df1 = pd.read_csv('xxx文件路径名')
df2 = pd.read_table('xxx文件路径名',sep = ',')
df3 = pd.read_csv('xxx文件路径名',names = ['a','b','c'])

2.文本文件的存储

使用to_table或者to_csv进行存储。

读/写Excel文件

1.Excel文件的读取

Pandas允许读取xls和xlsx两种Excel文件。

使用read_excel

部分参数与文本文件的相同，以下只介绍多出来的部分（其实也只有一个）。

参数	说明
sheetname	接受string，int，表示Excel表内数据的分表位置，默认为0

2.Excel文件的存储

使用to_excel

常用参数也基本一致，主要区别在于由于Excel是表格形式，没有sep作为分隔符，并且多出了sheetname来指定存储的Excel Sheet的名称，默认为sheet1。

读/写JSON数据

JSON作为一种轻量级的数据交换格式，使用大括号来区分表示并存储。

1.JSON数据的读取

使用read_json

由于有时候会出现顺序错乱的问题，我们要使用sort_index来对行索引进行一下排序。

2.JSON数据的存储

使用to_json

读取数据库文件

数据库是数据分析中很重要的一个部分。那么对它的读取也就显得格外值得重视。

对于数据库文件的读取，我们要注意，首先要进行数据库的连接connect()，然后是读取read_sql，最后还要进行关闭close()。

1.读取MySQL数据

import pandas as pd
import MySQLdb
conn = MySQLdb.connect(host = host,port = port,user = username,passwd = password,db = db_name)
df = pd.read_sql("select * from table_name",con = conn)
conn,close()

2.读取SQL Server数据

import pandas as pd
import pymssql
conn = pymssql.connect(host = host,port = port,user = username,passwd = password,db = db_name)
df = pd.read_sql("select * from table_name",con = conn)
conn,close()

合并数据

如果有不同的数据来源，就要进行数据的合并。

1.merge数据合并

merge函数通过一个或多个键将两个DataFrame按行合并起来处理。它与SQL中的join的用法类似。

格式就没必要写了，直接介绍参数。

参数	说明
left	参与合并的左侧DataFrame
right	参与合并的右侧DataFrame
how	连接方法：inner（默认），left，right，outer（这里需要自行去了解下几个合并方法的概念）
on	用于连接的列名
left_on	左侧DataFrame中用于连接键的列
right_on	右侧DataFrame中用于连接键的列
left_index	左侧行索引作为连接键
right_index	右侧行索引作为连接键
sort	合并后会对数据进行排序，默认为Ture
suffixes	修改重复名

# merge合并数据
price = pd.DataFrame({'fruit':['apple','orange','pear','orange'],'price':[8,7,9,11]})
# print(price)
amount = pd.DataFrame({'fruit':['apple','orange','pear'],'amout':[5,11,8],'price':[8，7，9]})
# print(amount)
print(pd.merge(price,amount))

    fruit  price  amout
0   apple      8      5
1  orange      7     11
2    pear      9      8
3  orange     11     11

由于两个DataFrame都由fruit列，所以默认会按照这个列来进行合并，并且根据默认的连接方法inner进行合并。

如果不想要根据默认的列来进行合并，可以进行指定

# merge合并数据
price = pd.DataFrame({'fruit':['apple','orange','pear'],'price':[8,7,9]})
# print(price)
amount = pd.DataFrame({'fruit':['apple','orange','pear'],'amout':[5,11,8],'price':[8,7,9]})
# print(amount)
print(pd.merge(price,amount,left_on='price',right_on='price'))

当你使用这样的代码进行输出你会发现有以下问题：

  fruit_x  price fruit_y  amout
0   apple      8   apple      5
1  orange      7  orange     11
2    pear      9    pear      8

这里的fruit_x和fruit_y实际上就是重复的列，系统默认用_x 和 _y来区分，我们要消除的话，就可以使用suffixes参数来进行消除重复列名。

# merge合并数据
price = pd.DataFrame({'fruit':['apple','orange','pear'],'price':[8,7,9]})
# print(price)
amount = pd.DataFrame({'fruit':['apple','orange','pear'],'amout':[5,11,8],'price':[8,7,9]})
# print(amount)
print(pd.merge(price,amount,left_on='price',right_on='price',suffixes=('_left','_right')))

  fruit_left  price fruit_right  amout
0      apple      8       apple      5
1     orange      7      orange     11
2       pear      9        pear      8

2.concat数据连接

如果两个DataFrame之间没有连接键，那么就无法使用merge方法。

# merge合并数据
price = pd.DataFrame({'fruit':['apple','orange','pear','orange'],'price':[8,7,9,11]})
amount = pd.DataFrame({'name':['apple','orange','pear'],'amout':[5,11,8]}) # 这样就会报错
print(pd.merge(price,amount))

那么我们就可以用concat来进行连接。我们其实可以这样理解，merge就是合并，那么合并就必须得有相同的部分，也就是连接键；而concat就是连接，连接不一定需要相同的部分。

默认情况下会按照行的方向进行数据的堆叠，axis=1时就是列。

# concat连接数据
s1 = pd.Series([0,1],index = ['a','b'])
s2 = pd.Series([2,3,4],index = ['a','d','e'])
s3 = pd.Series([5,6],index = ['f','g'])
print(pd.concat([s1,s2,s3]))
# 只显示DataFrame的示例
data1 = pd.DataFrame(np.arange(6).reshape(2,3),columns=list('abc'))
print(data1)
data2 = pd.DataFrame(np.arange(20,26).reshape(2,3),columns=list('ayz'))
print(data2)
data = pd.concat([data1,data2],axis=0)
print(data)

   a  b  c
0  0  1  2
1  3  4  5
    a   y   z
0  20  21  22
1  23  24  25
    a    b    c     y     z
0   0  1.0  2.0   NaN   NaN
1   3  4.0  5.0   NaN   NaN
0  20  NaN  NaN  21.0  22.0
1  23  NaN  NaN  24.0  25.0

如果axis=1，会有以下
   a  b  c   a   y   z
0  0  1  2  20  21  22
1  3  4  5  23  24  25

可以看出，concat默认为外连接，那么我们也可以指定join使用别的连接方式。

3.combine_first合并数据

如果有重复的索引，就使用combine_first

data0 = data1.combine_first(data2)
print(data0)

注意，如果重复索引的数据不一样，会默认使用第一个DataFrame中的数据。

   a  b  c   a   y   z
0  0  1  2  20  21  22
1  3  4  5  23  24  25
   a  b  c   y   z
0  0  1  2  21  22
1  3  4  5  24  25

数据清洗

数据一般时不完整、有噪声和不一致的。数据清洗包括填充缺失的数据值、光滑噪声等等。

确实，前面的操作我们发现虽然进行了数据的分析，但是总感觉有些看起来不够顺眼，而数据清洗就是让数据看起来更顺眼的。

检测与处理缺失值

1.缺失值的处理

使用isnull来检测缺失值，通常是返回布尔值，如果是缺失值则返回True，否则返回False
使用isnull().sum()来统计缺失值，也可以使用info()来查看DataFrame的缺失值
使用dropna来删除具有缺失值的行或列，其中参数：axis默认为0；how如果是’any’（默认），说明只要有缺失值就删除，如果是’all’，说明如果该行或者列全是缺失值在进行删除；thresh用于说明阙值；inplace说明是否对原数据进行返回。
使用fillna来填充缺失值，往往这个方法更常用，毕竟直接删除数据不太好。填充值一般是平均数、中位数或者众数之类较为稳定的数据，当然也可以指定一个常数，**更甚至可以用字典形式来实现不同列填充不同值。**inplace参数可以指定是返回新对象还是直接对原数据进行修改。

2.检测与处理重复值

如果有重复值，我们只需要保留一份即可，我们使用duplicates可以进行判断是否有重复，使用drop_duplicates进行重复值的删除。

# 检测与处理重复值

data = {
    'name': ['Alice', 'Bob', 'Charlie', 'Alice', 'David', 'Alice'],
    'age': [25, 30, 35, 25, 40, 25],
    'salary': [5000, 7000, 8000, 5000, 9000, 6000]
}

df = pd.DataFrame(data)
print("原始DataFrame:")
print(df)

# 检测重复值（所有列）
duplicates = df.duplicated()
print("\n检测重复值（所有列）:")
print(duplicates)

# 检测重复值（特定列 'name' 和 'age'）
duplicates_subset = df.duplicated(subset=['name', 'age'])
print("\n检测重复值（特定列 'name' 和 'age'）:")
print(duplicates_subset)

# 删除所有列的重复值
df_no_duplicates = df.drop_duplicates()
print("\n删除所有列的重复值后的DataFrame:")
print(df_no_duplicates)

# 删除特定列的重复值
df_no_duplicates_subset = df.drop_duplicates(subset=['name', 'age'])
print("\n删除特定列 'name' 和 'age' 的重复值后的DataFrame:")
print(df_no_duplicates_subset)

原始DataFrame:
      name  age  salary
0    Alice   25    5000
1      Bob   30    7000
2  Charlie   35    8000
3    Alice   25    5000
4    David   40    9000
5    Alice   25    6000

检测重复值（所有列）:
0    False
1    False
2    False
3     True
4    False
5    False
dtype: bool

检测重复值（特定列 'name' 和 'age'）:
0    False
1    False
2    False
3     True
4    False
5     True
dtype: bool

删除所有列的重复值后的DataFrame:
      name  age  salary
0    Alice   25    5000
1      Bob   30    7000
2  Charlie   35    8000
4    David   40    9000
5    Alice   25    6000

删除特定列 'name' 和 'age' 的重复值后的DataFrame:
      name  age  salary
0    Alice   25    5000
1      Bob   30    7000
2  Charlie   35    8000
4    David   40    9000

检测与处理异常值

异常值指的是数据中存在的个别数值明显偏离其余数据的值，异常值会严重干扰数据分析的结果。一般在庞大数据中异常值的发现可以通过图形来进行检测，那样更明显。

这里介绍三种方法

1.散点图方法

最显著的方法，看图说话。

2.箱线图方法

箱线图使用数据中五个统计量（最小值、下四分位数Q1、中位数Q2、上四分位数Q3、最大值）来描述数据。

它可以粗略看出数据的对称性和分散程度等信息。

它如何检测异常值呢？这里有个公式：有min = Q1 - 1.5(Q3-Q1)和max = Q3 + 1.5(Q3-Q1)，那么小于min或者大于max的值被称为异常值。

3.使用三倍标准差法则

异常值被定义为一组测定值中与平均值的偏差超过三倍标准差的值。（因为在正态分布中，这样的值出现的概率小于0.003）

数据转换

1.数据值替换

使用replace进行数据值的替换。

# 数据转换
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'Alice', 'David', '路人甲'],
    'age': [25, 30, 35, 25, 40, 25],
    'salary': [5000, 7000, 8000, 5000, 9000, 6000]
}

df = pd.DataFrame(data)
df = df.replace(['路人甲'],['李四'])
print(df)

      name  age  salary
0    Alice   25    5000
1      Bob   30    7000
2  Charlie   35    8000
3    Alice   25    5000
4    David   40    9000
5       李四   25    6000

也可以使用字典形式。

df = df.replace({'路人甲':'李四'})

如果要多值替换，使用逗号分隔就行。

2.使用函数或者映射进行数据转换

说白了就是自定义数据转换规则，使用map方法进行映射就行，不再赘述。

数据标准化

数据都得有个标准，或者说是量纲，为了消除量纲差异之间的影响，应该实现数据标准化。

离差标准化数据

使用这么一个公式：

x1 = (x - min) / (max -min)

写成函数就是：

df['age_minmax'] = (df['age'] - age_min) / (age_max - age_min)

标准差标准化数据

使用这么一个公式：

x1 = (x - mean) / std

写成函数就是：

df['age_zscore'] = (df['age'] - age_mean) / age_std

mean是平均值，std是标准差

标准化数据会不会影响数据精确性？

肯定会有人问：这样做岂不是改变了原数据的值吗？那不会影响到数据精确性吗？

数据标准化确实会改变数据的原始值，但其目的是为了更好地进行数据分析和建模。标准化不会改变数据的内在信息和结构，而是通过缩放或转换数据使其更适合特定的分析方法。

数据变换与数据离散化

数据分析的预处理除了数据清洗、数据合并和标准化之外，还有类别型数据变换和连续性数据的离散化。

类别型数据的哑变量处理

Python不能直接处理非数值型的变量，需要对这些变量进行转换。

哑变量（又称为虚拟变量），是用来反映质的属性的一个人工变量。通常取值True或者False。

我们先来看一个例子来更好理解。

# 类别型数据的转换
df = pd.DataFrame([
    ['green','M',120],
    ['blue','XL',150],
    ['red','XXL',200]
])
df.columns = ['color','size','prize']
print(df)
df1 = pd.get_dummies(df)
print(df1)

   color size  prize
0  green    M    120
1   blue   XL    150
2    red  XXL    200
   prize  color_blue  color_green  color_red  size_M  size_XL  size_XXL
0    120       False         True      False    True    False     False
1    150        True        False      False   False     True     False
2    200       False        False       True   False    False      True

可以看到，哑变量的使用使得那些不是数值类型的变量被拆分开来，通过把它们的数值名变成根据实际数据来进行分类，通过“是或者否”来进行赋值。这样很巧妙，把原先不是数值的类型，转变成了布尔值，从而更好地进行数据处理。

如果取值有m个，那么经过哑变量处理后就变成了2^m个特征，毕竟是只有True或者False两种情况。

连续型变量的离散化

通常数据都是连续性的，那样看起来不够清晰地知道它们之间的区别。我们使用离散化，将其分段，能够更明确它们的区别。

1.等宽法

使用cut方法，参数如下：

参数	说明
x	待离散化的数据
bins	表示离散化后的区间后者是类别数目
right	代表右侧是否为闭区间，默认是True
labels	表示离散化后各个类别的名称
retbins	代表是否返回区间标签，默认不返回
precision	显示标签的精度，默认为3

2.等频法

等宽法可能会有类分布不均匀的问题，我们修改cut的用法就能实现等频。指定一个方法(0,1+0,1/k,1.0/k)

3.聚类分析法

都说物以类聚，我们可以使用聚类分析法来指定聚类的标准，为合并到同一个簇的连续性数据做同一个标记，进行数据的区分。

你可能感兴趣的:(Python,python,pandas,数据库)

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
什么是缓存雪崩？缓存击穿？缓存穿透？分别如何解决？什么是缓存预热？ daixin8848 缓存 redis java 开发语言
缓存雪崩：在一个时间段内，有大量的key过期，或者Redis服务宕机，导致大量的请求到达数据库,带来巨大压力-给key设置不同的TTL、利用Redis集群提高服务的高可用性、添加多级缓存、添加降级流策略缓存击穿：给某一个key设置了过期时间，当key过期的时间，恰好这个时间点有大量的并发请求访问这个key，可能会瞬间把数据库压垮-互斥锁：缓存失败时，只允许一个请求去加载数据并更新缓存，其他请求阻塞
Aop +反射实现方法版本动态切换
需求分析在做技术选型的时候一直存在着两个声音，mongo作为数据库比较mysql好，mysql做为该数据比mongo好。当然不同数据库都有有着自己的优势，我们在做技术选型的时候无非就是做到对数据库的扬长避短。mysql最大的优势就是支持事务，事务的五大特性保证的业务可靠性，随之而来的就是事务会产生的问题：脏读、幻读、不可重复度，当然我们也会使用不同的隔离级别来解决。（最典型的业务问题：银行存取钱）
python笔记14介绍几个魔法方法抢公主的大魔王 python python
python笔记14介绍几个魔法方法先声明一下各位大佬，这是我的笔记。如有错误，恳请指正。另外，感谢您的观看，谢谢啦！(1).__doc__输出对应的函数，类的说明文档print(print.__doc__)print(value,...,sep='',end='\n',file=sys.stdout,flush=False)Printsthevaluestoastream,ortosys.std
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
环境搭建 | Python + Anaconda / Miniconda + PyCharm 的安装、配置与使用
本文将分别介绍Python、Anaconda/Miniconda、PyCharm的安装、配置与使用，详细介绍Python环境搭建的全过程，涵盖Python、Pip、PythonLauncher、Anaconda、Miniconda、Pycharm等内容，以官方文档为参照，使用经验为补充，内容全面而详实。由于图片太多，就先贴一个无图简化版吧，详情请查看Python+Anaconda/Minicond
MySQL复习题
一.填空题1.关系数据库的标准语言是SQL。2.数据库发展的3个阶段中，数据独立性最高的是阶段数据库系统。3.概念模型中的3种基本联系分别是一对一、一对多和多对多。4.MySQL配置文件的文件名是my.ini或my.cnf。5.在MySQL配置文件中，datadir用于指定数据库文件的保存目录。6.添加IFNOTEXISTS可在创建的数据库已存在时防止程序报错。7.MySQL提供的SHOWCREA
你竟然还在用克隆删除？Conda最新版rename命令全攻略！曦紫沐 Python基础知识 conda 虚拟环境管理
文章摘要Conda虚拟环境管理终于迎来革命性升级！本文揭秘Conda4.9+版本新增的rename黑科技，彻底告别传统“克隆+删除”的繁琐操作。从命令解析到实战案例，手把手教你如何安全高效地重命名Python虚拟环境，附带版本检测、环境迁移、故障排查等进阶技巧，助你提升开发效率10倍！一、颠覆认知：Conda居然自带重命名功能？很多开发者仍停留在“Conda无法直接重命名环境”的认知阶段，实际上自
centos7安装配置 Anaconda3
Anaconda是一个用于科学计算的Python发行版,Anaconda于Python，相当于centos于linux。下载[root@testsrc]#mwgethttps://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.2.0-Linux-x86_64.shBegintodownload:Anaconda3-5.2.0-L
Pandas：数据科学的超级瑞士军刀科技林总 DeepSeek学AI 人工智能
**——从零基础到高效分析的进化指南**###**一、Pandas诞生：数据革命的救世主****2010年前的数据分析噩梦**：```python#传统Python处理表格数据data=[]forrowincsv_file:ifrow[3]>100androw[2]=="China":data.append(float(row[5])#代码冗长易错！```**核心痛点**：-Excel处理百万行崩
Android GreenDao介绍和Generator生成表对象代码
目录(?)[-]介绍创建工程转载请注明：http://blog.csdn.net/sinat_30276961/article/details/50052109最近无意中发现了GreenDao，然后查看了一些资料后，发现这个数据库框架很适合用，于是乎，查看了官网的api，并自己写了一个小应用总结一下它的使用方法。介绍按照国际惯例，在开篇，总要先介绍一下什么是GreenDao吧。首先需要说明的是Gr
【Jupyter】个人开发常见命令 TIM老师 #Pycharm &VSCode python Jupyter
1.查看python版本importsysprint(sys.version)2.ipynb/py文件转换jupyternbconvert--topythonmy_file.ipynbipynb转换为mdjupyternbconvert--tomdmy_file.ipynbipynb转为htmljupyternbconvert--tohtmlmy_file.ipynbipython转换为pdfju
用 Python 开发小游戏：零基础也能做出《贪吃蛇》
本文专为零基础学习者打造，详细介绍如何用Python开发经典小游戏《贪吃蛇》。无需复杂编程知识，从环境搭建到代码编写、功能实现，逐步讲解核心逻辑与操作。涵盖Pygame库的基础运用、游戏界面设计、蛇的移动与食物生成规则等，让新手能按步骤完成开发，同时融入SEO优化要点，帮助读者轻松入门Python游戏开发，体验从0到1做出游戏的乐趣。一、为什么选择用Python开发《贪吃蛇》对于零基础学习者来说，
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
lesson20：Python函数的标注你的电影很有趣 python 开发语言
目录引言：为什么函数标注是现代Python开发的必备技能一、函数标注的基础语法1.1参数与返回值标注1.2支持的标注类型1.3Python3.9+的重大改进：标准集合泛型二、高级标注技巧与最佳实践2.1复杂参数结构标注2.2函数类型与回调标注2.3变量注解与类型别名三、静态类型检查工具应用3.1mypy：最流行的类型检查器3.2Pyright与IDE集成3.3运行时类型验证四、函数标注的工程价值与
Jupyter Notebook：数据科学的“瑞士军刀” a小胡哦机器学习基础人工智能机器学习
在数据科学的世界里，JupyterNotebook是一个不可或缺的工具，它就像是数据科学家手中的“瑞士军刀”，功能强大且灵活多变。今天，就让我们一起深入了解这个神奇的工具。一、JupyterNotebook是什么？JupyterNotebook是一个开源的Web应用程序，它允许你创建和共享包含实时代码、方程、可视化和解释性文本的文档。它支持多种编程语言，其中Python是最常用的语言之一。Jupy
Mac OSX 下的mysql数据库文件存放位置 Bruuuces mysql mac osx 位置存放
之前我的mysql的系统数据库里的表被我玩坏了，万般无奈之下只得删除所有mysql的东西重新构建数据库。按照网上搜到的内容删除后重装发现数据库没有什么变化。于是自己在每个可能存放数据库文件的目录查找，最终确认目录位置如下:使用HomeBrew安装为/usr/local/var/mysql使用官方下载的dmg镜像安装为/usr/local/mysql删除这个目录再重新安装mysql就会重新生成系统数
Django学习笔记（一）
学习视频为：pythondjangoweb框架开发入门全套视频教程一、安装pipinstalldjango==****检查是否安装成功django.get_version()二、django新建项目操作1、新建一个项目django-adminstartprojectproject_name2、新建APPcdproject_namedjango-adminstartappApp注：一个project
Python 程序设计讲义（26）：字符串的用法——字符的编码睿思达DBA_WGX Python 讲义 python 开发语言
Python程序设计讲义（26）：字符串的用法——字符的编码目录Python程序设计讲义（26）：字符串的用法——字符的编码一、字符的编码二、`ASCII`编码三、`Unicode`编码四、使用`ord()`函数查询一个字符对应的`Unicode`编码五、使用`chr()`函数查询一个`Unicode`编码对应的字符六、`Python`字符串的特征一、字符的编码计算机默认只能处理二进制数，而不能处
mac升级mysql_Mac OSX下的MySQL数据库升级 weixin_39801714 mac升级mysql
MacOSX下的数据库升级最麻烦的不过权限的问题.本文的MySQL的安装方式为OSX下DMG磁盘镜像的安装方式,MacPorts/Homebrew的方式大同小异.从5.6.17升级到5.7.18安装目录信息ls-al/usr/local|grepmysqllrwxr-xr-x1rootwheel30B52100:39mysql@->mysql-5.6.17-osx10.7-x86_64drwxr-
【Python】pypinyin-汉字拼音转换工具鸟哥大大 Python python 自然语言处理
文章目录1.主要功能2.安装3.常用API3.1拼音风格3.2核心API3.2.1pypinyin.pinyin()3.2.2pypinyin.lazy_pinyin()3.2.3pypinyin.load_single_dict()3.2.4pypinyin.load_phrases_dict()3.2.5pypinyin.slug()3.3注册新的拼音风格4.基本用法4.1库导入4.2基本汉字
python编程第十四课：数据可视化小小源助手 Python代码实例信息可视化 python 开发语言
Python数据可视化：让数据“开口说话”在当今数据爆炸的时代，数据可视化已成为探索数据规律、传达数据信息的关键技术。Python凭借其丰富的第三方库，为数据可视化提供了强大而灵活的解决方案。本文将带你深入了解Matplotlib库的基础绘图、Seaborn库的高级可视化以及交互式可视化工具Plotly，帮助你通过图表清晰地展示数据背后的故事。一、Matplotlib库基础绘图Matplotlib
【MySQL】MySQL数据库如何改名武昌库里写JAVA 面试题汇总与解析 spring boot vue.js sql java 学习
MySQL建库授权语句https://www.jianshu.com/p/2237a9649ceeMySQL数据库改名的三种方法https://www.cnblogs.com/gomysql/p/3584881.htmlMySQL安全修改数据库名几种方法https://blog.csdn.net/haiross/article/details/51282417MySQL重命名数据库https://
HikariCP调试日志深度解析：生产环境故障排查完全指南
HikariCP调试日志深度解析：生产环境故障排查完全指南更新时间：2025年7月4日|作者：资深架构师|适用版本：HikariCP5.x+|难度等级：中高级前言在生产环境中，数据库连接池往往是系统性能的关键瓶颈。HikariCP作为当前最流行的Java连接池，其调试日志包含了丰富的运行时信息，能够帮助我们快速定位和解决各种连接池相关问题。本文将深入解析HikariCP的日志体系，提供一套完整的故
Python数据可视化：用代码绘制数据背后的故事 AAEllisonPang Python 信息可视化 python 开发语言
引言：当数据会说话在数据爆炸的时代，可视化是解锁数据价值的金钥匙。Python凭借其丰富的可视化生态库，已成为数据科学家的首选工具。本文将带您从基础到高级，探索如何用Python将冰冷数字转化为引人入胜的视觉叙事。一、基础篇：二维可视化的艺术表达1.1Matplotlib：可视化领域的瑞士军刀importmatplotlib.pyplotaspltimportnumpyasnpx=np.linsp
大学社团管理系统（11831） codercode2022 java spring boot spring echarts spring cloud sentinel java-rocketmq
有需要的同学，源代码和配套文档领取，加文章最下方的名片哦一、项目演示项目演示视频二、资料介绍完整源代码（前后端源代码+SQL脚本）配套文档（LW+PPT+开题报告）远程调试控屏包运行三、技术介绍Java语言SSM框架SpringBoot框架Vue框架JSP页面Mysql数据库IDEA/Eclipse开发四、项目截图有需要的同学，源代码和配套文档领取，加文章最下方的名片哦!
python学习笔记（汇总）朕的剑还未配妥 python学习笔记整理 python 学习开发语言
文章目录一.基础知识二.python中的数据类型三.运算符四.程序的控制结构五.列表六.字典七.元组八.集合九.字符串十.函数十一.解决bug一.基础知识print函数字符串要加引号，数字可不加引号，如print(123.4)print('小谢')print("洛天依")还可输入表达式，如print(1+3)如果使用三引号，print打印的内容可不在同一行print("line1line2line
前端数据库：IndexedDB从基础到高级使用指南
文章目录前端数据库：IndexedDB从基础到高级使用指南引言一、IndexedDB概述1.1什么是IndexedDB1.2与其他存储方案的比较二、基础使用2.1打开/创建数据库2.2基本CRUD操作添加数据读取数据更新数据删除数据三、高级特性3.1复杂查询与游标3.2事务高级用法3.3性能优化技巧四、实战案例：构建离线优先的待办事项应用4.1数据库设计4.2同步策略实现五、常见问题与解决方案5.
PDF转Markdown - Python 实现方案与代码 Eiceblue Python Python PDF pdf python 开发语言 vscode
PDF作为广泛使用的文档格式，转换为轻量级标记语言Markdown后，可无缝集成到技术文档、博客平台和版本控制系统中，提高内容的可编辑性和可访问性。本文将详细介绍如何使用国产Spire.PDFforPython库将PDF文档转换为Markdown格式。技术优势：精准保留原始文档结构（段落/列表/表格）完整提取文本和图像内容无需Adobe依赖的纯Python实现支持Linux/Windows/mac
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb