数据治理 | 数据清洗必备 — 正则表达式

查看原文：【数据seminar】数据治理 | 数据清洗必备 — 正则表达式

我们将在数据治理板块中推出一系列原创推文，帮助读者搭建一个完整的社科研究数据治理软硬件体系。该板块将涉及以下几个模块：

1. 计算机基础知识

(1) 社科研究软硬件体系搭建——虚拟化技术概述与实践

2. 编程基础

(1) 数据治理 | 带你学Python之环境搭建与基础数据类型介绍篇

(2) 数据治理 | 带你学Python之控制结构与函数

(3) 数据治理 | 带你学Python之面向对象编程基础

(4) 数据治理 | 还在用Excel做数据分析呢？SQL它不香吗

(5) 数据治理 | 普通社科人如何学习SQL？一篇文章给您说明白

(6) 数据治理 | 如何实现SQL数据库的横向匹配

3. 数据采集

(1) 数据治理 | 快速get数据采集技能：理论知识篇

(2) 数据治理 | 数据采集实战：静态网页数据采集

(3) 数据治理 | 数据采集实战：动态网页数据采集

4. 数据存储

(1) 安装篇： 数据治理 | 遇到海量数据stata卡死怎么办？这一数据处理利器要掌握

(2) 管理篇： 数据治理 | 多人协同处理数据担心不安全？学会这一招，轻松管理你的数据团队

(3) 数据导入： 数据治理 | “把大象装进冰箱的第二步”：海量微观数据如何“塞进”数据库？

(4) 数据治理｜Stata如何直连关系型数据库

5. 数据清洗

(1) 本期内容：数据治理 | 数据清洗必备 — 正则表达式

6. 数据实验室搭建

Part 1 前言

Part 2 re 模块介绍

Part 3 re正则方法

1、re.match

2、re.search

3、re.findall

4、re.sub

5、re.compile

Part 4 正则模式和修饰符

1、正则模式

2、正则修饰符

3、贪婪模式和非贪婪模式

Part 5 扩展

Part 1 前言

在前面的系列文章中，我们已经介绍了 Python 的编程语法以及其他的技术与技巧。本文将在 Python 语法的基础上，介绍编程界大名鼎鼎的文本处理工具——正则表达式。一般在做数据清洗和数据处理时，基本的Python语法是不够用的，我们必须借助一些Python标准库和第三方库来作为数据清洗的辅助工具，包括但不限于re库、Numpy库和 Pandas库。本文主要介绍 Python 正则表达式标准库——re。

Part 2 re 模块介绍

re 模块是 Python 正则表达式标准库。正则表达式又称规则表达式，英文名为 Regular Expression，在编程语言中通常以 regex，regexp 或 re 来表示正则表达式。那么正则表达式到底是什么，有什么作用呢？简单来说，正则表达式是对字符操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑；利用这个“规则字符串”，就可以在我们需要处理的文本中匹配（抓取）或替换那些符合我们设定规则的特定字符。例如，可以利用正则表达式将一个字符串中的“你”替换为“我”；或者判断字符串中是否含有“你”字；又或者匹配字符串中所有以“你”为开头，以“的”为结尾的字符串删除等等。

下面我们将会列举 re 模块中使用正则表达式匹配字符串常用的函数（正则方法），正则表达式是正则方法的必要参数，下面将着重介绍基本的正则方法。为了方便理解，将使用最基本的正则表达式（字符精确匹配），由易到难去介绍正则表达式。

Part 3 re正则方法

1、re.match

match 方法尝试从字符串的起始位置匹配根据输入的正则表达式匹配一个符合要求的字符串，如果没有匹配成功的话，match 方法就返回None。也就是说，match 方法只会从字符串索引为 0 的位置匹配指定规则的字符串，即使存在符合规则的字符串但却不是在待处理字符串的开头处，也不会匹配成功。

语法格式

re.match(pattern, string, flags=0)

pattern：匹配的正则表达式，必选参数。

string：要匹配的字符串，必选参数。

flags：标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等，默认值为 0，表示不使用其他的标志。

例如：

import re  # 先导入 re 模块

# 匹配字符串"Python Java"中开头处的"Python"
res = re.match("Python", "Python Java")  
print(res)  
#输出：

# 返回的是一个 match 对象,可以使用 group()方法,获取匹配到的数据
print(res.group())  
# 输出：'Python'，对应 match 对象中的< match='Python' >
                    
# 匹配字符串"Python Java"中开头处的"Java"
res = re.match("Java", "Python Java")
print(res)  # 输出：None  即没有匹配到目标字符串

上面的代码 res = re.match("Python", "Python Java") 中，re.match表示使用 re 调用 re 模块中的 match 方法；match 方法接收到两个参数，第一个参数 "Python"表示匹配的正则表达式，第二个参数 "Python Java" 则是正则表达式需要去匹配的字符串，结合 match 方法只从目标字符串开头处进行匹配的特点，这句代码的意思就是：在字符串 "Python Java" 的开头处匹配符合规则 "Python" 的字符串，随后将得到的结果赋值给变量 res。为了方便，代码中将输出结果以注释的形式附在代码后面。上面的例子中，很容易看出，字符串 "Python Java" 的开头处存在符合正则表达式 "Python" 的字符串，也就是说可以匹配成功，但是匹配结果是一个 match 对象，并不是最终匹配成功的字符串，所以需要使用 match.group()将匹配结果输出。另外当没有成功匹配时，将不会再返回一个 match 对象，而是 None，此时不可以使用 .group()进行输出。

2、re.search

扫描整个字符串并返回第一个成功的匹配。即使存在不止一个满足正则表达式的字符串，也只会返回第一个匹配成功的结果。

语法格式

re.search(pattern, string, flags=0)

pattern：匹配的正则表达式，必选参数。

string：要匹配的字符串，必选参数。

flags：标志位。

例如：

# 前面已经导入了 re 库
# 匹配字符串 "Is her name heria?" 中的 "her"
res = re.search("her", "Is her name heria?")
print(res)
# 输出：
# 可以知道 search 方法也会返回一个 match 对象
# 观察返回的 match 对象，代表匹配成功的目标字符串是从
# 待匹配字符串索引为 3 的位置开始，到索引为 6 的位置结束(不包含 6)

# 使用group()获取匹配到的数据,输出：her
print(res.group())  
# 匹配不存在的字符串
res = re.search("julia", "Is her name heria?")
print(res)  # 输出：None

代码res = re.search("her", "Is her name heria?")与前面的match方法类似，区别在于re.search方法并不只从字符串的开头处匹配，而是可以匹配任意位置，但只返回字符串从左到右第一个匹配成功的字符串。即使字符串"Is her name heria?"中存在两个"her"，也只会返回一个结果，因为 search 方法只在乎有没有，并不在乎有哪些或在哪里。需要注意的是，search 方法同样返回一个 match 对象，输出方法与 match 方法一样。

3、re.findall

findall() 函数与前面讲到的 match 和 search 两个函数都不一样， match 和 search 都只匹配一次，而 findall 会匹配所有符合正则表达式规则的字符串；match 和 search 都会返回一个 match 对象，没有匹配成功会返回 None，而 findall 会返回一个列表，每一个成功匹配的字符串都是该列表的一个元素，若没有符合规则的匹配项，就会返回一个空列表。

语法格式

re.findall(pattern, string, flags=0)

pattern：匹配的正则表达式，必选参数。

string：要匹配的字符串，必选参数。

flags：标志位。

例如：

# 匹配字符串"Is her name heria?"中的所有"her"
res = re.findall("her", "Is her name heria?")
print(res)
# 输出：['her', 'her']

# 匹配字符串"Is her name heria?"中的所有"julia"
res = re.findall("julia", "Is her name heria?")
print(res)  # 输出：[]

re.findall方法比较容易理解，这个方法会获取所有符合正则表达式的匹配项，并将它们保存到一个列表中；如果没有成功的匹配项，则会直接返回一个空的列表，返回结果可以直接输出。

4、re.sub

只是匹配出符合规则的字符串或许不是我们的目的，如果想要将符合规则的字符串替换为指定值的时候就可以使用 sub 函数。sub 函数常用于数据清洗中去除脏字符或不需要的内容，它既可以剔除不需要的内容（将不需要的字符替换为空），又可以将指定的字符替换成为我们想要的字符。

语法格式

re.sub(pattern, repl, string, count=0, flags=0)

pattern：匹配的正则表达式，必选参数。

repl：想要替换成的内容，必选参数。

string：要匹配的字符串，必选参数。

count：替换的次数，默认替换所有匹配到的结果；可选参数，默认为 0，为 0 时表示替换所有的匹配项。

flags：标志位。

text = "一九四九年新中国成立了。"
# 将句号替换为感叹号
res = re.sub("。", "！", text)
print(res)
# 输出结果："一九四九年新中国成立了！"

# 将 "了" 去除
res = re.sub("了", "", text)
print(res)  
# 输出结果："一九四九年新中国成立。"

re.sub方法有着比其他正则方法更多的输入参数，代码re.sub(pattern, repl, string)表示将string中符合正则表达式pattern的结果替换为参数repl。另外，count参数开可以指定替换的最大次数。映射到上面的例子re.sub("。", "！", text)，就表示将 text 中所有的 "。" 替换为 "！" 。最后返回替换后的参数string。

5、re.compile

compile 用于编译正则表达式，生成一个正则表达式对象，供 match、 search、findall等函数使用。如果遇到一个正则表达式需要重复使用很多次，处于效率考虑，我们会先把正则先预编译好，接下来重复使用时就不再需要编译这个步骤了，直接匹配，提高我们的效率。

语法格式

re.compile(pattern[, flags])

pattern：匹配的正则表达式，必选参数。

flags：标志位。

# 编译正则表达式(匹配连续4个数字)
rule = re.compile('\d{4}')

res_match = rule.match('01020304').group()
print(res_match)  # 输出: 0102
res_search = rule.search('01020304').group()
print(res_search)  # 输出: 0102
res_findall = rule.findall('01020304')
print(res_findall)  # 输出: ['0102', '0304']

# 将匹配到的4个连续数字替换为'abcd'
res_sub = rule.sub('abcd', '01020304') 
print(res_sub)  # 输出: abcdabcd

这种方法是把正则方法中的正则表达式单独编译，然后直接使用编译好的正则表达式直接调用正则方法，这样做就不需要再传入正则表达式参数，正则方法会以调用它的正则表达式进行匹配，替换等操作。

Part 4 正则模式和修饰符

1、正则模式

看了前一节的正则方法，你可能会觉得正则表达式不过如此，好像只能替换一些固定的词语，实际上前面所举的例子都是最简单易懂的，使用这些案例的目的是让你快速的了解什么是正则表达式以及不同的正则方法可以做什么。前面讲到简单的使用场景，比如在一段文本中匹配或替换一些指定的文本；后面在了解re.compile函数时使用了一个匹配非一对一的匹配连续4位数字的正则表达式"\d{4}"，这有可能让你感到新鲜，其实这是字符串转义符的妙用。\d在正则表达式表示阿拉伯数字，{4}则用来限定\d的位数。正则表达式中不仅使用转义符构建正则规则，还能通过使用一些特殊符号来表示正则表达式规则，这些转义组合和符号就是正则表达式模式。常见的模式如下表所示：

模式	描述
\w	匹配字母，数字及下划线
\W	匹配非字母，数字及下划线，与 `\w` 相反
\s	匹配任意空白字符，等价于 [\t\n\r\f]
\S	匹配任意非空字符，与 `\s` 相反
\d	匹配任意数字，等价于 [0-9]
\D	匹配任意非数字，与 `\d` 相反
\A	匹配字符串开始
\Z	匹配字符串结束，如果存在换行符，只匹配到换行符前的结束字符串
\z	匹配字符串结束
\G	匹配最后匹配完成的位置
\n	匹配一个换行符
\t	匹配一个制表符
^	匹配字符串的开头
$	匹配字符串的末尾
.	匹配任意字符，除了换行符
[...]	用来表示一组字符，单独列出：[amk] 匹配 'a'，'m' 或 'k'
[^...]	不在 [] 中的字符：[^abc]匹配除了 'a', 'b', 'c' 之外的字符。
*	匹配 0 个或多个的表达式。
+	匹配 1 个或多个的表达式。
?	匹配 0 个或 1 个由前面的正则表达式定义的片段，非贪婪方式
{n}	精确匹配 n 个前面表达式。
{n, m}	匹配 n 到 m 次由前面的正则表达式定义的片段，贪婪方式
a\|b	匹配 a 或 b
()	匹配括号内的表达式，也表示一个组

例如：

STR = "(5) 和 (7) 相加得到    (12)"

# 匹配所有一位数字
print(re.findall('\d', STR))  
# 输出：['5', '7', '1', '2']

# 将所有的空格字符替换为空字符，即剔除所有空格字符
print(re.sub('\s', '', STR))  
# 输出："(5)和(7)相加得到(12)"  
                   
 # 匹配字符 7 或字符 12                
print(re.findall('7|12', STR)) 
# 输出：['7', '12']

# 非贪婪模式匹配所有括号内的内容                             
print(re.findall('\(.*?\)', STR))  
# 输出：['(5)', '(7)', '(12)']

2、正则修饰符

前面讲到 re.match、re.search、re.findall 函数时都会讲到一个标志位参数 flags，实际上这是一个修饰正则匹配的参数，参数范围和功能如下表所示：

修饰符	描述
re.A	让 `\w, \W, \b, \B, \d, \D, \s 和 \S` 只匹配 ASCII 编码，而不是 Unicode 编码
re.I	使匹配对字母大小写不敏感
re.M	多行模式，当某字符串中有换行符`\n`，默认模式下是不支持换行符特性的，比如：行开头和行结尾，而多行模式下是支持匹配行开头的。
re.S	使正则模式 '.' 匹配包括换行符在内的所有字符
re.U	根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B.
re.X	该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。

3、贪婪模式和非贪婪模式

非贪婪模式：正则表达式趋向于匹配最小长度，即一旦匹配到结果就结束。
贪婪模式：正则表达式趋向于匹配最大长度，即匹配到最长的一项才结束.

re 中默认的匹配方式是贪婪模式。

import re

'''贪婪模式和非贪婪模式'''
re_str = '11-22-11-22-11'
# 正则表达式默认为贪婪模式
# '.*' 表示匹配 0 个或多个 任意字符
A = re.search('11.*11', re_str).group()  
print(A)
# (贪婪模式)输出结果: 11-22-11-22-11

# 加上 '？' 设置为非贪婪模式
B = re.search('11.*?11', re_str).group()  
print(B)
# (非贪婪模式)结果: 11-22-11

'''转义符'''
# Python中字符串前面加上 'r' 或 'R' 表示原生字符串，即所有转义符都不起作用
str1 = "C:\\a\\b\\c"
print(str1)
# print输出会对反斜杠进行了转义,输出结果:C:\a\b\c

# 那么如果需要匹配字符串 C:\\a 的话，那么匹配规则就要写 C:\\\\a
# 因为对转义符 "\" 进行转义，才能单纯地表示符号 "\"
ret_1 = re.match("C:\\\\a", str1).group()
print(ret_1)
# 输出结果: C:\a
# 因为匹配到了结果 'C:\\a',输出时转义符生效，输出为 'C:\a'

# 在匹配规则前面加 r，表示取消转义，转义符不再起作用。
# 那么就只是要写 C:\\a 就可以匹配字符串 C:\\a
ret_2 = re.match(r"C:\\a", str1).group()
print(ret_2) 
# 结果: C:\a，匹配到了结果 'C:\\a',输出时转义符生效，输出为 'C:\a'

Part 5 扩展

正则表达式的应用很广泛，正确地使用正则表达式可以从大量的文本中找出重要的信息。本文是以初学者角度介绍 Python 正则表达式和正则方法。所介绍的都是较为简单的例子。实际上，正则表达式可以匹配更复杂的字符串，也可以匹配日常生活中实用的文本。例如：

匹配所有汉字的正则表达式："[\\u4e00-\\u9fa5]"
匹配中国邮政编码的正则表达式："[1-9]\d{5}(?!\d)"
匹配手机E-mail 邮箱的正则表达式：r"1\d{10}|[a-z0-9.\-+_]+@[a-z0-9.\-+_]+\.[a-z]+"
……

你可能感兴趣的:(数据治理,正则表达式,python,数据库)

为什么wal会提升数据库性能浩澜大大数据库
由于对于一个数据库内会存在很多张表，那么当数据库更新表数据时（1）直接写入磁盘实际写入的位置，会根据表的不同对应到不同的磁盘位置，在写入数据的时候，就会不停的寻找磁盘地址，找到地址后再去写入，对于机械硬盘来说，无规律的寻址是非常耗时的，对应SSD来说虽然性能提升很多，但是也会消耗时间；（2）先写入日志，在写入磁盘（WAL）WAL的过程，由于总是按照在文件末尾追加，只要找到文件写入位置，写入修改后，
【Python】一文详细介绍 py格式文件高斯小哥 Python基础【高质量合集】python 新手入门学习
【Python】一文详细介绍py格式文件个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文章目录一、py格式文件简介二、如何创建和编辑py格式文件三、如何运行py
python抓包与解包_Python—网络抓包与解包（pcap、dpkt） weixin_39691055 python抓包与解包
pcap安装[root@localhost~]#pipinstallpypcap抓包与解包#-*-coding:utf-8-*-importpcap,dpktimportre,threading,requests__black_ip=['103.224.249.123','203.66.1.212']#抓包：param1eth_name网卡名，如：eth0,eth3。param2p_type日志捕
通俗易懂：MySQL中如何设置只读实例并确保数据一致性？大龄下岗程序员 mysql java mysql spring
在MySQL中设置只读实例主要应用于构建高可用性和扩展性的数据库环境，通常是为了分担读取负载或者用于备份和灾难恢复。以下是创建MySQL只读实例并确保数据一致性的基本步骤：1.创建并配置只读实例-主从复制设置-首先，你需要有一个主数据库实例（Master）负责接收所有的写操作。-创建一个或多个从数据库实例（Slave），并将它们配置为主数据库的复制品。这通常通过设置主从复制（Replication
华为OD机试 - 单向链表中间节点（Java & JS & Python & C & C++）华为OD题库华为od 链表 java
须知哈喽，本题库完全免费，收费是为了防止被爬，大家订阅专栏后可以私信联系退款。感谢支持文章目录须知题目描述输出描述解析代码题目描述给定一个单链表L，请编写程序输出L中间结点保存的数据。如果有两个中间结点，则输出第二个中间结点保存的数据。例如：给定L为1→7→5，则输出应该为7；给定L为1→2→3→4，则输出应该为3；输入描述每个输入包含1个测试用例。每个测试用例：第一行给出链表首结点的地址、结点总
python 推导式(派生、衍生) sanduo112 人工智能 python windows 开发语言
python推导式一、推导式(派生、衍生)1.Python推导式是一种独特的数据处理方式，可以从一个数据序列构建另一个新的数据序列的结构体。2.列表(list)推导式3.字典(dict)推导式4.集合(set)推导式5.元组(tuple)推导式二、代码概述一、推导式(派生、衍生)1.Python推导式是一种独特的数据处理方式，可以从一个数据序列构建另一个新的数据序列的结构体。Python支持各种数
数据挖掘|数据预处理|基于Python的数据标准化方法皖山文武数据挖掘数据建模与分析 python 数据挖掘开发语言
基于Python的数据标准化方法1.z-score方法2.极差标准化方法3.最大绝对值标准化方法在数据分析之前，通常需要先将数据标准化（Standardization），利用标准化后的数据进行数据分析，以避免属性之间不同度量和取值范围差异造成数据对分析结果的影响。1.z-score方法Z-score方法是基于原始数据的均值和标准差来进行数据标准化的，处理后的数据均值为0，方差为1，符合标准正态分布
CSV指南：Python程序获取大型CSV文件行数孤独打铁匠Julian 笔记经验分享 python
本指南提供了几种使用Python来获取大型CSV文件行数的方法，并解释了每种方法的适用场景。方法1:使用csv.reader处理复杂CSV文件当你的CSV文件中包含多行字段（即某些字段的值中包含换行符）时，使用csv.reader是一个可靠的选择，因为它能够正确处理这些复杂情况。这个方法适用于大多数大小的CSV文件，但是对于非常大的文件，读取整个文件可能会占用较多的时间和内存。对于极大的文件，考虑
C#中的PLINQ和LINQ的效率对比搬砖的诗人Z C#c#linq 开发语言
PLINQ（ParallelLINQ）和LINQ（LanguageIntegratedQuery）都是.NET框架中的功能，用于对集合进行查询和操作。它们之间的主要区别在于并行处理能力。LINQ:LINQ是一种用于在.NET应用程序中进行数据查询和操作的语言集成功能。它提供了一种统一的方式来查询各种数据源，如集合、数组、XML、数据库等。LINQ是在单线程环境中执行查询操作的，因此对于大型数据集或
谷歌浏览器驱动Chromedriver（114-120版本）文件以及驱动下载教程 pigerr杨 Python python chrome drivers
ChromeDriver官方网站GitHub||GoogleChromeLabs/chrome-for-testingChromeDriver113-125_JSONChromeforTestingavailability123-125zip白月黑羽Python基础|进阶|Qt图形界面|Django|自动化测试|性能测试|JS语言|JS前端|原理与安装
大创项目推荐深度学习 opencv python 公式识别(图像识别机器视觉) laafeer python
文章目录0前言1课题说明2效果展示3具体实现4关键代码实现5算法综合效果6最后0前言优质竞赛项目系列，今天要分享的是基于深度学习的数学公式识别算法实现该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：4分创新点：4分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1课题
docker怎么端口映射 Lance_mu docker 容器运维
1、默认固定的端口#Web服务器：WebApache或Nginx通常使用80端口HTTP：80HTTPS：443#数据库服务器MySQL：3306PostgreSQL：5432MongoDB：27017Redis：6379#邮件服务器SMTP：25POP3：110IMAP：143#其他服务SSH：22FTP：21DNS（域名解析）：53代理服务器Squid：3128版本控制系统Git：9418(S
新注册的阿里云账号有哪些优惠？阿里云新用户必看优惠大合集阿里云最新优惠和活动汇总
很多用户看到阿里云各种活动中的云服务器、云数据库、企业邮箱等云产品都仅限新用户购买之后，都纷纷直接注册了阿里云新账号之后购买，其实，阿里云新用户不仅可以优惠购买活动中的各种云产品，还有很多优惠，下面是“阿里云最新优惠和活动汇总”整理汇总的阿里云新用户必看优惠大合集。新注册的阿里云账号在购买活动中的云产品之前，还有免费领云产品通用代金券、抽取无门槛代金券、免费试用云服务器和正式购买云服务器等阿里云产
MyBatis高级面试题-2024 my_styles mybatis java 开发语言面试题
MyBatis的核心组件有哪些？首先第一个是，SqlSessionFactory，它就像是一个会话工厂。它的任务是创建SqlSession对象，这个对象是我们与数据库交互的主要途径。SqlSessionFactory的作用很重要，因为它可以帮我们配置数据库连接信息和事务管理等。一旦这个工厂被建立起来，它就会加载一些必要的配置和映射文件，为后续的数据库操作提供一个可靠的基础。第二个是SqlSessi
SQLite版本3中的文件锁定和并发(七）代码工匠云数据库 SQLite C与c++sqlite c++数据库
返回：SQLite—系列文章目录上一篇：自己编译SQLite或将SQLite移植到新的操作系统（六）下一篇：SQLite—系列文章目录正文：1.0SQLite版本3中的文件锁定和并发SQLite版本3.0.0引入了新的锁定和日志功能旨在提高SQLite版本2的并发性的机制并减少作家的饥饿问题。新机制还允许交易的原子提交涉及多个数据库文件。本文档介绍新的锁定机制。目标受众是想要理解和/或修改的程序员
python转码 Desamond python 开发语言
转码在许多场景中都有应用，以下是一些常见的场景：网页开发：当用户在网页上输入文本时，可能需要将特殊字符（如空格、引号、特殊符号等）进行转码，以防止这些字符对URL或HTML代码产生干扰。文件名处理：在处理文件名时，可能需要将特殊字符进行转码，以避免文件名被错误地解析或显示。数据传输：在数据传输过程中，为了确保数据的完整性和正确性，可能需要将数据中的特殊字符进行转码。数据存储：在数据库或数据存储中，
排序算法太多？常用排序都在这了，一篇文章总结和实现所有面试会考的排序算法（基于Python实现）宇宙之一粟不归路之Python #IT面试题收集与总结数据结构与算法算法数据结构排序算法 python java
文章目录排序算法1.常见的排序算法1.1选择排序1.1.1思想1.1.2实现**1.1.3选择排序分析**1.2冒泡排序**1.2.1思想****1.2.2实现****1.2.3冒泡排序分析**1.3插入排序**1.3.1思想****1.3.2实现****1.3.3插入排序分析**1.4归并排序☆☆★**1.4.1思想****1.4.2实现****1.4.3归并排序分析**1.5快速排序☆★★**
27.Python从入门到精通—Python异常处理抛出异常用户自定义异常定义清理行为预定义的清理行为以山河作礼。 #Python基础入门—详解版 python java 服务器
27.从入门到精通：Python异常处理抛出异常用户自定义异常定义清理行为预定义的清理行为异常处理抛出异常用户自定义异常定义清理行为预定义的清理行为异常处理在Python中，异常处理是一种处理程序在执行期间可能遇到的错误的方法。当Python解释器遇到错误时，它会引发异常。异常是一种Python对象，它包含有关错误的信息，例如错误类型和错误位置。为了处理异常，您可以使用try-except语句。在
python清华大学出版社答案_Python机器学习及实践 weixin_39805119 python清华大学出版社答案
第1章机器学习的基础知识1.1何谓机器学习1.1.1传感器和海量数据1.1.2机器学习的重要性1.1.3机器学习的表现1.1.4机器学习的主要任务1.1.5选择合适的算法1.1.6机器学习程序的步骤1.2综合分类1.3推荐系统和深度学习1.3.1推荐系统1.3.2深度学习1.4何为Python1.4.1使用Python软件的由来1.4.2为什么使用Python1.4.3Python设计定位1.4.
Python | Redis工具类 -拟墨画扇- Python redis 数据库缓存 python
一、需求自动连接Redis数据库，通过连接池处理数据对输出结果进行Log打印并保存到文件二、代码Utils.redisUtils.py#!/usr/bin/envpython#-*-coding:utf-8-*-importredisfromUtils.loggerimportlog"""Redis数据格式(1)字符串|存储形式:key-value:str-存储二进制数据:可以存储任意类型的数据，
数据管理知识体系指南（第二版）-第五章——数据建模和设计-学习笔记键盘上的五花肉数据治理数据库数据仓库数据治理
目录5.1引言5.1.1业务驱动因素5.1.2目标和原则5.1.3基本概念5.2活动5.2.1规划数据建模5.2.2建立数据模型5.2.3审核数据模型5.2.4维护数据模型5.3工具5.3.1数据建模工具5.3.2数据血缘工具5.3.3数据分析工具5.3.4元数据资料库5.3.5数据模型模式5.3.6行业数据模型5.4方法5.4.1命名约定的最佳实践5.4.2数据库设计中的最佳实践5.5数据建模和
Python dict字符串转json对象，小数精度丢失问题朝如青丝暮成雪 json python
一前言JSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式，dict是Python的一种数据格式。本篇介绍一个float数据转换时精度丢失的案例。二问题描述importjsontest_str1='{"π":3.1415926535897932384626433832795028841971}'test_str2='{"value":10.00000}'print
项目管理工具最佳实践水岩
各个公司的最佳实践去哪儿jira自定义使用1.jira编号对应git分支命名，后台增加监控程序，新增一个分支，自动解析分支中的jira编号，自动落地到数据库，完成映射2.各个发布系统间信息同步，消息中心（IC）+数据中心（DC）,广播消息加一站式查询，持续集成，推进代码检查质量，分钟级反馈质量检查反思：1.项目管好：针对一线研发人员，简单易用，而不是满足管理层的“统计度量”（...）简化分类字段，
Python+Requests模拟发送GET请求爱学习的执念自动化测试软件测试技术分享 python 开发语言
模拟发送GET请求前置条件：导入requests库一、发送不带参数的get请求代码如下：以百度首页为例importrequests#发送get请求response=requests.get(url="http://www.baidu.com")print(response.content.decode("utf-8"))#以utf-8的编码输出内容二、发送带参数的get请求发送带参数的get请求有
Python极速入门：五分钟开启实战之旅！知白守黑V Python 编程语言系统运维 python 编程语言 python开发 python学习 python入门 python数据分析
1.Python基础语法和结构：了解Python的基本语法，包括变量、数据类型、运算符、注释等。控制流：掌握条件语句（if-elif-else）、循环（for和while）及其控制（break和continue）。函数：学习如何定义和使用函数，包括参数传递、返回值、作用域和闭包。模块和包：理解如何导入和使用模块，以及如何创建和使用自己的包。2.数据处理列表、元组和集合：学习这些序列类型的操作和方法
Python Flask 使用数据库安果移不动 python flask 开发语言
pipinstallflask_sqlalchemy官方文档：Flask-SQLAlchemy—Flask-SQLAlchemyDocumentation(3.1.x)为了不报错也需要导入另外两个库#pipinstallflask_sqlalchemy#pipinstallmysqlclient完整代码importosfromflaskimportFlaskfromflask_sqlalchemy
.NET Core 将实体类转换为 SQL(ORM 映射) 你小子在看什么…… .NET .netcore sqlsugar postgresql
一、环境说明PostgreSQL数据库Npgsql数据库连接库SqlSugarORM框架二、映射流程1、创建数据库：检查指定数据库是否存在，如果不存在则创建数据库。2、初始化SqlSugar实例：使用SqlSugarClient初始化数据库连接配置。3、筛选实体类：根据指定的命名空间和排除条件筛选需要创建表的实体类。4、创建表：使用CodeFirst.InitTables方法创建数据库表。////
PaperWeekly sapienst Papers PaperwithCode General ML
1.Python软件包解决DL在未见过的数据分布下性能差的问题：（1）神经网络和损失分离的模块化设计（2）强大便捷的基准测试能力（3）易于使用但难以修改（4）github:https://github.com/marrlab/domainlabTrainer和Models之间是什么关系Trainer和Models是DomainLab中的两个核心概念。Trainer是一个用于指导数据流向模型并计算S
数据库的魅力：深入探索与应用小黄编程快乐屋数据库
数据库的魅力：深入探索与应用在数字化时代，数据库已经成为信息处理和存储的基石。无论是大型企业还是个人开发者，数据库都是不可或缺的工具。本文将带您深入探索数据库的魅力，了解其基本概念、类型以及应用，并分享一些实用的数据库管理技巧。一、数据库的基本概念数据库，简而言之，就是按照一定规则存储、组织和管理数据的仓库。它可以看作是一个电子化的文件柜，用于存储电子化的文件。这些文件按照特定的数据模型组织起来，
Thinkphp - 详细实现网站系统登录功能，附带 Mysql 数据库设置、Web 前端展示界面、信息校验等（详细代码，即设计过程）王佳斌 +Thinkphp mysql 前端数据库
前言登录功能，是我们几乎开发每个系统都必须的模块。登录功能设计思路，主要包括几个方面。用户输入网址展示登录页面用户输入用户名，密码等点击登录进行信息校验校验通过之后，记录用户登录信息，跳转指定页面用户校验失败，提示失败信息页面目录具体功能实现为了快速搭建可用、美观的页面，我们采用一个比较成熟的前端框架Bootstrap。下面我们到Bootstrap的官网Bootsrap官网下载bootstrap。
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite