Alonelies

python爬虫之数据解析

文章目录

@[toc]

第五章数据解析

一、正则表达式

1. 导入re模块,用re.search()方法和re.findall()方法

二、XPath和lxml库

1. XPath语法

a)选取节点

b)谓语

2. lxml库概述（需要导入lxml.etree模块）

a)Element类简介

b)从字符串或文件中解析XML

c)ElementPath类简介

3.lxml库的基本使用

三、Beautiful Soup

1. 导入bs4.beautifuSoup

2. 测试用例（‘’‘三个点表示原样式写入）

3. 构造beautifulSoup对象

4. 三个获取(获取节点、获取文本字符串、获取注释)

5. 通过操作方法进行解读搜索

6. 通过CSS选择器进行搜索

四、JSONPath和json模块

1. json模块基本运用

(1) loads() json字符串->python

(2) jumps() python->json字符串！！注意：jumps()方法默认使用ascii码，禁用，使用utf-8编码

这里有个小技巧，可以设置缩进，让json格式看起来更爽洁

格式化输出，用indent参数设定缩进的空格数，可以设置为2，或者4

(3) dump() python->json文件对象

(4) load() json文件->python

2. JSONPath简介

3. JSONPath语法对比

第五章数据解析

针对文本的解析，有正则表达式

针对HTML/XML解析有XPath、Beautiful Soup、正则表达式

针对JSON的解析，有jsonpath

一、正则表达式

1. 导入re模块,用re.search()方法和re.findall()方法

re.search(想找的内容,一个整体)这是找第一个，后面的找不到

import re
exam = 'pachong'
str = 'pachonghei pachong'
ret = re.search(exam,str)#从str里找exam，但是只能找到第一个，后一个找不到
print(ret)
#

re.findall(正则语句,查找的文件)返回所有的符合条件的

import re
s = 'waawfajwkfokawh34578fjahwfokfawf'
print(re.findall(r'(ok)',s))#从s中查找所有的ok字符串,中间用的是正则表达式
#['ok', 'ok']	返回的列表
print(len(re.findall(r'(ok)',s)))#查看有多少个ok
#2

从字符串中提取中文,当中文不连接时，返回的是两个元素的列表

import re
#从字符串中提取中文
text = 'hello,世界world'
#1. 通过正则表达式
result = re.findall(r'[\u4e00-\u9fa5]+',text)
print(result)
#['世界']

import ew
#从字符串中提取中文
text = 'hello,世wada界world'
#1. 通过正则表达式
result = re.findall(r'[\u4e00-\u9fa5]+',text)
print(result)
#['世', '界']

二、XPath和lxml库

1. XPath语法

a)选取节点

表达式	说明
nodename	选取此节点的所有子节点
/	从根节点选取
//	从匹配选择的当前节点选取文档中的节点，而不用考虑它们的位置（重要）
.	选取当前节点（类似于Linux）
…	选取当前节点的父节点
@	选取属性

b)谓语

表达式	说明
/bookstore/book[1]	选取属于bookstore子元素的第一个book元素
/bookstore/book[last()]	选取属于bookstore子元素的最后一个book元素
/bookstore/book[last()-1]	选取属于bookstore子元素的倒数第二个book元素
/bookstore/book[position()❤️]	选取最前面的两个属于bookstore元素的子元素的book元素
//title[@lang]	选取所有的title元素，且这些元素的拥有名称为lang的属性
//title[@lang=‘eng’]	选取所有的title元素，且这些元素的拥有值为eng的lang属性
/bookstore/book[price>35.00]	选取bookstore元素的所有book元素，且其中的price元素的值大于35.00
/bookstore/book[price>35.00]/title	选取bookstore元素中book元素的所有title元素，且其中的price元素值必须大于35.00

2. lxml库概述（需要导入lxml.etree模块）

Element类：可以理解为XML的节点

ElementTree类：可以理解为一个完整的XML文档树

ElementPath类：可以理解为XPath，用于搜索和定位节点

a)Element类简介

Element类是XML处理的核心类，可以直观的理解为XML节点，大部分XML节点的处理都是围绕篇Element类进行的

所以，我们要创建一个节点对象

#导入模块etree
from lxml import etree
#1.创建节点 （element对象）
root = etree.Element('root')

上述示例中，参数root表示节点的名称

关于Element类的相关操作，主要可分为三部分，分别是节点操作、节点属性的操作、节点内文本的操作

节点操作；若要获取节点的名称，可以通过tag属性获取

print(root.tag)
#root
print(etree.tostring(root))
#b''(我感觉这是节点的显示吧。。)
#该函数将元素序列化为XML树的编码字符串表示形式

节点属性的操作：在创建节点的同时，可以为节点增加属性。节点中的属性是以键值对的形式进行存储的，类似于字典的存储方式。通过构造方法创建节点时，可以在该方法中以参数的形式设置属性，其中参数的名称表示属性的名称，参数的值表示为属性的值。
```
#2.给节点增加属性
#在创建的同时添加属性
root = etree.Element('root',name='zhang')
print(etree.tostring(root))
#b''
```
还可以用set()方法，把属性键值对增加进已有的节点
```
#2.2增加属性 set
root.set('age','18')
print(etree.tostring(root))
#b''
```
节点内文本的操作：一般情况下，可以通过text、tail属性或者xpath()方法来访问文本内容
```
#3.添加文本
root.text='hello,world!'
print(etree.tostring(root))
#b'hello,world!'
```

b)从字符串或文件中解析XML

为了能够将XML文件解析为树结构，etree模块中提供了如下3个函数
  1. fromstring()函数：从字符串中解析XML文档或片段，返回根节点
  2. XML()函数：从字符串常量中解析XML文档或片段，返回根节点
  3. HTML()函数：从字符串常量中解析HTML文档或片段，返回根节点
其中，XML函数的行为类似于fromstring函数；HTML()函数自动补全缺少的和标签

import lxml from etree
#二、解析xml
xml_data='data'
#方法1:用的是fromstring(),返回根节点
element= etree.fromstring(xml_data)
print(etree.tostring(element))
#b'data'

#方法2：用xml函数
element = etree.XML(xml_data)
print(etree.tostring(element))
#b'data'

#方法3：html函数，他会自动修正html
element = etree.HTML(xml_data)
print(etree.tostring(element))
#b'data'

从文件中读取

element = etree.parse('hello.html')#读取文件

c)ElementPath类简介

ElementTree类中附带了一个类似于XPath路径语言的ElementPath类。现提供以下三个常用的函数：

find()方法：返回匹配的第一个子元素
findall()方法：以列表的形式返回所有匹配的子元素
iterfind()方法：返回一个所有匹配元素的迭代器

#三。查找与搜索元素
root = etree.XML("aTextbText")
#可以通过xpath（）语法搜元素
print(root.xpath('//a')) #返回列表
print(root.xpath('//a')[0].text)
#find（）方法，返回匹配的第一个子元素
print(root.find('a'))
#findall().以列表形式返回所有匹配的子节点
print(root.findall('./a'))

#[, ]
#aText
#
#[, ]

3.lxml库的基本使用

这里有一个测试用例文件，hello.html

<div>
 <ul>
     <li class="item-0"><a href="link1.html">first itema>li>
     <li class="item-1"><a href="link2.html">second itema>li>
     <li class="item-inactive"><a href="link3.html"><span class="bold">third itemspan>a>li>
     <li class="item-1"><a href="link4.html">fourth itema>li>
     <li class="item-0"><a href="link5.html">fifth itema>li>
 ul>
div>

首先导入lxml.etree模块

from lxml import etree

读取文件，发现返回的是elementTree，不是element节点

element = etree.parse('hello.html')#读取文件
print(element) #返回的是elementtree，不是element节点
#

用xpath()方法，将hello.html文件中与该路径表达式匹配到的列表返回

#1.获取所有的li标签
li_s = element.xpath('//li')
print(li_s)#打印的是列表
#[, , , , ]这里返回的是列表，不是里面的值
print(li_s[0])#拿第一个
#

#2. 获取所有li元素的class属性
lis_class = element.xpath('//li/@class')
print(lis_class)
#['item-0', 'item-1', 'item-inactive', 'item-1', 'item-0']

#3. 获取li标签下的所有a标签
print(element.xpath('//li/a'))#返回的是列表
#[, , , , ]

#4. 获取倒数第二个li标签下的a标签的文本
#4.1 方式1
#//li[last()-1]/a返回的是列表，要用数组去拿一下
last_two_a = element.xpath('//li[last()-1]/a')[0].text
print(last_two_a)
#fourth item
#4.2 方式2 text()方法拿到的也是列表，要用数组读取
print(element.xpath('//li[last()-1]/a/text()'))
#['fourth item']
print(element.xpath('//li[last()-1]/a/text()')[0])
#fourth item

三、Beautiful Soup

Beautiful Soup 和lxml库功能相似，但是Beautiful Soup 使用起来更加简洁方便

需安装beautifulsoup4和bs4

1. 导入bs4.beautifuSoup

from bs4 import BeautifulSoup

2. 测试用例（‘’‘三个点表示原样式写入）

html = """
The Dormouse's story

The Dormouse's story
Once upon a time there were three little sisters;and their names were

Lacie and
Tillie;
and they lived at the bottom of a well.
...
"""

3. 构造beautifulSoup对象

BeautifulSoup(html,‘lxml’),html是页面的代码(表示要解析的文档字符串或文件对象)，lxml是解析的的解析器，自动补全标签

#构造beautifulsoup对象
bs = BeautifulSoup(html,'lxml')
print(bs)
#The Dormouse's story
#
#The Dormouse's story
#Once upon a time there were three little sisters;and their names were
#
#Lacie and
#Tillie;
#and they lived at the bottom of a well.
#...
#

可以用本地的HTML文件来构造beautifulsoup对象

bs = BeautifulSoup(open('index.html'),'lxml')

格式化输出，用的是prettify()方法，输出的形式就类似于页面代码的格式，方便查看

print(bs.prettify())#美观显示

4. 三个获取(获取节点、获取文本字符串、获取注释)

获取节点，bs.属性标签（如果有多个标签，只取第一个）

print(bs.p)     #如果有多个标签，只取第一个
#The Dormouse's story

print(bs.a.name)#获取标签名称
#a

print(bs.a.attrs)#获取标签的所有属性
#{'href': 'http://example.com/elsie', 'class': ['sister'], 'id': 'link1'}

获取文本字符串，用的.string

title = bs.title.string
print(title)
#The Dormouse's story

print(title.find_parent()) #获取父节点
#The Dormouse's story

#如果没有下一节点，就会找父亲的下一节点，如果还是没有，会找爷爷的下一节点
print(title.find_next())   #获取下一个节点（下一节点的意思是“兄弟”）

#
#The Dormouse's story
#Once upon a time there were three little sisters;and their names were
#
#Lacie and
#Tillie;
#and they lived at the bottom of a well.
#...
#

#因为title的下一节点没有，就去找了head标签的下一个节点，head标签下也没有下一节点，就去html节点下找，然后找到了body

print(title.find_previous())#获取上一节点(父节点)
##The Dormouse's story

获取注释的内容（也就是说**.string方法不规避注释**）

#3. 注释
print(bs.a.string)
# Elsie 
#这里获取的是第一个a标签，而第一个a标签中是注释的内容，正好获取了注释的内容

5. 通过操作方法进行解读搜索

from bs4 import BeautifulSoup
import re
bs = BeautifulSoup(open('index.html'),'lxml')

实际上，网页中有用的信息都存在于网页中的文本或者各种不同的标签的属性值，为了能够得到这些有用的网页信息，可以通过一些查找方法获取文本或者标签属性。因此，bs4库内置了一些方法，常用的有这两个方法：

(1) find()方法：用于查找符合查询条件的第一个标签节点。

(2) find_all()方法：查找所有符合查询条件的标签节点，并返回一个列表

    def find_all(self, name=None, attrs={}, recursive=True, text=None,
                 limit=None, **kwargs)

name参数，查找所有名字为name的标签，但字符串会被自动忽略。

#1.1 标签名
print(bs.find_all('a'))
'''
[, 
Lacie, 
Tillie]
'''

#1.2 正则 必须是编译后的正则 
# 查找以b开头的标签
print(bs.find_all(re.compile('^b')))

'''
[
foo!

The Dormouse's story

Once upon a time there were three little sisters;and their names were
        ,
        Lacie and
        Tillie;
        and they lived at the bottom of a well.
    
...
, 
The Dormouse's story]
'''

# 1.3 列表
# 查找a标签和b标签
print(bs.find_all(['a','b']))

'''
[The Dormouse's story, 
, 
Lacie, 
Tillie]
'''

kwargs：根据属性进行查找

#2.1 直接传入属性值
print(bs.find_all(id='link2'))
#[Lacie]

#2.2 传入编译后的正则
#查找href属性包含elsie的标签
print(bs.find_all(href=re.compile('elsie')))
#[]

#2.3 查找class属性'sister'的标签 class是关键字，写成class_
print(bs.find_all(class_='sister'))
'''
[, 
Lacie, 
Tillie]
'''

attrs：如果某个指定名字的参数不是搜索方法中内置的参数名，那么在进行搜索时，会把该参数当作指定名称中的属性来搜索

传入的是字典

#2.4 查找data-foo为'value'的标签
!!!print(bs.find_all(data-foo='value'))  #错，参数不能有中划线

#3。 attrs:根据属性进行查找，参数是字典
print(bs.find_all(attrs={
    'data-foo':'value'
}))
#[foo!
]

text：搜索文档中的字符串内容，可以接受字符串、正则表达式和列表。此方法不查找注释的内容

#4。 text:根据文本进行查找，可以传入字符串，正则，列表
#4.1 传入字符串 查找内容为'Lacie'的标签
print(bs.find_all(text='Lacie'))
print(bs.find_all(text='Lacie')[0].find_parent())
#['Lacie']
#Lacie

#4.2 传入正则
print(bs.find_all(text=re.compile('story')))
#["The Dormouse's story", "The Dormouse's story"]

#4.3 传入列表   text参数不查找注释
print(bs.find_all(text=['Elsie','Lacie','Tillie']))
#['Lacie', 'Tillie']

limit参数：限制查找的个数

#5 limit:用于限制最多查几个
print(bs.find_all('a',limit=2))
'''
[, 
Lacie]
'''

recursive参数：调用tag的 find_all() 方法时,Beautiful Soup会检索当前tag的所有子孙节点,如果只想搜索tag的直接子节点,可以使用参数 recursive=False

#6 recursive:是否要递归查找，默认是True,如果指定为False 只能查找直接子标签
print(bs.find_all('title'))
print(bs.find_all('title',recursive=False))
#[The Dormouse's story]
#[]

6. 通过CSS选择器进行搜索

为了使用CSS选择器达到筛选节点的目的，在bs4库的BeautifulSoup类中提供了一个select()方法，该方法会将搜索到的结果放入列表。

from bs4 import BeautifulSoup
import re
html = '''
    
        
            The Dormouse's story
        
    
    foo!
    
        The Dormouse's story
    
    Once upon a time there were three little sisters;and their names were
        ,
        Lacie and
        Tillie;
        and they lived at the bottom of a well.
    
    ...
'''
bs = BeautifulSoup(html,'lxml')

通过标签查找

print(bs.select('title'))
#[The Dormouse's story]

通过类名查找

print(bs.select('.sister'))
'''
[, 
Lacie, 
Tillie]
'''

通过id查找

print(bs.select('#link1'))
#[]

组合查找

print(bs.select('p #link2'))#查找p标签下的link2的标签
#[Lacie]
print(bs.select('head > title'))#查找head下的title
#[The Dormouse's story]
print(bs.select('body > title'))#查找body下的title
#[The Dormouse's story]
print(bs.select('body .sister'))#查找body下class为title的标签
'''
[, 
Lacie, 
Tillie]
'''

通过属性查找，查找href='http://example.com/elsie’的a标签

print(bs.select('a[href="http://example.com/elsie"]'))
#[]

四、JSONPath和json模块

从Python 2.6 开始加入了json模块，使用import json导入就可以使用。json模块提供了Python 对象的序列化和反序列化功能。

(1) 序列化：将一个python对象编码转换为JSON字符串的过程，dump()和dumps()

(2)反序列化：将以给JSON字符串解码转换为python对象的过程，load()和loads()

1. json模块基本运用

函数	作用
loads()	将json字符串转换为python对象
load()	将json文件转换为python对象
dumps()	将python类型转换为json字符串
dump()	将python类型转换为json文件

(1) loads() json字符串->python

import json
json_obj = '{"name":"张三","age":18}'
dic = json.loads(json_obj)
print(dic)
print(type(dic))
#{'name': '张三', 'age': 16, 'gender': '男'}
#

(2) jumps() python->json字符串！！注意：jumps()方法默认使用ascii码，禁用，使用utf-8编码

json_obj = json.dumps(dic)
print(json_obj)
#{"name": "\u5f20\u4e09", "age": 16, "gender": "\u7537"}

#！！dumps()方法默认使用ascii码,可以禁用，那么以utf-8编码
print(json.dumps(dic,ensure_ascii=False))
#{"name": "张三", "age": 16, "gender": "男"}

这里有个小技巧，可以设置缩进，让json格式看起来更爽洁

格式化输出，用indent参数设定缩进的空格数，可以设置为2，或者4
print(json.dumps(dic,ensure_ascii=False,indent=4))
'''
{
 "name": "张三",
 "age": 16,
 "gender": "男"
}
'''

(3) dump() python->json文件对象

打开文件，如没有此文件就创建，如果有就写，with可以自动关闭

with open('person.json','w',encoding='utf-8') as f:
	json.dump(dic,f,ensure_ascii=False,indent=2)

(4) load() json文件->python

with open('person.json','r',encoding='utf-8') as f:
	dic = json.load(f)
	print(dic)
'''{'name': '张三', 'age': 16}'''

2. JSONPath简介

JSONPath是一种信息抽取类库，是从JSON文档中抽取指定信息的工具。

要提前安装jsonpath库

pip install jsonpath

使用要导入josnpath模块

import jsonpath

3. JSONPath语法对比

JSON结构清晰，可读性高，复杂度低，非常容易匹配。JSONPath的语法和XPath类似。

XPath	JSONPath	描述
/	$	根节点
.	@	现行节点
/	.or[]	取子节点
…	n/a	取父节点，JSONPath未支持
//	…	不管位置，选择所有符合条件的节点
*	*	匹配所有元素节点
@	n/a	根据属性访问，JSON不支持，因为JSON是键值对的结构，不需要属性访问
[]	[]	迭代器表示(可以在里面做简单的迭代操作，如数组下标、根据内容选值等)
\|	[,]	支持迭代器多选
[]	?()	过滤操作

首先获得一个json文件，导入json和jsonpath

import json
import jsonpath
json_str = '''
{
  "store": {
    "book": [
      { "category":"reference",
        "author":"Nigel Rees",
        "title":"Sayings of the Century",
        "price":8.95
      },
      { "category":"fiction",
        "author":"J. R. R. Tolkien",
        "title":"The Lord of the Rings",
        "isbn":"0-395-19395-8",
        "price":22.99
      }
    ],
    "bicycle":{
      "color":"red",
      "price":19.95
     }
  }
}
'''

将json格式转换为python对象

json_param = json.loads(json_str)
print(type(json_param))
#

进行jsonpath对文件进行数据解析

查看json_param下的bicycle的color属性

check_url = '$.store.bicycle.color'
print(jsonpath.jsonpath(json_param,check_url))
#['red']

#或者直接用..进行定位(最好在最前面加个$表示一下在根节点内进行查找)
check_url = '$..color'
print(jsonpath.jsonpath(json_param,check_url))
#['red']

输出所有的book

check_url = '$.store.book[*]'
print(jsonpath.jsonpath(json_param,check_url))
'''
[{'category': 'reference', 'author': 'Nigel Rees', 'title': 'Sayings of the Century', 'price': 8.95}, {'category': 'fiction', 'author': 'J. R. R. Tolkien', 'title': 'The Lord of the Rings', 'isbn': '0-395-19395-8', 'price': 22.99}]
'''

输出第一本book，注意：这里第一个索引是从0开始

check_url = '$.store.book[0]'
print(jsonpath.jsonpath(json_param,check_url))
#[{'category': 'reference', 'author': 'Nigel Rees', 'title': 'Sayings of the Century', 'price': 8.95}]

输出所有的书名

check_url = '$.store.book[*].title'
print(jsonpath.jsonpath(json_param,check_url))
#['Sayings of the Century', 'The Lord of the Rings']

过滤输出book中的price为22.99的所有对象

?() ?就是那个要找的对象，()是要满足的要求,@要加，表示在book里找。点表示在下一个节点了，也主要要加

check_url = '$.store.book[?(@.price==22.99)]'
print(jsonpath.jsonpath(json_param,check_url))
#[{'category': 'fiction', 'author': 'J. R. R. Tolkien', 'title': 'The Lord of the Rings', 'isbn': '0-395-19395-8', 'price': 22.99}]

输出所有价格小于10的book

check_url = '$.store.book[?(@.price<10)]'
print(jsonpath.jsonpath(json_param,check_url))
#[{'category': 'reference', 'author': 'Nigel Rees', 'title': 'Sayings of the Century', 'price': 8.95}]

输出所有含有isbn的book

check_url = '$.store.book[?(@.isbn)]'
print(jsonpath.jsonpath(json_param,check_url))
#[{'category': 'fiction', 'author': 'J. R. R. Tolkien', 'title': 'The Lord of the Rings', 'isbn': '0-395-19395-8', 'price': 22.99}]

你可能感兴趣的:(爬虫,python,正则表达式)

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
密码正则验证：大小写字母、数字、特殊字符至少8位 qq_21875331 渐进式的成长
正则表达式：密码必须包含大写字母、数字、特殊字符（四种里至少三种，且至少8位）写法一：/((^(?=.*[a-z])(?=.*[A-Z])(?=.*\W)[\da-zA-Z\W]{8,16}$)|(^(?=.*\d)(?=.*[A-Z])(?=.*\W)[\da-zA-Z\W]{8,16}$)|(^(?=.*\d)(?=.*[a-z])(?=.*\W)[\da-zA-Z\W]{8,16}$)|(^
python笔记14介绍几个魔法方法抢公主的大魔王 python python
python笔记14介绍几个魔法方法先声明一下各位大佬，这是我的笔记。如有错误，恳请指正。另外，感谢您的观看，谢谢啦！(1).__doc__输出对应的函数，类的说明文档print(print.__doc__)print(value,...,sep='',end='\n',file=sys.stdout,flush=False)Printsthevaluestoastream,ortosys.std
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
环境搭建 | Python + Anaconda / Miniconda + PyCharm 的安装、配置与使用
本文将分别介绍Python、Anaconda/Miniconda、PyCharm的安装、配置与使用，详细介绍Python环境搭建的全过程，涵盖Python、Pip、PythonLauncher、Anaconda、Miniconda、Pycharm等内容，以官方文档为参照，使用经验为补充，内容全面而详实。由于图片太多，就先贴一个无图简化版吧，详情请查看Python+Anaconda/Minicond
你竟然还在用克隆删除？Conda最新版rename命令全攻略！曦紫沐 Python基础知识 conda 虚拟环境管理
文章摘要Conda虚拟环境管理终于迎来革命性升级！本文揭秘Conda4.9+版本新增的rename黑科技，彻底告别传统“克隆+删除”的繁琐操作。从命令解析到实战案例，手把手教你如何安全高效地重命名Python虚拟环境，附带版本检测、环境迁移、故障排查等进阶技巧，助你提升开发效率10倍！一、颠覆认知：Conda居然自带重命名功能？很多开发者仍停留在“Conda无法直接重命名环境”的认知阶段，实际上自
centos7安装配置 Anaconda3
Anaconda是一个用于科学计算的Python发行版,Anaconda于Python，相当于centos于linux。下载[root@testsrc]#mwgethttps://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.2.0-Linux-x86_64.shBegintodownload:Anaconda3-5.2.0-L
Pandas：数据科学的超级瑞士军刀科技林总 DeepSeek学AI 人工智能
**——从零基础到高效分析的进化指南**###**一、Pandas诞生：数据革命的救世主****2010年前的数据分析噩梦**：```python#传统Python处理表格数据data=[]forrowincsv_file:ifrow[3]>100androw[2]=="China":data.append(float(row[5])#代码冗长易错！```**核心痛点**：-Excel处理百万行崩
【Jupyter】个人开发常见命令 TIM老师 #Pycharm &VSCode python Jupyter
1.查看python版本importsysprint(sys.version)2.ipynb/py文件转换jupyternbconvert--topythonmy_file.ipynbipynb转换为mdjupyternbconvert--tomdmy_file.ipynbipynb转为htmljupyternbconvert--tohtmlmy_file.ipynbipython转换为pdfju
用 Python 开发小游戏：零基础也能做出《贪吃蛇》
本文专为零基础学习者打造，详细介绍如何用Python开发经典小游戏《贪吃蛇》。无需复杂编程知识，从环境搭建到代码编写、功能实现，逐步讲解核心逻辑与操作。涵盖Pygame库的基础运用、游戏界面设计、蛇的移动与食物生成规则等，让新手能按步骤完成开发，同时融入SEO优化要点，帮助读者轻松入门Python游戏开发，体验从0到1做出游戏的乐趣。一、为什么选择用Python开发《贪吃蛇》对于零基础学习者来说，
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
lesson20：Python函数的标注你的电影很有趣 python 开发语言
目录引言：为什么函数标注是现代Python开发的必备技能一、函数标注的基础语法1.1参数与返回值标注1.2支持的标注类型1.3Python3.9+的重大改进：标准集合泛型二、高级标注技巧与最佳实践2.1复杂参数结构标注2.2函数类型与回调标注2.3变量注解与类型别名三、静态类型检查工具应用3.1mypy：最流行的类型检查器3.2Pyright与IDE集成3.3运行时类型验证四、函数标注的工程价值与
Jupyter Notebook：数据科学的“瑞士军刀” a小胡哦机器学习基础人工智能机器学习
在数据科学的世界里，JupyterNotebook是一个不可或缺的工具，它就像是数据科学家手中的“瑞士军刀”，功能强大且灵活多变。今天，就让我们一起深入了解这个神奇的工具。一、JupyterNotebook是什么？JupyterNotebook是一个开源的Web应用程序，它允许你创建和共享包含实时代码、方程、可视化和解释性文本的文档。它支持多种编程语言，其中Python是最常用的语言之一。Jupy
Django学习笔记（一）
学习视频为：pythondjangoweb框架开发入门全套视频教程一、安装pipinstalldjango==****检查是否安装成功django.get_version()二、django新建项目操作1、新建一个项目django-adminstartprojectproject_name2、新建APPcdproject_namedjango-adminstartappApp注：一个project
Python 程序设计讲义（26）：字符串的用法——字符的编码睿思达DBA_WGX Python 讲义 python 开发语言
Python程序设计讲义（26）：字符串的用法——字符的编码目录Python程序设计讲义（26）：字符串的用法——字符的编码一、字符的编码二、`ASCII`编码三、`Unicode`编码四、使用`ord()`函数查询一个字符对应的`Unicode`编码五、使用`chr()`函数查询一个`Unicode`编码对应的字符六、`Python`字符串的特征一、字符的编码计算机默认只能处理二进制数，而不能处
【Python】pypinyin-汉字拼音转换工具鸟哥大大 Python python 自然语言处理
文章目录1.主要功能2.安装3.常用API3.1拼音风格3.2核心API3.2.1pypinyin.pinyin()3.2.2pypinyin.lazy_pinyin()3.2.3pypinyin.load_single_dict()3.2.4pypinyin.load_phrases_dict()3.2.5pypinyin.slug()3.3注册新的拼音风格4.基本用法4.1库导入4.2基本汉字
python编程第十四课：数据可视化小小源助手 Python代码实例信息可视化 python 开发语言
Python数据可视化：让数据“开口说话”在当今数据爆炸的时代，数据可视化已成为探索数据规律、传达数据信息的关键技术。Python凭借其丰富的第三方库，为数据可视化提供了强大而灵活的解决方案。本文将带你深入了解Matplotlib库的基础绘图、Seaborn库的高级可视化以及交互式可视化工具Plotly，帮助你通过图表清晰地展示数据背后的故事。一、Matplotlib库基础绘图Matplotlib
Python数据可视化：用代码绘制数据背后的故事 AAEllisonPang Python 信息可视化 python 开发语言
引言：当数据会说话在数据爆炸的时代，可视化是解锁数据价值的金钥匙。Python凭借其丰富的可视化生态库，已成为数据科学家的首选工具。本文将带您从基础到高级，探索如何用Python将冰冷数字转化为引人入胜的视觉叙事。一、基础篇：二维可视化的艺术表达1.1Matplotlib：可视化领域的瑞士军刀importmatplotlib.pyplotaspltimportnumpyasnpx=np.linsp
python学习笔记（汇总）朕的剑还未配妥 python学习笔记整理 python 学习开发语言
文章目录一.基础知识二.python中的数据类型三.运算符四.程序的控制结构五.列表六.字典七.元组八.集合九.字符串十.函数十一.解决bug一.基础知识print函数字符串要加引号，数字可不加引号，如print(123.4)print('小谢')print("洛天依")还可输入表达式，如print(1+3)如果使用三引号，print打印的内容可不在同一行print("line1line2line
Gerapy爬虫管理框架深度解析：企业级分布式爬虫管控平台 Python×CATIA工业智造爬虫分布式 python pycharm
引言：爬虫工程化的必然选择随着企业数据采集需求指数级增长，传统单点爬虫管理模式面临三重困境：管理效率瓶颈：手动部署耗时占开发总时长的40%以上系统可靠性低：研究显示超过65%的爬虫故障源于部署或调度错误资源利用率差：平均爬虫服务器CPU利用率不足30%爬虫管理方案对比：┌───────────────┬─────────────┬───────────┬───────────┬──────────
PDF转Markdown - Python 实现方案与代码 Eiceblue Python Python PDF pdf python 开发语言 vscode
PDF作为广泛使用的文档格式，转换为轻量级标记语言Markdown后，可无缝集成到技术文档、博客平台和版本控制系统中，提高内容的可编辑性和可访问性。本文将详细介绍如何使用国产Spire.PDFforPython库将PDF文档转换为Markdown格式。技术优势：精准保留原始文档结构（段落/列表/表格）完整提取文本和图像内容无需Adobe依赖的纯Python实现支持Linux/Windows/mac
使用Python和Gradio构建实时数据可视化工具 PythonAI编程架构实战家信息可视化 python 开发语言 ai
使用Python和Gradio构建实时数据可视化工具关键词：Python、Gradio、数据可视化、实时数据、Web应用、交互式界面、数据科学摘要：本文将详细介绍如何使用Python和Gradio框架构建一个实时数据可视化工具。我们将从基础概念开始，逐步深入到核心算法实现，包括数据处理、可视化技术以及Gradio的交互式界面设计。通过实际项目案例，读者将学习如何创建一个功能完整、响应迅速的实时数据
Python Gradio：实现交互式图像编辑 PythonAI编程架构实战家 Python编程之道 python 开发语言 ai
PythonGradio：实现交互式图像编辑关键词：Python,Gradio,交互式图像编辑,计算机视觉,深度学习,图像处理,Web应用摘要：本文将深入探讨如何使用Python的Gradio库构建交互式图像编辑应用。我们将从基础概念开始，逐步介绍Gradio的核心功能，并通过实际代码示例展示如何实现各种图像处理功能。文章将涵盖图像滤镜应用、对象检测、风格迁移等高级功能，同时提供完整的项目实战案例
数据可视化：数据世界的直观呈现卢政权1 信息可视化数据分析数据挖掘
在当今数字化浪潮中，数据呈爆炸式增长。数据可视化作为一种强大的技术手段，能够将复杂的数据转化为直观的图形、图表等形式，让数据背后的信息一目了然。无论是在商业决策、科学研究还是日常数据分析中，数据可视化都发挥着极为重要的作用。它帮助我们快速理解数据的分布、趋势、关联等特征，从而为进一步的分析和行动提供有力支持。接下来，我们将深入探讨数据可视化的奥秘，并通过代码示例展示其实际应用。一、Python数据
Python 程序设计讲义（25）：循环结构——嵌套循环
Python程序设计讲义（25）：循环结构——嵌套循环目录Python程序设计讲义（25）：循环结构——嵌套循环一、嵌套循环的执行流程二、嵌套循环对应的几种情况1、内循环和外循环互不影响2、外循环迭代影响内循环的条件3、外循环迭代影响内循环的循环体嵌套循环是指在一个循环体中嵌套另一个循环。while循环中可以嵌入另一个while循环或for循环。反之，也可以在for循环中嵌入另一个for循环或wh
基于Python引擎的PP-OCR模型库推理张欣-男 python ocr 开发语言 PaddleOCR PaddlePaddle
基于Python引擎的PP-OCR模型库推理1.文本检测模型推理#下载超轻量中文检测模型：wgethttps://paddleocr.bj.bcebos.com/PP-OCRv3/chinese/ch_PP-OCRv3_det_infer.tartarxfch_PP-OCRv3_det_infer.tarpython3tools/infer/predict_det.py--image_dir=".
一个开源AI牛马神器 | AiPy，平替Manus，装完直接上手写Python！ Agent加载失败人工智能 python 开源算法 AI编程
还记得三个月前那个在闲鱼被炒到万元邀请码的Manus吗？现在你点官网，直接提示「所在地区不可用」了它走了，但更香的国产开源项目出现了：AiPy（爱派）。主打一个极致简化的AIAgent理念：别搞什么插件市场、Agent路由，直接给AI一个Python解释器，让它用自然语言写代码干活。听起来狠活？实际体验更狠：•完全本地化，界面傻瓜式操作，支持自然语言生成&执行Python任务；•数据清洗、文档总结
零数学基础理解AI核心概念：梯度下降可视化实战九章云极AladdinEdu 人工智能 gpu算力深度学习 pytorch python 语言模型 opencv
点击“AladdinEdu，同学们用得起的【H卡】算力平台”，H卡级别算力，按量计费，灵活弹性，顶级配置，学生专属优惠。用Python动画演示损失函数优化过程，数学公式具象化读者收获：直观理解模型训练本质，破除"数学恐惧症"当盲人登山者摸索下山路径时，他本能地运用了梯度下降算法。本文将用动态可视化技术，让你像感受重力一样理解AI训练的核心原理——无需任何数学公式推导。一、梯度下降：AI世界的"万有
2025.07 Java入门笔记01 殷浩焕笔记
一、熟悉IDEA和Java语法（一）LiuCourseJavaOOP1.一直在用C++开发，python也用了些，Java是真的不熟，用什么IDE还是问的同事；2.一开始安装了jdk-23，拿VSCode当编辑器，在cmd窗口编译运行，也能玩；但是想正儿八经搞项目开发，还是需要IDE；3.安装了IDEA社区版：（1）IDE通常自带对应编程语言的安装包，例如IDEA自带jbr-21（和jdk是不同的
linux系统服务器下jsp传参数乱码 3213213333332132 java jsp linux windows xml
在一次解决乱码问题中，发现jsp在windows下用js原生的方法进行编码没有问题，但是到了linux下就有问题， escape,encodeURI,encodeURIComponent等都解决不了问题但是我想了下既然原生的方法不行，我用el标签的方式对中文参数进行加密解密总该可以吧。于是用了java的java.net.URLDecoder,结果还是乱码，最后在绝望之际，用了下面的方法解决了
Spring 注解区别以及应用 BlueSkator spring
1. @Autowired @Autowired是根据类型进行自动装配的。如果当Spring上下文中存在不止一个UserDao类型的bean，或者不存在UserDao类型的bean，会抛出 BeanCreationException异常，这时可以通过在该属性上再加一个@Qualifier注解来声明唯一的id解决问题。 2. @Qualifier 当spring中存在至少一个匹
printf和sprintf的应用 dcj3sjt126com PHP sprintf printf
<?php printf('b: %b c: %c d: %d <bf>f: %f', 80,80, 80, 80); echo ' '; printf('%0.2f %+d %0.2f ', 8, 8, 1235.456); printf('th
config.getInitParameter 171815164 parameter
web.xml <servlet> <servlet-name>servlet1</servlet-name> <jsp-file>/index.jsp</jsp-file> <init-param> <param-name>str</param-name>
Ant标签详解--基础操作 g21121 ant
Ant的一些核心概念： build.xml：构建文件是以XML 文件来描述的，默认构建文件名为build.xml。 project：每个构建文
[简单]代码片段_数据合并 53873039oycg 代码
合并规则:删除家长phone为空的记录,若一个家长对应多个孩子,保留一条家长记录,家长id修改为phone,对应关系也要修改。代码如下:
java 通信技术云端月影 Java 远程通信技术
在分布式服务框架中，一个最基础的问题就是远程服务是怎么通讯的，在Java领域中有很多可实现远程通讯的技术，例如：RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等，这些名词之间到底是些什么关系呢，它们背后到底是基于什么原理实现的呢，了解这些是实现分布式服务框架的基础知识，而如果在性能上有高的要求的话，那深入了解这些技术背后的机制就是必须的了，在这篇blog中我们将来
string与StringBuilder 性能差距到底有多大 aijuans
之前也看过一些对string与StringBuilder的性能分析，总感觉这个应该对整体性能不会产生多大的影响，所以就一直没有关注这块！由于学程序初期最先接触的string拼接，所以就一直没改变过自己的习惯！
今天碰到 java.util.ConcurrentModificationException 异常 antonyup_2006 java 多线程工作 IBM
今天改bug，其中有个实现是要对map进行循环，然后有删除操作，代码如下： Iterator<ListItem> iter = ItemMap.keySet.iterator(); while(iter.hasNext()){ ListItem it = iter.next(); //...一些逻辑操作 ItemMap.remove(it); } 结果运行报Con
PL/SQL的类型和JDBC操作数据库百合不是茶 PL/SQL表标量类型游标 PL/SQL记录
PL/SQL的标量类型: 字符,数字,时间,布尔,%type五中类型的 --标量：数据库中预定义类型的变量 --定义一个变长字符串 v_ename varchar2(10); --定义一个小数,范围 -9999.99~9999.99 v_sal number(6,2); --定义一个小数并给一个初始值为5.4 :=是pl/sql的赋值号
Mockito：一个强大的用于 Java 开发的模拟测试框架实例 bijian1013 mockito 单元测试
Mockito框架： Mockito是一个基于MIT协议的开源java测试框架。 Mockito区别于其他模拟框架的地方主要是允许开发者在没有建立“预期”时验证被测系统的行为。对于mock对象的一个评价是测试系统的测
精通Oracle10编程SQL(10)处理例外 bijian1013 oracle 数据库 plsql
/* *处理例外 */ --例外简介 --处理例外-传递例外 declare v_ename emp.ename%TYPE; begin SELECT ename INTO v_ename FROM emp where empno=&no; dbms_output.put_line('雇员名：'||v_ename); exceptio
【Java】Java执行远程机器上Linux命令 bit1129 linux命令
Java使用ethz通过ssh2执行远程机器Linux上命令，封装定义Linux机器的环境信息 package com.tom; import java.io.File; public class Env { private String hostaddr; //Linux机器的IP地址 private Integer po
java通信之Socket通信基础白糖_ java socket 网络协议
正处于网络环境下的两个程序，它们之间通过一个交互的连接来实现数据通信。每一个连接的通信端叫做一个Socket。一个完整的Socket通信程序应该包含以下几个步骤： ①创建Socket； ②打开连接到Socket的输入输出流； ④按照一定的协议对Socket进行读写操作； ④关闭Socket。 Socket通信分两部分：服务器端和客户端。服务器端必须优先启动，然后等待soc
angular.bind boyitech AngularJS angular.bind AngularJS API bind
angular.bind 描述：上下文，函数以及参数动态绑定，返回值为绑定之后的函数. 其中args是可选的动态参数，self在fn中使用this调用。使用方法： angular.bind(se
java-13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 bylijinnan java
import java.util.ArrayList; import java.util.List; public class KickOutBadGuys { /** * 题目：13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 * Maybe you can find out
Redis.conf配置文件及相关项说明（自查备用） Kai_Ge redis
Redis.conf配置文件及相关项说明 # Redis configuration file example # Note on units: when memory size is needed, it is possible to specifiy # it in the usual form of 1k 5GB 4M and so forth: #
[强人工智能]实现大规模拓扑分析是实现强人工智能的前奏 comsci 人工智能
真不好意思,各位朋友...博客再次更新... 节点数量太少,网络的分析和处理能力肯定不足,在面对机器人控制的需求方面,显得力不从心.... 但是,节点数太多,对拓扑数据处理的要求又很高,设计目标也很高,实现起来难度颇大...
记录一些常用的函数 dai_lm java
public static String convertInputStreamToString(InputStream is) { StringBuilder result = new StringBuilder(); if (is != null) try { InputStreamReader inputReader = new InputStreamRead
Hadoop中小规模集群的并行计算缺陷 datamachine mapreduce hadoop 并行计算
注：写这篇文章的初衷是因为Hadoop炒得有点太热，很多用户现有数据规模并不适用于Hadoop，但迫于扩容压力和去IOE（Hadoop的廉价扩展的确非常有吸引力）而尝试。尝试永远是件正确的事儿，但有时候不用太突进，可以调优或调需求，发挥现有系统的最大效用为上策。 -----------------------------------------------------------------
小学4年级英语单词背诵第二课 dcj3sjt126com english word
egg 蛋 twenty 二十 any 任何 well 健康的，好 twelve 十二 farm 农场 every 每一个 back 向后，回 fast 快速的 whose 谁的 much 许多 flower 花 watch 手表 very 非常，很 sport 运动 Chinese 中国的
自己实践了github的webhooks, linux上面的权限需要注意 dcj3sjt126com github webhook
环境, 阿里云服务器 1. 本地创建项目, push到github服务器上面 2. 生成www用户的密钥 sudo -u www ssh-keygen -t rsa -C "[email protected]" 3. 将密钥添加到github帐号的SSH_KEYS里面 3. 用www用户执行克隆, 源使
Java冒泡排序蕃薯耀冒泡排序 Java冒泡排序 Java排序
冒泡排序 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 10:40:14 星期二 http://fanshuyao.iteye.com/
Excle读取数据转换为实体List【基于apache-poi】 hanqunfeng apache
1.依赖apache-poi 2.支持xls和xlsx 3.支持按属性名称绑定数据值 4.支持从指定行、列开始读取 5.支持同时读取多个sheet 6.具体使用方式参见org.cpframework.utils.excelreader.CP_ExcelReaderUtilTest.java 比如： Str
3个处于草稿阶段的Javascript API介绍 jackyrong JavaScript
原文： http://www.sitepoint.com/3-new-javascript-apis-may-want-follow/?utm_source=html5weekly&utm_medium=email 本文中，介绍3个仍然处于草稿阶段，但应该值得关注的Javascript API. 1) Web Alarm API &
6个创建Web应用程序的高效PHP框架 lampcy Web 框架 PHP
以下是创建Web应用程序的PHP框架，有coder bay网站整理推荐： 1. CakePHP CakePHP是一个PHP快速开发框架，它提供了一个用于开发、维护和部署应用程序的可扩展体系。CakePHP使用了众所周知的设计模式，如MVC和ORM，降低了开发成本，并减少了开发人员写代码的工作量。 2. CodeIgniter CodeIgniter是一个非常小且功能强大的PHP框架，适合需
评"救市后中国股市新乱象泛起"谣言 nannan408
首先来看百度百家一位易姓作者的新闻：三个多星期来股市持续暴跌，跌得投资者及上市公司都处于极度的恐慌和焦虑中，都要寻找自保及规避风险的方式。面对股市之危机，政府突然进入市场救市，希望以此来重建市场信心，以此来扭转股市持续暴跌的预期。而政府进入市场后，由于市场运作方式发生了巨大变化，投资者及上市公司为了自保及为了应对这种变化，中国股市新的乱象也自然产生。首先，中国股市这两天
页面全屏遮罩的实现方式 Rainbow702 html css 遮罩 mask
之前做了一个页面，在点击了某个按钮之后，要求页面出现一个全屏遮罩，一开始使用了position:absolute来实现的。当时因为画面大小是固定的，不可以resize的，所以，没有发现问题。最近用了同样的做法做了一个遮罩，但是画面是可以进行resize的，所以就发现了一个问题，当画面被reisze到浏览器出现了滚动条的时候，就发现，用absolute 的做法是有问题的。后来改成fixed定位就
关于angularjs的点滴 tntxia AngularJS
angular是一个新兴的JS框架，和以往的框架不同的事，Angularjs更注重于js的建模，管理，同时也提供大量的组件帮助用户组建商业化程序，是一种值得研究的JS框架。 Angularjs使我们可以使用MVC的模式来写JS。Angularjs现在由谷歌来维护。这里我们来简单的探讨一下它的应用。首先使用Angularjs我
Nutz--->>反复新建ioc容器的后果 xiaoxiao1992428 DAO mvc IOC nutz
问题： public class DaoZ { public static Dao dao() { // 每当需要使用dao的时候就取一次 Ioc ioc = new NutIoc(new JsonLoader("dao.js")); return ioc.get(