XML 指的是可扩展标记语言(eXtensible Markup Language),和json类似也是用于存储和传输数据,还可以用作配置文件。类似于HTML超文本标记语言,但是HTML所有的标签都是预定义的,而xml的标签可以随便定义。
指从开始标签到结束标签的部分(均包括开始和结束)
一个元素可以包括:
abc
根元素
this is a test1
this is a test2
this is a test2
joy
this is a test2
注意:元素book的category属性值python必须用引号括起来,单引号双引号都可以。如果属性值中包含单引号那么用双引号括起来,如果属性值包含单引号那么外面用双引号括起来。
名称可以包含字母、数字以及其他字符
名称不能以数字或标点符号开头
名称不能以字母xml或XML开始
名称不能包含空格
可以使用任何名称,没有保留字
名称应该具有描述性,简短和简单,可以同时使用下划线。
避免“-”、“.”、“:”等字符
Xml的注释格式
常见的XML编程接口有DOM和SAX,这两种接口处理XML文件的方式不同,使用场合也不同。python有三种方法解析XML:SAX,DOM和ElementTree
注:因DOM需要将XML数据映射到内存中的树,一是比较慢,二是比较耗内存,而SAX流式读取XML文件,比较快,占用内存少,但需要用户实现回调函数(handler)
本次先介绍DOM方式操作XML,先建立名为book.xml的文件供后续使用。
learning math
张三
561
learning Python
李四
600
函数作用:使用parse解析器打开xml文档,并将其解析为DOM文档,也就是内存中的一棵树,并得到这个对象
获取xml文档对象,就是拿到DOM树的根
代码示例:
>>> from xml.dom.minidom import parse
>>> DOMTree=parse(r'book.xml')
>>> type(DOMTree)
>>> booklist=DOMTree.documentElement
>>> booklist
doc.toxml(encoding=None)
返回xml的文档内容
>>> booklist=DOMTree.documentElement
>>> print (booklist.toxml())
learning math
张三
561
learning Python
李四
600
返回元素的最后一个子节点
返回元素的首个子节点
代码示例:
>>> booklist.lastChild
>>> booklist.firstChild
获取xml文档中的某个父节点下具有相同节点名的节点对象的集合。返回的是list
代码示例:
from xml.dom.minidom import parse
#minidom解析器打开xml文档并将其解析为内存中的一棵树
DOMTree=parse(r'book.xml')
#获取xml文档对象,就是拿到树的根
booklist=DOMTree.documentElement
#获取booklist对象中所有book节点的list集合
books=booklist.getElementsByTagName('book')
print(books)
print (type(books))
print(books)
print('有%d个book节点'%len(books))
print('*'*40)
print('第一个book节点%s'%booklist.getElementsByTagName('book')[0])
print('*'*40)
print('第一个book节点节点内容%s'%booklist.getElementsByTagName('book')[0].toxml())
print('*'*40)
print('第一个title节点%s'%booklist.getElementsByTagName('title')[0].toxml())
代码示例:
from xml.dom.minidom import parse
#minidom解析器打开xml文档并将其解析为内存中的一棵树
DOMTree=parse(r'book.xml')
#获取xml文档对象,就是拿到树的根
booklist=DOMTree.documentElement
print('DOM树的根对象:',booklist)
if booklist.hasAttribute('type'):
#判断根节点booklist是否有type属性
print('booklist 元素存在type属性')
else:
print('booklist 元素不存在type属性!!!')
if booklist.getElementsByTagName('book')[0].hasAttribute('category'):
#判断第一个book节点是否有category属性
print('第一个book节点存在category属性')
else:
print('第一个book节点不存在category属性!!!')
代码示例:’’‘Node.getAttribute获取节点的属性值’’’
from xml.dom.minidom import parse
#minidom解析器打开xml文档并将其解析为内存中的一棵树
DOMTree=parse(r'book.xml')
#获取xml文档对象,就是拿到树的根
booklist=DOMTree.documentElement
if booklist.hasAttribute('type'):
#判断根节点booklist是否有type属性
print('booklist 元素存在type属性')
print ('根节点booklist的type属性值为:',booklist.getAttribute('type'))
else:
print('booklist 元素不存在type属性!!!')
代码示例:’’‘node.childNodes’’’
from xml.dom.minidom import parse
#minidom解析器打开xml文档并将其解析为内存中的一棵树
DOMTree=parse(r'book.xml')
#获取xml文档对象,就是拿到树的根
booklist=DOMTree.documentElement
#获取booklist对象中所有book节点的list集合
books=booklist.getElementsByTagName('book')
print('第一个book元素的所有子节点:',books[0].childNodes)
每一个结点都有它的nodeName,nodeValue,nodeType属性
node.nodeName
node.nodeValue #nodeValue是结点的值,只对文本结点有效
node.nodeType
代码示例:’’‘获取标签属性’’'
from xml.dom.minidom import parse
#minidom解析器打开xml文档并将其解析为内存中的一棵树
DOMTree=parse(r'movie.xml')
#获取xml文档对象,就是拿到树的根
collection=DOMTree.documentElement
print ('collection属性',collection.nodeName,collection.nodeValue,collection.nodeType)
#获取所有的movies节点
movies=collection.getElementsByTagName('movie')
#遍历集合,打印所有节点的nodename/nodeValue/nodeType
for movie in movies:
print ("*******************movie*******************")
for node in movie.childNodes:
print (node.nodeName,node.nodeValue,node.nodeType)
代码示例:’’‘获取节点文本值’’'
from xml.dom.minidom import parse
#minidom解析器打开xml文档并将其解析为内存中的一棵树
DOMTree=parse(r'book.xml')
#获取xml文档对象,就是拿到树的根
booklist=DOMTree.documentElement
if booklist.hasAttribute('type'):
#判断根节点booklist是否有type属性,有则获取并打印属性值
print('Root element is ',booklist.getAttribute('type'))
#获取booklist对象中所有的book节点的list集合
books=booklist.getElementsByTagName('book')
print('book节点的个数为:',len(books))
print('book节点的个数为:',books.length)
print ()
for book in books:
print ("*******************book*******************")
if book.hasAttribute('category'):
print ('category is ',book.getAttribute('category'))
#根据节点名title/author/pageNumber得到这些节点的集合list
title=book.getElementsByTagName('title')[0]
author=book.getElementsByTagName('author')[0]
pageNumber=book.getElementsByTagName('pageNumber')[0]
print ('title is ',title.childNodes[0].data)
print ('author is ',author.childNodes[0].data)
print ('pageNumber is ',pageNumber.childNodes[0].data)
代码示例:’’‘node .hasChildNodes()’’'
from xml.dom.minidom import parse
#minidom解析器打开xml文档并将其解析为内存中的一棵树
DOMTree=parse(r'book.xml')
#获取xml文档对象,就是拿到树的根
booklist=DOMTree.documentElement
if booklist.hasAttribute('type'):
#判断根节点booklist是否有type属性,有则获取并打印属性值
print('Root element is ',booklist.getAttribute('type'))
#获取booklist对象中所有的book节点的list集合
books=booklist.getElementsByTagName('book')
print('book节点的个数为:',books.length)
print ()
if books[0].hasChildNodes():
print('存在子节点:',books[0].childNodes)
else:
print('不存在子节点')
minidom.parse(filename):加载读取XML文件
doc.documentElement:获取XML文档对象
node.getAttribute(AttributeName):获取XML节点属性值
node.getElementsByTagName(TagName):获取XML节点对象集合
node.childNodes :返回子节点列表。
node.childNodes[index].nodeValue:获取XML节点值
node.firstChild:访问第一个节点,等价于pagexml.childNodes[0]
返回Node节点的xml表示的文本:
doc = minidom.parse(filename)
doc.toxml(‘UTF-8’)
访问元素属性:
Node.attributes[“id”]
a.name #就是上面的 “id”
a.value #属性的值
root.nodeName/root.tagName:节点的名称
root.nodeValue:节点的值,文本节点才有值,其它节点返回的是None
root.nodeType:节点的类型
NodeType Named Constant
代码示例:
‘’‘将xml文件写入到文件中’’’
from xml.dom.minidom import parse
from openpyxl import Workbook
DOMTree=parse(r’book.xml’)
booklist=DOMTree.documentElement
type_name=booklist.getAttribute(‘type’)
#获取第二个book对象的内容
book=booklist.getElementsByTagName(‘book’)[1]
book_name=book.getAttribute(‘category’)
title=book.getElementsByTagName(‘title’)[0].childNodes[0].data
author=book.getElementsByTagName(‘author’)[0].childNodes[0].data
pageNumber=book.getElementsByTagName(‘pageNumber’)[0].childNodes[0].data
wb=Workbook()
ws=wb.active
ws.append([book_name,title,author,pageNumber])
wb.save(r’book.xlsx’)
xml文件内容:
War, Thriller
DVD
2003
PG
10
Talk about a US-Japan war
Anime, Science Fiction
DVD
1989
R
8
A schientific fiction
Anime, Action
DVD
4
PG
10
Vash the Stampede!
Comedy
VHS
PG
2
Viewable boredom
代码示例:’’‘xml.dom解析xml的一个实例’’’
from xml.dom.minidom import parse
#minidom解析器打开xml文档并将其解析为内存中的一棵树
DOMTree=parse(r'move.xml')
#获取xml文档对象,就是拿到树的根
collection=DOMTree.documentElement
if collection.hasAttribute('shelf'):
#判断根节点collection是否有shelf属性,有则获取并打印属性值
print('Root element is ',collection.getAttribute('shelf'))
#获取所有的movies节点
movies=collection.getElementsByTagName('movie')
#遍历集合,打印每部电影的详细信息
for movie in movies:
print ("*******************movie*******************")
my_list=[]
if movie.hasAttribute('title'):
print ('title is ',movie.getAttribute('title'))
for node in movie.childNodes:
my_list.append (node.nodeName)
type=movie.getElementsByTagName('type')[0]
print ('type is ',type.childNodes[0].data)
format=movie.getElementsByTagName('format')[0]
print ('format is ',format.childNodes[0].data)
if 'year' in my_list:
year=movie.getElementsByTagName('year')[0]
print ('year is ',year.childNodes[0].data)
rating=movie.getElementsByTagName('rating')[0]
print ('rating is ',rating.firstChild.data)
stars=movie.getElementsByTagName('stars')[0]
print ('stars is ',stars.childNodes[0].data)
description=movie.getElementsByTagName('description')[0]
print ('description is ',description.childNodes[0].data)
创建步骤:
1.创建XML空白文档
2.产生根对象
3.向根对象中加入数据
4.将xml内存对象写入文件
该方法用于创建一个空白的xml文档对象,并返回这个doc对象。每个xml文档都是一个Document对象,代表着内存中的DOM树
代码示例:’’‘minidom.Document()创建xml空白文档’’'
import xml.dom.minidom
#在内存中创建一个空的文档
doc=xml.dom.minidom.Document()
print(doc)
生成XML文档节点。参数表示待生成的节点名称
代码示例:
import xml.dom.minidom
#在内存中创建一个空的文档
doc=xml.dom.minidom.Document()
#创建一个根节点对象
root=doc.createElement('Manager')
print('添加的xml标签为:',root.tagName)
函数作用:给节点添加属性-值对(attribute)
参数说明:
attname:属性的名称
value:属性的值
代码示例:’’‘node.setAttribute(attname,value)’’'
import xml.dom.minidom
#在内存中创建一个空的文档
doc=xml.dom.minidom.Document()
#创建一个根节点对象
root=doc.createElement('Manager')
print('添加的xml标签为:',root.tagName)
#给根节点添加属性
root.setAttribute('name','kongsh')
value=root.getAttribute('name')
print('root元素的name属性为:',value)
给叶子节点添加文本节点
代码示例:’’‘doc.createTextNode(data)’’'
import xml.dom.minidom
#在内存中创建一个空的文档
doc=xml.dom.minidom.Document()
#创建一个根节点对象
root=doc.createElement('test')
print('添加的xml标签为:',root.tagName)
#给根节点添加属性
root.setAttribute('name','python')
value=root.getAttribute('name')
print('root元素的name属性为:',value)
#给根节点添加一个叶子节点
ceo=doc.createElement('person')
#给叶子节点ceo设置一个文本节点,用于显示文本内容
ceo.appendChild(doc.createTextNode('kongsh'))
print (ceo.tagName)
print ("给叶子节点添加文本节点成功")
把子节点childNode添加到父节点parent中
代码示例:’’‘parent.appendChild(childNode)’’'
import xml.dom.minidom
#在内存中创建一个空的文档
doc=xml.dom.minidom.Document()
#创建一个根节点companys对象
root=doc.createElement('companys')
print('添加的xml标签为:',root.tagName)
#给根节点添加属性
root.setAttribute('name','公司信息')
#将根节点添加到文档对象中
doc.appendChild(root)
#给根节点添加一个叶子节点
company=doc.createElement('gloryroad')
#叶子节点下再嵌套叶子节点
name=doc.createElement('name')
#给节点添加文本节点
name.appendChild(doc.createTextNode('光荣之路'))
ceo=doc.createElement('CEO')
ceo.appendChild(doc.createTextNode('吴老师'))
#将各叶子节点添加到父节点company中
company.appendChild(name)
company.appendChild(ceo)
#将company节点添加到根节点companys中
root.appendChild(company)
print (doc.toxml())
函数作用:用于将内存中的xml文档树写入到文件中,并保存到本地磁盘。只有调用该方法后,才能将上面创建的存在于内存中的xml文档写入本地硬盘中,这时才能看到新建的xml文档
语法:
writexml(file,indent=’’,addindent=’’,newl=’’,endocing=None)
参数说明:
file:要保存为的文件对象名
indent:根节点的缩进方式
allindent:子节点的缩进方式
newl:针对新行,指明换行方式
encoding:保存文件的编码方式
代码示例:’’‘writexml(file,indent=’’,addindent=’’,newl=’’,endocing=None)’’'
import xml.dom.minidom
#在内存中创建一个空的文档
doc=xml.dom.minidom.Document()
#创建一个根节点companys对象
root=doc.createElement('companys')
print('添加的xml标签为:',root.tagName)
#给根节点添加属性
root.setAttribute('name','公司信息')
#将根节点添加到文档对象中
doc.appendChild(root)
#给根节点添加一个叶子节点
company=doc.createElement('gloryroad')
#叶子节点下再嵌套叶子节点
name=doc.createElement('name')
#给节点添加文本节点
name.appendChild(doc.createTextNode('光荣之路'))
ceo=doc.createElement('CEO')
ceo.appendChild(doc.createTextNode('吴老师'))
#将各叶子节点添加到父节点company中
company.appendChild(name)
company.appendChild(ceo)
#将company节点添加到根节点companys中
root.appendChild(company)
#此处需要用codecs.open可以指定编码方式
fp=open(r'company.xml','w','utf-8')
#将内存中的xml写入到文件
doc.writexml(fp,indent='',addindent='\t',newl='\n',encoding='utf-8')
fp.close()