春天的菠菜

【DrissionPage】入门指南及查找元素

一、概述

二、特性

2.1 强大的内核

2.2 亮点功能

三、安装与升级

四、导包与简单示例

4.1 导包

4.2 简单示例

五、查找元素

5.1 概述

5.1.1 在页面中查找

5.1.2 在元素中查找

5.1.3 链式查找

5.1.4 相对查找

5.1.5 shadow root

5.1.6 简单示例

5.2 基本用法

5.2.1 查找元素的方法

ele()

eles()

5.2.2 匹配模式

精确匹配 =

模糊匹配：

匹配开头 ^

匹配结尾 $

5.2.3 查找语法

id 匹配符 #

class 匹配符 .

单属性匹配符 @

多属性与匹配符 @@

多属性或匹配符@|

属性否定匹配符@!

文本匹配符 text

文本匹配符 text()

@@text()的技巧

类型匹配符 tag

css selector 匹配符 css

xpath 匹配符 xpath

selenium 的 loc 元组

5.2.4 相对定位

获取父级元素

parent()

获取直接子节点

child()

children()

获取后面的同级节点

next()

nexts()

获取前面的同级节点

prev()

prevs()

在后面文档中查找节点

after()

afters()

在前面文档中查找节点

before()

befores()

5.3 更多用法

5.3.1 静态方式查找元素

s_ele()

s_eles()

5.3.2 获取当前焦点元素

5.3.3 iframe元素

查找 iframe 元素

在页面下跨级查找

在 iframe 元素下查找

5.3.4 ShadowRoot

5.3.5 等待

5.4 简化写法

5.4.1 定位符语法简化

5.4.2 shadow root 简化

5.4.3 相对定位参数简化

5.5 找不到元素时

5.5.1 默认情况

5.5.2 立即抛出异常

5.5.3 设置默认返回值

5.6 语法速查表

5.6.1 定位语法

基本用法

组合用法

简化写法

5.6.2 相对定位

5.6.3 其它

一、概述

DrissionPage 是一个基于 python 的网页自动化工具。

它既能控制浏览器，也能收发数据包，还能把两者合而为一。

可兼顾浏览器自动化的便利性和 requests 的高效率。

它功能强大，内置无数人性化设计和便捷功能。

它的语法简洁而优雅，代码量少，对新手友好。

二、特性

2.1 强大的内核

本库采用全自研的内核，内置了 N 多实用功能，对常用功能作了整合和优化，对比 selenium，有以下优点：

无 webdriver 特征
无需为不同版本的浏览器下载不同的驱动
运行速度更快
可以跨 iframe 查找元素，无需切入切出
把 iframe 看作普通元素，获取后可直接在其中查找元素，逻辑更清晰
可以同时操作浏览器中的多个标签页，即使标签页为非激活状态，无需切换
可以直接读取浏览器缓存来保存图片，无需用 GUI 点击另存
可以对整个网页截图，包括视口外的部分（90以上版本浏览器支持）
可处理非open状态的 shadow-root

2.2 亮点功能

极简的语法规则。集成大量常用功能，代码更优雅
定位元素更加容易，功能更强大稳定
无处不在的等待和自动重试功能。使不稳定的网络变得易于控制，程序更稳定，编写更省心
提供强大的下载工具。操作浏览器时也能享受快捷可靠的下载功能
允许反复使用已经打开的浏览器。无需每次运行从头启动浏览器，调试超方便
使用 ini 文件保存常用配置，自动调用，提供便捷的设置，远离繁杂的配置项
内置 lxml 作为解析引擎，解析速度成几个数量级提升
使用 POM 模式封装，可直接用于测试，便于扩展
高度集成的便利功能，从每个细节中体现

三、安装与升级

# 安装
pip install DrissionPage

# 升级
pip install DrissionPage --upgrade

# 升级指定版本
pip install DrissionPage==4.0.0b17

四、导包与简单示例

4.1 导包

# 如果只要控制浏览器，导入ChromiumPage。
from DrissionPage import ChromiumPage

# 如果只要收发数据包，导入SessionPage。
from DrissionPage import SessionPage

# WebPage是功能最全面的页面类，既可控制浏览器，也可收发数据包。
from DrissionPage import WebPage

4.2 简单示例

from DrissionPage import ChromiumPage

# 导入
from DrissionPage import ChromiumPage

# 创建对象
page = ChromiumPage()
# 访问网页
page.get('https://www.baidu.com')
# 输入文本
page('#kw').input('DrissionPage')
# 点击按钮
page('#su').click()
# 等待页面跳转
page.wait.load_start()
# 获取所有结果
links = page.eles('tag:h3')
# 遍历并打印结果
for link in links:
    print(link.text)

五、查找元素

5.1 概述

本库提供一套简洁易用的语法，用于快速定位元素，并且内置等待功能、支持链式查找，减少了代码的复杂性。

同时也兼容 css selector、xpath、selenium 原生的 loc 元组。

定位元素大致分为三种方法：

在页面或元素内查找子元素
根据 DOM 结构相对定位
根据页面布局位置相对定位

使用方式

所有页面对象和元素对象，都可以在自己内部查找元素，元素对象还能以自己为基准，相对定位其它元素。

页面对象包括：SessionPage、ChromiumPage、ChromiumTab、ChromiumFrame、WebPage、WebPageTab

元素对象包括：SessionElement、ChromiumElement、ShadowRoot

5.1.1 在页面中查找

使用页面对象的ele()和eles()方法，获取页面内指定元素对象。

from DrissionPage import SessionPage

page = SessionPage()
page.get('https://www.baidu.com')
ele = page.ele('#su')

5.1.2 在元素中查找

使用元素对象的ele()、eles()、child()、children()方法，获取元素内指定后代元素对象。

ele1 = page.ele('#s_fm')
ele2 = ele1.ele('#su')

son = ele1.child('tag:div')  # 获取第一个直接div子元素
sons = ele1.children('tag:div')  # 获取所有直接div子元素

5.1.3 链式查找

因为对象本身又可以查找对象，所有支持链式操作，上面两个例子可合并为：

ele = page.ele('#s_fm').ele('#su')

5.1.4 相对查找

元素对象在以自己为基准，执行相对查找。

ele = page.ele('#su')

parent = ele.parent(2)  # 获取ele元素的第二层父元素
brother = ele.next('tag:a')  # 获取ele元素后面的第一个a元素
after = ele.after('tag:div')  # 获取ele后面文档中第一个div元素

5.1.5 shadow root

使用浏览器元素对象的shadow_root属性获取该元素下的ShadowRoot对象。

shadow = page.ele('#ele1').shadow_root

在 shadow root 元素中搜索方法与普通元素一致。

shadow = page.ele('#ele1').shadow_root
ele = shadow.ele('#ele2')

5.1.6 简单示例




    第一行
    第二行
    第三行


    第二个div


 id="su" class="btn self-btn bg s_btn">

我们可以用页面对象去获取其中的元素：

# 获取 id 为 one 的元素
div1 = page.ele('#one')

# 获取 name 属性为 row1 的元素
p1 = page.ele('@name=row1')

# 获取包含“第二个div”文本的元素
div2 = page.ele('第二个div')

# 获取所有div元素
div_list = page.eles('tag:div')

也可以获取到一个元素，然后在它里面或周围查找元素：

# 获取到一个元素div1
div1 = page.ele('#one')

# 在div1内查找所有p元素
p_list = div1.eles('tag:p')

# 获取div1后面一个元素
div2 = div1.next()

5.2 基本用法

5.2.1 查找元素的方法

ele()

页面对象和元素对象都拥有此方法，用于查找其内部的一个条件匹配的元素。

页面对象和元素对象的ele()方法参数名称稍有不同，但用法一样。

SessionPage和ChromiumPage获取元素的方法是一致的，但前者返回的元素对象为SessionElement，后者是ChromiumElement。

参数名称	类型	默认值	说明
`locator` （元素对象）	`str` `Tuple[str, str]`	必填	元素的定位信息。可以是查询字符串，或 loc 元组
`locator` （页面对象）	`str` `SessionElement` `Tuple[str, str]`	必填	元素的定位信息。可以是查询字符串、loc 元组或一个`SessionElement`对象
`index`	`int`	`1`	获取第几个匹配的元素，从`1`开始，可输入负数表示从后面开始数
`timeout`	`float`	`None`	等待元素出现的超时时间，为`None`使用页面对象设置，`SessionPage`中无效

返回类型	说明
`SessionElement`	`SessionPage`或`SessionElement`查找到的第一个符合条件的元素对象
`ChromiumElement`	浏览器页面对象或元素对象查找到的第一个符合条件的元素对象
`ChromiumFrame`	当结果是框架元素时，会返回`ChromiumFrame`，但 IDE 中不会包含该提示
`NoneElement`	未找到符合条件的元素时返回

说明

loc 元组是指 selenium 定位符，例：(By.ID, 'XXXXX')。下同。

ele('xxxx', index=2)和eles('xxxx')[1]结果一样，不过前者会快很多。

示例：

from DrissionPage import SessionPage

page = SessionPage()

# 在页面内查找元素
ele1 = page.ele('#one')

# 在元素内查找后代元素
ele2 = ele1.ele('第二行')

`eles()`

此方法与ele()相似，但返回的是匹配到的所有元素组成的列表。

页面对象和元素对象都可调用这个方法。

eles()返回的是普通列表，链式操作需加下标，如page.eles('...')[0].ele('...')。

参数名称	类型	默认值	说明
`locator`	`str` `Tuple[str, str]`	必填	元素的定位信息，可以是查询字符串，或 loc 元组
`timeout`	`float`	`None`	等待元素出现的超时时间，为`None`使用页面对象设置，`SessionPage`中无效

返回类型	说明
`List[SessionElement]`	`SessionPage`或`SessionElement`找到的所有元素组成的列表
`List[ChromiumElement, ChromiumFrame]`	浏览器页面对象或元素对象找到的所有元素组成的列表

示例：

# 获取页面内的所有p元素
p_eles = page.eles('tag:p')

# 获取ele1元素内的所有p元素
p_eles = ele1.eles('tag:p')

# 打印第一个p元素的文本
print(p_eles[0])

5.2.2 匹配模式

精确匹配 `=`

表示精确匹配，匹配完全符合的文本或属性。

# 获取name属性为'row1'的元素
ele = page.ele('@name=row1')

模糊匹配：

表示模糊匹配，匹配含有指定字符串的文本或属性。

# 获取name属性包含'row1'的元素
ele = page.ele('@name:row1')

匹配开头 `^`

表示匹配开头，匹配开头为指定字符串的文本或属性。

# 获取name属性以'row1'开头的元素
ele = page.ele('@name^ro')

匹配结尾 `$`

表示匹配结尾，匹配结尾为指定字符串的文本或属性。

# 获取name属性以'w1'结尾的元素
ele = page.ele('@name$w1')

5.2.3 查找语法

id 匹配符 `#`

表示id属性，只在语句最前面且单独使用时生效，可配合匹配模式使用。

# 在页面中查找id属性为one的元素
ele1 = page.ele('#one')

# 在ele1元素内查找id属性包含ne文本的元素
ele2 = ele1.ele('#:ne')

class 匹配符 `.`

表示class属性，只在语句最前面且单独使用时生效，可配合匹配模式使用。

# 查找class属性为p_cls的元素
ele2 = ele1.ele('.p_cls')

# 查找class属性'_cls'文本开头的元素
ele2 = ele1.ele('.^_cls')

因为只加 . 时默认是精确匹配元素属性 class，所以如果某元素有多个类名，必须写 class 属性的完整值（类名的顺序也不能变）。如果需要只匹配多个类名中的一个，可以使用模糊匹配符 :。

# 精确查找class属性为`p_cls1 p_cls2 `的元素
ele2 = ele1.ele('.p_cls1 p_cls2 ')

# 模糊查找class属性含有类名 'p_cls2' 的元素
ele2 = ele1.ele('.:p_cls2')

若仍需要更复杂的匹配方式，请使用多属性匹配符。

单属性匹配符 `@`

表示某个属性，只匹配一个属性。

@关键字只有一个简单功能，就是匹配@后面的内容，不再对后面的字符串进行解析。因此即使后面的字符串也存在@或@@ ，也作为要匹配的内容对待。所以只要是多属性匹配，包括第一个属性在内的所有属性都必须用@@开头。

注意

如果属性中包含特殊字符（如包含@），用这个方式不能正确匹配到，需使用 css selector 方式查找。且特殊字符要用\转义。

# 查找name属性为row1的元素
ele2 = ele1.ele('@name=row1')

# 查找name属性包含row文本的元素
ele2 = ele1.ele('@name:row')

# 查找name属性以row开头的元素
ele2 = ele1.ele('@name^row')

# 查找有name属性的元素
ele2 = ele1.ele('@name')

# 查找没有任何属性的元素
ele2 = ele1.ele('@')

# 查找email属性为[email protected]的元素，有多个@也不会重复处理
ele2 = ele1.ele('@[email protected]')

# 属性中有特殊字符的情形，匹配abc@def属性等于v的元素
ele2 = ele1.ele('css:div[abc\@def="v"]')

多属性与匹配符 `@@`

匹配同时符合多个条件的元素时使用，每个条件前面添加@@作为开头。

注意

匹配文本或属性中出现@@、@|、@!时，不能使用多属性匹配，需改用 xpath 的方式。

如果属性中包含特殊字符（如包含@），用这个方式不能正确匹配到，需使用 css selector 方式查找。且特殊字符要用\转义。

# 查找name属性为row1且class属性包含cls文本的元素
ele2 = ele1.ele('@@name=row1@@class:cls')

@@可以与下文介绍的tag配合使用：

ele = page.ele('tag:div@@class=p_cls@@name=row1')

多属性或匹配符`@|`

匹配符合多个条件中任一项的元素时使用，每个条件前面添加@|作为开头。

用法与@@一致，注意事项与@@一致。

注意

@@和@|不能同时出现在语句中。

# 查找id属性为one或id属性为two的元素
ele2 = ele1.ele('@|id=one@|id=two')

@|可以与下文介绍的tag配合使用：

ele = page.ele('tag:div@|class=p_cls@|name=row1')

属性否定匹配符`@!`

用于否定某个条件，可与@@或@|混用，也可单独使用。

混用时，与还是或关系视@@还是@|而定。

示例：

# 匹配arg1等于abc且arg2不等于def的元素
page.ele('@@arg1=abc@!arg2=def')

# 匹配arg1等于abc或arg2不等于def的div元素
page.ele('t:div@|arg1=abc@!arg2=def')

# 匹配arg1不等于abc
page.ele('@!arg1=abc')

# 匹配没有arg1属性的元素
page.ele('@!arg1')

文本匹配符 `text`

要匹配的文本，查询字符串如开头没有任何关键字，也表示根据传入的文本作模糊查找。
如果元素内有多个直接的文本节点，精确查找时可匹配所有文本节点拼成的字符串，模糊查找时可匹配每个文本节点。

没有任何匹配符时，默认匹配文本。

# 查找文本为“第二行”的元素
ele2 = ele1.ele('text=第二行')

# 查找文本包含“第二”的元素
ele2 = ele1.ele('text:第二')

# 与上一行一致
ele2 = ele1.ele('第二')

TIPS

若要查找的文本包含text: ，可下面这样写，即第一个text: 为关键字，第二个是要查找的内容：

ele2 = page.ele('text:text:')

文本匹配符 `text()`

作为查找属性时使用的文本关键字，必须与@或@@配合使用。

# 查找文本为“第二行”的元素
ele2 = ele1.ele('@text()=第二行')

# 查找文本包含“第二行”的元素
ele2 = ele1.ele('@text():二行')

# 查找文本以“第二”开头且class属性为p_cls的元素
ele2 = ele1.ele('@@text()^第二@@class=p_cls')

# 查找文本为“二行”且没有任何属性的元素（因第一个 @@ 后为空）
ele2 = ele1.ele('@@@@text():二行')

# 查找直接子文本包含“二行”字符串的元素
ele = page.ele('@text():二行')

`@@text()`的技巧

值得一提的是，text()配合@@或@|能实现一种很便利的按查找方式。

网页种经常会出现元素和文本混排的情况，比如：

示例中，如果要用文本获取'前沿技术'的元素，可以这样写：

ele = page.ele('text:前沿技术')
# 或
ele = page.ele('@text():前沿技术')

这两种写法都能获取到包含直接文本的元素。

但如果要用文本获取

元素，就获取不到，因为文本不是

的直接内容。

我们可以这样写：

ele = page.ele('tag:li@@text():前沿技术')

@@text()与@text()不同之处在于，前者可以搜索整个元素内所有文本，而不仅仅是直接文本，因此能实现一些非常灵活的查找。

注意

需要注意的是，使用@@或@|时，text()不要作为唯一的查询条件，否则会定位到整个文档最高层的元素。

❌ 错误做法：
ele = page.ele('@@text():前沿技术')
ele = page.ele('@|text():前沿技术@|text():程序开发')
⭕ 正确做法：
ele = page.ele('tag:li@|text():前沿技术@|text():程序开发')

类型匹配符 `tag`

表示元素的标签，只在语句最前面且单独使用时生效，可与@、@@或@|配合使用。tag:与tag=效果一致，没有tag^和tag$语法。

# 定位div元素
ele2 = ele1.ele('tag:div')

# 定位class属性为p_cls的p元素
ele2 = ele1.ele('tag:p@class=p_cls')

# 定位文本为"第二行"的p元素
ele2 = ele1.ele('tag:p@text()=第二行')

# 定位class属性为p_cls且文本为“第二行”的p元素
ele2 = ele1.ele('tag:p@@class=p_cls@@text()=第二行')

# 定位class属性为p_cls或文本为“第二行”的p元素
ele2 = ele1.ele('tag:p@|class=p_cls@|text()=第二行')

# 查找直接文本节点包含“二行”字符串的p元素
ele2 = ele1.ele('tag:p@text():二行')

# 查找内部文本节点包含“二行”字符串的p元素
ele2 = ele1.ele('tag:p@@text():二行')

注意

tag:div@text():text 和 tag:div@@text():text 是有区别的，前者只在div的直接文本节点搜索，后者搜索div的整个内部。

css selector 匹配符 `css`

表示用 css selector 方式查找元素。css:与css=效果一致，没有css^和css$语法。

# 查找 div 元素
ele2 = ele1.ele('css:.div')

# 查找 div 子元素元素，这个写法是本库特有，原生不支持
ele2 = ele1.ele('css:>div')

xpath 匹配符 `xpath`

表示用 xpath 方式查找元素。xpath:与xpath=效果一致，没有xpath^和xpath$语法。

另外，元素对象的ele()支持完整的 xpath 语法，如能使用 xpath 直接获取元素属性（字符串类型）。

# 查找后代中第一个 div 元素
ele2 = ele1.ele('xpath:.//div')

# 和上面一行一样，查找元素的后代时，// 前面的 . 可以省略
ele2 = ele1.ele('xpath://div')

# 使用xpath获取div元素的class属性（页面元素无此功能）
ele_class_str = ele1.ele('xpath://div/@class')

TIPS

查找元素的后代时，selenium 原生代码要求 xpath 前面必须加.，否则会变成在全个页面中查找。作者觉得这个设计是画蛇添足，既然已经通过元素查找了，自然应该只查找这个元素内部的元素。所以，用 xpath 在元素下查找时，最前面//或/前面的.可以省略。

selenium 的 loc 元组

查找方法能直接接收 selenium 原生定位元组进行查找，便于项目迁移。

from DrissionPage.common import By

# 查找id为one的元素
loc1 = (By.ID, 'one')
ele = page.ele(loc1)

# 按 xpath 查找
loc2 = (By.XPATH, '//p[@class="p_cls"]')
ele = page.ele(loc2)

5.2.4 相对定位

以下方法可以以某元素为基准，在 DOM 中按照条件获取其直接子节点、同级节点、祖先元素、文档前后节点。

TIPS

这里说的是“节点”，不是“元素”。因为相对定位可以获取除元素外的其它节点，包括文本、注释节点。

注意

如果元素在</code>中，相对定位不能超越<code><iframe></code>文档。</p> </blockquote> <h5 id="-获取父级元素">获取父级元素</h5> <h6 id="%F0%9F%94%B8%C2%A0parent()"> <code>parent()</code></h6> <p>此方法获取当前元素某一级父元素，可指定筛选条件或层数。</p> <table> <thead> <tr> <th>参数名称</th> <th>类型</th> <th>默认值</th> <th>说明</th> </tr> </thead> <tbody> <tr> <td><code>level_or_loc</code></td> <td><code>int</code><br><code>str</code><br><code>Tuple[str, str]</code></td> <td><code>1</code></td> <td>第几级父元素，从<code>1</code>开始，或用定位符在祖先元素中进行筛选</td> </tr> <tr> <td><code>index</code></td> <td><code>int</code></td> <td><code>1</code></td> <td>当<code>level_or_loc</code>传入定位符，使用此参数选择第几个结果，从当前元素往上级数；当<code>level_or_loc</code>传入数字时，此参数无效</td> </tr> </tbody> </table> <table> <thead> <tr> <th>返回类型</th> <th>说明</th> </tr> </thead> <tbody> <tr> <td><code>SessionElement</code></td> <td>找到的元素对象</td> </tr> <tr> <td><code>NoneElement</code></td> <td>未获取到结果时返回<code>NoneElement</code></td> </tr> </tbody> </table> <p><strong>示例：</strong></p> <pre><code># 获取 ele1 的第二层父元素 ele2 = ele1.parent(2) # 获取 ele1 父元素中 id 为 id1 的元素 ele2 = ele1.parent('#id1') </code></pre> <p></p> <hr> <h5 id="-获取直接子节点">获取直接子节点</h5> <h6 id="%F0%9F%94%B8%C2%A0child()"> <code>child()</code></h6> <p>此方法返回当前元素的一个直接子节点，可指定筛选条件和第几个。</p> <table> <thead> <tr> <th>参数名称</th> <th>类型</th> <th>默认值</th> <th>说明</th> </tr> </thead> <tbody> <tr> <td><code>locator</code></td> <td><code>str</code><br><code>Tuple[str, str]</code><br><code>int</code></td> <td><code>''</code></td> <td>用于筛选节点的查询语法，为<code>int</code>类型时<code>index</code>参数无效</td> </tr> <tr> <td><code>index</code></td> <td><code>int</code></td> <td><code>1</code></td> <td>查询结果中的第几个，从<code>1</code>开始，可输入负数表示倒数</td> </tr> <tr> <td><code>timeout</code></td> <td><code>float</code></td> <td><code>None</code></td> <td>无实际作用</td> </tr> <tr> <td><code>ele_only</code></td> <td><code>bool</code></td> <td><code>True</code></td> <td>是否只查找元素，为<code>False</code>时把文本、注释节点也纳入查找范围</td> </tr> </tbody> </table> <table> <thead> <tr> <th>返回类型</th> <th>说明</th> </tr> </thead> <tbody> <tr> <td><code>SessionElement</code></td> <td>找到的元素对象</td> </tr> <tr> <td><code>str</code></td> <td>获取非元素节点时返回字符串</td> </tr> <tr> <td><code>NoneElement</code></td> <td>未获取到结果时返回<code>NoneElement</code></td> </tr> </tbody> </table> <hr> <h6 id="%F0%9F%94%B8%C2%A0children()"> <code>children()</code></h6> <p>此方法返回当前元素全部符合条件的直接子节点组成的列表，可用查询语法筛选。</p> <table> <thead> <tr> <th>参数名称</th> <th>类型</th> <th>默认值</th> <th>说明</th> </tr> </thead> <tbody> <tr> <td><code>locator</code></td> <td><code>str</code><br><code>Tuple[str, str]</code></td> <td><code>''</code></td> <td>用于筛选节点的查询语法</td> </tr> <tr> <td><code>timeout</code></td> <td><code>float</code></td> <td><code>None</code></td> <td>无实际作用</td> </tr> <tr> <td><code>ele_only</code></td> <td><code>bool</code></td> <td><code>True</code></td> <td>是否只查找元素，为<code>False</code>时把文本、注释节点也纳入查找范围</td> </tr> </tbody> </table> <table> <thead> <tr> <th>返回类型</th> <th>说明</th> </tr> </thead> <tbody> <tr> <td><code>List[SessionElement, str]</code></td> <td>结果列表</td> </tr> </tbody> </table> <hr> <h5 id="-获取后面的同级节点">获取后面的同级节点</h5> <h6 id="%F0%9F%94%B8%C2%A0next()"> <code>next()</code></h6> <p>此方法返回当前元素后面的某一个同级节点，可指定筛选条件和第几个。</p> <table> <thead> <tr> <th>参数名称</th> <th>类型</th> <th>默认值</th> <th>说明</th> </tr> </thead> <tbody> <tr> <td><code>locator</code></td> <td><code>str</code><br><code>Tuple[str, str]</code><br><code>int</code></td> <td><code>''</code></td> <td>用于筛选节点的查询语法，为<code>int</code>类型时<code>index</code>参数无效</td> </tr> <tr> <td><code>index</code></td> <td><code>int</code></td> <td><code>1</code></td> <td>查询结果中的第几个，从<code>1</code>开始，可输入负数表示倒数</td> </tr> <tr> <td><code>timeout</code></td> <td><code>float</code></td> <td><code>None</code></td> <td>无实际作用</td> </tr> <tr> <td><code>ele_only</code></td> <td><code>bool</code></td> <td><code>True</code></td> <td>是否只查找元素，为<code>False</code>时把文本、注释节点也纳入查找范围</td> </tr> </tbody> </table> <table> <thead> <tr> <th>返回类型</th> <th>说明</th> </tr> </thead> <tbody> <tr> <td><code>SessionElement</code></td> <td>找到的元素对象</td> </tr> <tr> <td><code>str</code></td> <td>获取非元素节点时返回字符串</td> </tr> <tr> <td><code>NoneElement</code></td> <td>未获取到结果时返回<code>NoneElement</code></td> </tr> </tbody> </table> <p><strong>示例：</strong></p> <pre><code># 获取 ele1 后面第一个兄弟元素 ele2 = ele1.next() # 获取 ele1 后面第 3 个兄弟元素 ele2 = ele1.next(3) # 获取 ele1 后面第 3 个 div 兄弟元素 ele2 = ele1.next('tag:div', 3) # 获取 ele1 后面第一个文本节点的文本 txt = ele1.next('xpath:text()', 1) </code></pre> <p></p> <hr> <h6 id="%F0%9F%94%B8%C2%A0nexts()"> <code>nexts()</code></h6> <p>此方法返回当前元素后面全部符合条件的同级节点组成的列表，可用查询语法筛选。</p> <table> <thead> <tr> <th>参数名称</th> <th>类型</th> <th>默认值</th> <th>说明</th> </tr> </thead> <tbody> <tr> <td><code>locator</code></td> <td><code>str</code><br><code>Tuple[str, str]</code></td> <td><code>''</code></td> <td>用于筛选节点的查询语法</td> </tr> <tr> <td><code>timeout</code></td> <td><code>float</code></td> <td><code>None</code></td> <td>无实际作用</td> </tr> <tr> <td><code>ele_only</code></td> <td><code>bool</code></td> <td><code>True</code></td> <td>是否只查找元素，为<code>False</code>时把文本、注释节点也纳入查找范围</td> </tr> </tbody> </table> <table> <thead> <tr> <th>返回类型</th> <th>说明</th> </tr> </thead> <tbody> <tr> <td><code>List[SessionElement, str]</code></td> <td>结果列表</td> </tr> </tbody> </table> <p><strong>示例：</strong></p> <pre><code># 获取 ele1 后面所有兄弟元素 eles = ele1.nexts() # 获取 ele1 后面所有 div 兄弟元素 divs = ele1.nexts('tag:div') # 获取 ele1 后面的所有文本节点 txts = ele1.nexts('xpath:text()') </code></pre> <p></p> <hr> <h5 id="-获取前面的同级节点">获取前面的同级节点</h5> <h6 id="%F0%9F%94%B8%C2%A0prev()"> <code>prev()</code></h6> <p>此方法返回当前元素前面的某一个同级节点，可指定筛选条件和第几个。</p> <table> <thead> <tr> <th>参数名称</th> <th>类型</th> <th>默认值</th> <th>说明</th> </tr> </thead> <tbody> <tr> <td><code>locator</code></td> <td><code>str</code><br><code>Tuple[str, str]</code><br><code>int</code></td> <td><code>''</code></td> <td>用于筛选节点的查询语法，为<code>int</code>类型时<code>index</code>参数无效</td> </tr> <tr> <td><code>index</code></td> <td><code>int</code></td> <td><code>1</code></td> <td>查询结果中的第几个，从<code>1</code>开始，可输入负数表示倒数</td> </tr> <tr> <td><code>timeout</code></td> <td><code>float</code></td> <td><code>None</code></td> <td>无实际作用</td> </tr> <tr> <td><code>ele_only</code></td> <td><code>bool</code></td> <td><code>True</code></td> <td>是否只查找元素，为<code>False</code>时把文本、注释节点也纳入查找范围</td> </tr> </tbody> </table> <table> <thead> <tr> <th>返回类型</th> <th>说明</th> </tr> </thead> <tbody> <tr> <td><code>SessionElement</code></td> <td>找到的元素对象</td> </tr> <tr> <td><code>str</code></td> <td>获取非元素节点时返回字符串</td> </tr> <tr> <td><code>NoneElement</code></td> <td>未获取到结果时返回<code>NoneElement</code></td> </tr> </tbody> </table> <p><strong>示例：</strong></p> <pre><code># 获取 ele1 前面第一个兄弟元素 ele2 = ele1.prev() # 获取 ele1 前面第 3 个兄弟元素 ele2 = ele1.prev(3) # 获取 ele1 前面第 3 个 div 兄弟元素 ele2 = ele1.prev(3, 'tag:div') # 获取 ele1 前面第一个文本节点的文本 txt = ele1.prev(1, 'xpath:text()') </code></pre> <p></p> <hr> <h6 id="%F0%9F%94%B8%C2%A0prevs()"> <code>prevs()</code></h6> <p>此方法返回当前元素前面全部符合条件的同级节点组成的列表，可用查询语法筛选。</p> <table> <thead> <tr> <th>参数名称</th> <th>类型</th> <th>默认值</th> <th>说明</th> </tr> </thead> <tbody> <tr> <td><code>locator</code></td> <td><code>str</code><br><code>Tuple[str, str]</code></td> <td><code>''</code></td> <td>用于筛选节点的查询语法</td> </tr> <tr> <td><code>timeout</code></td> <td><code>float</code></td> <td><code>None</code></td> <td>无实际作用</td> </tr> <tr> <td><code>ele_only</code></td> <td><code>bool</code></td> <td><code>True</code></td> <td>是否只查找元素，为<code>False</code>时把文本、注释节点也纳入查找范围</td> </tr> </tbody> </table> <table> <thead> <tr> <th>返回类型</th> <th>说明</th> </tr> </thead> <tbody> <tr> <td><code>List[SessionElement, str]</code></td> <td>结果列表</td> </tr> </tbody> </table> <p><strong>示例：</strong></p> <pre><code># 获取 ele1 前面所有兄弟元素 eles = ele1.prevs() # 获取 ele1 前面所有 div 兄弟元素 divs = ele1.prevs('tag:div') </code></pre> <p></p> <hr> <h5 id="-在后面文档中查找节点">在后面文档中查找节点</h5> <h6 id="%F0%9F%94%B8%C2%A0after()"> <code>after()</code></h6> <p>此方法返回当前元素后面的某一个节点，可指定筛选条件和第几个。查找范围不限同级节点，而是整个 DOM 文档。</p> <table> <thead> <tr> <th>参数名称</th> <th>类型</th> <th>默认值</th> <th>说明</th> </tr> </thead> <tbody> <tr> <td><code>locator</code></td> <td><code>str</code><br><code>Tuple[str, str]</code><br><code>int</code></td> <td><code>''</code></td> <td>用于筛选节点的查询语法，为<code>int</code>类型时<code>index</code>参数无效</td> </tr> <tr> <td><code>index</code></td> <td><code>int</code></td> <td><code>1</code></td> <td>查询结果中的第几个，从<code>1</code>开始，可输入负数表示倒数</td> </tr> <tr> <td><code>timeout</code></td> <td><code>float</code></td> <td><code>None</code></td> <td>无实际作用</td> </tr> <tr> <td><code>ele_only</code></td> <td><code>bool</code></td> <td><code>True</code></td> <td>是否只查找元素，为<code>False</code>时把文本、注释节点也纳入查找范围</td> </tr> </tbody> </table> <table> <thead> <tr> <th>返回类型</th> <th>说明</th> </tr> </thead> <tbody> <tr> <td><code>SessionElement</code></td> <td>找到的元素对象</td> </tr> <tr> <td><code>str</code></td> <td>获取非元素节点时返回字符串</td> </tr> <tr> <td><code>NoneElement</code></td> <td>未获取到结果时返回<code>NoneElement</code></td> </tr> </tbody> </table> <p><strong>示例：</strong></p> <pre><code># 获取 ele1 后面第 3 个元素 ele2 = ele1.after(index=3) # 获取 ele1 后面第 3 个 div 元素 ele2 = ele1.after('tag:div', 3) # 获取 ele1 后面第一个文本节点的文本 txt = ele1.after('xpath:text()', 1) </code></pre> <p></p> <hr> <h6 id="%F0%9F%94%B8%C2%A0afters()"> <code>afters()</code></h6> <p>此方法返回当前元素后面符合条件的全部节点组成的列表，可用查询语法筛选。查找范围不限同级节点，而是整个 DOM 文档。</p> <table> <thead> <tr> <th>参数名称</th> <th>类型</th> <th>默认值</th> <th>说明</th> </tr> </thead> <tbody> <tr> <td><code>locator</code></td> <td><code>str</code><br><code>Tuple[str, str]</code></td> <td><code>''</code></td> <td>用于筛选节点的查询语法</td> </tr> <tr> <td><code>timeout</code></td> <td><code>float</code></td> <td><code>None</code></td> <td>无实际作用</td> </tr> <tr> <td><code>ele_only</code></td> <td><code>bool</code></td> <td><code>True</code></td> <td>是否只查找元素，为<code>False</code>时把文本、注释节点也纳入查找范围</td> </tr> </tbody> </table> <table> <thead> <tr> <th>返回类型</th> <th>说明</th> </tr> </thead> <tbody> <tr> <td><code>List[SessionElement, str]</code></td> <td>结果列表</td> </tr> </tbody> </table> <p><strong>示例：</strong></p> <pre><code># 获取 ele1 后所有元素 eles = ele1.afters() # 获取 ele1 前面所有 div 元素 divs = ele1.afters('tag:div') </code></pre> <p></p> <hr> <h5 id="-在前面文档中查找节点">在前面文档中查找节点</h5> <h6 id="%F0%9F%94%B8%C2%A0before()"> <code>before()</code></h6> <p>此方法返回当前元素前面的某一个符合条件的节点，可指定筛选条件和第几个。查找范围不限同级节点，而是整个 DOM 文档。</p> <table> <thead> <tr> <th>参数名称</th> <th>类型</th> <th>默认值</th> <th>说明</th> </tr> </thead> <tbody> <tr> <td><code>locator</code></td> <td><code>str</code><br><code>Tuple[str, str]</code><br><code>int</code></td> <td><code>''</code></td> <td>用于筛选节点的查询语法，为<code>int</code>类型时<code>index</code>参数无效</td> </tr> <tr> <td><code>index</code></td> <td><code>int</code></td> <td><code>1</code></td> <td>查询结果中的第几个，从<code>1</code>开始，可输入负数表示倒数</td> </tr> <tr> <td><code>timeout</code></td> <td><code>float</code></td> <td><code>None</code></td> <td>无实际作用</td> </tr> <tr> <td><code>ele_only</code></td> <td><code>bool</code></td> <td><code>True</code></td> <td>是否只查找元素，为<code>False</code>时把文本、注释节点也纳入查找范围</td> </tr> </tbody> </table> <table> <thead> <tr> <th>返回类型</th> <th>说明</th> </tr> </thead> <tbody> <tr> <td><code>SessionElement</code></td> <td>找到的元素对象</td> </tr> <tr> <td><code>str</code></td> <td>获取非元素节点时返回字符串</td> </tr> <tr> <td><code>NoneElement</code></td> <td>未获取到结果时返回<code>NoneElement</code></td> </tr> </tbody> </table> <p><strong>示例：</strong></p> <pre><code># 获取 ele1 前面第 3 个元素 ele2 = ele1.before(3) # 获取 ele1 前面第 3 个 div 元素 ele2 = ele1.before('tag:div', 3) # 获取 ele1 前面第一个文本节点的文本 txt = ele1.before('xpath:text()', 1) </code></pre> <p></p> <hr> <h6 id="%F0%9F%94%B8%C2%A0befores()"> <code>befores()</code></h6> <p>此方法返回当前元素前面全部符合条件的节点组成的列表，可用查询语法筛选。查找范围不限同级节点，而是整个 DOM 文档。</p> <table> <thead> <tr> <th>参数名称</th> <th>类型</th> <th>默认值</th> <th>说明</th> </tr> </thead> <tbody> <tr> <td><code>locator</code></td> <td><code>str</code><br><code>Tuple[str, str]</code></td> <td><code>''</code></td> <td>用于筛选节点的查询语法</td> </tr> <tr> <td><code>timeout</code></td> <td><code>float</code></td> <td><code>None</code></td> <td>无实际作用</td> </tr> <tr> <td><code>ele_only</code></td> <td><code>bool</code></td> <td><code>True</code></td> <td>是否只查找元素，为<code>False</code>时把文本、注释节点也纳入查找范围</td> </tr> </tbody> </table> <table> <thead> <tr> <th>返回类型</th> <th>说明</th> </tr> </thead> <tbody> <tr> <td><code>List[SessionElement, str]</code></td> <td>结果列表</td> </tr> </tbody> </table> <p><strong>示例：</strong></p> <pre><code># 获取 ele1 前面所有元素 eles = ele1.befores() # 获取 ele1 前面所有 div 元素 divs = ele1.befores('tag:div')</code></pre> <h3 id="5.3%20%E6%9B%B4%E5%A4%9A%E7%94%A8%E6%B3%95%C2%A0" style="background-color:transparent;">5.3 更多用法 </h3> <h4 id="️️-静态方式查找元素" style="background-color:transparent;">5.3.1 静态方式查找元素</h4> <p>静态元素即 s 模式的<code>SessionElement</code>元素对象，是纯文本构造的，因此用它处理速度非常快。<br> 对于复杂的页面，要在成百上千个元素中采集数据时，转换为静态元素可把速度提升几个数量级。<br> 作者曾在实践的时候，用同一套逻辑，仅仅把元素转换为静态，就把一个要 30 秒才完成的页面，加速到零点几秒完成。<br> 我们甚至可以把整个页面转换为静态元素，再在其中提取信息。<br> 当然，这种元素不能进行点击等交互。<br> 用<code>s_ele()</code>可在把查找到的动态元素转换为静态元素输出，或者获取元素或页面本身的静态元素副本。</p> <h5 id="-s_ele"><code>s_ele()</code></h5> <p>页面对象和元素对象都拥有此方法，用于查找第一个匹配条件的元素，获取其静态版本。</p> <p>页面对象和元素对象的<code>s_ele()</code>方法参数名称稍有不同，但用法一样。</p> <table> <thead> <tr> <th>参数名称</th> <th>类型</th> <th>默认值</th> <th>说明</th> </tr> </thead> <tbody> <tr> <td><code>locator</code>（元素对象）</td> <td><code>str</code><br><code>Tuple[str, str]</code></td> <td>必填</td> <td>元素的定位信息，可以是查询字符串，或 loc 元组</td> </tr> <tr> <td><code>locator</code>（页面对象）</td> <td><code>str</code><br><code>ChromiumElement</code><br><code>Tuple[str, str]</code></td> <td>必填</td> <td>元素的定位信息，可以是查询字符串、loc 元组或一个<code>ChromiumElement</code>对象</td> </tr> <tr> <td><code>index</code></td> <td><code>int</code></td> <td><code>1</code></td> <td>获取第几个匹配的元素，从<code>1</code>开始，可输入负数表示从后面开始数</td> </tr> </tbody> </table> <table> <thead> <tr> <th>返回类型</th> <th>说明</th> </tr> </thead> <tbody> <tr> <td><code>SessionElement</code></td> <td>返回查找到的第一个符合条件的元素对象的静态版本</td> </tr> <tr> <td><code>NoneElement</code></td> <td>限时内未找到符合条件的元素时返回<code>NoneElement</code>对象</td> </tr> </tbody> </table> <blockquote> <p>注意</p> <p>页面对象和元素对象的<code>s_ele()</code>方法不能搜索到在<code><iframe></code>里的元素，页面对象的静态版本也不能搜索<code><iframe></code>里的元素。要使用<code><iframe></code>里元素的静态版本，可先获取该元素，再转换。而使用<code>ChromiumFrame</code>对象，则可以直接用<code>s_ele()</code>查找元素，这在后面章节再讲述。</p> </blockquote> <blockquote> <p>TIPS</p> <p>从一个<code>ChromiumElement</code>元素获取到的<code>SessionElement</code>版本，依然能够使用相对定位方法定位祖先或兄弟元素。</p> </blockquote> <pre><code>from DrissionPage import ChromiumPage page = ChromiumPage() # 在页面中查找元素，获取其静态版本 ele1 = page.s_ele('search text') # 在动态元素中查找元素，获取其静态版本 ele = page.ele('search text') ele2 = ele.s_ele() # 获取页面元素的静态副本（不传入参数） s_page = page.s_ele() # 获取动态元素的静态副本 s_ele = ele.s_ele() # 在静态副本中查询下级元素（因为已经是静态元素，用ele()查找结果也是静态） ele3 = s_page.ele('search text') ele4 = s_ele.ele('search text') </code></pre> <p></p> <hr> <h5 id="-s_eles"><code>s_eles()</code></h5> <p>此方法与<code>s_ele()</code>相似，但返回的是匹配到的所有元素组成的列表，或属性值组成的列表。</p> <table> <thead> <tr> <th>参数名称</th> <th>类型</th> <th>默认值</th> <th>说明</th> </tr> </thead> <tbody> <tr> <td><code>locator</code></td> <td><code>str</code><br><code>Tuple[str, str]</code></td> <td>必填</td> <td>元素的定位信息，可以是查询字符串，或 loc 元组</td> </tr> </tbody> </table> <table> <thead> <tr> <th>返回类型</th> <th>说明</th> </tr> </thead> <tbody> <tr> <td><code>List[SessionElement]</code></td> <td>返回找到的所有元素的<code>SessionElement</code>版本组成的列表</td> </tr> </tbody> </table> <p><strong>示例：</strong></p> <pre><code>from DrissionPage import WebPage page = WebPage() for ele in page.s_eles('search text'): print(ele.text) </code></pre> <p></p> <hr> <h4 id="️-获取当前焦点元素" style="background-color:transparent;">5.3.2 获取当前焦点元素</h4> <p>使用<code>active_ele</code>属性获取页面上焦点所在元素。</p> <pre><code>ele = page.active_ele </code></pre> <p></p> <hr> <h4 id="️️-iframe元素" style="background-color:transparent;"><code>5.3.3 iframe</code>元素</h4> <h5 id="-查找iframe元素" style="background-color:transparent;"> 查找 <code>iframe </code>元素</h5> <p><code><iframe></code>和<code><frame></code>也可以用<code>ele()</code>查找到，生成的对象是<code>ChromiumFrame</code>而不是<code>ChromiumElement</code>。</p> <p>但不建议用<code>ele()</code>获取<code><iframe></code>元素，因为 IDE 无法正确提示后续操作。</p> <p>建议用 Page 对象的<code>get_frame()</code>方法获取。</p> <p>使用方法与<code>ele()</code>一致，可以用定位符查找。还增加了用序号、id、name 属性定位元素的功能。</p> <p><strong>示例：</strong></p> <pre><code>iframe = page.get_frame(1) # 获取页面中第一个iframe元素 iframe = page.get_frame('#theFrame') # 获取页面id为theFrame的iframe元素对象 </code></pre> <p></p> <hr> <h5 id="-在页面下跨级查找">在页面下跨级查找</h5> <p>与 selenium 不同，本库可以直接查找同域<code><iframe></code>里面的元素。<br> 而且无视层级，可以直接获取到多层<code><iframe></code>里的元素。无需切入切出，大大简化了程序逻辑，使用更便捷。</p> <p>假设在页面中有个两级<code><iframe></code>，其中有个元素<code><div id='abc'></div></code>，可以这样获取：</p> <pre><code>page = ChromiumPage() ele = page('#abc') </code></pre> <p></p> <p>获取前后无需切入切出，也不影响获取页面上其它元素。</p> <p>如果用 selenium，要这样写：</p> <pre><code>driver = webdriver.Chrome() driver.switch_to.frame(0) driver.switch_to.frame(0) ele = driver.find_element(By.ID, 'abc') driver.switch_to.default_content() </code></pre> <p></p> <p>显然比较繁琐，而且切入到<code><iframe></code>后无法对<code><iframe></code>外的元素进行操作。</p> <blockquote> <p>注意</p> <ul> <li>跨级查找只是页面对象支持，元素对象不能直接查找内部 iframe 里的元素。</li> <li>跨级查找只能用于与主框架同域名的<code><iframe></code>，不同域名的请用下面的方法。</li> </ul> </blockquote> <hr> <h5 id="-在-iframe-元素下查找">在 iframe 元素下查找</h5> <p>本库把<code><iframe></code>看作一个特殊元素/页面对象看待，可以实现同时操作多个<code><iframe></code>，而无需来回切换。</p> <p>对于跨域名的<code><iframe></code>，我们无法通过页面直接查找里面的元素，可以先获取到<code><iframe></code>元素，再在其下查找。当然，非跨域<code><iframe></code> 也可以这样操作。</p> <p>假设一个<code><iframe></code>的 id 为 <code>'iframe1'</code>，要在其中查找一个 id 为<code>'abc'</code>的元素：</p> <pre><code>page = ChromiumPage() iframe = page('#iframe1') ele = iframe('#abc') </code></pre> <p></p> <p>这个<code><iframe></code>元素是一个页面对象，因此可以继续在其下进行跨<code><iframe></code>查找（相对这个<code><iframe></code>不跨域的）。</p> <hr> <h4 id="️️-shadowroot" style="background-color:transparent;"><code>5.3.4 ShadowRoot</code></h4> <p>本库把 shadow-root 也作为元素对象看待，是为<code>ShadowRoot</code>对象。该对象可与普通元素一样查找下级元素和 DOM 内相对定位。<br> 对<code>ShadowRoot</code>对象进行相对定位时，把它看作其父对象内部的第一个对象，其余定位逻辑与普通对象一致。</p> <p>用元素对象的<code>shadow_root</code>属性可获取<code>ShadowRoot</code>对象。</p> <blockquote> <p>注意</p> <ul> <li>如果<code>ShadowRoot</code>元素的下级元素中有其它<code>ShadowRoot</code>元素，那这些下级<code>ShadowRoot</code></li> <li>元素内部是无法直接通过定位语句查找到的，只能先定位到其父元素，再用<code>shadow-root</code>属性获取。</li> </ul> </blockquote> <pre><code># 获取一个 shadow-root 元素 sr_ele = page.ele('#app').shadow_root # 在该元素下查找下级元素 ele1 = sr_ele.ele('tag:div') # 用相对定位获取其它元素 ele1 = sr_ele.parent(2) ele1 = sr_ele.next('tag:div', 1) ele1 = sr_ele.after('tag:div', 1) eles = sr_ele.nexts('tag:div') # 定位下级元素中的 shadow+-root 元素 sr_ele2 = sr_ele.ele('tag:div').shadow_root </code></pre> <p></p> <p>由于 shadow-root 不能跨级查找，链式操作非常常见，所以设计了一个简写：<code>sr</code>，功能和<code>shadow_root</code>一样，都是获取元素内部的<code>ShadowRoot</code>。</p> <p><strong>多级 shadow-root 链式操作示例：</strong></p> <p>以下这段代码，可以打印浏览器历史第一页，可见是通过多级 shadow-root 来获取的。</p> <pre><code>from DrissionPage import ChromiumPage page = ChromiumPage() page.get('chrome://history/') items = page('#history-app').sr('#history').sr.eles('t:history-item') for i in items: print(i.sr('#item-container').text.replace('\n', '')) </code></pre> <p></p> <hr> <h4 id="️️-等待" style="background-color:transparent;">5.3.5 等待</h4> <p>由于网络、js 运行时间的不确定性等因素，经常需要等待元素加载到 DOM 中才能使用。</p> <p>浏览器所有查找元素操作都自带等待，时间默认跟随元素所在页面<code>timeout</code>属性（默认 10 秒），也可以在每次查找时单独设置，单独设置的等待时间不会改变页面原来设置。</p> <pre><code>from DrissionPage import ChromiumPage # 页面初始化时设置查找元素超时时间为 15 秒 page = ChromiumPage(timeout=15) # 设置查找元素超时时间为 5 秒 page.set.timeouts(5) # 使用页面超时时间来查找元素（5 秒） ele1 = page.ele('search text') # 为这次查找页面独立设置等待时间（1 秒） ele1 = page.ele('search text', timeout=1) # 查找后代元素，使用页面超时时间（5 秒） ele2 = ele1.ele('search text') # 查找后代元素，使用单独设置的超时时间（1 秒） ele2 = ele1.ele('some text', timeout=1) </code></pre> <h3 id="5.4%20%E7%AE%80%E5%8C%96%E5%86%99%E6%B3%95" style="background-color:transparent;">5.4 简化写法</h3> <p>为进一步精简代码，定位语法都可以用简化形式来表示，使语句更短，链式操作时更清晰。</p> <h4 id="️-定位符语法简化">5.4.1 定位符语法简化</h4> <ul> <li>定位语法都有其简化形式</li> <li>页面和元素对象都实现了<code>__call__()</code>方法，所以<code>page.ele('...')</code>可简化为<code>page('...')</code></li> <li>查找方法都支持链式操作</li> </ul> <p>示例：</p> <pre><code># 查找tag为div的元素 ele = page.ele('tag:div') # 原写法 ele = page('t:div') # 简化写法 # 用xpath查找元素 ele = page.ele('xpath://xxxxx') # 原写法 ele = page('x://xxxxx') # 简化写法 # 查找text为'something'的元素 ele = page.ele('text=something') # 原写法 ele = page('tx=something') # 简化写法 </code></pre> <p></p> <p>简化写法对应列表</p> <table> <thead> <tr> <th>原写法</th> <th>简化写法</th> <th>说明</th> </tr> </thead> <tbody> <tr> <td><code>@id</code></td> <td><code>#</code></td> <td>表示 id 属性，简化写法只在语句最前面且单独使用时生效</td> </tr> <tr> <td><code>@class</code></td> <td><code>.</code></td> <td>表示 class 属性，简化写法只在语句最前面且单独使用时生效</td> </tr> <tr> <td><code>text</code></td> <td><code>tx</code></td> <td>按文本匹配</td> </tr> <tr> <td><code>@text()</code></td> <td><code>@tx()</code></td> <td>按文本查找与 @ 或 @@ 配合使用时</td> </tr> <tr> <td><code>tag</code></td> <td><code>t</code></td> <td>按标签类型匹配</td> </tr> <tr> <td><code>xpath</code></td> <td><code>x</code></td> <td>用 xpath 方式查找元素</td> </tr> <tr> <td><code>css</code></td> <td><code>c</code></td> <td>用 css selector 方式查找元素</td> </tr> </tbody> </table> <hr> <h4 id="️-shadow-root-简化" style="background-color:transparent;">5.4.2 shadow root 简化</h4> <p>一般获取元素的 shadow root 元素，用<code>ele.shadow_root</code>属性。</p> <p>由于此属性经常用于大量链式操作，名字太长影响可读性，因此可简化为<code>ele.sr</code></p> <p><strong>示例：</strong></p> <pre><code>txt = ele.sr('t:div').text </code></pre> <p></p> <hr> <h4 id="️-相对定位参数简化" style="background-color:transparent;">5.4.3 相对定位参数简化</h4> <p>相对定位时，有时需要获取当前元素后某个元素，而不关心该元素是什么类型，一般是这样写：<code>ele.next(index=2)</code>。</p> <p>但有一种简化的写法，可以直接写作<code>ele.next(2)</code>。</p> <p>当第一个参数<code>filter_loc</code>接收数字时，会自动将其视作序号，替代<code>index</code>参数。因此书写可以稍微精简一些。</p> <p><strong>示例：</strong></p> <pre><code>ele2 = ele1.parent(2) ele2 = ele1.next(2)('tx=xxxxx') ele2 = ele1.before(2) # 如此类推</code></pre> <h3 id="5.5%20%E6%89%BE%E4%B8%8D%E5%88%B0%E5%85%83%E7%B4%A0%E6%97%B6%C2%A0" style="background-color:transparent;">5.5 找不到元素时 </h3> <h4 id="️-默认情况" style="background-color:transparent;">5.5.1 默认情况</h4> <p>默认情况下，找不到元素时不会立即抛出异常，而是返回一个<code>NoneElement</code>对象。</p> <p>这个对象用<code>if</code>判断表现为<code>False</code>，调用其功能会抛出<code>ElementNotFoundError</code>异常。</p> <p>这样可以用<code>if</code>判断是否找到元素，也可以用<code>try</code>去捕获异常。</p> <p>查找多个元素找不到时，返回空的<code>list</code>。</p> <p><strong>示例，用<code>if</code>判断：</strong></p> <pre><code>ele = page.ele('xxxxxxx') # 判断是否找到元素 if ele: print('找到了。') if not ele: print('没有找到。') </code></pre> <p></p> <p><strong>示例，用<code>try</code>捕获：</strong></p> <pre><code>try: ele.click() except ElementNotFoundError: print('没有找到。') </code></pre> <p></p> <hr> <h4 id="️-立即抛出异常">5.5.2 立即抛出异常</h4> <p>如果想在找不到元素时立刻抛出异常，可以用以下方法设置。</p> <p>此设置为全局有效，在项目开始时设置一次即可。</p> <p>查找多个元素找不到时，依然返回空的<code>list</code>。</p> <p>设置全局变量：</p> <pre><code>from DrissionPage.common import Settings Settings.raise_when_ele_not_found = True </code></pre> <p></p> <p><strong>示例：</strong></p> <pre><code>from DrissionPage import ChromiumPage from DrissionPage.common import Settings Settings.raise_when_ele_not_found = True page = ChromiumPage(timeout=1) page.get('https://www.baidu.com') ele = page('#abcd') # ('#abcd')这个元素不存在 </code></pre> <p></p> <p>输出：</p> <pre><code>DrissionPage.errors.ElementNotFoundError: 没有找到元素。 method: ele() args: {'locator': '#abcd'} </code></pre> <p></p> <hr> <h4 id="️-设置默认返回值">5.5.3 设置默认返回值</h4> <p>如果查找元素后要获取一个属性，但这个元素不一定存在，或者链式查找其中一个节点找不到，可以设置查找失败时返回的值，而不是抛出异常，可以简化一些采集逻辑。</p> <p>使用浏览器页面对象的<code>set.NoneElement_value()</code>方法设置该值。</p> <table> <thead> <tr> <th>参数名称</th> <th>类型</th> <th>默认值</th> <th>说明</th> </tr> </thead> <tbody> <tr> <td><code>value</code></td> <td><code>Any</code></td> <td><code>None</code></td> <td>将返回的设定值</td> </tr> <tr> <td><code>on_off</code></td> <td><code>bool</code></td> <td><code>True</code></td> <td><code>bool</code>表示是否启用</td> </tr> </tbody> </table> <p><strong>返回：</strong><code>None</code></p> <p><strong>示例</strong></p> <p>比如说，遍历页面上一个列表中多个对象，但其中有些元素可能缺失某个子元素，可以这样写：</p> <pre><code>from DrissionPage import ChromiumPage page = ChromiumPage() page.set.NoneElement_value('没找到') for li in page.eles('t:li'): name = li('.name').text age = li('.age').text phone = li('.phone').text </code></pre> <p></p> <p>这样，假如某个子元素不存在，不会抛出异常，而是返回<code>'没找到'</code>这个字符串。</p> <h3 id="5.6%20%E8%AF%AD%E6%B3%95%E9%80%9F%E6%9F%A5%E8%A1%A8">5.6 语法速查表</h3> <h4 id="️-定位语法" style="background-color:transparent;">5.6.1 定位语法</h4> <h5 id="-基本用法">基本用法</h5> <p>以下语法只出现在语句开头。</p> <table> <thead> <tr> <th>写法</th> <th>精确匹配</th> <th>模糊匹配</th> <th>匹配开头</th> <th>匹配结尾</th> <th>说明</th> </tr> </thead> <tbody> <tr> <td><code>@属性名</code></td> <td><code>@属性名=</code></td> <td><code>@属性名:</code></td> <td><code>@属性名^</code></td> <td><code>@属性名$</code></td> <td>按某个属性查找</td> </tr> <tr> <td><code>@!属性名</code></td> <td><code>@!属性名=</code></td> <td><code>@!属性名:</code></td> <td><code>@!属性名^</code></td> <td><code>@!属性名$</code></td> <td>查找属性不符合指定条件的元素</td> </tr> <tr> <td><code>text</code></td> <td><code>text=</code></td> <td><code>text:</code>或不写</td> <td><code>text^</code></td> <td><code>text$</code></td> <td>按某个文本查找</td> </tr> <tr> <td><code>@text()</code></td> <td><code>@text()=</code></td> <td><code>@text():</code></td> <td><code>text()^</code></td> <td><code>text()$</code></td> <td><code>text</code>与<code>@</code>或<code>@@</code>配合使用时改为<code>text()</code>，常用于多条件匹配</td> </tr> <tr> <td><code>tag</code></td> <td><code>tag=</code>或<code>tag:</code></td> <td>无</td> <td>无</td> <td>无</td> <td>查找某个类型的元素</td> </tr> <tr> <td><code>xpath</code></td> <td><code>xpath=</code>或<code>xpath:</code></td> <td>无</td> <td>无</td> <td>无</td> <td>用 xpath 方式查找元素</td> </tr> <tr> <td><code>css</code></td> <td><code>css=</code>或<code>css:</code></td> <td>无</td> <td>无</td> <td>无</td> <td>用 css selector 方式查找元素</td> </tr> </tbody> </table> <h5 id="-组合用法"> 组合用法</h5> <table> <thead> <tr> <th>写法</th> <th>说明</th> </tr> </thead> <tbody> <tr> <td><code>@@属性1@@属性2</code></td> <td>匹配属性同时符合多个条件的元素</td> </tr> <tr> <td><code>@@属性1@!属性2</code></td> <td>多属性匹配与否定匹配同时使用</td> </tr> <tr> <td>`@</td> <td>属性1@</td> </tr> <tr> <td><code>tag:xx@属性名</code></td> <td><code>tag</code>与属性匹配共同使用</td> </tr> <tr> <td><code>tag:xx@@属性1@@属性2</code></td> <td><code>tag</code>与多属性匹配共同使用</td> </tr> <tr> <td>`tag:xx@</td> <td>属性1@</td> </tr> <tr> <td><code>tab:@@text()=文本@@属性</code></td> <td><code>tab</code>与文本和属性匹配共同使用</td> </tr> </tbody> </table> <hr> <h5 id="-简化写法">简化写法</h5> <table> <thead> <tr> <th>原写法</th> <th>简化写法</th> <th>精确匹配</th> <th>模糊匹配</th> <th>匹配开头</th> <th>匹配结尾</th> <th>备注</th> </tr> </thead> <tbody> <tr> <td><code>@id</code></td> <td><code>#</code></td> <td><code>#</code>或<code>#=</code></td> <td><code>#:</code></td> <td><code>#^</code></td> <td><code>#$</code></td> <td>简化写法只能单独使用</td> </tr> <tr> <td><code>@class</code></td> <td><code>.</code></td> <td><code>.</code>或<code>.=</code></td> <td><code>.:</code></td> <td><code>.^</code></td> <td><code>.$</code></td> <td>简化写法只能单独使用</td> </tr> <tr> <td><code>tag</code></td> <td><code>t</code></td> <td><code>t:</code>或<code>t=</code></td> <td>无</td> <td>无</td> <td>无</td> <td>只能用在句首</td> </tr> <tr> <td><code>text</code></td> <td><code>tx</code></td> <td><code>tx=</code></td> <td><code>tx:</code>或不写</td> <td><code>tx^</code></td> <td><code>tx$</code></td> <td>无标签时使用模糊匹配文本</td> </tr> <tr> <td><code>@text()</code></td> <td><code>@tx()</code></td> <td><code>@tx()=</code></td> <td><code>@tx():</code></td> <td><code>@tx()^</code></td> <td><code>@tx()$</code></td> <td></td> </tr> <tr> <td><code>xpath</code></td> <td><code>x</code></td> <td><code>x:</code>或<code>x=</code></td> <td>无</td> <td>无</td> <td>无</td> <td>只能单独使用</td> </tr> <tr> <td><code>css</code></td> <td><code>c</code></td> <td><code>c:</code>或<code>c=</code></td> <td>无</td> <td>无</td> <td>无</td> <td>只能单独使用</td> </tr> </tbody> </table> <hr> <h4 id="️-相对定位">5.6.2 相对定位</h4> <table> <thead> <tr> <th>方法</th> <th>说明</th> </tr> </thead> <tbody> <tr> <td><code>parent()</code></td> <td>查找当前元素某一级父元素</td> </tr> <tr> <td><code>child()</code></td> <td>查找当前元素的一个直接子节点</td> </tr> <tr> <td><code>children()</code></td> <td>查找当前元素全部符合条件的直接子节点</td> </tr> <tr> <td><code>next()</code></td> <td>查找当前元素之后第一个符合条件的兄弟节点</td> </tr> <tr> <td><code>nexts()</code></td> <td>查找当前元素之后所有符合条件的兄弟节点</td> </tr> <tr> <td><code>prev()</code></td> <td>查找当前元素之前第一个符合条件的兄弟节点</td> </tr> <tr> <td><code>prevs()</code></td> <td>查找当前元素之前所有符合条件的兄弟节点</td> </tr> <tr> <td><code>after()</code></td> <td>查找文档中当前元素之后第一个符合条件的节点</td> </tr> <tr> <td><code>afters()</code></td> <td>查找文档中当前元素之后所有符合条件的节点</td> </tr> <tr> <td><code>before()</code></td> <td>查找文档中当前元素之前第一个符合条件的节点</td> </tr> <tr> <td><code>befores()</code></td> <td>查找文档中当前元素之前所有符合条件的节点</td> </tr> </tbody> </table> <h4 id="️-其它">5.6.3 其它</h4> <table> <thead> <tr> <th>方法</th> <th>简化写法</th> <th>说明</th> <th>备注</th> </tr> </thead> <tbody> <tr> <td><code>get_frame()</code></td> <td>无</td> <td>在页面中查找一个<code><iframe></code>元素</td> <td>只有页面对象有此方法</td> </tr> <tr> <td><code>shadow_root</code></td> <td><code>sr</code></td> <td>获取当前元素内的 shadow root 对象</td> <td>只有元素对象有此属性</td> </tr> </tbody> </table> <p></p> </div> </div>�� </div> </div> </div>  <div id="SOHUCS" sid="1887355228311842816"></div> <script type="text/javascript" src="/views/front/js/chanyan.js"></script>  <div class="youdao-fixed-ad" id="detail_ad_bottom"></div> </div> <div class="col-md-3"> <div class="row" id="ad">  <div id="right-1" class="col-lg-12 col-md-12 col-sm-4 col-xs-4 ad"> <div class="youdao-fixed-ad" id="detail_ad_1"> </div> </div>  <div id="right-2" class="col-lg-12 col-md-12 col-sm-4 col-xs-4 ad"> <div class="youdao-fixed-ad" id="detail_ad_2"></div> </div>  <div id="right-3" class="col-lg-12 col-md-12 col-sm-4 col-xs-4 ad"> <div class="youdao-fixed-ad" id="detail_ad_3"></div> </div> </div> </div> </div> </div> </div> <div class="container"> <h4 class="pt20 mb15 mt0 border-top">你可能感兴趣的:(DrissionPage,DrissionPage,爬虫,web自动化)</h4> <div id="paradigm-article-related"> <div class="recommend-post mb30"> <ul class="widget-links"> <li><a href="/article/1950175452580605952.htm" title="Gerapy爬虫管理框架深度解析：企业级分布式爬虫管控平台" target="_blank">Gerapy爬虫管理框架深度解析：企业级分布式爬虫管控平台</a> <span class="text-muted">Python×CATIA工业智造</span> <a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E5%88%86%E5%B8%83%E5%BC%8F/1.htm">分布式</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/pycharm/1.htm">pycharm</a> <div>引言：爬虫工程化的必然选择随着企业数据采集需求指数级增长，传统单点爬虫管理模式面临三重困境：管理效率瓶颈：手动部署耗时占开发总时长的40%以上系统可靠性低：研究显示超过65%的爬虫故障源于部署或调度错误资源利用率差：平均爬虫服务器CPU利用率不足30%爬虫管理方案对比：┌───────────────┬─────────────┬───────────┬───────────┬──────────</div> </li> <li><a href="/article/1949945858665541632.htm" title="Python爬虫【五十八章】Python数据清洗与分析全攻略：从Pandas到深度学习的异常检测进阶" target="_blank">Python爬虫【五十八章】Python数据清洗与分析全攻略：从Pandas到深度学习的异常检测进阶</a> <span class="text-muted">程序员_CLUB</span> <a class="tag" taget="_blank" href="/search/Python%E5%85%A5%E9%97%A8%E5%88%B0%E8%BF%9B%E9%98%B6/1.htm">Python入门到进阶</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/pandas/1.htm">pandas</a> <div>目录背景与需求分析第一章：结构化数据清洗实战（Pandas核心技法）1.1数据去重策略矩阵1.2智能缺失值处理体系第二章：深度学习异常检测进阶2.1自动编码器异常检测（时序数据）2.2图神经网络异常检测（关系型数据）第三章：综合案例实战案例1：金融交易反欺诈系统案例2：工业传感器异常检测第四章：性能优化与工程实践4.1大数据处理加速技巧4.2模型部署方案第五章：方法论总结与展望5.1方法论框架5.</div> </li> <li><a href="/article/1949945859365990400.htm" title="Python【一】Python全方位知识指南" target="_blank">Python【一】Python全方位知识指南</a> <span class="text-muted">程序员_CLUB</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a> <div>目录背景：为什么Python成为开发者必备技能？‌‌一、Python是什么？‌‌二、Python能做什么？六大核心应用场景‌‌1.自动化办公‌‌2.网络爬虫‌‌3.数据分析‌‌三、零基础入门Python：环境搭建与学习路径‌‌1.环境搭建（Windows/Mac详细步骤）‌2‌.基础语法速成（7天掌握）‌四、实战项目推荐（*****）‌‌五、学习建议与避坑指南（新手常见错误）‌六、总结：**背景：</div> </li> <li><a href="/article/1949945732429574144.htm" title="Python爬虫【三十五章】爬虫高阶：基于Docker集群的动态页面自动化采集系统实战" target="_blank">Python爬虫【三十五章】爬虫高阶：基于Docker集群的动态页面自动化采集系统实战</a> <span class="text-muted">程序员_CLUB</span> <a class="tag" taget="_blank" href="/search/Python%E5%85%A5%E9%97%A8%E5%88%B0%E8%BF%9B%E9%98%B6/1.htm">Python入门到进阶</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/docker/1.htm">docker</a> <div>目录一、技术演进与行业痛点二、核心技术栈深度解析2.1动态渲染三件套2.2Docker集群架构设计2.3自动化调度系统三、进阶实战案例3.1电商价格监控系统1.技术指标对比2.实现细节3.2新闻聚合平台1.WebSocket监控2.字体反爬破解四、性能优化与运维方案4.1资源消耗对比测试4.2集群运维体系五、总结与未来展望六、Python爬虫相关文章（推荐）一、技术演进与行业痛点在Web3.0时代</div> </li> <li><a href="/article/1949945604893372416.htm" title="Python爬虫【三十二章】爬虫高阶：动态页面处理与Scrapy+Selenium+BeautifulSoup分布式架构深度解析实战" target="_blank">Python爬虫【三十二章】爬虫高阶：动态页面处理与Scrapy+Selenium+BeautifulSoup分布式架构深度解析实战</a> <span class="text-muted"></span> <div>目录引言一、动态页面爬取的技术背景1.1动态页面的核心特征1.2传统爬虫的局限性二、技术选型与架构设计2.1核心组件分析2.2架构设计思路1.分层处理2.数据流三、代码实现与关键技术3.1Selenium与Scrapy的中间件集成3.2BeautifulSoup与ScrapyItem的整合3.3分布式爬取实现3.3.1Scrapy-Redis部署3.3.2多节点启动四、优化与扩展4.1性能优化策略</div> </li> <li><a href="/article/1949945605325385728.htm" title="Python爬虫【三十三章】爬虫高阶：动态页面破解与验证码OCR识别全流程实战" target="_blank">Python爬虫【三十三章】爬虫高阶：动态页面破解与验证码OCR识别全流程实战</a> <span class="text-muted">程序员_CLUB</span> <a class="tag" taget="_blank" href="/search/Python%E5%85%A5%E9%97%A8%E5%88%B0%E8%BF%9B%E9%98%B6/1.htm">Python入门到进阶</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/ocr/1.htm">ocr</a> <div>目录一、技术背景与行业痛点二、核心技术与实现路径2.1动态页面处理方案对比2.2Selenium深度集成实践2.3OCR验证码破解方案1.预处理阶段：2.识别阶段：3.后处理阶段三、典型应用场景解析3.1电商价格监控系统1.技术架构2.实现效果3.2社交媒体舆情分析1.特殊挑战2.优化方案：四、合规性与风险控制五、总结Python爬虫相关文章（推荐）一、技术背景与行业痛点在Web3.0时代，网站反</div> </li> <li><a href="/article/1949945606000668672.htm" title="Python爬虫【三十四章】爬虫高阶：动态页面处理与Playwright增强控制深度解析" target="_blank">Python爬虫【三十四章】爬虫高阶：动态页面处理与Playwright增强控制深度解析</a> <span class="text-muted">程序员_CLUB</span> <a class="tag" taget="_blank" href="/search/Python%E5%85%A5%E9%97%A8%E5%88%B0%E8%BF%9B%E9%98%B6/1.htm">Python入门到进阶</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a> <div>目录一、技术演进背景与行业挑战二、核心技术栈深度解析2.1动态渲染双引擎架构2.2浏览器指纹伪装方案2.3BeautifulSoup集成实践三、进阶应用场景突破3.1电商价格监控系统3.1.1技术架构创新3.1.2实现效果3.2社交媒体舆情分析3.2.1无限滚动模拟3.2.2WebSocket监控3.2.3Canvas指纹防护四、性能优化与合规方案4.1资源消耗对比测试4.2反爬对抗升级方案五、总</div> </li> <li><a href="/article/1949943967034437632.htm" title="Python爬虫【三十一章】爬虫高阶：动态页面处理与Scrapy+Selenium+Celery弹性伸缩架构实战" target="_blank">Python爬虫【三十一章】爬虫高阶：动态页面处理与Scrapy+Selenium+Celery弹性伸缩架构实战</a> <span class="text-muted"></span> <div>目录引言一、动态页面爬取的技术挑战1.1动态页面的核心特性1.2传统爬虫的局限性二、Scrapy+Selenium：动态爬虫的核心架构2.1技术选型依据2.2架构设计2.3代码实现示例三、Celery：分布式任务队列的引入3.1为什么需要Celery？3.2Celery架构设计3.3代码实现示例3.4Scrapy与Celery的集成四、优化与扩展4.1性能优化4.2分布式部署4.3反爬对抗五、总结</div> </li> <li><a href="/article/1949899078280212480.htm" title="十年爬虫经验告诉你爬虫被封怎么办" target="_blank">十年爬虫经验告诉你爬虫被封怎么办</a> <span class="text-muted">congqian8750</span> <a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a> <div>十年爬虫经验告诉你爬虫被封怎么办现在很多站长都会有抓取数据的需求，因此网络爬虫在一定程度上越来越火爆，其实爬虫的基本功能很简单，就是分析大量的url的html页面，从而提取新的url，但是在实际操作中通常都会遇到各种各样的问题，比如说抓取数据的过程中需要根据实际需求来筛选url继续爬行；或者说为了能正常爬取，减少别人服务器的压力，你需要控制住爬取的速度和工作量···但是即便再小心，很多时候也会遇到</div> </li> <li><a href="/article/1949898823811788800.htm" title="【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts) 视频教程 - 微博文章数据可视化分析-文章分类下拉框实现" target="_blank">【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts) 视频教程 - 微博文章数据可视化分析-文章分类下拉框实现</a> <span class="text-muted">java1234_小锋</span> <a class="tag" taget="_blank" href="/search/NLP/1.htm">NLP</a><a class="tag" taget="_blank" href="/search/NLLP%E5%BE%AE%E5%8D%9A%E8%88%86%E6%83%85%E5%88%86%E6%9E%90/1.htm">NLLP微博舆情分析</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86/1.htm">自然语言处理</a><a class="tag" taget="_blank" href="/search/flask/1.htm">flask</a> <div>大家好，我是java1234_小锋老师，最近写了一套【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts)视频教程，持续更新中，计划月底更新完，感谢支持。今天讲解微博文章数据可视化分析-文章分类下拉框实现视频在线地址：2026版【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts+爬虫)视频教程（火爆连载更</div> </li> <li><a href="/article/1949897938671038464.htm" title="Scrapy 爬虫 IP 被封问题的解决方案" target="_blank">Scrapy 爬虫 IP 被封问题的解决方案</a> <span class="text-muted">杨胜增</span> <a class="tag" taget="_blank" href="/search/scrapy/1.htm">scrapy</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/tcp%2Fip/1.htm">tcp/ip</a> <div>Scrapy爬虫IP被封问题的解决方案在使用Scrapy进行网络爬虫开发时，IP被封是一个常见的问题。当爬虫频繁地向目标网站发送请求时，目标网站可能会检测到异常流量，并将爬虫的IP地址加入黑名单，导致后续请求无法正常访问。本文将详细介绍Scrapy爬虫IP被封问题的原因及解决方案。问题描述在运行Scrapy爬虫时，可能会遇到以下类似的情况：请求返回403Forbidden错误，表示服务器拒绝了请求</div> </li> <li><a href="/article/1949897179338436608.htm" title="Python requests设置代理的3种方法" target="_blank">Python requests设置代理的3种方法</a> <span class="text-muted">爱睡觉的圈圈</span> <a class="tag" taget="_blank" href="/search/%E4%BB%A3%E7%90%86%E6%9C%8D%E5%8A%A1/1.htm">代理服务</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%BD%91%E7%BB%9C/1.htm">网络</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/%E4%BB%A3%E7%90%86%E6%A8%A1%E5%BC%8F/1.htm">代理模式</a> <div>在进行网络爬虫或数据采集时，经常需要使用代理来避免IP被封或突破访问限制。本文介绍Pythonrequests库设置代理的3种常用方法。方法一：基础代理设置最简单的代理设置方式：importrequests#设置代理proxies={'http':'http://proxy_ip:port','https':'https://proxy_ip:port'}#发送请求response=request</div> </li> <li><a href="/article/1949897180282155008.htm" title="代理IP的类型详解：数据中心vs住宅IP" target="_blank">代理IP的类型详解：数据中心vs住宅IP</a> <span class="text-muted"></span> <div>前言做爬虫的时候，代理IP是绕不开的话题。但很多人对代理IP的分类不太了解，经常花了钱却买到不合适的代理，结果还是被封。今天详细聊聊代理IP的分类，特别是数据中心IP和住宅IP的区别，帮你选到最适合的代理。代理IP基础分类按协议分类HTTP代理#只支持HTTP协议proxy={'http':'http://username:password@proxy.com:8080'}HTTPS代理#支持HT</div> </li> <li><a href="/article/1949897180768694272.htm" title="如何避免IP被加入黑名单：实用防护指南" target="_blank">如何避免IP被加入黑名单：实用防护指南</a> <span class="text-muted">爱睡觉的圈圈</span> <a class="tag" taget="_blank" href="/search/%E4%BB%A3%E7%90%86%E6%9C%8D%E5%8A%A1/1.htm">代理服务</a><a class="tag" taget="_blank" href="/search/tcp%2Fip/1.htm">tcp/ip</a><a class="tag" taget="_blank" href="/search/%E7%BD%91%E7%BB%9C%E5%8D%8F%E8%AE%AE/1.htm">网络协议</a><a class="tag" taget="_blank" href="/search/%E7%BD%91%E7%BB%9C/1.htm">网络</a> <div>前言IP被封是爬虫开发者最头疼的问题。很多人以为换个User-Agent就能解决，结果还是被秒封。现代反爬虫系统已经非常智能，不仅看IP访问频率，还会分析浏览器指纹、行为模式、TLS指纹等多个维度。要想真正避免被封，需要从多个角度进行防护。今天分享一套完整的IP保护方案，结合Selenium、指纹浏览器等成熟工具，让你的爬虫更像真实用户。反爬虫检测原理网站如何识别爬虫#现代反爬虫系统的检测维度de</div> </li> <li><a href="/article/1949897182211534848.htm" title="爬虫入门：为什么你的爬虫需要代理IP？" target="_blank">爬虫入门：为什么你的爬虫需要代理IP？</a> <span class="text-muted"></span> <div>前言作为一名在爬虫领域摸爬滚打多年的程序员，我经常收到新手朋友的疑问："为什么我的爬虫跑了一会儿就不工作了？"今天，我就来详细讲解为什么爬虫需要代理IP，以及如何正确使用代理IP来提升爬虫的稳定性和效率。一、爬虫面临的挑战1.1反爬虫机制的普及现代网站都配备了各种反爬虫机制，最常见的包括：反爬虫机制IP限制User-Agent检测验证码行为分析请求频率限制1.2IP封禁的痛点让我们看一个典型的爬虫</div> </li> <li><a href="/article/1949895033859665920.htm" title="Python爬虫IP被封的5种解决方案" target="_blank">Python爬虫IP被封的5种解决方案</a> <span class="text-muted"></span> <div>前言做爬虫的朋友都遇到过这种情况：程序跑得好好的，突然就开始返回403错误，或者直接连接超时。十有八九是IP被网站封了。现在的网站反爬虫越来越严格，稍微频繁一点就会被拉黑。今天分享几个实用的解决方案，都是我在实际项目中用过的。方案一：代理IP池这是最直接的办法，换个马甲继续干活。基本实现importrequestsimportrandomimporttimeclassProxyPool:def__</div> </li> <li><a href="/article/1949893017594818560.htm" title="Python爬虫实战：研究picloud相关技术" target="_blank">Python爬虫实战：研究picloud相关技术</a> <span class="text-muted">ylfhpy</span> <a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB%E9%A1%B9%E7%9B%AE%E5%AE%9E%E6%88%98/1.htm">爬虫项目实战</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/picloud/1.htm">picloud</a> <div>一、引言1.1研究背景与意义在数字化时代，网络数据已成为企业决策、学术研究和社会服务的重要资源。爬虫技术作为自动化获取网络信息的关键手段，在舆情监测、市场分析、学术研究等领域具有广泛应用。Python以其简洁的语法和丰富的爬虫库（如Requests、BeautifulSoup、Scrapy）成为爬虫开发的首选语言。然而，面对海量数据和高并发需求，本地爬虫系统往往面临性能瓶颈。picloud作为专业</div> </li> <li><a href="/article/1949893018341404672.htm" title="Python爬虫实战：研究flanker相关技术" target="_blank">Python爬虫实战：研究flanker相关技术</a> <span class="text-muted">ylfhpy</span> <a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB%E9%A1%B9%E7%9B%AE%E5%AE%9E%E6%88%98/1.htm">爬虫项目实战</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/flanker/1.htm">flanker</a> <div>1.引言1.1研究背景与意义在当今信息爆炸的时代，互联网上的数据量呈现出指数级增长的趋势。如何从海量的网页数据中高效地获取有价值的信息，成为了一个重要的研究课题。网络爬虫作为一种自动获取网页内容的技术，能够帮助用户快速、准确地收集所需的信息，因此在信息检索、数据挖掘、舆情分析等领域得到了广泛的应用。Flanker技术是一种基于文本分析的信息提取技术，它能够从非结构化的文本中识别和提取出特定类型的信</div> </li> <li><a href="/article/1949892890675179520.htm" title="Python爬虫实战入门：手把手教你抓取豆瓣电影TOP250" target="_blank">Python爬虫实战入门：手把手教你抓取豆瓣电影TOP250</a> <span class="text-muted">xiaobindeshijie7</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/%E5%85%B6%E4%BB%96/1.htm">其他</a> <div>文章目录一、环境准备（5分钟搞定）二、第一个爬虫实战（超简单版）2.1基础版代码2.2代码解剖（新人必看）三、突破反爬机制（实战精华）3.1伪装大法3.2请求频率控制3.3代理IP使用四、数据存储（多种姿势）4.1CSV存储4.2MySQL存储五、进阶技巧（高手必备）5.1异步爬虫5.2Selenium动态渲染六、法律与伦理（超级重要！！！）七、下一步学习路线一、环境准备（5分钟搞定）工欲善其事必</div> </li> <li><a href="/article/1949885953996812288.htm" title="BeautifulSoup库深度解析：Python高效解析网页数据的秘籍" target="_blank">BeautifulSoup库深度解析：Python高效解析网页数据的秘籍</a> <span class="text-muted"></span> <div>在Python爬虫开发领域，获取网页内容后，如何高效解析并提取所需数据是关键一环。BeautifulSoup库凭借其简洁易用、功能强大的特点，成为众多开发者解析网页数据的首选工具。本文将深入剖析BeautifulSoup库，通过丰富的实例，帮助你掌握其核心功能与使用技巧，实现网页数据的精准提取。一、认识BeautifulSoup库BeautifulSoup是Python的一个第三方库，主要用于解析</div> </li> <li><a href="/article/1949885827723096064.htm" title="Python BeautifulSoup 解析网页按钮元素" target="_blank">Python BeautifulSoup 解析网页按钮元素</a> <span class="text-muted">PythonAI编程架构实战家</span> <a class="tag" taget="_blank" href="/search/Python%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD%E4%B8%8E%E5%A4%A7%E6%95%B0%E6%8D%AE/1.htm">Python人工智能与大数据</a><a class="tag" taget="_blank" href="/search/Python%E7%BC%96%E7%A8%8B%E4%B9%8B%E9%81%93/1.htm">Python编程之道</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/beautifulsoup/1.htm">beautifulsoup</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/ai/1.htm">ai</a> <div>PythonBeautifulSoup解析网页按钮元素：从基础原理到工程实践的深度解析关键词BeautifulSoup、HTML解析、按钮元素定位、DOM树遍历、CSS选择器、网络爬虫、前端自动化摘要本文系统解析使用PythonBeautifulSoup库定位和提取网页按钮元素的全流程技术方案。从HTML文档的底层结构出发，结合BeautifulSoup的核心解析机制，覆盖从基础概念到高级工程实践</div> </li> <li><a href="/article/1949884187657957376.htm" title="Python网络爬虫技术深度解析：从入门到高级实战" target="_blank">Python网络爬虫技术深度解析：从入门到高级实战</a> <span class="text-muted">Python爬虫项目</span> <a class="tag" taget="_blank" href="/search/2025%E5%B9%B4%E7%88%AC%E8%99%AB%E5%AE%9E%E6%88%98%E9%A1%B9%E7%9B%AE/1.htm">2025年爬虫实战项目</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/easyui/1.htm">easyui</a><a class="tag" taget="_blank" href="/search/scrapy/1.htm">scrapy</a> <div>1.爬虫技术概述网络爬虫（WebCrawler）是一种自动化程序，通过模拟人类浏览行为从互联网上抓取、解析和存储数据。根据应用场景可分为：通用爬虫：如搜索引擎的蜘蛛程序聚焦爬虫：针对特定领域的数据采集增量式爬虫：只抓取更新内容深层网络爬虫：处理需要交互的动态内容2.2024年Python爬虫技术栈技术分类推荐工具适用场景基础请求库requests,httpx静态页面请求解析库BeautifulSo</div> </li> <li><a href="/article/1949858838136025088.htm" title="XPath" target="_blank">XPath</a> <span class="text-muted">class心平气和</span> <a class="tag" taget="_blank" href="/search/%E6%9C%8D%E5%8A%A1%E5%99%A8/1.htm">服务器</a><a class="tag" taget="_blank" href="/search/%E5%89%8D%E7%AB%AF/1.htm">前端</a><a class="tag" taget="_blank" href="/search/%E8%BF%90%E7%BB%B4/1.htm">运维</a> <div>一、XPath基础概念XPath（XMLPathLanguage）是一种用于在XML或HTML文档中定位节点的语言，广泛应用于网页爬虫、数据提取和文档处理。以下将从基础概念到高级技巧全面解析XPath。XPath是一种路径表达式语言，用于在XML/HTML文档中导航和选择节点。二、XPath路径表达式基础1.绝对路径与相对路径绝对路径：从根节点开始，用/分隔，例：/html/body/div#从H</div> </li> <li><a href="/article/1949792023003328512.htm" title="让 UniApp X “飞”起来：用 SSR 实现服务器端渲染，打造首屏秒开体验" target="_blank">让 UniApp X “飞”起来：用 SSR 实现服务器端渲染，打造首屏秒开体验</a> <span class="text-muted">脑袋大大的</span> <a class="tag" taget="_blank" href="/search/uniappx%E7%94%9F%E6%80%81%E4%B8%93%E6%A0%8F/1.htm">uniappx生态专栏</a><a class="tag" taget="_blank" href="/search/%E5%89%8D%E7%AB%AF/1.htm">前端</a><a class="tag" taget="_blank" href="/search/javascript/1.htm">javascript</a><a class="tag" taget="_blank" href="/search/vue.js/1.htm">vue.js</a><a class="tag" taget="_blank" href="/search/uniapp/1.htm">uniapp</a><a class="tag" taget="_blank" href="/search/uniappx/1.htm">uniappx</a> <div>你有没有遇到过这样的尴尬？用户打开你的UniApp项目，首屏白屏几秒钟，用户还没看到内容就走了。尤其是在SEO场景下，搜索引擎爬虫来了，你却只能返回一个“加载中…”的页面，结果自然是——被搜索引擎无情抛弃。但好消息是，从HBuilderX4.18版本起，UniAppX正式支持SSR（ServerSideRendering）服务器端渲染，这意味着你可以让你的UniApp应用“首屏即内容”，秒开页面、</div> </li> <li><a href="/article/1949757350831255552.htm" title="程序代码篇---python获取http界面上按钮或者数据输入" target="_blank">程序代码篇---python获取http界面上按钮或者数据输入</a> <span class="text-muted">Atticus-Orion</span> <a class="tag" taget="_blank" href="/search/%E7%A8%8B%E5%BA%8F%E4%BB%A3%E7%A0%81%E7%AF%87/1.htm">程序代码篇</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/http/1.htm">http</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a> <div>在Python中获取HTTP界面上的按钮点击或数据输入，主要有两种场景：作为客户端：模拟用户在网页上输入数据、点击按钮（比如爬虫自动提交表单）。作为服务端：搭建一个网页服务，接收用户在浏览器中输入的数据和按钮点击（比如自己写一个简单的Web应用）。下面分别用通俗易懂的方式讲解这两种场景的实现方法和代码。一、作为客户端：模拟用户操作网页（自动输入和点击）这种场景常用于自动化测试或数据爬取，需要模拟用</div> </li> <li><a href="/article/1949711201546072064.htm" title="selenium 反爬虫识别特征处理" target="_blank">selenium 反爬虫识别特征处理</a> <span class="text-muted"></span> <div>因为业务中发现网站对selenium特征识别为爬虫了，因此在搜索引擎中搜索进行处理方式一#实例化一个浏览器对象options=webdriver.ChromeOptions()options.add_experimental_option('excludeSwitches',['enable-automation'])ifsys.platform=="win32":browser=webdrive</div> </li> <li><a href="/article/1949706156138098688.htm" title="selenium之反反爬虫" target="_blank">selenium之反反爬虫</a> <span class="text-muted">无惧代码</span> <a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/selenium/1.htm">selenium</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a> <div>大多数情况下，检测的基本原理是检测当前浏览器窗口下的window.navigator对象是否包含webdriver这个属性。在正常使用浏览器的情况下，这个属性是undefined，然后一旦我们使用了selenium，这个属性就被初始化为true，很多网站就通过Javascript判断这个属性实现简单的反selenium爬虫。反反爬虫解决措施：fromseleniumimportwebdriverf</div> </li> <li><a href="/article/1949701863217623040.htm" title="爬虫入门（7）——反爬（3）Selenium" target="_blank">爬虫入门（7）——反爬（3）Selenium</a> <span class="text-muted">WHJ226</span> <a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB%E5%85%A5%E9%97%A8/1.htm">爬虫入门</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/selenium/1.htm">selenium</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a> <div>目录1Selenium定位方法1.1id定位1.2name定位1.3XPath定位1.4classname定位2模拟操作2.1模拟点击操作2.2模拟输入和搜索操作2.3模拟清除3控制浏览器操作3.1设置浏览器尺寸3.2控制浏览器后退和前进3.3刷新页面爬虫入门（6）——反爬（2）_WHJ226的博客-CSDN博客在该博客-CSDN博客博客中讲了动态渲染，Selenium安装，驱动器下载及配置，以及</div> </li> <li><a href="/article/1949630514302349312.htm" title="Python爬虫“折戟”真相大揭秘：数据获取失败全剖析" target="_blank">Python爬虫“折戟”真相大揭秘：数据获取失败全剖析</a> <span class="text-muted"></span> <div>爬虫数据获取：理想与现实的落差**在数据驱动的时代，数据宛如一座蕴藏无限价值的宝藏矿山，而Python爬虫则是我们深入矿山挖掘宝藏的得力工具。想象一下，你精心编写了一段Python爬虫代码，满心期待着它能像勤劳的矿工一样，源源不断地从网页中采集到你所需要的数据。当一切准备就绪，代码开始运行，那跳动的进度条仿佛是希望的脉搏。有时候现实却给我们泼了一盆冷水。原本期待着收获满满一桶数据，结果得到的却是寥</div> </li> <li><a href="/article/1949630514797277184.htm" title="Python爬虫打怪升级：数据获取疑难全解析" target="_blank">Python爬虫打怪升级：数据获取疑难全解析</a> <span class="text-muted">女码农的重启</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a> <div>一、引言**在大数据时代，数据就是价值的源泉。而Python爬虫，作为数据获取的得力助手，凭借Python简洁的语法和丰富强大的库，在众多领域发挥着重要作用。无论是电商领域的价格监测、市场调研中的数据收集，还是学术研究里的文献获取，Python爬虫都能大显身手。例如，通过爬取电商平台的商品信息，我们可以分析市场趋势，为企业决策提供有力支持；在学术研究中，利用爬虫获取大量文献资料，能帮助研究人员快速</div> </li> <li><a href="/article/6.htm" title="[黑洞与暗粒子]没有光的世界" target="_blank">[黑洞与暗粒子]没有光的世界</a> <span class="text-muted">comsci</span> <div>     无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算      但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界....      那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs</div> </li> <li><a href="/article/133.htm" title="jQuery Lazy Load 图片延迟加载" target="_blank">jQuery Lazy Load 图片延迟加载</a> <span class="text-muted">aijuans</span> <a class="tag" taget="_blank" href="/search/jquery/1.htm">jquery</a> <div>基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src</div> </li> <li><a href="/article/260.htm" title="使用Jodd的优点" target="_blank">使用Jodd的优点</a> <span class="text-muted">Kai_Ge</span> <a class="tag" taget="_blank" href="/search/jodd/1.htm">jodd</a> <div>1.  简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2.  简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3.  对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。   使用方法简介</div> </li> <li><a href="/article/387.htm" title="jpa Query转hibernate Query" target="_blank">jpa Query转hibernate Query</a> <span class="text-muted">120153216</span> <a class="tag" taget="_blank" href="/search/Hibernate/1.htm">Hibernate</a> <div>public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp</div> </li> <li><a href="/article/514.htm" title="Django_Python3添加MySQL/MariaDB支持" target="_blank">Django_Python3添加MySQL/MariaDB支持</a> <span class="text-muted">2002wmj</span> <a class="tag" taget="_blank" href="/search/mariaDB/1.htm">mariaDB</a> <div>现状首先，Django@Python2.x 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL</div> </li> <li><a href="/article/641.htm" title="在SQLSERVER中查找消耗IO最多的SQL" target="_blank">在SQLSERVER中查找消耗IO最多的SQL</a> <span class="text-muted">357029540</span> <a class="tag" taget="_blank" href="/search/SQL+Server/1.htm">SQL Server</a> <div>返回做IO数目最多的50条语句以及它们的执行计划。 select top 50   (total_logical_reads/execution_count) as avg_logical_reads,  (total_logical_writes/execution_count) as avg_logical_writes,  (tot</div> </li> <li><a href="/article/768.htm" title="spring UnChecked 异常官方定义！" target="_blank">spring UnChecked 异常官方定义！</a> <span class="text-muted">7454103</span> <a class="tag" taget="_blank" href="/search/spring/1.htm">spring</a> <div>  如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep</div> </li> <li><a href="/article/895.htm" title="mongoDB 入门指南、示例" target="_blank">mongoDB 入门指南、示例</a> <span class="text-muted">adminjun</span> <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/mongodb/1.htm">mongodb</a><a class="tag" taget="_blank" href="/search/%E6%93%8D%E4%BD%9C/1.htm">操作</a> <div>一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默</div> </li> <li><a href="/article/1022.htm" title="CUDA 5 Release Candidate Now Available" target="_blank">CUDA 5 Release Candidate Now Available</a> <span class="text-muted">aijuans</span> <a class="tag" taget="_blank" href="/search/CUDA/1.htm">CUDA</a> <div>The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe</div> </li> <li><a href="/article/1149.htm" title="Essential Studio for WinRT网格控件测评" target="_blank">Essential Studio for WinRT网格控件测评</a> <span class="text-muted">Axiba</span> <a class="tag" taget="_blank" href="/search/JavaScript/1.htm">JavaScript</a><a class="tag" taget="_blank" href="/search/html5/1.htm">html5</a> <div>Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、</div> </li> <li><a href="/article/1276.htm" title="java 获取windows系统安装的证书或证书链" target="_blank">java 获取windows系统安装的证书或证书链</a> <span class="text-muted">bewithme</span> <a class="tag" taget="_blank" href="/search/windows/1.htm">windows</a> <div>      有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库  。有关证书链的解释可以查看此处。   public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S</div> </li> <li><a href="/article/1403.htm" title="NoSQL数据库之Redis数据库管理(set类型和zset类型)" target="_blank">NoSQL数据库之Redis数据库管理(set类型和zset类型)</a> <span class="text-muted">bijian1013</span> <a class="tag" taget="_blank" href="/search/redis/1.htm">redis</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E5%BA%93/1.htm">数据库</a><a class="tag" taget="_blank" href="/search/NoSQL/1.htm">NoSQL</a> <div>4.sets类型         Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。         sadd：向名称为key的set中添加元</div> </li> <li><a href="/article/1530.htm" title="异常捕获何时用Exception，何时用Throwable" target="_blank">异常捕获何时用Exception，何时用Throwable</a> <span class="text-muted">bingyingao</span> <div>用Exception的情况 try {        //可能发生空指针、数组溢出等异常         } catch (Exception e) {         &nbsp</div> </li> <li><a href="/article/1657.htm" title="【Kafka四】Kakfa伪分布式安装" target="_blank">【Kafka四】Kakfa伪分布式安装</a> <span class="text-muted">bit1129</span> <a class="tag" taget="_blank" href="/search/kafka/1.htm">kafka</a> <div>在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证   1. 安装步骤   Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不</div> </li> <li><a href="/article/1784.htm" title="Project Euler" target="_blank">Project Euler</a> <span class="text-muted">bookjovi</span> <a class="tag" taget="_blank" href="/search/haskell/1.htm">haskell</a> <div>Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。     看看problem 1吧： Add all the natural num</div> </li> <li><a href="/article/1911.htm" title="Java-Collections Framework学习与总结-ArrayDeque" target="_blank">Java-Collections Framework学习与总结-ArrayDeque</a> <span class="text-muted">BrokenDreams</span> <a class="tag" taget="_blank" href="/search/Collections/1.htm">Collections</a> <div>        表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。         这篇要看一下java.util.ArrayDeque。从命名上看</div> </li> <li><a href="/article/2038.htm" title="读《研磨设计模式》-代码笔记-装饰模式-Decorator" target="_blank">读《研磨设计模式》-代码笔记-装饰模式-Decorator</a> <span class="text-muted">bylijinnan</span> <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/%E8%AE%BE%E8%AE%A1%E6%A8%A1%E5%BC%8F/1.htm">设计模式</a> <div>声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi</div> </li> <li><a href="/article/2165.htm" title="Maven学习(一)" target="_blank">Maven学习(一)</a> <span class="text-muted">chenyu19891124</span> <a class="tag" taget="_blank" href="/search/Maven%E7%A7%81%E6%9C%8D/1.htm">Maven私服</a> <div>    学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功</div> </li> <li><a href="/article/2292.htm" title="[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充" target="_blank">[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充</a> <span class="text-muted">comsci</span> <a class="tag" taget="_blank" href="/search/%E7%AE%97%E6%B3%95/1.htm">算法</a><a class="tag" taget="_blank" href="/search/%E5%B7%A5%E4%BD%9C/1.htm">工作</a><a class="tag" taget="_blank" href="/search/PHP/1.htm">PHP</a><a class="tag" taget="_blank" href="/search/%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E/1.htm">搜索引擎</a><a class="tag" taget="_blank" href="/search/%E5%B5%8C%E5%85%A5%E5%BC%8F/1.htm">嵌入式</a> <div>本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支</div> </li> <li><a href="/article/2419.htm" title="Linux中用shell获取昨天、明天或多天前的日期" target="_blank">Linux中用shell获取昨天、明天或多天前的日期</a> <span class="text-muted">daizj</span> <a class="tag" taget="_blank" href="/search/linux/1.htm">linux</a><a class="tag" taget="_blank" href="/search/shell/1.htm">shell</a><a class="tag" taget="_blank" href="/search/%E4%B8%8A%E5%87%A0%E5%B9%B4/1.htm">上几年</a><a class="tag" taget="_blank" href="/search/%E6%98%A8%E5%A4%A9/1.htm">昨天</a><a class="tag" taget="_blank" href="/search/%E8%8E%B7%E5%8F%96%E4%B8%8A%E5%87%A0%E4%B8%AA%E6%9C%88/1.htm">获取上几个月</a> <div>在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday'  # 或 date -d 'last day' # 获取明天 date -d 'tomorrow'   # 或 date -d 'next day' # 获取上个月 date -d 'last month' # </div> </li> <li><a href="/article/2546.htm" title="我所理解的云计算" target="_blank">我所理解的云计算</a> <span class="text-muted">dongwei_6688</span> <a class="tag" taget="_blank" href="/search/%E4%BA%91%E8%AE%A1%E7%AE%97/1.htm">云计算</a> <div>      在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说：        Cloud computing is a phrase used to describe a variety of computing co</div> </li> <li><a href="/article/2673.htm" title="YII CMenu配置" target="_blank">YII CMenu配置</a> <span class="text-muted">dcj3sjt126com</span> <a class="tag" taget="_blank" href="/search/yii/1.htm">yii</a> <div>Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g</div> </li> <li><a href="/article/2800.htm" title="设计模式之静态代理与动态代理" target="_blank">设计模式之静态代理与动态代理</a> <span class="text-muted">come_for_dream</span> <a class="tag" taget="_blank" href="/search/%E8%AE%BE%E8%AE%A1%E6%A8%A1%E5%BC%8F/1.htm">设计模式</a> <div>静态代理与动态代理        代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务</div> </li> <li><a href="/article/2927.htm" title="【转】理解Javascript 系列" target="_blank">【转】理解Javascript 系列</a> <span class="text-muted">gcc2ge</span> <a class="tag" taget="_blank" href="/search/JavaScript/1.htm">JavaScript</a> <div>理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个</div> </li> <li><a href="/article/3054.htm" title="Subsets II" target="_blank">Subsets II</a> <span class="text-muted">hcx2013</span> <a class="tag" taget="_blank" href="/search/set/1.htm">set</a> <div>Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta</div> </li> <li><a href="/article/3181.htm" title="Spring4.1新特性——Spring缓存框架增强" target="_blank">Spring4.1新特性——Spring缓存框架增强</a> <span class="text-muted">jinnianshilongnian</span> <a class="tag" taget="_blank" href="/search/spring4/1.htm">spring4</a> <div>目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T</div> </li> <li><a href="/article/3308.htm" title="shell嵌套expect执行命令" target="_blank">shell嵌套expect执行命令</a> <span class="text-muted">liyonghui160com</span> <div>    一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧.   系统:centos 5.x   1.先安装expect yum -y install expect   2.脚本内容: cat auto_svn.sh   #!/bin/bash </div> </li> <li><a href="/article/3435.htm" title="Linux实用命令整理" target="_blank">Linux实用命令整理</a> <span class="text-muted">pda158</span> <a class="tag" taget="_blank" href="/search/linux/1.htm">linux</a> <div>0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a   #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz     #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc &nbsp</div> </li> <li><a href="/article/3562.htm" title="独立开发人员通向成功的29个小贴士" target="_blank">独立开发人员通向成功的29个小贴士</a> <span class="text-muted">shoothao</span> <a class="tag" taget="_blank" href="/search/%E7%8B%AC%E7%AB%8B%E5%BC%80%E5%8F%91/1.htm">独立开发</a> <div> 概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立</div> </li> <li><a href="/article/3689.htm" title="JAVA中堆栈和内存分配原理" target="_blank">JAVA中堆栈和内存分配原理</a> <span class="text-muted">uule</span> <a class="tag" taget="_blank" href="/search/java/1.htm">java</a> <div>1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f</div> </li> </ul> </div> </div> </div> <div> <div class="container"> <div class="indexes"> <strong>按字母分类：</strong> <a href="/tags/A/1.htm" target="_blank">A</a><a href="/tags/B/1.htm" target="_blank">B</a><a href="/tags/C/1.htm" target="_blank">C</a><a href="/tags/D/1.htm" target="_blank">D</a><a href="/tags/E/1.htm" target="_blank">E</a><a href="/tags/F/1.htm" target="_blank">F</a><a href="/tags/G/1.htm" target="_blank">G</a><a href="/tags/H/1.htm" target="_blank">H</a><a href="/tags/I/1.htm" target="_blank">I</a><a href="/tags/J/1.htm" target="_blank">J</a><a href="/tags/K/1.htm" target="_blank">K</a><a href="/tags/L/1.htm" target="_blank">L</a><a href="/tags/M/1.htm" target="_blank">M</a><a href="/tags/N/1.htm" target="_blank">N</a><a href="/tags/O/1.htm" target="_blank">O</a><a href="/tags/P/1.htm" target="_blank">P</a><a href="/tags/Q/1.htm" target="_blank">Q</a><a href="/tags/R/1.htm" target="_blank">R</a><a href="/tags/S/1.htm" target="_blank">S</a><a href="/tags/T/1.htm" target="_blank">T</a><a href="/tags/U/1.htm" target="_blank">U</a><a href="/tags/V/1.htm" target="_blank">V</a><a href="/tags/W/1.htm" target="_blank">W</a><a href="/tags/X/1.htm" target="_blank">X</a><a href="/tags/Y/1.htm" target="_blank">Y</a><a href="/tags/Z/1.htm" target="_blank">Z</a><a href="/tags/0/1.htm" target="_blank">其他</a> </div> </div> </div> <footer id="footer" class="mb30 mt30"> <div class="container"> <div class="footBglm"> <a target="_blank" href="/">首页</a> - <a target="_blank" href="/custom/about.htm">关于我们</a> - <a target="_blank" href="/search/Java/1.htm">站内搜索</a> - <a target="_blank" href="/sitemap.txt">Sitemap</a> - <a target="_blank" href="/custom/delete.htm">侵权投诉</a> </div> <div class="copyright">版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.  </div> </div> </footer>  <script type="text/javascript" src="/static/syntaxhighlighter/scripts/shCore.js"></script> <script type="text/javascript" src="/static/syntaxhighlighter/scripts/shLegacy.js"></script> <script type="text/javascript" src="/static/syntaxhighlighter/scripts/shAutoloader.js"></script> <link type="text/css" rel="stylesheet" href="/static/syntaxhighlighter/styles/shCoreDefault.css"/> <script type="text/javascript" src="/static/syntaxhighlighter/src/my_start_1.js"></script> </body> </html><script data-cfasync="false" src="/cdn-cgi/scripts/5c5dd728/cloudflare-static/email-decode.min.js"></script>

【DrissionPage】入门指南及查找元素

一、概述

二、特性

2.1 强大的内核

2.2 亮点功能

三、安装与升级

四、导包与简单示例

4.1 导包

4.2 简单示例

五、查找元素

5.1 概述

5.1.1 在页面中查找

5.1.2 在元素中查找

5.1.3 链式查找

5.1.4 相对查找

5.1.5 shadow root

5.1.6 简单示例

5.2 基本用法

5.2.1 查找元素的方法

ele()

eles()

5.2.2 匹配模式

精确匹配 =

模糊匹配 ：

匹配开头 ^

匹配结尾 $

5.2.3 查找语法

id 匹配符 #​

class 匹配符 .​

单属性匹配符 @​

多属性与匹配符 @@​

多属性或匹配符@|​

属性否定匹配符@!​

文本匹配符 text​

文本匹配符 text()​

@@text()的技巧​

类型匹配符 tag​

css selector 匹配符 css​

xpath 匹配符 xpath​

selenium 的 loc 元组 ​

5.2.4 相对定位​

`eles()`

精确匹配 `=`

模糊匹配：

匹配开头 `^`

匹配结尾 `$`

id 匹配符 `#`

class 匹配符 `.`

单属性匹配符 `@`

多属性与匹配符 `@@`

多属性或匹配符`@|`

属性否定匹配符`@!`

文本匹配符 `text`

文本匹配符 `text()`

`@@text()`的技巧

类型匹配符 `tag`

css selector 匹配符 `css`

xpath 匹配符 `xpath`

selenium 的 loc 元组

5.2.4 相对定位