Python lxml解析HTML并用xpath获取元素的方法

代码

使用方法见注释

#-*- coding: UTF-8 -*-

from lxml import etree

source = u'''
<div><p class="p1" data-a="1">测试数据1</p>
<p class="p1" data-a="2">测试数据2</p>
<p class="p1" data-a="3" style="height:100px;">
<strong class="s">测试数据3</strong></p>
<p class="p1" data-a="4" width="200"><img src="1.jpg" class="img"/><br/>
图片</p>
'''

# 从字符串解析
page = etree.HTML(source)

# 元素列表
ps = page.xpath("//p")
for p in ps:
  print u"属性：%s" % p.attrib
  print u"文本：%s" % p.text

# 文本列表
ts = page.xpath("//p/text()")
for t in ts:
  print t

# xpath定位
ls = page.xpath('//p[@class="p1"][last()]/img')
for l in ls:
  print l.attrib

以上这篇Python lxml解析HTML并用xpath获取元素的方法就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持我们。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

Python lxml解析HTML并用xpath获取元素的方法

评论(0)

提示：请文明发言取消回复

文章展示

红米 K70 / POCO F6 Pro (vermeer) 台湾版 (台版) (TW) Fastboot 线刷包 & Recovery 卡刷包 ROM

【苹果iPhoneIOS固件】苹果 iPad Air2

玩客云内置 eMMC 存储刷入 armbian

玩客云盒子（OneCloud）刷 Armbian 系统将 armbian 的更新源修改为清华源

华硕路由器梅林固件汇总合集（388版本）

刷回玩客云固件 V2.5.1 刷机教程

Python lxml解析HTML并用xpath获取元素的方法

相关文章

评论(0)

提示：请文明发言 取消回复

标签

文章展示

提示：请文明发言取消回复