推荐使用xml.etree.ElementTree提取href/src/url属性链接,或lxml配合XPath精准匹配多类链接位置;需清洗空格、补全相对路径、过滤非HTTP协议并处理命名空间。
用Python从XML中提取所有链接,核心是解析XML文档并定位含URL的元素(如、、等),再提取其属性值或文本内容。推荐使用内置的xml.etree.ElementTree(轻量、标准库、够用)或第三方库lxml(支持XPath、更灵活、解析HTML混合内容更强)。
适用于结构清晰、链接主要在href、src等属性中的XML(如RSS、自定义配置XML):
ET.parse()读文件,或ET.fromstring()读字符串href属性的元素:用root.iter()遍历所有元素,检查elem.get("href")
src、url、xlink:href等常见链接属性示例代码:
import xml.etree.ElementTree as ETtree = ET.parse("example.xml") root = tree.getroot()
links = [] for elem in root.iter(): href = elem.get("href") or elem.get("src") or elem.get("url") if href and href.startswith(("http://", "https://")): links.append(href)
print(links)
当XML较复杂、需匹配命名空间、或要提取这类文本型链接时,lxml + XPath更可靠:
pip install lxml
//a/@href | //link/@href | //url/text() | //loc/text()一次性匹配多类链接位置xmlns:xhtml="http://www.w3.org/1999/xhtml")示例代码:
from lxml import etreetree = etree.parse("feed.xml")
提取所有href属性 + loc/url元素的文本
expr = '//@href | //@src | //loc/text() | //url/text() | //xhtml:a/@href' links = [link for link in tree.xpath(expr) if isinstance(link, str) and link.strip().startswith(("http://", "https://"))]
print(links)
提取出的链接常含空格、换行、相对路径或无效前缀,建议统一后处理:
.strip()去首尾空白urllib.parse.urljoin(base_url, rel_path)补全相对链接(需提供XML文档所在基础URL)mailto:、tel:、javascript:等非HTTP链接(按需)list(set(links)),但注意保持顺序时改用dict.fromkeys(links)
很多标准XML定义了默认或前缀命名空间,直接用find("link")会失败。正确做法是声明命名空间字典:
ns = {
"rss": "http://purl.org/rss/1.0/",
"atom": "http://www.w3.org/2005/Atom",
"dc": "http://pur
l.org/dc/elements/1.1/"
}
查找Atom中的
for link in root.xpath("//atom:link[@rel='alternate']/@href", namespaces=ns):
print(link)
不复杂但容易忽略。
# javascript
# python
# java
# html
# app
# ai
# 标准库
相关文章:
宝塔建站后网页无法访问如何解决?
一键网站制作软件,义乌购一件代发流程?
北京网站制作网页,网站升级改版需要多久?
网站建设制作需要多少钱费用,自己做一个网站要多少钱,模板一般多少钱?
官网自助建站平台指南:在线制作、快速建站与模板选择全解析
Swift中switch语句区间和元组模式匹配
建站之星如何配置系统实现高效建站?
如何选择服务器才能高效搭建专属网站?
网站插件制作软件免费下载,网页视频怎么下到本地插件?
,在苏州找工作,上哪个网站比较好?
GML (Geography Markup Language)是什么,它如何用XML来表示地理空间信息?
家族网站制作贴纸教程视频,用豆子做粘帖画怎么制作?
深圳网站制作平台,深圳市做网站好的公司有哪些?
c++23 std::expected怎么用 c++优雅处理函数错误返回【详解】
如何快速搭建FTP站点实现文件共享?
建站之星代理如何获取技术支持?
如何在腾讯云服务器快速搭建个人网站?
微信小程序 五星评分(包括半颗星评分)实例代码
怎么用手机制作网站链接,dw怎么把手机适应页面变成网页?
较简单的网站制作软件有哪些,手机版网页制作用什么软件?
重庆市网站制作公司,重庆招聘网站哪个好?
大连企业网站制作公司,大连2025企业社保缴费网上缴费流程?
成都网站制作报价公司,成都工业用气开户费用?
如何通过建站之星自助学习解决操作问题?
武汉外贸网站制作公司,现在武汉外贸前景怎么样啊?
高端企业智能建站程序:SEO优化与响应式模板定制开发
北京制作网站的公司,北京铁路集团官方网站?
创业网站制作流程,创业网站可靠吗?
如何登录建站主机?访问步骤全解析
子杰智能建站系统|零代码开发与AI生成SEO优化指南
网站制作模板下载什么软件,ppt模板免费下载网站?
名字制作网站免费,所有小说网站的名字?
5种Android数据存储方式汇总
专业的网站制作设计是什么,如何制作一个企业网站,建设网站的基本步骤有哪些?
如何通过FTP空间快速搭建安全高效网站?
Android自定义listview布局实现上拉加载下拉刷新功能
企业网站制作费用多少,企业网站空间一般需要多大,费用是多少?
,网站推广常用方法?
javascript中对象的定义、使用以及对象和原型链操作小结
建站之星备案流程有哪些注意事项?
正规网站制作公司有哪些,目前国内哪家网页网站制作设计公司比较专业靠谱?口碑好?
如何快速生成高效建站系统源代码?
非常酷的网站设计制作软件,酷培ai教育官方网站?
免费制作小说封面的网站有哪些,怎么接网站批量的封面单?
建站之星导航配置指南:自助建站与SEO优化全解析
,南京靠谱的征婚网站?
如何用景安虚拟主机手机版绑定域名建站?
建站之星上传入口如何快速找到?
如何快速生成ASP一键建站模板并优化安全性?
建站之星五站合一营销型网站搭建攻略,流量入口全覆盖优化指南
*请认真填写需求信息,我们会在24小时内与您取得联系。