先读取文本内容,再根据结构选择字符串处理、正则表达式或专用库提取信息。1. 读取文件或字符串变量;2. 用split()、find()等方法提取固定格式信息;3. 用re.findall()提取邮箱、电话、日期等规律性信息;4. 对JSON、HTML、PDF等结构化文本分别使用json、BeautifulSoup、PyPDF2等工具解析后提取。
提取文本信息在Python中很常见,
主要根据文本来源和结构选择合适的方法。核心思路是读取文本内容后,用字符串处理、正则表达式或专用库进行信息抽取。
先将文本加载到程序中,常见方式有读取文件或处理字符串变量。
示例:with open('text.txt', 'r', encoding='utf-8') as f:
text = f.read()
text = "这里是需要提取信息的文本内容"
适用于格式固定的文本,比如提取关键词前后的内容。
title = text.split("标题:")[1].split("\n")[0]
start = text.find("电话:") + 3
end = text.find("\n", start)
phone = text[start:end]
适合提取电话号码、邮箱、日期等有规律的信息。
示例:import re
emails = re.findall(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', text)
phones = re.findall(r'1[3-9]\d{9}', text)
dates = re.findall(r'\d{4}-\d{2}-\d{2}', text)
不同格式需用对应工具解析后再提取。
import json data = json.loads(text) value = data['key']
from bs4 import BeautifulSoup
soup = BeautifulSoup(text, 'html.parser')
titles = soup.find_all('h1')
import PyPDF2
reader = PyPDF2.PdfReader('file.pdf')
text = reader.pages[0].extract_text()
# python
# html
# js
# json
# 正则表达式
# 工具
# ai
# pdf
# 邮箱
# 2025
相关文章:
招商网站制作流程,网站招商广告语?
高防服务器租用如何选择配置与防御等级?
寿县云建站:智能SEO优化与多行业模板快速上线指南
建站之星与建站宝盒如何选择最佳方案?
建站之星如何快速生成多端适配网站?
建站主机默认首页配置指南:核心功能与访问路径优化
如何在阿里云域名上完成建站全流程?
新网站制作渠道有哪些,跪求一个无线渠道比较强的小说网站,我要发表小说?
惠州网站建设制作推广,惠州市华视达文化传媒有限公司怎么样?
如何通过VPS建站无需域名直接访问?
如何处理“XML格式不正确”错误 常见XML well-formed问题解决方法
建站之星CMS建站配置指南:模板选择与SEO优化技巧
建站之星如何防范黑客攻击与数据泄露?
建站中国官网:模板定制+SEO优化+建站流程一站式指南
网站图片在线制作软件,怎么在图片上做链接?
湖州网站制作公司有哪些,浙江中蓝新能源公司官网?
建站主机SSH密钥生成步骤及常见问题解答?
常州企业建站如何选择最佳模板?
装修招标网站设计制作流程,装修招标流程?
车管所网站制作流程,交警当场开简易程序处罚决定书,在交警网站查询不到怎么办?
定制建站价位费用解析与套餐推荐全攻略
专业制作网站的公司哪家好,建立一个公司网站的费用.有哪些部分,分别要多少钱?
专业网站制作服务公司,有哪些网站可以免费发布招聘信息?
如何用IIS7快速搭建并优化网站站点?
网站专业制作公司有哪些,做一个公司网站要多少钱?
简单实现Android文件上传
怀化网站制作公司,怀化新生儿上户网上办理流程?
,网站推广常用方法?
个人网站制作流程图片大全,个人网站如何注销?
定制建站策划方案_专业建站与网站建设方案一站式指南
如何使用Golang table-driven基准测试_多组数据测量函数效率
如何在腾讯云免费申请建站?
JS中使用new Date(str)创建时间对象不兼容firefox和ie的解决方法(两种)
利用JavaScript实现拖拽改变元素大小
如何通过云梦建站系统实现SEO快速优化?
在线ppt制作网站有哪些软件,如何把网页的内容做成ppt?
详解免费开源的.NET多类型文件解压缩组件SharpZipLib(.NET组件介绍之七)
如何通过老薛主机一键快速建站?
如何彻底卸载建站之星软件?
高防网站服务器:DDoS防御与BGP线路的AI智能防护方案
怎么制作网站设计模板图片,有电商商品详情页面的免费模板素材网站推荐吗?
建站之星后台管理如何实现高效配置?
头像制作网站在线制作软件,dw网页背景图像怎么设置?
国美网站制作流程,国美电器蒸汽鍋怎么用官方网站?
如何用wdcp快速搭建高效网站?
如何在万网ECS上快速搭建专属网站?
北京建设网站制作公司,北京古代建筑博物馆预约官网?
成都响应式网站开发,dw怎么把手机适应页面变成网页?
深圳网站制作费用多少钱,读秀,深圳文献港这样的网站很多只提供网上试读,但有些人只要提供试读的文章就能全篇下载,这个是怎么弄的?
番禺网站制作公司哪家值得合作,番禺图书馆新馆开放了吗?
*请认真填写需求信息,我们会在24小时内与您取得联系。