全网整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:400-708-3566

Python爬虫性能调优技巧_减少IO与连接复用【技巧】

必须使用 requests.Session() 复用连接池以避免重复 TCP/TLS 握手,配合 aiohttp.AsyncResolver 和超时拆分(connect/read)可显著降低高频请求延迟。

requests.Session() 必须用,别每次 new 一个 client

HTTP 连接建立开销远大于发送请求本身,反复创建 requests.get() 会触发 TCP 三次握手 + TLS 握手(HTTPS),尤其在高频请求时延迟飙升。用 Session 复用底层连接池,自动保持 Keep-Alive。

  • 默认 Session 启用连接池(pool_connections=10, pool_maxsize=10),足够多数爬虫场景
  • 若并发高(如 >50 路请求),显式调大 pool_maxsize,否则会阻塞在连接获取上
  • 别在循环里反复 session = requests.Session() —— 这等于没用
session = requests.Session()
session.mount('https://', requests.adapters.HTTPAdapter(pool_maxsize=20))
for url in urls:
    resp = session.get(url, timeout=5)  # 复用连接,非新建

异步 HTTP(aiohttp)比多线程 requests 更省资源

当目标站点响应快、IO 密集(比如爬 1000 个轻量 API),用 threading + requests 会因 GIL 和线程切换反而拖慢;而 aiohttp 单线程即可并发数百请求,内存和 CPU 占用更低。

  • aiohttp.ClientSession 同样复用连接,但需配合 async/await
  • 注意 DNS 解析默认是同步阻塞的,加 connector = aiohttp.TCPConnector(resolver=aiohttp.AsyncResolver()) 避免卡住
  • 别混用 time.sleep() —— 必须用 await asyncio.sleep()
import aiohttp
import asyncio

async def fetch(session, url): async with session.get(url, timeout=5) as resp: return await resp.text()

async def main(): connector = aiohttp.TCPConnector(resolver=aiohttp.AsyncResolver()) async with aiohttp.ClientSession(connector=connector) as session: tasks = [fetch(session, url) for url in urls] results = await asyncio.gather(*tasks)

别让 DNS 查询成为瓶颈

每次请求都走系统 DNS 解析?尤其用 IP 池或固定域名时,重复查 example.com → 93.184.216.34 很浪费。requests 和 aiohttp 默认不缓存解析结果。

  • requests:用 requests-toolbeltHostHeaderSSLAdapter 不解决问题;更直接的是预解析 + headers={'Host': 'example.com'} + 直连 IP
  • aiohttp:启用 use_dns_cache=True(默认已开),但首次仍需解析;可手动 socket.gethostbyname('example.com') 后拼 http://IP/ 并设 Host
  • 注意 HTTPS 直连 IP 会校验失败,得关 SSL 验证(不推荐)或用 SNI 手动指定 —— 大多数情况不如用域名 + DNS 缓存

超时与重试必须精细控制,否则 IO 卡死

没设 timeout?一个慢接口就能让整个线程/协程挂住几十秒;盲目重试?可能放大服务压力或触发封禁。

  • 拆分 timeout:requests.get(url, timeout=(3.05, 27)) 表示 connect ≤ 3.05s,read ≤ 27s —— 避免 DNS 慢+连接快但响应慢的误判
  • requests:用 urllib3.util.Retry 控制重试逻辑,禁用对 POST 的自动重试(非幂等)
  • aiohttp:无内置重试,需自己封装,注意别用 while True 无限重试,加指数退避和最大次数
  • 别全局设 timeout=0.1 —— 网络抖动时大量失败,实际吞吐反而下降

真正卡性能的地方,往往不是解析 HTML,而是连接建立、DNS 查询、TLS 握手这些“看不见”的环节。把 Session 复用、DNS 缓存、超时拆分这三件事做扎实,比优化 XPath 表达式有用十倍。


# python  # html  # ssl  # session  # ai  # keep-alive  # 爬虫  # dns 


相关文章: 如何在阿里云ECS服务器部署织梦CMS网站?  用v-html解决Vue.js渲染中html标签不被解析的问题  整蛊网站制作软件,手机不停的收到各种网站的验证码短信,是手机病毒还是人为恶搞?有这种手机病毒吗?  如何破解联通资金短缺导致的基站建设难题?  公司网站制作费用多少,为公司建立一个网站需要哪些费用?  已有域名如何免费搭建网站?  网站制作费用多少钱,一个网站的运营,需要哪些费用?  详解ASP.NET 生成二维码实例(采用ThoughtWorks.QRCode和QrCode.Net两种方式)  义乌企业网站制作公司,请问义乌比较好的批发小商品的网站是什么?  猪八戒网站制作视频,开发一个猪八戒网站,大约需要多少?或者自己请程序员,需要什么程序员,多少程序员能完成?  北京专业网站制作设计师招聘,北京白云观官方网站?  建站之星安装路径如何正确选择及配置?  公司网站建设制作费用,想建设一个属于自己的企业网站,该如何去做?  无锡营销型网站制作公司,无锡网选车牌流程?  建站之星如何开启自定义404页面避免用户流失?  香港服务器建站指南:免备案优势与SEO优化技巧全解析  家族网站制作贴纸教程视频,用豆子做粘帖画怎么制作?  建站上传速度慢?如何优化加速网站加载效率?  网站制作公司,橙子建站是合法的吗?  网页设计网站制作软件,microsoft office哪个可以创建网页?  北京建设网站制作公司,北京古代建筑博物馆预约官网?  如何选择高性价比服务器搭建个人网站?  如何用西部建站助手快速创建专业网站?  整人网站在线制作软件,整蛊网站退不出去必须要打我是白痴才能出去?  网站网页制作专业公司,怎样制作自己的网页?  如何在阿里云虚拟主机上快速搭建个人网站?  制作网站的基本流程,设计网站的软件是什么?  浙江网站制作公司有哪些,浙江栢塑信息技术有限公司定制网站做的怎么样?  建站主机如何安装配置?新手必看操作指南  网站制作壁纸教程视频,电脑壁纸网站?  建站一年半SEO优化实战指南:核心词挖掘与长尾流量提升策略  如何在阿里云部署织梦网站?  网站网页制作电话怎么打,怎样安装和使用钉钉软件免费打电话?  Swift开发中switch语句值绑定模式  Bpmn 2.0的XML文件怎么画流程图  企业在线网站设计制作流程,想建设一个属于自己的企业网站,该如何去做?  开心动漫网站制作软件下载,十分开心动画为何停播?  如何挑选优质建站一级代理提升网站排名?  建站主机服务器选型指南与性能优化方案解析  成都网站制作价格表,现在成都广电的单独网络宽带有多少的,资费是什么情况呢?  制作企业网站建设方案,怎样建设一个公司网站?  C#如何在一个XML文件中查找并替换文本内容  公司网站制作价格怎么算,公司办个官网需要多少钱?  如何在橙子建站上传落地页?操作指南详解  如何安全更换建站之星模板并保留数据?  阿里云网站搭建费用解析:服务器价格与建站成本优化指南  桂林网站制作公司有哪些,桂林马拉松怎么报名?  建站主机核心功能解析:服务器选择与网站搭建流程指南  如何通过商城自助建站源码实现零基础高效建站?  如何在阿里云服务器自主搭建网站? 

您的项目需求

*请认真填写需求信息,我们会在24小时内与您取得联系。