全网整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:400-708-3566

python 爬虫出现403禁止访问错误详解

python 爬虫解决403禁止访问错误

在Python写爬虫的时候,html.getcode()会遇到403禁止访问的问题,这是网站对自动化爬虫的禁止,要解决这个问题,需要用到python的模块urllib2模块

urllib2模块是属于一个进阶的爬虫抓取模块,有非常多的方法,比方说连接url=//www./qysh123对于这个连接就有可能出现403禁止访问的问题

解决这个问题,需要以下几步骤:

<span style="font-size:18px;">req = urllib2.Request(url) 
req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36") 
req.add_header("GET",url) 
req.add_header("Host","blog.csdn.net") 
req.add_header("Referer","//www./")

其中User-Agent是浏览器特有的属性,通过浏览器查看源代码就可以查看到

然后

html=urllib2.urlopen(req)


print html.read()

就可以把网页代码全部下载下来,而没有了403禁止访问的问题。

对于以上问题,可以封装成函数,供以后调用方便使用,具体代码:

#-*-coding:utf-8-*- 
 
import urllib2 
import random 
 
url="//www./article/1.htm" 
 
my_headers=["Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36", 
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36", 
"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0" 
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/537.75.14", 
"Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Win64; x64; Trident/6.0)" 
  
] 
def get_content(url,headers): 
 ''''' 
 @获取403禁止访问的网页 
 ''' 
 randdom_header=random.choice(headers) 
 
 req=urllib2.Request(url) 
 req.add_header("User-Agent",randdom_header) 
 req.add_header("Host","blog.csdn.net") 
 req.add_header("Referer","//www./") 
 req.add_header("GET",url) 
 
 content=urllib2.urlopen(req).read() 
 return content 
 
print get_content(url,my_headers) 

其中用到了random随机函数,自动获取已经写好的浏览器类型的User-Agent信息,在自定义函数中需要写出自己的Host,Referer,GET信息等,解决这几个问题,就可以顺利访问了,不再出现403访问的信息。

当然如果访问频率过快的话,有些网站还是会过滤的,解决这个需要用到代理IP的方法。。。具体的自己解决

感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!


# python爬虫解决403禁止访问错误  # python爬虫403错误  # python爬虫遇到403错误的问题及解决  # Python爬虫403错误的终极解决方案  # python爬虫脚本HTTP 403 Forbidden错误怎么办?(实战经验总  # 就可以  # 解决这个问题  # 自己的  # 进阶  # 这是  # 就有  # 希望能  # 自定义  # 特有的  # 谢谢大家  # 这几个  # 过快  # 可能出现  # 写好  # 源代码  # 比方说  # 没有了  # 网页代码  # add_header  # User 


相关文章: 在线制作视频网站免费,都有哪些好的动漫网站?  零基础网站服务器架设实战:轻量应用与域名解析配置指南  如何通过远程VPS快速搭建个人网站?  阿里云网站制作公司,阿里云快速搭建网站好用吗?  可靠的网站设计制作软件,做网站设计需要什么样的电脑配置?  Python文件管理规范_工程实践说明【指导】  相册网站制作软件,图片上的网址怎么复制?  如何快速查询域名建站关键信息?  攀枝花网站建设,攀枝花营业执照网上怎么年审?  手机网站制作平台,手机靓号代理商怎么制作属于自己的手机靓号网站?  如何配置支付宝与微信支付功能?  TestNG的testng.xml配置文件怎么写  网站制作培训多少钱一个月,网站优化seo培训课程有哪些?  宿州网站制作公司兴策,安徽省低保查询网站?  学校建站服务器如何选型才能满足性能需求?  建站之星如何通过成品分离优化网站效率?  如何在云主机快速搭建网站站点?  如何通过虚拟主机快速完成网站搭建?  云南网站制作公司有哪些,云南最好的招聘网站是哪个?  如何选择高效响应式自助建站源码系统?  小型网站制作HTML,*游戏网站怎么搭建?  建站之星CMS五站合一模板配置与SEO优化指南  微信网站制作公司有哪些,民生银行办理公司开户怎么在微信网页上查询进度?  开封网站制作公司,网络用语开封是什么意思?  建站主机数据库如何配置才能提升网站性能?  胶州企业网站制作公司,青岛石头网络科技有限公司怎么样?  如何在云主机上快速搭建网站?  弹幕视频网站制作教程下载,弹幕视频网站是什么意思?  ,在苏州找工作,上哪个网站比较好?  如何注册花生壳免费域名并搭建个人网站?  c# Task.ConfigureAwait(true) 在什么场景下是必须的  长沙做网站要多少钱,长沙国安网络怎么样?  如何通过虚拟机搭建网站?详细步骤解析  公众号网站制作网页,微信公众号怎么制作?  学生网站制作软件,一个12岁的学生写小说,应该去什么样的网站?  外贸公司网站制作,外贸网站建设一般有哪些步骤?  建站之星后台管理如何实现高效配置?  济南专业网站制作公司,济南信息工程学校怎么样?  Avalonia如何实现跨窗口通信 Avalonia窗口间数据传递  建站之星官网登录失败?如何快速解决?  如何选择CMS系统实现快速建站与SEO优化?  做企业网站制作流程,企业网站制作基本流程有哪些?  交易网站制作流程,我想开通一个网站,注册一个交易网址,需要那些手续?  如何快速搭建高效简练网站?  如何在阿里云虚拟服务器快速搭建网站?  网站制作公司排行榜,四大门户网站排名?  如何用PHP快速搭建高效网站?分步指南  北京制作网站的公司排名,北京三快科技有限公司是做什么?北京三快科技?  XML的“混合内容”是什么 怎么用DTD或XSD定义  如何高效完成独享虚拟主机建站? 

您的项目需求

*请认真填写需求信息,我们会在24小时内与您取得联系。