python 爬虫解决403禁止访问错误

在Python写爬虫的时候,html.getcode()会遇到403禁止访问的问题,这是网站对自动化爬虫的禁止,要解决这个问题,需要用到python的模块urllib2模块
urllib2模块是属于一个进阶的爬虫抓取模块,有非常多的方法,比方说连接url=//www./qysh123对于这个连接就有可能出现403禁止访问的问题
解决这个问题,需要以下几步骤:
<span style="font-size:18px;">req = urllib2.Request(url)
req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36")
req.add_header("GET",url)
req.add_header("Host","blog.csdn.net")
req.add_header("Referer","//www./")
其中User-Agent是浏览器特有的属性,通过浏览器查看源代码就可以查看到
然后
html=urllib2.urlopen(req) print html.read()
就可以把网页代码全部下载下来,而没有了403禁止访问的问题。
对于以上问题,可以封装成函数,供以后调用方便使用,具体代码:
#-*-coding:utf-8-*-
import urllib2
import random
url="//www./article/1.htm"
my_headers=["Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36",
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36",
"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0"
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/537.75.14",
"Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Win64; x64; Trident/6.0)"
]
def get_content(url,headers):
'''''
@获取403禁止访问的网页
'''
randdom_header=random.choice(headers)
req=urllib2.Request(url)
req.add_header("User-Agent",randdom_header)
req.add_header("Host","blog.csdn.net")
req.add_header("Referer","//www./")
req.add_header("GET",url)
content=urllib2.urlopen(req).read()
return content
print get_content(url,my_headers)
其中用到了random随机函数,自动获取已经写好的浏览器类型的User-Agent信息,在自定义函数中需要写出自己的Host,Referer,GET信息等,解决这几个问题,就可以顺利访问了,不再出现403访问的信息。
当然如果访问频率过快的话,有些网站还是会过滤的,解决这个需要用到代理IP的方法。。。具体的自己解决
感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!
# python爬虫解决403禁止访问错误
# python爬虫403错误
# python爬虫遇到403错误的问题及解决
# Python爬虫403错误的终极解决方案
# python爬虫脚本HTTP 403 Forbidden错误怎么办?(实战经验总
# 就可以
# 解决这个问题
# 自己的
# 进阶
# 这是
# 就有
# 希望能
# 自定义
# 特有的
# 谢谢大家
# 这几个
# 过快
# 可能出现
# 写好
# 源代码
# 比方说
# 没有了
# 网页代码
# add_header
# User
相关文章:
在线制作视频网站免费,都有哪些好的动漫网站?
零基础网站服务器架设实战:轻量应用与域名解析配置指南
如何通过远程VPS快速搭建个人网站?
阿里云网站制作公司,阿里云快速搭建网站好用吗?
可靠的网站设计制作软件,做网站设计需要什么样的电脑配置?
Python文件管理规范_工程实践说明【指导】
相册网站制作软件,图片上的网址怎么复制?
如何快速查询域名建站关键信息?
攀枝花网站建设,攀枝花营业执照网上怎么年审?
手机网站制作平台,手机靓号代理商怎么制作属于自己的手机靓号网站?
如何配置支付宝与微信支付功能?
TestNG的testng.xml配置文件怎么写
网站制作培训多少钱一个月,网站优化seo培训课程有哪些?
宿州网站制作公司兴策,安徽省低保查询网站?
学校建站服务器如何选型才能满足性能需求?
建站之星如何通过成品分离优化网站效率?
如何在云主机快速搭建网站站点?
如何通过虚拟主机快速完成网站搭建?
云南网站制作公司有哪些,云南最好的招聘网站是哪个?
如何选择高效响应式自助建站源码系统?
小型网站制作HTML,*游戏网站怎么搭建?
建站之星CMS五站合一模板配置与SEO优化指南
微信网站制作公司有哪些,民生银行办理公司开户怎么在微信网页上查询进度?
开封网站制作公司,网络用语开封是什么意思?
建站主机数据库如何配置才能提升网站性能?
胶州企业网站制作公司,青岛石头网络科技有限公司怎么样?
如何在云主机上快速搭建网站?
弹幕视频网站制作教程下载,弹幕视频网站是什么意思?
,在苏州找工作,上哪个网站比较好?
如何注册花生壳免费域名并搭建个人网站?
c# Task.ConfigureAwait(true) 在什么场景下是必须的
长沙做网站要多少钱,长沙国安网络怎么样?
如何通过虚拟机搭建网站?详细步骤解析
公众号网站制作网页,微信公众号怎么制作?
学生网站制作软件,一个12岁的学生写小说,应该去什么样的网站?
外贸公司网站制作,外贸网站建设一般有哪些步骤?
建站之星后台管理如何实现高效配置?
济南专业网站制作公司,济南信息工程学校怎么样?
Avalonia如何实现跨窗口通信 Avalonia窗口间数据传递
建站之星官网登录失败?如何快速解决?
如何选择CMS系统实现快速建站与SEO优化?
做企业网站制作流程,企业网站制作基本流程有哪些?
交易网站制作流程,我想开通一个网站,注册一个交易网址,需要那些手续?
如何快速搭建高效简练网站?
如何在阿里云虚拟服务器快速搭建网站?
网站制作公司排行榜,四大门户网站排名?
如何用PHP快速搭建高效网站?分步指南
北京制作网站的公司排名,北京三快科技有限公司是做什么?北京三快科技?
XML的“混合内容”是什么 怎么用DTD或XSD定义
如何高效完成独享虚拟主机建站?
*请认真填写需求信息,我们会在24小时内与您取得联系。