全网整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:400-708-3566

Java爬虫Jsoup+httpclient获取动态生成的数据

Java爬虫Jsoup+httpclient获取动态生成的数据

前面我们详细讲了一下Jsoup发现这玩意其实也就那样,只要是可以访问到的静态资源页面都可以直接用他来获取你所需要的数据,详情情跳转-Jsoup爬虫详解,但是很多时候网站为了防止数据被恶意爬取做了很多遮掩,比如说加密啊动态加载啊,这无形中给我们写的爬虫程序造成了很大的困扰,那么我们如何来突破这个梗获取我们急需的数据呢,

下面我们来详细讲解一下如何获取

String startPage="https://item.jd.com/11476104681.html";

Document document = Jsoup.connect(startPage).userAgent
("Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) 
Chrome/52.0.2743.116 Safari/537.36").get();

这时其实已经获取到了整个页面的数据,但是商品价格是通过回调函数获取后再填充上去的,所以这就要求我们写爬虫的开发者要很有耐心的去寻找价格数据的回调接口,我们直接访问这个接口就可以直接获取这个价格,下面是演示:

通过这张截图可以看到他传过来的只是一个静态资源页面根本没有价格参数,那么价格怎么来的呢,继续找发现这个接口:

你会发现在这个接口是很多参数拼接上去的,那么我们要做的就是分析是不是所有的参数都有用

https://p.3.cn/prices/mgets?callback=jQuery9734926&type=1&area=1&pdtk=
pduid=14930020970791835891856&pdpin=jd_6738608ee8eed&pdbp=0&skuIds=J_11476104681&source=item-pc

可以试着删除一些参数发现最终这个接口需要的参数其实很简单:

https://p.3.cn/prices/mgets?callback=jQuery9734926&type=1&area=1&skuIds=J_11476104681&source=item-pc

看到这里是不是很激动了,你其实可以换一些其他的JD商品ID一样能获取到当前价格和最高价格已经那什么价格我也不清楚,我们需要做的只是写一个Httpclient模拟请求这个接口

String doGet = HttpUtils.doGet("https://p.3.cn/prices/mgets?callback=jQuery9734926&type=1&area=1&skuIds=J_"+"11476104681"+"&source=item-pc", null);
System.out.println(doGet);

结果是这样:

jQuery9734926([{"id":"J_11476104681","p":"880.00","m":"980.00","op":"980.00"}]);

至于后面的你直接解析下JSON字符串那么你要的数据就GET到了。

注意一下

这是对回调请求到的数据进行的再请求获取,这只是对前面动态获取商品价格的一个补充,这种情况是价格本身通过主链接没有带到页面上而是加载过程中异步请求填充的,还有的时候是数据带过来了但是有相关的JS进行了相关处理我们还是获取不到,这个时候我们就得通过其他手段来获取这个数据,后面会讲解

将这些Jsoup和httpclient整合成一个爬虫模板完全可以完成你一些基本的爬取数据的操作,至于怎么整合就看个人喜好了。

感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!


# Java爬虫Jsoup+httpclient获取动态生成的数据  # Java爬虫  # Java爬虫Jsoup  # Java中使用开源库JSoup解析HTML文件实例  # java通过Jsoup爬取网页过程详解  # Java爬虫实现爬取京东上的手机搜索页面 HttpCliient+Jsoup  # Java 爬虫工具Jsoup详解  # Java实现爬虫给App提供数据(Jsoup 网络爬虫)  # Java如何导入Jsoup库做一个有趣的爬虫项目  # 回调  # 这是  # 加载  # 我也  # 来了  # 在这个  # 也就  # 你要  # 是这样  # 很有  # 其他的  # 给我们  # 不是很  # 不清楚  # 这就  # 这张  # 希望能  # 要做  # 可以看到  # 可以直接 


相关文章: 建站主机选购指南:核心配置优化与品牌推荐方案  企业在线网站设计制作流程,想建设一个属于自己的企业网站,该如何去做?  建站主机是否属于云主机类型?  如何在IIS中新建站点并配置端口与物理路径?  内网网站制作软件,内网的网站如何发布到外网?  如何用腾讯建站主机快速创建免费网站?  制作无缝贴图网站有哪些,3dmax无缝贴图怎么调?  美食网站链接制作教程视频,哪个教做美食的网站比较专业点?  如何在局域网内绑定自建网站域名?  jQuery 常见小例汇总  建站之星五站合一营销型网站搭建攻略,流量入口全覆盖优化指南  视频网站制作教程,怎么样制作优酷网的小视频?  网页制作模板网站推荐,网页设计海报之类的素材哪里好?  建站之星CMS五站合一模板配置与SEO优化指南  外贸公司网站制作,外贸网站建设一般有哪些步骤?  Android使用GridView实现日历的简单功能  ,巨量百应是干嘛的?  logo在线制作免费网站在线制作好吗,DW网页制作时,如何在网页标题前加上logo?  合肥制作网站的公司有哪些,合肥聚美网络科技有限公司介绍?  制作充值网站的软件,做人力招聘为什么要自己交端口钱?  建站之星如何通过成品分离优化网站效率?  安徽网站建设与外贸建站服务专业定制方案  建站之星安装需要哪些步骤及注意事项?  如何快速生成凡客建站的专业级图册?  网站制作价目表怎么做,珍爱网婚介费用多少?  已有域名如何免费搭建网站?  广州顶尖建站服务:企业官网建设与SEO优化一体化方案  常州企业网站制作公司,全国继续教育网怎么登录?  如何通过FTP空间快速搭建安全高效网站?  东莞专业制作网站的公司,东莞大学生网的网址是什么?  制作门户网站的参考文献在哪,小说网站怎么建立?  如何制作公司的网站链接,公司想做一个网站,一般需要花多少钱?  如何撰写建站申请书?关键要点有哪些?  ppt制作免费网站有哪些,ppt模板免费下载网站?  测试制作网站有哪些,测试性取向的权威测试或者网站?  沈阳制作网站公司排名,沈阳装饰协会官方网站?  怎么将XML数据可视化 D3.js加载XML  如何通过wdcp面板快速创建网站?  广东专业制作网站有哪些,广东省能源集团有限公司官网?  建站主机功能解析:服务器选择与快速搭建指南  如何在阿里云虚拟机上搭建网站?步骤解析与避坑指南  小建面朝正北,A点实际方位是否存在偏差?  深入理解Android中的xmlns:tools属性  c++怎么使用类型萃取type_traits_c++ 模板元编程类型判断【方法】  宁波免费建站如何选择可靠模板与平台?  如何选择高效响应式自助建站源码系统?  公司门户网站制作流程,华为官网怎么做?  建站之星安装后界面空白如何解决?  如何通过建站之星自助学习解决操作问题?  如何通过PHP快速构建高效问答网站功能? 

您的项目需求

*请认真填写需求信息,我们会在24小时内与您取得联系。