有一句古老的格言是这样说的,如果你向某人提供你的全部支持和金融支持去做一些不同的和创新的事情,他们最终却会做别人正在做的事情。如比较火爆的Hadoop、Spark和Storm,每个人都认为他们正在做一些与这些新的大数据技术相关的事情,但它不需要很长的时间遇到相同的模式。具体的实施可能有所不同,但根据我的经验,它们是最常见的七种项目。
项目一:数据整合
称之为“企业级数据中心”或“数据湖”,这个想法是你有不同的数据源,你想对它们进行数据分析。这类项目包括从所有来源获得数据源(实时或批处理)并且把它们存储在hadoop中。有时,这是成为一个“数据驱动的公司”的第一步;有时,或许你仅仅需要一份漂亮的报告。“企业级数据中心”通常由HDFS文件系统和HIVE或IMPALA中的表组成。未来,HBase和Phoenix在大数据整合方面将大展拳脚,打开一个新的局面,创建出全新的数据美丽新世界。
销售人员喜欢说“读模式”,但事实上,要取得成功,你必须清楚的了解自己的用例将是什么(Hive模式不会看起来与你在企业数据仓库中所做的不一样)。真实的原因是一个数据湖比Teradata和Netezza公司有更强的水平扩展性和低得多的成本。许多人在做前端分析时使用Tabelu和Excel。许多复杂的公司以“数据科学家”用Zeppelin或IPython笔记本作为前端。
项目二:专业分析
许多数据整合项目实际上是从你特殊的需求和某一数据集系统的分析开始的。这些往往是令人难以置信的特定领域,如在银行领域的流动性风险/蒙特卡罗模拟分析。在过去,这种专业的分析依赖于过时的,专有的软件包,无法扩大数据的规模经常遭受一个有限的功能集(大部分是因为软件厂商不可能像专业机构那样了解的那么多)。
在Hadoop和Spark的世界,看看这些系统大致相同的数据整合系统,但往往有更多的HBase,定制非SQL代码,和更少的数据来源(如果不是唯一的)。他们越来越多地以Spark为基础。
项目三:Hadoop作为一种服务
在“专业分析”项目的任何大型组织(讽刺的是,一个或两个“数据整理”项目)他们会不可避免地开始感觉“快乐”(即,疼痛)管理几个不同配置的Hadoop集群,有时从不同的供应商。接下来,他们会说,“也许我们应该整合这些资源池,”而不是大部分时间让大部分节点处于资源闲置状态。它们应该组成云计算,但许多公司经常会因为安全的原因(内部政治和工作保护)不能或不会。这通常意味着很多Docker容器包。
我没有使用它,但最近Bluedata(蓝色数据国际中心)似乎有一个解决方案,这也会吸引小企业缺乏足够的资金来部署Hadoop作为一种服务。
项目四:流分析
很多人会把这个“流”,但流分析是不同的,从设备流。通常,流分析是一个组织在批处理中的实时版本。以反洗钱和欺诈检测:为什么不在交易的基础上,抓住它发生而不是在一个周期结束?同样的库存管理或其他任何。
在某些情况下,这是一种新的类型的交易系统,分析数据位的位,因为你将它并联到一个分析系统中。这些系统证明自己如Spark或Storm与Hbase作为常用的数据存储。请注意,流分析并不能取代所有形式的分析,对某些你从未考虑过的事情而言,你仍然希望分析历史趋势或看过去的数据。
项目五:复杂事件处理
在这里,我们谈论的是亚秒级的实时事件处理。虽然还没有足够快的超低延迟(皮秒或纳秒)的应用,如高端的交易系统,你可以期待毫秒响应时间。例子包括对事物或事件的互联网电信运营商处理的呼叫数据记录的实时评价。有时,你会看到这样的系统使用Spark和HBase——但他们一般落在他们的脸上,必须转换成Storm,这是基于由LMAX交易所开发的干扰模式。
在过去,这样的系统已经基于定制的消息或高性能,从货架上,客户端-服务器消息产品-但今天的数据量太多了。我还没有使用它,但Apex项目看起来很有前途,声称要比Storm快。
项目六:ETL流
有时你想捕捉流数据并把它们存储起来。这些项目通常与1号或2号重合,但增加了各自的范围和特点。(有些人认为他们是4号或5号,但他们实际上是在向磁盘倾倒和分析数据。),这些几乎都是Kafka和Storm项目。Spark也使用,但没有理由,因为你不需要在内存分析。
项目七:更换或增加SAS
SAS是精细,是好的但SAS也很贵,我们不需要为你的数据科学家和分析师买存储你就可以“玩”数据。此外,除SAS可以做或产生漂亮的图形分析外,你还可以做一些不同的事情。这是你的“数据湖”。这里是IPython笔记本(现在)和Zeppelin(以后)。我们用SAS存储结果。
当我每天看到其他不同类型的Hadoop,Spark,或Storm项目,这些都是正常的。如果你使用Hadoop,你可能了解它们。几年前我已经实施了这些项目中的部分案例,使用的是其它技术。
如果你是一个老前辈太害怕“大”或“做”大数据Hadoop,不要担心。事情越变越多,但本质保持不变。你会发现很多相似之处的东西你用来部署和时髦的技术都是围绕Hadooposphere旋转的。
原文作者:Andrew C. Oliver,Andrew C. Oliver是一个专业的牧猫人兼职为一个软件顾问。他是MammothData的总裁和创始人(原开放软件集成商),一个坐落于达勒姆,北卡罗来纳州的大数据咨询公司。
总结
本文关于浅谈七种常见的Hadoop和Spark项目案例的介绍就到这里,希望对大家有所帮助。感谢朋友们对本站的支持!
# hadoop
# spark
# 项目案例
# linux环境不使用hadoop安装单机版spark的方法
# Spark简介以及与Hadoop对比分析
# 是一个
# 的是
# 这是
# 都是
# 如果你
# 是在
# 北卡罗来纳州
# 批处理
# 不需
# 七种
# 自己的
# 他们的
# 几个
# 互联网
# 在这里
# 是因为
# 还没
# 我还
# 你可以
# 他是
相关文章:
如何解决VPS建站LNMP环境配置常见问题?
制作网站怎么制作,*游戏网站怎么搭建?
网站制作的方法有哪些,如何将自己制作的网站发布到网上?
如何选择PHP开源工具快速搭建网站?
沈阳制作网站公司排名,沈阳装饰协会官方网站?
常州自助建站:操作简便模板丰富,企业个人快速搭建网站
如何在阿里云通过域名搭建网站?
如何用已有域名快速搭建网站?
昆明高端网站制作公司,昆明公租房申请网上登录入口?
已有域名能否直接搭建网站?
建站一年半SEO优化实战指南:核心词挖掘与长尾流量提升策略
制作网站的过程怎么写,用凡科建站如何制作自己的网站?
建站VPS能否同时实现高效与安全翻墙?
矢量图网站制作软件,用千图网的一张矢量图做公司app首页,该网站并未说明版权等问题,这样做算不算侵权?应该如何解决?
如何在建站之星网店版论坛获取技术支持?
c# Task.ConfigureAwait(true) 在什么场景下是必须的
seo网站制作优化,网站SEO优化步骤有哪些?
公司门户网站制作流程,华为官网怎么做?
如何用西部建站助手快速创建专业网站?
如何用狗爹虚拟主机快速搭建网站?
php8.4新语法match怎么用_php8.4match表达式替代switch【方法】
Python如何创建带属性的XML节点
网站制作网站,深圳做网站哪家比较好?
设计网站制作公司有哪些,制作网页教程?
网站制作的软件有哪些,制作微信公众号除了秀米还有哪些比较好用的平台?
武汉网站设计制作公司,武汉有哪些比较大的同城网站或论坛,就是里面都是武汉人的?
宁波免费建站如何选择可靠模板与平台?
,制作一个手机app网站要多少钱?
外汇网站制作流程,如何在工商银行网站上做外汇买卖?
实例解析Array和String方法
学校免费自助建站系统:智能生成+拖拽设计+多端适配
如何用y主机助手快速搭建网站?
Android使用GridView实现日历的简单功能
如何挑选高效建站主机与优质域名?
建站之星安装失败:服务器环境不兼容?
宝塔建站助手安装配置与建站模板使用全流程解析
C++如何将C风格字符串(char*)转换为std::string?(代码示例)
如何快速查询域名建站关键信息?
浅谈Javascript中的Label语句
常州企业建站如何选择最佳模板?
建站之星会员如何解锁更多建站功能?
建站之星如何取消后台验证码生成?
手机网站制作与建设方案,手机网站如何建设?
网页设计网站制作软件,microsoft office哪个可以创建网页?
制作网站的公司有哪些,做一个公司网站要多少钱?
如何在IIS7上新建站点并设置安全权限?
如何选择建站程序?包含哪些必备功能与类型?
官网网站制作腾讯审核要多久,联想路由器newifi官网
网站制作大概多少钱一个,做一个平台网站大概多少钱?
南宁网站建设制作定制,南宁网站建设可以定制吗?
*请认真填写需求信息,我们会在24小时内与您取得联系。