DOITAPP
DOIT数据智能产业媒体与服务平台
立即打开
DOITAPP
DOIT数据智能产业媒体与服务平台
立即打开

戴尔存储加Cloudera大数据分析,是堪比电影和爆米花的黄金搭档

上世纪早期,受限于放映技术和放映条件限制,早期有许多电影都是在剧院进行放映的,而且,由于早期的电影都是没有声音的,当时的观影场所经常庄重而肃穆。然而,随着电影技术的发展,包括有声电影的出现,观影场所的氛围与以往大不相同。

该图片由OpenClipart-VectorsPixabay上发布

同时,在经济危机的冲击之下,影院面临着经营压力,为了增加营收,许多影院开始售卖爆米花,很快,在电影院营收财务数据中,爆米花的收入和门票收入都变得非常重要,看电影时手捧爆米花成了电影观众风靡全球的标准操作,直到2021年也是如此。

影院和爆米花的结合可谓是最佳拍档,客观上推动了院线的经营和发展。长远来看,由于它可以补贴票价,让更多观众愿意走进电影院,或多或少对于电影文化的传播乃至电影产业的发展起到了积极作用。

而在最近,全球最大的企业级存储企业戴尔科技集团宣布存储平台PowerScale,通过了企业大数据分析平台Cloudera最严苛的QATS认证,戴尔的存储平台和Cloudera的结合契合度非常高,两者的强强联合成立造就了数据经济时代的一对最佳拍档,堪比电影和爆米花。

存储平台与数据分析平台的紧密结合

PowerScale是戴尔在2010年推出的NAS文件存储平台,是久经考验的Isilon存储平台的续作,是最具代表性的横向扩展NAS。在如今非结构化数据大爆炸的年代,PowerScale这种非结构化数据存储平台,在全球范围内得到了越来越多的应用。

企业都明白,数据只是存起来是不够的,要有用起来才更有价值。

于是,企业都想变成大数据驱动型组织,因为这种组织更容易获得客户资源,更容易留下老客户,更容易提高市场份额,也就是说,擅长利用大数据的企业往往活的更好。但是想变成大数据驱动型组织挺难,需要解决数据安全性、数据治理等各种问题。

Cloudera是Hadoop生态系统中的典型代表,规模非常大、知名度非常高,它为Hadoop发行版开发了很多功能,如今正在提供企业级数据交互的软件平台,能让企业以更快的速度和更低的成本来存储、运行和分析数据。

Cloudera的迭代速度,这是好事也是麻烦事儿,企业在使用了某版本的引擎之后,如果在未来又想用新引擎,则需要在技术上和业务上重新做许多梳理和对应工作。Cloudera和戴尔的合作就是要解决大数据分析平台中碰到的问题,帮助企业减少投资并提高生产效率。

2021年4月,戴尔的PowerScale存储平台通过了Cloudera最严苛的,同时也是最高级的QATS认证,目前,全球仅有两家存储公司获得该项认证,需要认证双方都投入大量的人力、物力、时间和精力。

戴尔科技集团大中华区非结构化数据存储事业部高级经理李海介绍说,QATS不是简单的兼容性认证,它需要在用户的实际环境中进行模拟,需要使用Cloudera CDP里全部模块,需要按照用户的整个流程步骤来验证所有软硬件,最终确保每一个环节都能顺畅提供服务。

如果选择了戴尔PowerScale存储,如果使用的是Cloudera CDP数据平台,那么恭喜你,两种组合方案会有体验加成,能享受到更丝滑的使用体验。

这种区别就好比品牌笔记本电脑和DIY组装机的区别,后者可能会存在软硬件兼容性问题,而品牌笔记本电脑在出厂时候就在软硬件上做了最合理的配置,无需额外配置即可进入最佳状态,这正是QATS追求的效果。

对用户来说,PowerScale是非常适合数据分析的基础架构

PowerScale是戴尔的NAS文件存储,是老牌存储阵列,对用户来说,PowerScale是什么呢?

PowerScale是一个能从3节点,10TB起步的可横向扩展的存储系统,哪怕数据量很少的企业也适合用它。10TB什么水平呢?话说笔者的个人台式电脑都快20TB的存储空间了。

PowerScale是一个容量上限很大的存储系统,最多可扩展到252个节点,容量最高可达将近100PB的水平,这么多的数据管理起来也不麻烦,甚至可以放在单一命名空间里进行管理,很方便。

PowerScale非常成熟,可用的应用非常多。李海表示,PowerScale有各种工具和软件,在数据治理、数据安全、数据访问方面都非常成熟。

PowerScale非常适合作为大数据平台的基础架构。PowerScale跟Hadoop更搭,与额外使用插件来构建的访问方式不同,PowerScale的文件系统原生支持HDFS,能大幅提升大数据访问效率。

有了PowerScale的数据分析架构会变得更简洁明了,因为PowerScale实现了计算和存储的分离,当系统数据增多时候,只需扩容PowerScale存储即可,无需扩容服务器计算资源,能省下不少购买和管理服务器的成本。

PowerScale的存储效率更高。Hadoop架构设计中需要三副本来存储数据,如果加上容灾就需要6份数据,这其中存在巨大的浪费,因为采用存算分离的架构PowerScale+CDP方案,用户只需要两份数据拷贝即可。

有了PowerScale后的数据分析操作更高效,PowerScale在做数据分析时,无需数据迁移,因为PowerScale里面既可以服务于生产环境,也可以做大数据分析,从而能节省用户的时间和金钱。

对于那些与时间赛跑的企业来讲,这种高效的方案非常有价值。

以芯片行业为例,芯片行业投资巨大,早一天投产上市可能意味着避免数百万美金的损失。然而,芯片设计离不开EDA系统以及复杂的测试验证环节,而EDA系统又非常依赖于数据存储和分析系统。于是,对于芯片企业来讲,PowerScale和Cloudera所提供的价值非常明显。

Cloudera与戴尔的紧密合作

如上文所说,Cloudera是Hadoop开源生态系统中的典型代表,规模非常大、知名度非常高,称的上是最成功的大数据技术服务公司之一。

Cloudera大中华区售前技术总监刘隶放介绍说,十几年来Cloudera一直在不断开发各种组件,不断地把业界最流行的、最适用的新组件加入其中。

与公有云上的数据分析服务不同,企业数据分析平台的落地过程中,Cloudera非常需要而且非常有必要与存储厂商进行合作。

这是因为,从技术可行性来看,Cloudera提供了分解计算的方式,而戴尔的PowerScale提供的是分布式存储能力,只要通过认证两者就能很好的配合起来,如上文所说,这还远远不够。

从现实生态来看,必须适应企业数据存储架构的现状,而不是重新构建一套异构的存储方案,增加企业数据架构的复杂度。

而戴尔与Cloudera的合作非常理想,堪比像电影院与爆米花一样的黄金搭档。

戴尔是全球范围内规模最大的企业存储公司,这意味着很多戴尔存储的用户都能更好落地Cloudera的方案。

而从另一个角度看,Cloudera与戴尔的QATS层次的认证也成了戴尔存储的一个差异化优势,目前全球有同等认证的存储公司仅有两家。

戴尔与Cloudera的合作由来已久,在戴尔还没有正式与EMC合并前,Cloudera就已经与EMC有较为深入的合作关系了,这种合作关系延续到了现在并且在逐步升级。

与想象中不同的是,Cloudera并不会广撒网式的开展深入合作,对于合作伙伴其实非常“挑剔”,只会跟少数技术实力,合作意愿和能力比较强的企业进行合作。

Cloudera与戴尔的合作期间,双方都是非常慎重的,因为双方都需要大幅度的投入,合作周期很少有短于6个月的,每个版本的迭代和演进都需要3到6个月时间,双方的工程师要一起工作,共同完成很多调试和测试任务。

刘隶放在谈起与戴尔的合作时表示,Cloudera的团队与戴尔的团队沟通非常多,对于戴尔表现出的专业性印象深刻,合作过程中,戴尔在专业知识上和业务拓展上都给Cloudera带来了很大帮助。

据了解,Cloudera在大中华地区的用户群中,许多非常大规模的部署都是基于戴尔Isilon(PowerSacle的前身)进行的,有的甚至达到了PB级。

结束语

作为存储公司的戴尔与大数据分析公司Cloudera的合作有明显的积极意义,这种合作不禁让笔者想起了如今电影院售卖爆米花的操作。

爆米花丰富了观众在影院的观影体验,人们也习惯了手捧爆米花来度过愉快的观影时间。而电影也没有亏待爆米花。爆米花的起源非常久远,而发达的现代电影工业则让这种古老的食品与现代社会产生了更深入的联系,比如,有一类许多人比较喜欢的电影就叫爆米花电影。

Cloudera帮助戴尔的用户更轻松地把数据用起来,戴尔在客观上起到了帮助Cloudera数据分析服务在企业落地的步伐,两者也在相互促进,相互成就。

未经允许不得转载:DOIT » 戴尔存储加Cloudera大数据分析,是堪比电影和爆米花的黄金搭档