DOITAPP
DOIT数据智能产业媒体与服务平台
立即打开
DOITAPP
DOIT数据智能产业媒体与服务平台
立即打开

李帆:富士通大数据基础设施平台解决方案

今日,以“数据造化 智见未来”为主题的2013中国存储峰会在北京盛大开幕。今年是DOIT正式成立十周年,也是中国存储峰会连续举办第九年。分论坛作为中国存储峰会的经典环节,再次引来现场嘉宾的热烈参与。此次的大会分论坛包括:软件定义与数据中心论坛、云存储与数据保护论坛、大数据与行业应用论坛、2013中国闪存高峰论坛。其中大数据论坛作为当下的热点话题,加之其接地气的行业应用分享,现场气氛再次引爆。

在大数据与行业应用碰撞出精彩火花之前,企业首先需要面对的是,大数据存储数据容量、种类和处理速度的骤增,对原有基础设施带来的压力。富士通信息系统有限公司产品战略事业部总监李帆为现场嘉宾带来了富士通的解决之道——《富士通大数据基础设施平台解决方案》。

 

 

下面是李帆老师的现场演讲文字实录:

非常高兴有这样一个机会在这个2013年中国存储峰会跟大家分享一下关于大数据的观点和看法。我们富士通是厂商,我们存储峰会拿出我们大数据平台基础设施的解决方案,这里我们一起分享一下。

我们首先跟大家谈一下大数据时代,这个时代到底有什么不一样,有什么在变化?在我来参加展会之前有一个朋友问我你愿意到存储峰会演讲主要是谈什么?谈服务器存储、云计算还是什么?我跟他说谈大数据。好像所有人都在谈论大数据,为什么?看起来数据这个东西我们在整个大会中我们看到,这个数据是真正有价值的。对数据的挖掘和分析做一些探讨,如何看海量数据当中有一些业务方向和哪些新的商机存在的,这个是我们考虑的一点。

第二点所有人想我们做大数据的平台做大数据整个的解决方案跟以前有什么不一样。同时我们也要看到做大数据的时候有很多方面跟原来实际上是一样的都需要做分析,都需要有一个很高效、可靠这样大数据的平台。变化在哪里?不一样的地方在于大数据时代用户和业务所产生的数据总量在变大,这个海量增加会使你看到数据发生了一个变化,原来是TB级现在马上到PB级,这个总量在变大。由于技术革新带来我们现代的系统、服务器、设施带来挖掘的数据种类变多了,用户日志、交易的包,这个包由于你技术不达标,处理手段不够先进,我不能处理。现在有大量非结构化数据出现,同时我们有一些很好的软件框架去部署到整个开源市场,也部署到商业市场,这时候我们处理种类变多了。

还有一部分由于大数据到来之后,由于计算领域提高,我们分析数据时效性提高了,有的用户做一个复杂的报告有时候运行几个小时甚至几天才能看到一个报表,现在领导要求我只需要在这么多用户当中我用户下一个节点使用什么样的数据包,什么样的流量,这时候时效性被提高。大数据归根到底我们看到整个大数据对基础设施的变化是存在的。

我们特别看到数据的时候我们想提到一点,整个数据对大数据时代,这个数据存储方式发生了显著变化,这个变化体现在哪里?这个数据层次变多了。怎么叫变多了?以前我们大多数业务系统从硬盘出来之后弄过内存到CPU,摩尔定律发展很快,整个磁盘的技术和存储技术属于提升不是那么明显?这时候对于计算能力要求,希望就是说我这个系统能够有更高的计算能力,所以我们看到从毫秒级纳秒级我们希望有更多内存技术提升我整个大数据处理效率。在处理整个金字塔尖是内存计算,你业务你的系统需要有一套机制实现并存高计算运行计算的引擎,这是我们大数据时代看到第一个变化。

第二个变化当中中间层次,我们叫做横向拓展的存储,以前存储是集中式的,我们要求集中式纵向扩展有很高集成能力,现在很多存储是碎片化,分布式,我们要求这个节点在北京,这个节点在上海或者在成都,这时候这个分布式的计算要求我们处理能力速度提高和我们数据要跟上,我数据还是在集中式的我,我数据和我分散能力碎片化的计算相离非常远,延时很大。所以我们中间层次叫做横向扩展的存储,既是存储也是计算的处理服务器我们叫做一体机。

我们还有需要有一个金字塔机,我们之前几个演讲当中我们看到数据始终是很珍贵的,用户希望不管我数据怎么分布计算,我们始终有一个地方对它进行统一的存储,统一存储和备份在这个基础之上我们看到整个存储计算考虑结构化数据和非结构化的数据,我们对整个大数据的存储这样一个方式变化的非常明显。讲到这个情况下我们看到大数据与现有的基础设施并不意味着云计算来了,大数据来了,原有基础设施没有用了,或者架构发生翻天覆地的变化,不再需要纵向扩展,不再需要高性能不是这样的,用户始终需要高可靠性,而且用户有很多生产系统,生产系统都是包括它的关键数据库。更多的存储的层次,结构化和非结构化都能处理。

第三更简单的应用,各行各业都有数据挖掘,需要有一体机的平台解决我大数据的时代对hadoop和甲骨文这些硬件软硬兼施的处理。

未来大数据中心的布局,我认为始终存在一个节点是一个高可靠的关键业务系统,它要求有纵向扩展,高性能,节点数比较少,对厂商的技术能力要求非常大。

第二块如果你发现你的计算和你存储再一个节点纵向扩展还不能满足你需要横向扩展还需要分布式,这时候我们需要软件和硬件充分的调优和集成,这诞生了我们整体一体机,对于一体机的市场我们看到高性能专门做横向扩展和处理的。

你应用很多,你想到我这台服务器性能跑不满,有时候我过了这个口我就不需要了,这时候你需要做虚拟化把你基础设施统一的调度管理。

第二我们看一下富士通在大数据上的布局,我们对于大数据谈了很多,既有现有关系性的系统也有横向扩展还有虚拟化。我们全球在做我们富士通创建以人为本的智能社会,所以我们在人、信息和科技上面总体做一个集成,很多地方寻找IDC集成给大家带来的创新。对于大数据设施整体布局我们基本上分为三个部分。

中间部分是对传统关系性数据库处理所带来的变化,我们提供可纵向扩展数据库服务器,同时提供高性能数据计算。针对于新的业务类型很多非结构化数据,我们提供针对与非结构化内存计算hadoop的平台,基于我们商业版本的hadoop平台加上我们内存平台。我们全新推出以业务为中心的存储它可以实现结构化系统的处理,也可以实现非结构化数据备份。对于传统的关系性数据库的话我们提供M10的小型机这个我们和oracle合作的产物,可拔插纵向扩展动态调整M10的服务器。如果说你现有行业应用中需要对于原来关系性数据库做一个优化做一个革新这个是我们提供的一个选择。

然后在第二部分针对于非结构化数据的并行处理,我们提供基于hadoop大数据分析处理平台,主要针对于四个方面给客户提供价值。一、离线分析挖掘数据库。二、针对于实时计算数据库。三、针对内存分析。四、针对复杂事物的流处理。在不同场景下面给用户提供非结构化数据处理的价值。我们hadoop相比开源的hadoop超过10倍的数据提升,这个我们使用我们自己专利内存计算技术,我们达到50到100倍的提升。我们提供整体在线的数据库和内存分析数据库这样一个分析的能力。

在它后面是我们大数据统一存储的管理,我们都知道对于集中式的传统,传统是基于san关系性数据库,在我们最全新的存储当中我们同时提供基于NAS和自动生成的系统,我们都可以提供统一的结构化和非结构化数据的管理。它具备一些高可靠、高性能和高密度。

第三部分我们来看一下一些典型的场景和我们富士通对应的一些产品明确的场景。这是我们日本一个实际的案例,这个在零售行业之中,他们客户最早他们只是在一个很关系特别区域里面做一些零售方面的服务,需要富士通帮他提供整体的解决方案,这个整体方案我们分成两部分,一部分是大数据的基础设施,第二部分结合客户做一些客户化,这个客户化当中包含了客户自己的用户分析系统。这个客户的案例主要是他们的数据量非常非常大,然后通过实施这个项目,他们把他们从某一个片区商户扩展到整个全岛之内的商户,使用每日分析和用户信息提供。这是多样性的体现在制造业中,我们的一个客户他们同时会考虑接他们800的电话抱怨用户投诉处理,还有社交网络上的监控,监控之后他可以发现哪些用户在一些什么时间段,对什么产品提出一些抱怨和投诉。我们提供多元化数据分析之后,然后它在上面针对海量数据提供预防测试和海量交易,使得用户在同样问题的复发,同时它可以监控整个的状态,这是在制造业上面一个明确的案例。

同时我们还提到我们对于复杂事物特别是在一些跟移动互联网相关,还有在一些高端制造行业里面我们都存在这种应用,它是复杂事务流处理,这个在我们基础平台之上的软件模块,这个模块在内存中接收一些规则,在规则设定基础下用户到我这里来我做一些出发,我数据库存储了很多会员信息,这些会员信息和商户信息当中有一个动态的信息,中间匹配随着客户位置信息在不断发生变化,这个时候我们按照原来的模式处理,把它收集上来入到oracle的数据库当中,在表图提取出来做分析基本上很慢,客户走过就走过了不会快。

但是有了我们复杂事务流处理,可以做到只要是我会员经过我目标当中我可以动态找我商铺有什么优惠券把这个优惠券puch到手机上面。前面讲了速度、整个流量还有多样性。现在整个移动互联网如火如荼,整个大家使用微信或者其他一些即时通讯的设备软件产生的数据库都非常大。在我们客户之中我们有一些电信的设备制造商会做一些设备的探侦,这些探侦在网络部署,在所有网源当中截取它的信息,包括大家发的微信这些消息,运营商通过部署这些探侦,它只要想做都是可以查得到的,这个设备是电信制造的专用设备不是开放的计算平台,所以客户应用之中会发现说我提取到你信息之后,干啥?我有什么用?你给我之后还放在这里,你要给我处理分析报表,客户跟我们合作,我们合作以后我们给他提供一个大数据处理的设备,我们去之前客户研发自己做一些开源软件的研究和调配,这个当中他们会发现说说都是做hadoop,但是存在很多的问题不能解决,有很多问题不能处理。但是我们把我们的预警机设备拿过去之后,用户发现很好,他专门写他算法程序和报表程序就可以。

最极端情况他有一个报表他预计两个小时,换成我们系统运行只要15苗种就可以搞定,这是典型的综合案例,这个数据量也很大,要求速度也很快,但是通过这样一个整体平台介入进去,能够实现帮助客户快速实现价值,帮助客户把他想要花的力气专注于自己的算法之上,把基础设施以下的部分交给专业厂商去做。我们来看一下我们做了一个分析,从2012年到2013年我们富士通总部在全球做了一个分析,我们把大体上我们现在案例分成三种类型。一种类型针对于现有的业务领域需要提升数据处理效率,有在线的系统,有是关系性的数据库,还有若干个其他自己算法的东西,它要求你产品和设备来了以后可以帮助它提升现有数据处理的效率,这是一种类型。

第二类型是处理被埋葬的数据,或者被埋没的数据,我们以前没有大数据技术之前有很多数据是你无法处理,太快,太多看也看不过来,都是劣质信息,海量数据无法处理,有了大数据之后,利用海量数据被掩埋的数据,在这个数据中寻找相应价值,这是第二种类型。

第三类型利用数据寻找新的价值,我原来的数据我自己很清楚,但是我需要寻找下一个价值。你下一个10块钱在哪里,你能不能多收三五个,这个是我们认为是三类场景。这三类场景我们以前的占比A类47%,B类40%,C类14%,说明什么?说明大部分客户的原来设施要改善,速度不够快,同时有接近40%的客户会看到我原来数据好多是没有被利用的,是可以从中了解我客户在干什么?这种情况下以前没有考虑现在有考虑了。这几个情况下我们整个场景分析下,我们看到整个大数据的布局相应做一个匹配,所以说现在我们看一下我们富士通的产品。旧的数据是这种模式,分离服务器、分离内存进程和数据库进程,在数据库M10发布之后,围绕oracle我们打造全新关键数据库平台,我们打造可拔插数据库和可动态扩展拔插的服务器,这个在中国市场销售面向市场销售,提供三个型号,入门级是M10-1提供56个空。中间是m10-4是提供64个空,M10-4S堆叠16BB,可以做24个空和84个TB的内存,在这样的一个系统上面你可以做一个动态的重新配置。这个我们针对于如果客户需要关键数据库需要革新我们可以提供这样一个组合产品提供给客户。对大数据的平台里面非结构化是其中很重要一环但不是全部,我们富士通理念我们利用原生的开源平台提供商业优化的版本,我们现在基于hadoop2.0提供了这样一个版本,同时我们在这样一个版本上面我们增加了我们专利内涵的计算技术和非结构化数据的备份。这一块是一个高处理缓存,可以做到在我缓存弄到我的内存当中如果你数据库表很重要要求很快,或者说你原来没有优化过需要自动的KICH,我当中内存数据库可以做到这一点。这个好处就是说可以做到你原来基于HBS的方式,做基于优盘的计算,你对普通计算做这样一个开发,同时你可以把我数据一些表格有选择或者是自动的放到内存中计算这样可以获得上10倍或者更多数量级性能的提升。

同时我们集成的系统还提供一套非结构化数据的备份。我们碰到交通行业的客户他们说我这个卡口这个数据的确要快,如果当我关键的车子过来的时候,很快要算出结果,但是算过就算过了,它计算要求在一个瞬间之内会非常高,但是过去之后它也不见得把这套数据反反复复给计算。也就是说我们谈上PB海量的数据,在这个数据之中要看数据冷热程度不一样,有很多数据不需要马上计算的,如果我们把这些海量的数据全部放在横向扩展存储之中,我们的客户就跟我们抱怨了,他说我这样放我现在计算能力饱和了,你横向扩展存储,这个服务器两个CPU所能处理的设备是有限的,我不能扩展下去了,我计算领域过剩我不停的去买服务器,这时候我告诉他,其实这种情况你计算能力已经饱和了,其实你没必要无限的扩展你中间层,而是看一下你非结构化数据在金字塔最底层我们怎么样提供统一专业存储高可靠的东西保存和归档你的数据。当然我们提供归档备份也提供存储功能,我看到我过去一个月或者半年之前的数据,我们提供一个功能把冷数据重新调到我分布式的存储当中来,这样很好解决整个数据层次化部署的方式。围绕它我们涉及到的硬件产品一个prmergy,是专门针对于横向扩展CX系列的服务器。第二是基于英特尔架构的小型机,你构建一个hadoop的节点,你需要高可用高可靠的时候,你有计算,我们建议你在整个hadoop集群最核心一环使用好可靠可用的服务器。第三我们提供存储提供面向存储数据的保护。

针对非结构化构建一个数据平台我们需要哪些设备?我需要构建我整个系统全局的命名节点,这些是相对来讲我部署几个不需要大量横向扩展,这是我整个系统中心节点。第二部分如果说我一个中心节点不能满足计算需要,我们需要大量横向扩展节点,这个横向节点基于非结构化内存计算做集群扩展节点。这两个满足了你扩展需要,这时候你需要有一个统一的数据平台,这是金字塔尖的部分,我横向扩展到一定程度,我们形容放数据的水平,一个小水瓶我们需要一个大水瓶,一个大水水瓶,这需要高容量的文件归档。我们选择有哪些?我们基于四节点hadoop处理器,可以提供两优的空间提供四个节点,这是构建高密度计算的基石。这是八路的服务器,可以实现六个九的可靠性。在这个之后如果你扩展的时候你说我计算能力我不需要这么高但是存储能力要这么高,我们可以提供我们CX400两配置,存储技能三倍,计算能力减倍,两块高性能的计算单元。

最后是第三代的存储,能够实现结构化和非结构化的存储,横向热门、热数据和冷数据的调配,我们核心基础是hadoop,之上是我们高性能的计算,中间是分布式存储,最后一部分是数据备份。这个三代我们在12月份发布我们产品,这个产品有这么几个特色,主要是我们系列当中的四款,所有设备可以实现动态无缝控制器的升级,同时相比中间横向扩展的服务器它的好处是它可以实现六个口的高可靠性,统一数据管理高性能,5倍LPS的成长,整个空间节省50%,容量提高40%,这是我们富士通整个统一设计的。

最后我们看一下我们富士通整个优势,我们高性能,高密度,高可靠性,预集成优化系统,易于安装部署和使用。源自大型机IT系统产品技术的集成。

我们强调的观点是整个大数据时代,大数据是旧瓶装新酒,新酒是里面科技的创新,科技创新量变带来质变,整个行业信息数据分析带到全新的高度。弹性化、可扩展的大数据基础设施,对数据安全和可靠性的追求同等重要。

大数据处理方式高度多元化,我们富士通致力于构建最佳的大数据系统平台,建立以人为本的智能社会,我演讲就到这里,谢谢大家!

未经允许不得转载:DOIT » 李帆:富士通大数据基础设施平台解决方案