大数据智库 | 致数据十年来自十位数据科学家

Chris McNabb

戴尔 Boomi 部门负责人

如何在不中断业务的情况下过渡到云
Alan Atkinson

戴尔副总裁兼戴尔存储总经理

前瞻：等待存储领域的是什么？
Kim Wang

中桥国际调研咨询总经理兼首席分析师

中国大数据市场趋势与存储需求
郑信武

全球知名存储网站存储在线（Dostor.com）创始人、DOIT传媒集团CEO

影响存储十年的十项创新技术
张冬

《大话存储》及《大话存储2》作者，PMC-Sierra资深数据中心存储架构师

新技术将如何影响数据中心存储系统
Sam Greenblatt

戴尔副总裁及企业级解决方案首席技术专家

打造面向工作负载的架构:戴尔整合解决方案优化基础架构、应用及 IT 服务，实现自动化交付与管理
谢长生

华中科技大学教授，武汉光电国家实验室副主任，信息存储系统教育部重点实验室主任

下一代非易失存储器？
方粮

中国计算机协会博士，国防科技大学计算机学院研究员，CCF 高级会员

高性能计算机存储架构探讨
Alvin Kho

戴尔公司亚太区存储事业部技术总监

戴尔流动数据理念，提升大数据时代企业核心竞争力
薛伟

国内知名云存储、大数据专家，清华大学大数据中心特邀专家

云存储平台构建量体裁衣方能保驾护航

Chris McNabb
戴尔 Boomi 部门负责人

如何在不中断业务的情况下过渡到云

通过基于云的平台实现集成即服务，与现有的业务流程和应用程序实现和谐相处。

编辑注：作为 Dell Boomi 部门的负责人，Chris McNabb 正在从事本文所述的云服务提供业务，Gartner 和其他人将其称为"集成平台即服务"（integration-platform-as-a-service）。

如果您的组织还没有开始踏上云之旅，请记住——早晚都会这么做的。在过去的两年中，云已经从实现低成本的一种高风险手段，演变成一种可增加业务敏捷性和加快业务流程的极为可靠方式。

现在，鼓励众多组织（包括美国政府）采用"云优先"战略来实现全面的 IT增长已经很有把握了。这就是为什么 Gartner 在其公共云服务预测报告中指出：从 2011 年到 2017 年，"软件即服务（SaaS）"市场的综合增长率将高达 20.2%，并且最终 SaaS 用户的年支出也将从 2011 年的 144 亿美元增长到 2017 年的 456 亿美元。

那么如何在不影响现有业务流程的情况下拥抱云技术呢？您如何将基于 SaaS 的 CRM 与您的其他市场应用程序集成起来，或者将基于云的 HR与您的财务系统集成起来，或者将在线协作与现有的项目管理解决方案集成起来？

传统的中间件采用中心辐射型（hub-and-spoke）架构，根本无法应对云的复杂性。在严格控制的内部部署环境中，将来自不同应用程序的数据（也就是"辐条"）通过中央总线（中心）的方式只适用于有限的一组应用程序，但是任何使用传统中间件的人都明白，这些项目非常复杂且昂贵，通常都需要大量独享的资源并且需要数月甚至数年的时间才能完成。

此外，混合 IT（将内部部署的应用和云环境进行混搭）的增长使得中间件对于很多企业集成用例是不切实际的。原本为了敏捷性和成本节省而采用云技术，但为什么到头来要承受集成开发周期延长，许可费用、维护成本和支持费用节节攀升的后果？为什么要依赖一种根本不是为了在内部部署的应用和云环境之间安全数据移动而设计的架构 ——并增加安全风险呢？

在云内的集成

传统中间件的替代方案就是在所有基于云的平台之间执行集成，这些平台支持混合 IT 产生的各种不同集成场景，包括云到云、云到内部部署的应用、内部部署的应用到内部部署的应用、B2B 和 EDI 集成场景。基于云的集成通常称为集成平台即服务 (iPaaS)，可用分布式模型取代中间件的中心辐射型模型，这种分布式模型易于缩放，以满足当今的高容量需求。

基于云的集成有哪些优势呢？首先，它消除了大量中间件所带来的复杂性。例如，可视化设计界面和应用程序之间的预构建连接器消除了编程需求，而基于云的平台让组织无需再管理基础架构和软件。结果就是集成项目的开发速度大大提高，而复杂性则节节下降。

基于云的集成是专为当今高度分布式的 IT 基础架构现状而设计的，它支持通用的传输方式、基于标准的 Web 服务，以及对非标准数据格式的通用转换功能。因此，开发人员只要一种工具（甚至是只需 3 天的正式培训课程）就能加快开发工作并能支持其组织的所有用例。

基于云的集成通过 Web 服务和 API 的低延迟、近乎实时的集成处理，也可替代传统的 ETL 和批量数据转移，可实现更高的敏捷性。最终，借助单个基于云的集成平台，可使用单个基于 Web 的控制台轻松地管理和监视所有的活动集成。

基于云的集成，曙光就在前面

与所有相对较新的技术模型一样，只有时间和体验才能让质疑可靠性、可伸缩性和性能的人闭嘴。但是，基于云的集成的底层技术已经得到了很好的证明，基于 Internet 的延迟也很少是什么问题，因为在实时的云到云集成场景中，任何给定时间内两个应用之间传递的数据量一般都不大。因此，最终仅有一两秒的延迟可以满足绝大多数业务的要求。目前，在 Gartner 的首个 iPaaS 魔力象限中已有 17 个竞争者，其中指出"iPaaS 市场已经为下一个五年的爆发做好了一切准备。"根据已经公布的销售商统计数据，iPaaS 供应商一个月内已经支持超过 4 亿个客户集成流程。

实际上各公司正在越来越多地为任务关键型工作使用 iPaaS。例如，LinkedIn 通过集成 Salesforce.com 的 Sales Cloud 与 Oracle 的 E-Business Suite，自动完成其"销售线索到现金"（lead-to-money）流程。它还使用其基于云的集成平台自动地将多个独立数据源的数据导入 Salesforce.com 的 Sales Cloud，帮助 LinkedIn 的销售团队找出可行性较高的机会。

同样，GoPro 也在使用 iPaaS 快速地将 NetSuite 与增值网络和 AS2 关系联系起来，让销售 GoPro 相机的大型零售商可满足严格的 EDI 规范标准要求。这个解决方案还能够将大量事务中的 XML 数据翻译成 SAP 可识别的格式，以实现虚拟位置内复杂的库存移动。

通往云的必经之路未必总是充斥着误机、行李丢失和花冤枉钱等坏运气。通过制定一个专为云而设计的应用程序集成战略，您大有可能准时、完好无损且在预算内抵达目的地。

Alan Atkinson
戴尔副总裁兼戴尔存储总经理

前瞻：等待存储领域的是什么？

业务领域的变化速度与日俱增，组织开始面临前所未有的压力，需要全天候提供最为经济高效且具有最高性能的 IT 支持服务。信息作为组织最宝贵的资产，通常也具有最高的维护成本。如今的组织已经认识到，快速地存储、保护、访问和分析数据，同时安全且经济高效地管理数据，是业务成败的关键所在。

2014 年，企业需要继续运用 IT 基础架构来快速且高效地交付高质量服务。以下是我预计今年将升温的 5 大企业存储趋势。

闪存的经济效益

闪存能够用比传统旋转盘片式磁盘快得多的速度来处理数据，这是组织权衡性能与成本时的选项之一。尽管在存储分层结构中闪存的性能比传统旋转盘片式磁盘要高，但到目前为止，其成本仍然是组织部署的最大阻碍。展望未来，组织将开始寻找能突破传统的成本边界、以较低成本提供全闪存性能的供应商这些技术包括将各种闪存驱动器类型（比如 MLC多级单元和 SLC单级单元）与自动分层（自主地向最合适的存储介质分配数据和应用程序）相结合，这是客户使用与磁盘相当的价格获得全闪存性能的公认方式。

服务器端闪存

全球的消费者都希望即时获得结果。闪存缓存技术将最常访问的数据放在离计算机资源更近的地方，通过将闪存放在服务器系统总线上，从而最大限度减少了数据从服务器通过网络向存储设备的传输，改善了响应速度，并提高了读写性能。尽管服务器端的闪存单点解决方案确实存在，但组织通过集成的服务器和服务器中的 SAN 闪存技术可获得更多的价值不仅能缩短响应时间，还不会牺牲可用性。

融合

与企业环境内的异构相关的复杂性，在未来几个月将成为焦点。融合基础架构的背后推动力就是在运营、应用和服务管理方面提高效率和敏捷性。而其收益远不止是"供应商单一"，还包括：降低运行应用程序的成本、加快基础架构部署速度、加速及简化管理，以及缩短应用程序和云部署的价值实现时间。融合的解决方案将更容易实现，因为组织能够从融合的物理基础架构产品中进行选择，其中服务器、存储、网络和管理安装在同一个机箱中，或者一个基于软件的管理层，将客户的多样化基础架构投资聚合到一个虚拟的融合基础架构中。

软件定义存储：真实趋势还是炒作？

在软件定义存储 (SDS) 的真实定义方面存在着许多争议和市场混淆，类似于早年间的"云计算"定义。SDS 的魅力主要在于灵活性，但更重要的是，能够降低存储的总体成本。如今制造服务器和存储阵列的组织已提供 SAN，将最低成本的行业标准服务器与规模经济相结合。通过产品创造的"SDS"通常不提供传统 SAN 的全功能优势，也很少看到这些供应商同时在存储软件及其所在的硬件方面提供全面的服务。2014 年，软件定义数据中心的真实收益和模式将变得更清晰。

自动化：让您的机器为您效劳

一些创新的存储供应商更加注重自动化和更易于管理的存储环境，这不仅能够降低存储的复杂性，还能降低成本。自动分层、快照、虚拟服务器和桌面集成/优化，以及重复数据删除和压缩等创新，都是组织应用额外的"幕后"自动化来降低总体存储成本的途径。
许多组织都愿意购买性能高于需求的存储，因为他们对自己衡量和配置精准实时性能需求的能力并不自信。而带有自动分层功能的存储系统允许用户让系统来决定数据工作负载的最佳分层，随着时间的推移，它将使数据移到最适合其实际需求和预算考虑的介质。我们有望看到自动分层为闪存的采用开启大门，因为 MLC 和 SLC 闪存驱动器的混合分层，将使客户能够在他们以前购买的旋转盘片式磁盘上获得全闪存性能。自动化一些流程（比如存储配备、快照，以及与虚拟化软件供应商的集成）也可避免 IT 员工将大量时间用在实现和管理成功的存储环境上。智能的自动化技术将使系统更易于使用，并降低用户的总体存储成本。
未来我们将面临诸多存储创新。持续的数据爆炸和技术进步将不断推动这些关键的存储领域保持迅猛的发展势头，因为用户想要创新的解决方案来经济高效地跟上技术的发展步伐。

Kim Wang
中桥国际调研咨询总经理兼首席分析师

中国大数据市场趋势与存储需求

大数据时代，应用数量以百万计算，数据终端则以千万或亿计算。对各种大数据的近实时和实时分析，逐步成为IT创造价值的主要运营模式。传统存储的容量、可扩展性、优化后的性能以及设备生命周期使用效率，都很难满足大数据处理、分析和存储的需求。在应对大数据挑战的同时，传统存储还会导致TCO快速攀升、应用性能不稳定、业务连续性难以保证等问题。如何化解大数据给企业造成的IT压力，同时充分发挥大数据的商业价值，在各行各业都备受关注。

中桥国际调研咨询（以下简称"中桥"）首席分析师王丛结合中桥2013年7月就中国市场的大数据调研，在此分享未来两年中国大数据市场趋势，以及如何应对传统存储面临的大数据挑战。

大数据分析的价值

有效利用大数据，合理进行大数据分析，不仅可以降低企业IT开支，提高IT效率，而且可以实现企业业务突破创新，以及业务的快速增长，为企业创造巨大价值。大数据对企业的成本、利润、业务决策等有直接影响。中桥调查结果显示（图1），无论是企业级还是中小企业，普遍认为大数据分析的主要业务价值依次是：提高生产过程的资源利用率，降低生产成本；根据商业分析提高商业智能准确率，降低传统"凭感觉"做决策的业务风险；实现动态价格，优化企业利润和业务增长；提高潜在客户获取效率以及优质客户持有率。

大数据市场趋势

中国用户已经逐渐意识到IT创造价值的效率低下，会直接影响企业在全球化经济环境的竞争实力。从中国大数据市场的未来趋势来看（图2），未来24个月，中国用户对大数据分析的IT投资将大幅度提升。无论是企业级（78.1%）还是中小企业用户（71.8%），都将通过部署新的数据分析解决方案，提高大数据创造价值的效率。相比而言，企业级更侧重如何通过大数据提高生产效率和决策精准度，并最大限度地提高用户体验，降低优质客户流失。中小企业则侧重于如何判断业务发展空间，通过业务创新增加市场竞争力。

业务关键型应用作为企业业务核心，对存储性能需求越来越高，这促使企业不得不部署新型存储来满足业务需求。根据中桥调研数据（图3），分别有68.8%和57.9%的中小企业和企业级用户计划在未来24个月部署新存储，来满足大数据时代业务关键型应用的存储需求。

大数据存储挑战

在大数据创造价值的过程中，企业需要经济、高效、动态和弹性存储作为IT支撑，而传统存储在大数据演进过程，容量、性能、业务连续性和数据生命周期管理效率等方面，都难以满足大数据和企业业务需求。

在进行数据分析和/或进程活动时（图4），大数据巨大的数据量首先给企业的存储容量带来压力，现有存储容量往往不能满足需求。其次，传统存储资源配置不合理和传统IT分层管理的方式，导致系统IT资源配置和管理的复杂性较高。购买新存储虽然可以满足海量数据和应用多元化对存储容量和性能的需求，但造成了企业存储采购和运营成本高的问题。企业在实现应用多元化的同时还要保证业务处理速度，因而对系统的并行处理能力也提出了更高要求。此外，大数据数据类型的多样和复杂性，增加了企业非结构化数据分析的难度。

大数据存储需求

多重大数据存储挑战驱动了用户对存储技术的需求。中桥受访企业普遍认为（图5），评估大数据分析存储技术主要包括以下几大指标。高可扩展性：不仅可以确保企业IT满足大数据过程中数据量增长的需求，而且还可以保证容量扩展后性能的稳定性；高可用性：保证大数据分析过程中业务的稳定、无间断运行，不会因为系统硬件故障、运维、技术更新等造成业务中断；高性能（并行处理能力和低延迟）：满足大数据过程中处理和分析能力的性能需求，提高数据分析和业务处理的速度，加快业务决策，缩短产品或技术的面市周期；高效率：自动分层存储等优化技术可以提高存储资源利用率，同时，要保证分层后数据读取性能满足近实时和实时分析的需求，保证在降低对新增存储容量的需求的同时，满足大数据分析的性能要求。

针对上述大数据时代中国用户普遍遇到的存储挑战，以及用户对于新型存储的需求，Dell Compellent 产品是个不错的选择。该产品具备以下多项特性：流动数据架构，通过数据调动，保证容量优化后满足大数据近实时、实时分析的性能需求；节点扩展和容量横向扩展，保证了大数据分析的并行处理能力和性能稳定性； Live Volume技术，保证大数据的业务稳定和连续性；全闪存技术选择，满足了大数据对高IOPs和低延迟的需求；此外，无断代升级技术，则提高了大数据时代存储设备的生命周期使用率。Dell Compellent通过上述多项先进技术，可以充分满足用户对大数据的存储需求。

中桥观点

中国用户已经普遍意识到大数据分析的巨大价值，并计划在未来24个月部署新的数据分析解决方案和存储，提高大数据创造价值的能力和效率。在这个过程中，传统存储难以满足大数据对性能等多方面需求。中国用户普遍认为，大数据时代存储需要具有高IOPS、低延迟、性能稳定，并能满足工作负载性能需求。在容量方面，存储需要具有高可扩展性和高性价比，通过智能和自动化最大限度简化存储资源配置和管理复杂度，满足存储容量需求的同时，保证容量扩展不会带来性能瓶颈。在业务连续性方面，要保证硬件或设备故障不影响业务连续性。从这几点来看，Dell Compellent 产品凭借其流动数据架构、节点和容量扩展性、Live Volume以及全闪存技术和无断代升级技术等优势，将能够很好地应对大数据分析所面临的存储难题，为企业实现IT创造价值起到关键作用。

郑信武
全球知名存储网站存储在线（Dostor.com）创始人、DOIT传媒集团CEO

影响存储十年的十项创新技术

上世纪90年代互联网产生后，信息技术突飞猛进二十年，计算架构经历了从大型主机、商用计算、分布式计算，逐渐到以云计算为主的开放模式；与此同时，数据的爆炸式增长将全球智能水平带上新高，新的计算方式和数据需求始终推动信息科技的演进和企业应用的前进，并带来一轮又一轮产业发展浪潮。

如果说1994至2004，信息技术的技术变化主要集中在应对内部挑战，利用IT提升效率问题；近十年，随着云计算、移动互联网、大数据和社交技术的蓬勃，数据问题正在上升成为信息领域的核心挑战，以数据为核心的应用、管理、整合和挖掘正在成为新兴的经济增长点，技术、人才、商业模式的创新即将步入一个全新的数据时代。大数据或将成为这一趋势的起点，但也为既有信息架构和企业管理带来未知挑战，"存储墙""启动风暴"等问题亟待解决。

本人非常有幸，在创办存储在线（Dostor.com）网站这十余年来，见证了存储行业的潮起潮落和企业兴衰。这里就回放一下过去十年对产业具有影响的十项创新技术，为了今天、更为明天有更多的借鉴和促进。

CDP技术

信息时代，随着互联网的快速发展，无论是企业还是个人的数据量都迈入快速增长的步伐，以磁带为代表的传统备份方式的弊端开始充分暴露。无论是从备份策略、备份速度，还是备份数据类型，传统的磁带备份都无法满足新时期的要求。更加关键的是随着备份的数据量越来越大、数据类型越来越复杂，基于磁带的数据恢复可谓是力不从心、举足无措。

正是在这个大背景下，CDP（Continuous Data Protection，持续数据保护）技术开始诞生并刮起了一股数据保护的热潮。与传统的备份与恢复方式不同，CDP技术通过记录每一个IO变化，将数据所有变化以实时录像的方式进行保存，这种方式对用户最有价值的部分就是其快速恢复性，当灾难发生之后，通过CDP的录像回滚技术，可以回滚到过去任意指定时间点的数据影响，而且恢复速度极为快速，远非传统的磁带备份或者VTL所能比拟。

当然，CDP技术虽然非常出色，但是多年以来也一直较为昂贵，成为摆在用户面前最大的"障碍"，而且随着灾备技术日趋多样化，CDP技术逐渐成为面向对RPO和RTO要求很高的企业应用的保护技术。总体而言，CDP技术对传统备份与恢复的变革影响很大，对于用户的备份与恢复的观念也产生了深远的影响。

自动精简配置技术

自动精简配置技术其实算是存储虚拟化技术中的一种，传统容量配置技术给每个应用配置充足的容量，这些容量却往往得不到充分的利用。21世纪初期多项调查显示，大量用户的存储资源存在利用率过低的情况——如何充分利用这些闲置的存储资源，催生出自动精简配置技术的诞生。经历几年的发展与成熟，该技术已逐渐成为磁盘阵列中的标配技术。

目前自动精简配置技术在磁盘阵列中得到广泛应用，通过自动精简配置实现真正按照用户实际需求来配置存储资源，实现自动扩展或释放，无需人工干预，使得存储系统的资源利用率成倍增加，同时大幅降低了管理难度和各种成本。

作为一项有利于降低成本的技术，自动精简配置技术一经推出就获得了用户的青睐，目前在绝大多数企业应用环境中，自动精简配置技术已经被企业级客户广泛认可和采用，成为一项主流技术。

重复数据删除技术

我们处在一个数据大爆炸的时代，Garnter和IDC等知名调研机构普遍认为全球数据增长的趋势将会持续。在这样的背景下，重复数据删除技术孕育而生，通过利用Hash算法将重复数据进行对比和删除，从而让用户的存储空间得到释放，大幅提升存储效率和降低数据管理成本，可以说重复数据删除技术的出现是21世纪存储行业一个重大技术创新。

人们最早是尝试将重复数据删除技术纳入到备份领域，希望通过重复数据删除削减重复的备份数据，缩短备份窗口、降低备份时间以及提升数据管理效率。此举一经尝试即获得了市场广泛关注，以Data Domain为代表的重复数据删除厂商瞬间成为存储市场中的明星，重复数据删除技术则在经历几年发展与完善之后成为备份领域的标配技术。

当重复数据删除技术在备份领域应用逐渐得到完善之后，厂商们开始探讨将重复数据删除技术应用到主存储领域。不过，也有人认为主存储领域保存着重要且常用的业务数据，不宜采用重复数据删除技术。但是随着VDI应用以及全闪存阵列开始兴起，重复数据删除技术被认为将会在主存储领域成为重要的标配技术，带有重复数据删除技术功能的全闪存阵列对于VDI冗余数据、闪存盘的保护等具有重要意义（下文会详细阐述全闪存阵列这项重要的存储技术）。

集群存储技术

集群存储技术也是在过去十年中最为热门的存储技术之一，由于受到应用越来越多、处理需求越来越大等因素的影响，传统单机通过Scale-Up的扩展方式已经逐渐满足不了用户的扩展需求，因为单机系统在处理器、内存和容量上具有上限，且扩展之后性能并不能线性增长。正是基于这种情况，基于Scale-Out架构的集群存储技术开始兴起，通过多节点连接起来共同处理请求的方式来增加处理性能和容量，这种技术能够线性提升存储的处理能力和容量，已经成为存储领域中重要的发展趋势。

事实上，无论是基于Block协议的集群存储还是基于NAS协议的集群NAS，本质上是将数据进行打散并将数据分散到集群每个节点，并通过跨节点间的数据冗余和故障切换手段，大幅度提升数据安全性和存储系统扩展能力。与此同时，集群存储的方式还能够让用户通过扩展快速获得更高的性能和容量。

在传统的块级存储领域，几乎所有高端存储产品都开始采用集群存储模式，并且一些中端存储也开始具备集群特性；在NAS领域，集群NAS系统一度成为存储市场中的热点，强大的扩展能力和存储能力使得集群NAS在能源勘探、基因研究、天气预测等高性能计算领域得到广泛采用。

存储虚拟化技术

存储行业的蓬勃发展也让用户能够在市场中充分选择各种品牌的存储厂商，所以后来用户数据中心普遍需要面对异构环境。数据中心存在着多种不同品牌的不同型号的存储产品，由于不同厂商的存储产品之间从底层微码到存储架构再到管理界面都存在着巨大的差异，甚至同一厂商不同系列的存储产品也存在着这些差异，使得用户虽然拥有众多产品，但是存在着管理困难、存储资源得到不到充分利用的局面。

存储虚拟化技术正是在这种大背景开始兴起，无论是早起的带内存储虚拟化（IN Band）和带外存储虚拟化（Out Band）之争，还是后来发展起来的控制器为基础的存储虚拟化，都是为了解决异构环境下的存储管理和存储资源利用率的问题。经过几轮大浪淘沙之后，存储虚拟化技术市场开始趋于稳定，逐渐成为存储产品的普及技术。

目前来看，存储虚拟化又开始向存储虚拟网关开始发展，通过一个存储虚拟网关层来管理所有存储，并且成为用户在构建容灾时的双活数据中心提供的核心基础。

自动分层存储技术

过去几十年中，磁盘技术发展缓慢，虽然在磁盘容量上提升很快，但是磁盘的转速变化不大，这也使得传统磁盘阵列在性能上往往是通过堆叠大规模的磁盘来获得。随着企业业务日趋丰富，企业对于业务处理响应速度的要求越来越高，传统磁盘阵列的性能瓶颈日趋严重。因此，厂商们开始尝试将固态硬盘引入到传统磁盘阵列当中。

在早期，固态硬盘仍然处于十分昂贵的状态，出于成本的考虑，磁盘阵列暂时不可能部署太多固态硬盘，外加业务数据也有轻重和冷热之分，这些情况最终催生出自动分层存储技术，通过该技术能够让数据根据应用情况和用户策略来调整数据所处存储介质，当数据处于不活跃状态时，能够将这部分数据迁移到读取速度较慢的磁盘上，当数据处于活跃状态时，能够将这部分数据迁移到读取速度更加快速的固态硬盘上。

自动分层存储技术事实上是在固态硬盘价格昂贵时期产生的，它反应出的是用户在成本与性能之间平衡的结果，出色自动分层技术能够让用户以较低成本获得出色的性能和大容量的存储。在自动分层领域最为典型的代表即为Dell的Compellent，以戴尔Compellent为代表的块级虚拟化技术，其粒度可控，优化存储资源、降低能耗与采购成本等等为企业用户带来在高可用性、管理便捷性、节能降耗等方面的大幅提升, 代表分层存储进入成熟应用阶段

闪存技术

从2008年开始，闪存技术开始在存储领域大展身手，基于闪存的创新可谓是五花八门。随着闪存介质价格的逐渐走低，闪存开始逐渐走向它在数据中心中的普及之路，可以说闪存对于数据中心的意义非凡，让用户真正摆脱了传统磁盘的困扰。

回顾闪存这短短几年的快速发展，基于闪存的创新技术主要有采用标准SATA和SAS接口的固态硬盘、基于PCI-E接口的Flash闪存卡、全闪存阵列技术以及最近刚刚兴起的基于DIMM的闪存技术，可以说这些创新的闪存技术已经或者正在颠覆数据中心的多个领域，毫无疑问在未来的五到十年，闪存会是数据中心中的绝对主角。

采用标准的SATA或者SAS接口的固态硬盘最早在磁盘阵列中采用，厂商们通过在传统磁盘阵列中加入固态硬盘来获取更高的性能，并衍生出基于传统磁盘阵列架构的全闪存阵列。同时，服务器厂商处于处理速度的考虑，也在服务器内部加入固态硬盘来提升处理速度。

基于PCI-E的Flash闪存卡则是率先在服务器领域得到广泛应用。尤其是在一些像Facebook、Google这样的大型互联网公司中，PCI-E Flash闪存卡在服务器中得到大规模的部署和应用，大幅提升了应用响应速度。基于PCI-E Flash闪存卡最为典型的代表就是Fusion-IO。目前，PCI-E Flash闪存卡已经在像电信、金融、医疗等应用需要加速的行业开始采用。

全闪存阵列是最近两年最为热门的存储技术，短短两年时间催生出大批全闪存阵列的初创公司，这是存储市场活力和创新力的又一次体现。当前全闪存阵列主要有两类方式：第一类是基于传统磁盘阵列架构下来构建全闪存阵列，将固态硬盘替换传统的磁盘，底层硬件架构并无过多变化，各种存储功能软件则针对固态硬盘的特性进行了优化；另外一类则是彻底摆脱传统磁盘阵列的模式，从底层硬件架构、微码到上层的存储软件、架构全部为闪存而设计，目的就是为了结合闪存介质的特点充分发挥闪存的优势。

云存储

随着云计算概念的提出、用户对它的了解与认识、以及到现在逐渐走向落地，云计算已经成为大势所趋，无论是国内还是国外用户都对云计算保持着密切关注。云存储作为云计算一个分支，近年来也受到了业界广泛的关注。与云计算类似，云存储其实也有公有云和私有云之区别。当然，不管何种云存储，其本质就是希望用户不用再去管存储底层的东西，通过一系列技术手段让用户在使用存储资源时更加简单、自动化和高效。

在公有云云存储领域，最为典型的代表就是Amazon 的S3云存储服务，目前该云存储服务已经普遍被用户所采用；另外一个典型代表就是近年来热门云存储公司Box，它主要是为企业用户成员提供文件共享与协同的云存储服务。在私有云云存储方面，各大传统存储厂商都开始让存储阵列变得更加自动化、智能化以及管理简单化，从而让私有云环境下的用户更加方便、快捷、简单地使用各种存储资源。

统一存储

统一存储并不是很新的概念，但是在最近几年又迎来新的高潮，几乎所有主流存储厂商都在2011年之后开始推出统一存储产品，一时让统一存储再次成为存储市场中的热点。

统一存储的出现其实是为了解决存储网络中多协议的难题，利用统一存储将多协议进行融合，从而使用户可以不再根据自己数据中心网络不同的协议来购买不同类型的存储产品，有效简化存储管理和采购成本。

基本上，统一存储或者称融合存储，目前已经成为中低端存储发展的趋势，这种融合化、功能化、简易化的存储非常适合中小企业用户所采用。目前统一存储发展方向是：一、架构将会逐渐改变过去传统的双控制架构，并且文件和块引擎会走向真正的融合；二、随着Intel多核处理器的普及，统一存储针对多核处理器的优化将必定成为未来方向；三、软件功能走向多样化，统一存储融合的特性决定了它的软件功能将会多样化，满足用户的多样化需求。

软件定义存储

现在，当存储进入软件定义时代，意味着存储已经进入一个全新的发展阶段。随着云计算、大数据、移动化以及社交商务这四大趋势的迅猛发展，我们发现数据量的增长越来越快、数据的类型真正变得无比丰富、数据的来源变得更加广泛，加上用户对于数据价值的渴望，这一切让存储需要改变过去的做法，抛弃对硬件设备的限制，采用更加开放的架构来应对这种趋势，通过软件的方式为用户提供存储性能、可管理性。

软件定义存储作为软件定义数据中心的一个衍生品，目前仍然处于发展初期，每个厂商对软件定义存储的看法和观点都有不同。个人认为软件定义存储其实是存储虚拟化的一个演进，存储虚拟化仍然会有专门的设备，而软件定义存储则是依靠软件来实现存储的部署、管理、监控和调整等。

总体而言，软件定义存储是存储领域发展的必然趋势。在存储环境越来越复杂的趋势下，标准化硬件已经成为既然的现实，通过软件来实现数据中心存储资源的管理、调度就成为理所当然。

总结：

目前，我们正在走向云计算、大数据、移动化和社交商务的时代，以硬件为主的IT时代已经过去，未来是软件的天下，一切皆服务，而存储也正朝着越来越"软"的方向发展。作为信息生存之地，存储将继续发挥核心作用，围绕着性能、效率和管理的技术创新将推动整个存储产业不断向前发展！

张冬
《大话存储》及《大话存储2》作者，PMC-Sierra资深数据中心存储架构师

新技术将如何影响数据中心存储系统

自诩为一个可以见证中国存储发展的存储界老混子，不得不承认，存储的发展真的是太快了，以至于还没大展宏图，就发现眼前的这片森林已经今非昔比。我想这也是当前很多存储厂商集成商所面临的困惑之一。

有很多人曾经和我讨论过诸如"我们下一步到底该做什么"的话题。有些厂商做法很简单，一线品牌厂商做什么，就跟着做什么。这样最保险，但是没有一定实力的厂商也玩不起。对于二三线厂商，事态尤为严重。换在几年前，我想很多厂商目标都比较明确。但是，近几年新技术和新概念爆发式的产生，而存储领域的产品集成开发周期又相对较长，这是导致目前众多厂商迷茫的原因之一。等你的产品出来了，却发现走错了路，或者窗口期已经过去。

本文试图对当前多个存储子层里的多项技术做简要分析来获知它们对传统体系的影响。

存储介质——闪存和SMR磁盘

机械磁盘作为在线主存储介质的角色，可以说几十年来没变过，是各种存储技术里最稳定的一个了。然而闪存的出现，将要改变的不仅是存储介质，而更将会改变整个存储生态链。闪存作为新一代存储介质相比于机械磁盘的优点不必多说，一个更加值得思考的问题是，由于闪存并不像机械盘一样需要高精尖的技术，其入门门槛较低，尤其是闪存控制器的设计生产，目前可以说是遍地开花，国内已经有多家自主产权的闪存控制器及外围产品。

闪存对传统的下游存储厂商影响也将会是巨大的。首先，基于机械磁盘介质所积累成熟的传统架构基础面临崩塌，包括硬件设计比如尺寸、散热、承重和空间布局等；也包括软件设计比如数据布局、IO性能优化和故障预测及恢复等。这也是为何仅仅把传统存储系统中的机械盘替换为SSD之后却发现根本无法发挥出SSD的性能的原因。其次，传统存储高大上的形象也会被闪存彻底摧毁，原本松耦合的各种大部件搭配起来的"巨型机器人"将变得非常小巧。最极端的情况甚至可以直接用一块PCIE

Flash卡替代，连影子都消失在了服务器机箱外面。磁盘存储将退居二线，成为真正的备份用二线存储，使用步骤或许会是"开机--备份--关机"。磁盘存储将会成为下一代人眼里彻底的淘汰产品，就像卡带机一样。再次，拖累传统磁盘存储的另一个包袱，就是那些华而不实的软件功能，包括自动精简配置、重删、快照、分层/缓存和复制等。这些软件功能除了其中几个较为常用之外，其他可以说是鸡肋，但为了市场竞争又不能没有，陷入恶性循环。上述软件功能中的每一项，毫不客气的说，都是影响性能的。分层和缓存实际上是增加了相对性能，而降低了绝对性能。除了快照、分层和远程复制之外，其他软件功能多数时候都不为人所用。

用户似乎越来越追求傻快的存储。这一点在面对"软件定义"概念时更有说服力了，硬的更硬，软的更软。这更进一步拉低了存储系统的门槛，抛开了这些包袱，利用闪存，越来越多的全闪存存储厂商出现了，而这些全闪存存储为何基本都没有出自传统一线存储厂商，也原因显而易见了。

磁存储领域的一项新技术是SMR（叠瓦式磁记录），这项技术提升了存储密度，却不能保证随机写的性能，这一点从原理上讲更类似于固态介质的Page与Block之间的尴尬。希捷等磁存储厂商也正在研究是否要在 SMR磁盘内实现类似Flash的管理方式。SMR磁盘面向一写多读场景，适用于大数据、备份等特定领域。下一步还有热辅助磁记录技术，但是迟迟未能商用。看来磁存储在性能瓶颈之后，可商用的容量瓶颈也即将到达，因此磁存储淡出舞台是大势所趋。

底层框架——芯片、底软和通道

闪存的出现，会影响生态链上所有事物，这其中也包括了最底层的芯片、底层软件和数据通道。

芯片要有足够强的处理能力来承载起闪存强悍的IOPS性能，包括Flash控制芯片、外围协议控制芯片(SAS、 FC、以太网)，以及主机CPU。芯片的提速手段有三种，第一是提高内部数据带宽，增加期间之间的通道数量和带宽，第二是提升器件频率，第三是将各个子器件进行拆分，增加并行度，在相同电路周期内可并发执行更多的指令。然而，没有免费的午餐，上述任何一个动作，要么会增加芯片的功耗，要么会增加面积，这些都是弊端。目前一线厂商PMC的主流存储控制芯片实际功耗都控制在15W上下，即便是最新的SAS 12Gb 主控芯片，由于制造工艺的提升，功耗反而比6Gb产品有所降低。到目前为止，主流存储芯片都是基于MIPS 核心+外围加速电路，MIPS是被公认的RISC通用处理器领域最经典的代表，然而ARM的猛攻也渗透到了存储芯片领域，在低端市场占据了席位，包括4端口SATA控制器、低端SoC等等，ARM和MIPS也会在存储芯片领域持久对峙下去。Intel则由于功耗问题，颇有绑死x86平台走到底的趋势，移动终端失策，卖掉电视部门，靠Atom在大型数据中心领域与ARM抗衡，不知道格局能维持多久。

底层软件方面也是制约存储性能提升的一大屏障。拿Linux为例，Block层、SCSI中间层这两大制约IO性能发挥的重量级软件层，在机械盘时代发挥了重要作用，然而在闪存时代，其变成了严重拖累性能的罪魁祸首。繁冗的扫描机制，低效的互斥队列和捉襟见肘的队列数量，陈旧不堪的SCSI协议，这些对闪存来讲都是头疼的事情，目前闪存产品不得不选择越过SCSI层而直接注册到Block层，然而却丢失了SCSI层提供的兼容性优势，导致各家在Block下层的协议实现不统一，增加了开发成本和管理开销。

协议接口方面，基于SCSI体系衍生而来的势力有三股，一个是FC，另一个是SAS，还有一个是iSCSI纯软件方案。Linux开源社区最近也在研究如何优化SCSI层的问题，看来SCSI是去是留已经是个问题了。FC通道前端目前正在逐渐被万兆以太网残食，而后端则在几年前就已经被SAS全盘端掉。SAS之所以没有端掉的FC前端有两个原因，其一是因为FC前端体系并非只存在于存储设备内部，而还涉及到交换机，其存量市场并不是仅仅通过替代掉存储设备的前端通道卡就可以占领的;其二，SAS在光传输方面略显迟钝，究其原因在于SAS光协议对于链路协商方面的一项技术实现争议了良久，直到很晚才确定。FC也必将淡出舞台。然而，其接替者并非只有以太网或者SAS。还有另外一项更前瞻的通道技术，那就是PCIE。目前我们所熟知的以太网、FC、 SAS、Infiniband等通道协议，在主机层面无一不通过PCIE接入系统IO总线。之前的"远距离"传输概念，正在变得模糊，多"远"算是"远"，如果PCIE能够"远"到一定距离，还要以太网作甚?这个问题问得好，但是PCIE 并不是万能的，PCIE目前缺失很多交换网络特性，毕竟之前一直是在系统总线领域，出了总线，就得长距离交换和路由，这方面就得靠以太网和TCPIP了。然而，同样的理论，在目前和将来的数据中心领域可不见得能套用。目前的数据中心有苗头正在朝着紧耦合方向发展，也就是之前一个机架内的服务器之间是松耦合的，现在要变得以机架为单位，机架内部紧耦合，机架外部松耦合，此时PCIE就有用武之地了，机架内部完全基于PCIE矩阵。这个前沿方向目前Intel以及PMC-Sierra都有研究并且有了DEMO。当然，对SAS和SATA的兼容一定是要考虑的，SFF8639接口标准其实是一个三模式(Tri-mode)的接口，把SATA、SAS和PCIE打包到一起，后端则根据前端接入设备类型路由到SAS Expander/Controller或者PCIE Switch上去。目前看来这个接口已成定局。

数据结构——Raid2.0、ErasureCode、分布式及开源

硬件平台之上的软件，也在风起云涌的变化着。传统存储领域可炒作的概念已经没有了，然而创新又迟迟未见。Raid2.0被几家厂商在炒作，但终归也是RaidEE技术的升级翻版。另外， Raid2.0与现在多数技术一样，只是提升了相对性能，而没有提升绝对性能，也就是当磁盘达到一定数量的时候，这项技术才会显示出优势，但是依然赶不上相等数量的磁盘在传统模式下的绝对性能。Raid2.0对数据的处理，已经不亚于一个文件系统了，过多的数据碎片影响了绝对性能，但是大量的磁盘堆砌又可以掩盖这一事实。其所获得的唯一一个绝对好处是重构时间的大幅降低，然而却牺牲了平时的绝对性能。

ErasureCode技术也不是什么新鲜事。Raid6以及RaidDP技术很早就出现了，那时候人们已经发明了可以容忍更多磁盘同时损坏的技术，只不过受限于随机写性能而没有将其商用。但是时过境迁，大数据时代读多写少，再加上数据量大，RaidDP(Double Parity)、RaidTP(Triple Parity)甚至允许更多磁盘同时损坏的算法，就又冒出头来了。

Scale-Out是传统存储领域对"分布式"的一个包装词，然而传统存储理解的分布式和互联网及开源领域所认识的分布式骨子里还是不同的。传统存储厂商的分布式不是廉价的分布式，它们的分布式完全是为了解决 Scale-Up模式的天花板;而互联网和开源的分布式骨子里为的就是廉价。表现形态也不同，前者虽然实质上也是x86服务器+分布式软件管理层，但是依然略显高大上。

开源的风潮体现在最近的一个新概念里，那就是所谓"软件定义"了。软件定义让二三线厂商出师有名，直接挑战传统一线大厂的权威地位，这一点从近期一些二三线厂商的直截了当的露骨演讲即可知道，矛头直指一线垄断大厂，似乎在当头棒喝"凭什么你们就是高大上"。

用户体验——接口、访问方式及展现

在对存储的访问接口方面，新的访问接口近几年在互联网的带动下也是爆发式增长。传统领域一直在鼓吹所谓"统一存储"鼓吹了近十多年，早就炒烂了。对象、key-value、文件、块是目前来讲主流的4种访问形式，其中文件又包含多种子类型比如NFS、CIFS以及各种分布式文件系统访问协议，块又分为FC、SAS、iSCSI。不管访问形式如何，它们本质都是一样的，都是对一串字节的请求和回复，只不过这串字节在不同应用场景下的归类不同罢了。

在用户体验方面，传统存储做的较差。但是随着互联网风潮来袭，重视用户体验、应用感知、QoS等更加接近用户层面的功能越来越受到重视。笔者之前所设计的存储软件套件SmartX Insight就是从用户体验方面来入手，增强存储系统在整个系统内的"存在感"，改变传统存储一副道貌岸然的样子。我想这样更有利于黏住用户，从而扩大及拓展存储系统的生存空间和时

闪存与数据中心——SATA/PCIE及应用场景

目前来看，数据中心对Flash的渴求主要集中在几个固定的应用场景，前端比如 CDN，ISP的带宽是非常贵的，必须充分利用，所以硬盘必须不是瓶颈。后端则是各级缓存场景，包括各类分布式数据库系统、分布式文件系统的前端基本上都是放了一级或者两级甚至更多级的缓存，RAM毕竟还是很贵而且容量有限，主要用于第一级缓存直接应对前端的压力，Flash则可趁机占领一部分后置缓存空间。数据中心对SATA接口SSD的应用占据了总体形态的大概90%，剩下的10%主要是PCIE接口的Flash，前者则基本被Intel独占，后者则是花开几朵，其中也不乏国内厂商。

PCIE Flash是大势所趋，尤其是支持NVMe标准的设备。但是目前的形态却不被看好，别看当下多人在此领域角逐。当下的形态存在的问题是维护困难、版型太大，这些均不符合数据中心对硬件资源的要求，一个是维护方便，另一个就是资源性能和容量粒度要尽可能低以便于灵活拼搭。而基于SFF8639接口标准的设备相信马上就会遍地开花。综上所述，各种新技术对存储系统的方方面面产生了很大影响，如今IT界概念频出，五色缤纷，众多的存储厂商们唯有分析历史，分析当前，才能看清未来。

Sam Greenblatt
戴尔副总裁及企业级解决方案首席技术专家

打造面向工作负载的架构：戴尔整合解决方案优化基础架构、应用及 IT 服务，实现自动化交付与管理

在戴尔，我们花很多时间去思考如何让最棘手的 IT 挑战得到解决，并让所有人都能用到更好的技术解决方案,令客户就能够将更多的时间花在创新发展业务,而非考虑IT运营。当下，戴尔通过一个强大的整合解决方案套件做到了这一点。

IDC最近一项行业分析报告指出，系统整合与基础架构市场是IT行业目前发展最快的领域之一。企业级客户期待简化并优化IT能力，因此他们将更多转向这种解决方案，以寻求为IT部门减轻负担，并提供更好的SLA给到用户。

我们通过两种主要方式提供高性能计算(HPC)、大数据/分析、企业应用程序和私有云等解决方案：第一种方式是使用集成系统(Integrated Systems)，这是一种经设计的基础架构和应用程序解决方案，可以通过机架、堆叠或现场的方式交付。而在第二种方式，我们将特定应用程序整合入各种设备，并快速集成到客户环境中，同时只需要极少的配置工作甚至无需任何配置——可以理解为一种交钥匙的、完整并随时可用的解决方案。

为此，我们推出了一系列面向全新企业级设备与整合系统的数据中心基础架构，可以简化并改善易用性，从而帮助客户获得更加快速的商业洞察，并付诸行动。

戴尔数据库加速应用——面向Oracle

如今，数据是业务中最有价值的单个商品。移动设备在全球的快速采用，加速社交媒体内容、全动态媒体、文本、图像和视频内容激增，同时也创造了将这些信息转化为数据分析的巨大机会。因此，行业中出现了有关数据库性能和内存数据库的大量讨论，这是业务数据的金矿。

大部分数据库在设计时就进行了优化，用于存储可预测的数据类型和容量。现在，戴尔推出全新设备：面向Oracle的戴尔数据库加速应用，用以处理结构化和非结构化的数据库。客户可以在灵活的、要求高性能、低延迟和高扩展性的环境中快速部署数据库，从而避免与传统数据存储相关的成本和性能问题，以快速扩展来应对指数级增长的数据需求。

不仅仅是管理数据需求，这款设备更显著的优势在于它部署在基于标准的戴尔硬件上，因此该设备可以同现有的 IT 实现协同工作，包括 Dell Fluid Cache for SAN。在基准测试中，我们发现在成本、耗电、散热和机架空间方面都实现了大幅提升，从而为客户打造一个更具扩展性和高效的数据库环境。

值得一提的是，数据库的工作集大小往往会将服务器容量推至极限，并且可能成为高效扩展的一个障碍。虽然许多数据库解决方案通过引入复杂的配置来减少工作集，但这样做可能导致数据库的性能下降。为解决这个问题，戴尔数据库加速应用可以识别数据库并将其映射到设备内的可用资源，如此一来可将整体性能提高 10-40%(具体数字取决于工作负载)。该设备还有助于 I/O 加速，以利用戴尔 PowerEdge 服务器中的 DRAM 来提高性能。I/O 加速负责通过设备上的 DRAM 快速优化服务器请求。

最后，该设备中使用的固态存储内存(SSD Cache)相当于使用 PCI Express 插槽的大多数服务器的十倍容量。与提供这种较高容量的一般设备相比，面向Oracle的戴尔数据库加速应用的成本最多也只相当于十分之一，即不到 3 美元/GB。该设备将支持 MongoDB 和 Apache Cassandra，以及 Microsoft SQL Server 2014、MySQL、Sybase、Oracle 等。

面向Oracle 12c数据库的戴尔集成系统

我们的客户正在寻求一个能够迅速可靠、且经济高效响应业务需求的解决方案。可扩展的数据库解决方案往往是成功的关键。但迄今为止，许多数据库的部署、管理以及随需扩展等等工作都过于复杂和昂贵。所以，戴尔和 Fusion-io 合作研发了一款设备，以简化和加速 Oracle 12c 数据库环境。

首款面向Oracle 12c数据库的戴尔集成系统是用戴尔 PowerEdge服务器、戴尔存储和戴尔网络设备预构建的，采用了 Fusion-io 的应用程序加速技术，以提升Oracle 12c 数据库的性能。这个预集成解决方案简化了数据库环境，帮助中型企业客户充分利用 Oracle 12c、Oracle Linux 和 Oracle VM Manager 随着数据需求的增加来扩展其数据库。关键是能够从较小的单节点处理器扩展到双节点处理器，然后扩展到多处理器。通过使用 Oracle VM Manager，这款新设备可以根据任何客户的具体需求来管理多个核心。

戴尔始终与 Oracle 和 Fusion-IO 携手合作，确保我们能够为客户带来最出色的价值。该设备与 Fluid Cache for SAN 的出色组合，将为客户实现无与伦比的性能。

全机架的 16U 硬件解决方案不仅以更小体积实现更高性能，缓解了硬件增多及能耗问题，同时大大降低了成本。最初阶段，支持四个(ION Data Accelerator)、两台 Mellanox SX6036 交换机和四个 Oracle RAC 数据库节点情况下，戴尔Oracle 12c 解决方案可帮助客户实现业务无中断扩展。它通过 Mellanox 56GB InfiniBand ConnectX-3 VPI 适配器提供 40GB 带宽和 250 万 IOPS，块大小为 8KB。离子加速器和 Fusion-io的 ioDrive2 Duo提供 19.2TB 的可用存储。该解决方案采用 64核、四台数据库服务器、四台存储服务器、38.4TB 文件数据镜像存储，并可实现 250 万 IOPS 只读性能。

戴尔与 Cloudera 携手应对内存密集型工作负载

Hadoop 最初推出时，它的卖点是可扩展性、能处理所有类型的大量数据，以及出色的经济效益。虽然数据处理速度很重要，但在批处理世界中，对实时性能几乎没有要求。

随着行业和 Hadoop 用户的成熟，Hadoop 应用也渐渐成熟起来。在过去的几年中，随着 Cloudera Impala、Apache Solr 和 Apache Spark(正在孵化中)的推出，出现了从 MapReduce 作业的批处理工作负载到实时分析工作负载的转变，这种转变对系统提出了新的要求：系统要配置较高的内存容量，并且针对实时工作负载进行优化。

由于认识到向内存密集型工作负载转变的这种趋势， Cloudera、戴尔和英特尔在戴尔用户论坛上宣布推出面向企业级Cloudera应用的戴尔内存加速解决方案。

戴尔、Cloudera 和英特尔了解构建一个现代数据中心有多么复杂，并希望通过合作来充分发挥各自领域的专业经验，合力提供优化数据中心的解决方案，这是任何一家厂商都无法独立提供的解决方案。自 2011 年起，Cloudera、戴尔和英特尔已为 Hadoop 构建了预验证的参考架构。三方的共同目标是帮助客户通过快速、成功的部署来缩短其从交付使用到价值产生的时间，并帮助客户管理和集成各种孤立的数据源，实现所有数据的统一视图，获得全新的业务洞察。

面向企业级Cloudera应用的戴尔内存加速解决方案是三家公司之间进行合作和协同效应的又一力证。作为此设备系列中的首款设备，它包括领先的戴尔硬件、Cloudera 基于 Cloudera Enterprise 的企业数据核心、英特尔的快速处理架构，以及 ScaleMP 的通用 SMP (vSMP) 架构，将多个 x86 服务器汇聚到单个虚拟机中，以创建大型内存池，实现出色的内存中处理。

专为实时分析而构建：基于对向实时分析工作负载转变趋势的统一认知，面向企业级Cloudera应用的戴尔内存加速解决方案专门针对 Apache Spark 和其他内存密集型工作负载(如 Solr、Impala)进行设计和优化。该设备使某些应用程序的运行速度成倍上升，非常适用于各种高性能数据分析，如零售业的在线产品推荐引擎、社交网络趋势分析、欺诈检测和入侵检测。

面向企业级Cloudera应用的戴尔内存加速解决方案是一个平台，可以帮助企业将实时数据流融入其应用程序，从而充分利用高性能数据分析的优势。

更快地获得洞察：拥有一台设备是在数据中心内实施 Hadoop 的最简单方法。设备可以简化并加速 Hadoop 集群的部署工作，使客户能够更快获得关键的业务洞察。现在，客户可以让 IT 资源专注于基础架构微调以提供商业价值，而不是关注平台部署的细节。

面向企业级Cloudera应用的戴尔内存加速解决方案将提供预设大小、预配置的选项，这样客户可以选择和快速部署适合其需求的版本。

谢长生
华中科技大学教授，武汉光电国家实验室副主任，信息存储系统教育部重点实验室主任

下一代新型非易失存储器

谢长生，华中科技大学教授，武汉光电国家实验室副主任，信息存储系统教育部重点实验室主任，长期从事信息存储技术研究与教学，发表论文近200篇，拥有40余项专利，培养了大批博士和硕士生。

吴非，华中科技大学副教授，从事计算机存储技术研究，近年来对闪存、SSD和新型非易失性存储器进行了大量的研究和开发工作。

石鑫，华中科技大学博士生，研究方向为非易失性存储器。

1. 引言

数据处理、传输和存储是当今数字信息技术的三大基石。作为数据处理核心的微处理器，其主频已在过去20年间由几兆，几十兆发展到目前的4GHz以上，并由单核转向多核；在网络传输领域, 万兆以太网已开始普及,传输速率正朝着40Gbit/s 和100Gbit/s的方向高速发展。然而，以缓存（静态RAM，简称SRAM）、内存（动态RAM，简称DRAM）和硬盘为代表的外存储器组成的存储系统，性能提升却远落后于摩尔定律，成为计算机系统中严重的性能瓶颈，被业界称为"存储墙"，这严重制约了计算、通讯等领域的发展，成为现代信息技术发展的绊脚石。

按照数据存储的时效性，存储器件可分为易失性存储器件（Volatile Memory，简称VM）和非易失性存储器件（Non-Volatile Memory，简称NVM）。易失性存储器的特点是断电后所存储的数据会丢失，而非易失性存储器断电后数据不会丢失。目前广泛使用的易失性存储器SRAM和DRAM尽管速度快，但断电时数据会丢失，系统启动时，需要花时间从硬盘或闪存中转载数据，且能耗较大。目前最为广泛使用的非易失性存储器件是闪存（NAND、NOR Flash），其技术成熟，价格不断下降，不仅在U盘、消费电子设备、手机、平板电脑和高端笔记本电脑中得到广泛应用，还以固态盘、固态存储卡、全固态阵列等形式在高端存储系统中得到应用。然而，闪存存在着可重写次数低、写入速度慢（需擦除后再写）等缺点，而且随着密度的提高和线宽的减小，可重写次数和可靠性进一步降低，发展已受到物理原理的制约。存储的强烈需求激励着人们去探索新的非易失存储器件的原理和机理，现已发展出多种新型存储器件。下一代参与竞争的主流非易失性存储器件有铁电存储器(FeRAM)、磁存储器（MRAM）、相变存储器(PCM)、阻变存储器(RRAM)等几种，他们各有特点，如有的性能高，有的能耗低，有的成本低，可担任不同的角色。下面简单介绍几种新型非易失存储器的原理和特点。

2. 新型非易失存储器读写机理

2.1铁电存储器（FeRAM）

铁电存储技术在1921年被提出，1993年美国Ramtron国际公司成功开发出第一个4K位的铁电存储器FeRAM产品，目前所有的FeRAM产品均由Ramtron公司制造或授权。2003年TOSHIBA公司与INFINEON公司合作开发出存储容量达到32Mb的FeRAM。

铁电存储器存储单元主要由铁电电容和场效应管构成，铁电电容的两个电极板中间沉淀了一层晶态的铁电晶体薄膜，利用铁电晶体的铁电效应实现数据存储。根据存储单元结构的不同，分为"双管双容"型(2T2C)、"单管单容"型 (1T1C)、"单管双容"型(1T2C)。1T1C 结构的应用比较普遍，如图1所示。根据铁电效应，将电场加载到铁电晶体材料上，晶体中的中心原子在电场的作用下运动,铁电晶体的极化方向发生改变并达到一种稳定状态,两种极化状态"-Pr"和"+Pr"分别对应存储器的逻辑"0"和逻辑"1"。当外加电场移除时,铁电晶体的状态不发生改变，数据可长期保存。当进行读操作时，对存储单元电容施加一已知电场(对电容充电),如果铁电晶体的中心原子位置与所施电场方向相同,则充电波形不变；如果中心原子位置不同,则充电波形出现一个尖峰,将带有尖峰的充电波形与参考位的充电波形进行比较,便可以判断存储单元中的内容是"0"或"1"。由于读操作可能导致存储单元状态的改变，因此每个读操作后面还伴随一个"预充"（precharge）过程来对数据位恢复。写操作和读操作十分类似，只要施加所要方向的电场改变铁电晶体的状态即可。

2.2磁存储器（MRAM）

早在20世纪40年代，英国科学家威廉?汤姆森(Williams Thomson)发现磁电阻现象。磁阻效应包括巨磁阻GMR和穿隧磁阻TMR两类。早期的磁存储器采用巨磁阻GMR材料,由于GMR材料必须在很低的温度下才能够有较大的磁电阻变化, 因而其实用性并不大。随着材料技术的发展，1995年摩托罗拉公司(后芯片部门独立成为飞思卡尔半导体)演示了第一个1MB容量MRAM芯片原型。2007年，磁记录产业巨头IBM公司和TDK公司合作开发新一代MRAM，使用基于穿隧磁阻TMR特性的自旋扭矩转换(spin-torque-transfer , STT)的新型技术，利用放大了的隧道效应(tunnel effect)，在室温条件下产生的磁阻变化远大于GMR,因此STT-RAM是磁存储器主要研究方向。2012年，Everspin公司推出64Mb容量的STT-RAM芯片，标志着STT-RAM芯片产业化的启动。

自旋扭矩转换磁存储器（简称STT-RAM）利用磁性隧道结的电阻变化指示存储状态；存储单元由一个晶体管和一个磁性隧道结（Magnetic tunnel junction，简称MTJ）构成,如图2所示。MTJ由自由层、隧道结、固定层组成。自由层的磁场极化方向是可变的,而固定层的磁场方向固定不变,当自由层和固定层的磁场方向平行时,存储单元呈现低电阻,表示逻辑"0"；当磁场方向相反时,呈现高电阻,表示逻辑"1"。当进行数据读取时，对MTJ施加不足以改变自由层磁场方向的电压,此时会产生感应电流,存储单元电阻的高低决定感应电流的大小,将感应电流与参考值进行比较,来判断所存储的数据是0还是1。写操作是通过施加电压,改变MTJ存储单元的阻值状态记录数据存储的"0"和"1"。STT-RAM被认为是最有前景的下一代新型存储器之一。

2.3 相变存储器（PCM）

20世纪60年代 Dr. Stanford Ovshinsky开始研究无定形物质的性质。1970年，他与他的妻子Dr. Iris Ovshinsky共同建立能量转换装置（ECD）公司，发布了他们与Intel的Gordon Moore合作研发结果---第1个256位的半导体相变存储器；2008年，intel公司发布采用90nm工艺的128Mb容量的相变存储器件，命名为Alverstone。2010年，三星公司研制出512Mb的PCM器件，应用到三星手机中。相变存储器利用硫族化合物在晶态和非晶态巨大的导电性差异来存储数据。根据每个相变存储单元能存储数据位数的个数,可分为每个单元存储一位数据型（Single level cell，简称SLC)、每个单元存储两位数据型（Multiple level cell，简称MLC)、每个单元存储三位数据型(Triple level cell，简称TLC)。其存储单元结构如图3所示。

2.4 阻变式存储器（RRAM）

早在1967年,Simmons 和 Verderber 就研究了Au/SiO/Al 结构的电阻转变行为，直到2000年,美国休斯顿大学(University of Houston)的Ignatiev研究小组报道了PrxCa12xMnO3(PCMO)氧化物薄膜电阻转换特性后,人们才开始对阻变存储器进行研究。2008年4月，惠普公司公布了基于TiO2的RRAM器件，并首先将RRAM和忆阻器联系起来。2012年，三星公司在科学杂志上发表文章宣布在RRAM(电阻式随机存储器)记忆体技术突取得突破。

阻变存储器(Resistive Random Access Memory,简称RRAM)是一种根据施加在金属氧化物(Metal Oxide)上的电压的不同，使材料的电阻在高阻态和低阻态间发生相应变化，从而开启或阻断电流流动通道，并利用这种性质进行数据存储。

3. 各种新型存储器件的性能比较和分析

各种新型非易失性存储器由于在存储介质、存储机理的不同，因此在读/写访问时间、数据存储的长效性、存储单元大小、编程/空载能耗开销上各具特点。表1列举了4种典型非易失性存储器与2种典型易失性存储器的对比。

从数据读写单元特性分析， 4种新型存储介质都与DRAM/SRAM类似，都采用字节寻址方式。与闪存相比，他们都不需要整体擦除后再写，这对性能的提高是很有好处的。

从存储器的读特性分析可知，作为计算机缓存介质SRAM的读写速度最快，STT-RAM的读性能与SRAM相当；PCM、RRAM器件读性能与DRAM相当；而铁电存储器由于采用破坏性读出的工作模式,在读出数据后,会失去原有数据,需重新写入数据,所以FeRAM 在读过程中伴随着大量的擦除/重写的操作,一方面寿命和可靠性会受到严重影响,另一方面其读取性能较差。从存储器的写特性分析，几种新型存储介质的写性能均弱于SRAM，STT-RAM的写延迟远大于读延迟，其性能介乎于SRAM和DRAM之间；PCM和RRAM的写性能弱于DRAM。

从能耗开销上分析，几种新型存储介质都存在读写能耗不对称的问题，除了FeRAM是读能耗高于写能耗外，其余3中存储介质均是写能耗远高于读能耗。STT-RAM写能耗是读能耗的8倍左右。

从数据存储耐久性上分析，STT-RAM的耐久性与DRAM、SRAM相当，读写次数均无损，且不需要动态刷新，存储容量大于SRAM，而被认为是缓存SRAM的有力替代者；FeRAM、PCM、RRAM的存储密度非常高且其耐久性也高于108，而被认为是内存DRAM和EEPROM的有力替代者。其中PCM在进行写操作的时候，对介质有磨损，当写次数达到存储次数上限后,该存储单元会失效导致无法读写且数据丢失；FeRAM在进行读操作的时候，为破坏性读，当读次数达到存储次数上限后，存储单元数据掉电后会丢失，此时可以作为易失性存储器使用。

4. 各种新型存储器件应用前景

根据4种新型存储器件的读写特性、单元面积、密度以及功耗等特性的不同，其使用应用场景也各不相同。

FeRAM尽管存在破坏性读取的致命弱点，但其具有快达 20ns的编程速度、低操作电压和低能耗,在嵌入式存储应用领域展现了较大潜力,目前主要应用在IC卡和汽车电器等对环境要求不高的场景；FeRAM因所使用铁电晶体材料含有铅, 同时铁电材料在高温环境(85摄氏度以上)下数据保存可靠性大为降低，使FeRAM的普及应用受到影响。

STT-RAM因具有接近SRAM的读写特性，其应用非常广泛，学术界研究将STT-RAM与SRAM组合在一起,作为多核处理器的一级或二级Cache以解决缓存的能耗开销问题。最热门的研究是用其代替内存，形成所谓存储级内存(SCM-Storage Class Memory)，可大大降低内存的能耗。在计算机中，为了与处理器速度匹配，尽量减少外存访问，造成内存越来越大，使"内存计算"成为一个新的研究领域。然而性能提高了，能耗也越来越大，内存的能耗已接近系统总能耗的30%，因此，用STT-RAM作内存对节省能耗有相当大的吸引力。针对读写不平衡问题，已经有人研究写隐藏技术，使所运行的程序感觉不到写操作实际存在的较大延迟。STT-RAM在服务器和阵列存储中,可用于日志更新和关键数据的写入及保存；在通讯系统中,可作为备份系统保存关键数据,无需专用的备份系统；在工业环境中,可工作在极端的温度条件和辐射环境中。STT-RAM的缺点是其成本较高，随着工艺的成熟和使用量的增加，这个问题会逐步解决。

相变存储器因其读写特性介乎于DRAM和Flash器件之间，在计算机系统中，可将PCM和DRAM作为混合内存系统；在手机等嵌入式领域，将PCM作为系统存储部件代替Flash；学术界的研究多集中于将DRAM、PCM、Flash以及硬盘组合在一起的新型混合存储体系结构。PCM应用目前存在的主要问题是高密度下的散热问题，因为从原理上讲，这种存储器是靠电流产生的热来改变材料的晶态和非晶态，密度高且读写密集时，所产生的热量很难散开，这会造成材料的状态不稳定，使误码率大大上升，这个问题如果解决不好，就难以广泛使用。不过，现在已经有一些研究工作在进行，比如降低材料相变的电流值或者寻找散热好的材料及结构等。

阻变存储器表现出极高的密度前景，是未来很有希望的存储器，但目前存在的问题主要是其阻变机制还存在很大分歧,没有统一的理论解释,阻碍了RRAM的发展和应用。还有一种令人兴奋、被称之为忆阻器（Memristor）的存储器，它具有模拟记忆功能，特别是除了存储功能，还具有处理功能，这就为类似大脑细胞处理存储一体化的研究和应用提供了器件基础。不过，这类存储器的物理机制还存有很大争议，器件还处于实验室阶段，离实用化的距离更远一些。阻变存储是忆阻器的功能之一。

5. 展望

下一代新型非易失存储器表现出超越闪存的许多优异特性，展现了在未来计算机系统、移动设备和网络通讯系统中良好的应用前景。各研究单位和相关企业对这些器件的研究正如火如荼的进行，都期望在未来技术更新换代时占得先机。然而，这些器件的应用才刚刚开始，处于规模化应用的前夜。例如，以Everspin公司为代表的STT-RAM器件研发公司和以三星公司为代表的PCM器件研发公司，目前均已开始小批量生产，并被试用到嵌入式等应用环境中。而RRAM存储器件还处于机理研究阶段，还需进一步等待原型样片的研发。就目前情况而言，各种介质各具优点和缺点，各自有着自己更合适的应用领域，还不能断言哪种非易失存储器会在将来处于绝对的优势地位。经过规模应用后，总会有一种非易失存储器经过实践的考验脱颖而出，但现在对哪种存储器会成为将来的主流技术做出预言还为时过早。

纵观存储技术的历史，新的存储原理和新型存储器件的出现，往往会带动相关领域的重大变革。闪存的出现，已经在很大程度改变了以硬盘为主的存储体系，使得计算机系统、移动装置、消费电子产品和高端存储系统的面貌有了很大的改变。我们因此可以断言，新一代非易失性存储器有着非常乐观的应用前景，它将带来计算机系统结构、存储体系结构、操作系统、数据库等领域的深刻变革，也将在我们未来的数字化生活中起到重要的作用。

方粮
中国计算机协会博士，国防科技大学计算机学院研究员，CCF 高级会员

高性能计算集群存储架构新特征

摘要:本文回顾了高性能计算机应用与发展趋势，总结了高性能计算集群存储架构的组成与特点。针对目前云计算、大数据等新型应用，本文探讨了存储结构新需求。本文还分析了新型存储器件的特点以及对高性能计算存储架构的影响。

1. 引言

超高性能计算机是一个计算机集群系统，它通过高速互联技术将多个计算机系统连接在一起，利用所有被连接系统的综合计算能力来处理大型计算问题，所以又通常被称为高性能计算集群。

目前，高性能计算机广泛应用于石油勘探、生物医学、航空航天制造、气候环境、核能、纳米科技、国防和国家安全、天体物理学等领域，以及电子商务、金融保险等产业，同时也是传统产业实现技术改造、提高生产率和竞争力的重要工具。高性能计算已从技术计算（即科学计算和工程计算）扩展到商业应用和网络信息服务领域。高性能计算机的发展趋势主要表现在网络化、体系结构主流化、开放和标准化、应用的多样化等方面。网络化的趋势将是高性能计算机最重要的趋势。在商业产品上，目前最具竞争力的两类产品：一是高性能共享存储系统；二是工业标准机群。

在超高性能计算机系统中，存储子系统是影响高性能计算机发展的关键技术，由其构成的子系统是高性能计算机系统中的重要组成部分，其决定了计算机数据输入输出（I/O）和缓存的实时处理能力，进而决定了计算机的整体性能以及应用领域。在高性能计算、信息处理和信息服务等应用领域对外围存储系统的I/O能力提出了很高的要求，需要支持成千上万客户端访问、能够支持PB、EB乃至ZB级的超大规模外围存储系统，支持TB/s的聚合I/O带宽能力，这对高性能计算机存储架构、高性能存储载体、I/O通路、高性能存储网络技术等都提出了新的挑战。

2. 高性能计算机存储架构的发展

高性能计算机的存储架构面临的几个问题：

（1）程序中哪些数据需要保存，以什么形式保存；

（2）内存到存储设备的传输技术；

（3）采用什么存储设备；

（4）数据在设备中的组织形式。

主要的存储架构包括DAS、NAS和SAN。

2.1 存储体系结构-DAS

将磁盘和主机系统通过总线连接（Direct Attached Disk）。特点是：SCSI、ATA、连接距离短，计算和存储不分离，带内模式。文件系统：Ext3/XFS/JFS。弱点是：存储能力受限，数据资源难以共享。

2.2 存储体系结构-NAS

通过网络提供文件存储服务(Network Attached Storage)。其特点是计算和存储分离，带内模式，网络共享单一目录空间，典型文件系统代表：NFS/CIFS。缺点是多客户端并发条件下处理能力不够，网络瓶颈，服务器瓶颈，可扩展性不好。

2.3 存储体系结构-SAN

存储局域网（Storage Area Network）。其特点是存储和网络技术的融合，主机和存储设备在同一网络上，Fiber Channel，可长距离连接。典型文件系统：GFS/CXFS/GPFS，无服务器瓶颈，无网络瓶颈，资源共享。缺点是局部访问带宽高，软硬件费用高，扩展能力跟不上计算速度的进步，不适合大规模高性能计算机，可细分为对称SAN和非对称SAN。

2.4 对象存储

该存储架构是共享单一名空间，没有类似NAS（单一文件服务器）的瓶颈，元数据和文件对象数据分离，可扩展性好：对象服务设备增加，容量随之增加，支持的客户端数多，性价比好于SAN架构：客户端直接访问对象设备，高性能计算机领域看好对象存储，是实现P/E级存储的有效手段。

3. 超级计算机典型存储架构实例

排名在Top500前列的超级计算机存储架构具有一定的代表性，是优化的大规模存储系统的经典。

（1）走鹃（RoadRunner）的存储系统

RoadRunner是第一台运算速度突破千万亿次的高性能计算机系统。它是IBM BlueGene/L峰值速度的两倍，其内部I/O结构比BlueGene/L 要复杂一些。Road Runner拥有6912个 Opteron处理器，12960个IBM PowerXCell 8i加速器，峰值性能1.375千万亿次；但其I/O节点只有216个，理论峰值性能只有216GBps．内存配置为107 TB。

（2）蓝色基因BlueGene/L存储系统

BlueGene/L的峰值速度是596.4Tflops，该系统具有1024个超级节点集合(collectives)，每个集合由64个计算节点和1个I/O节点组成。计算节点和I/O节点通过树型网络相连。整个系统共有64K个计算节点和1024个IONS。IONS通过GbE访问Lustre文件系统。BlueGene/L使用3种文件系统——GPFS，Lustre和PVFS2。

（3）"天河一号"超级计算机存储系统

"天河一号"超级计算机采用了多阵列、可配置、协同并行体系结构，系统由计算阵列、加速阵列和服务阵列组成，其中计算阵列、服务阵列分别由采用通用处理器(CPU)的计算节点机、服务节点机构成，加速阵列则由基于图形加速处理器(GPU)的大量加速节点机构成，实现了"CPU＋GPU"的异构协同计算，提高了计算效能。此外，"天河一号"采用了便于维护和高密度的刀片式(Blade)结构，每个机位都有几十个可热插拔的刀片，每个"刀片"实际上就相当于一块计算机主板，组成一台配置有处理器、内存等模块的节点计算机。

Fig.5 "天河一号"硬件系统：计算阵列、加速阵列、服务阵列，以及互连通信子系统、I/O存储子系统和监控诊断子系统

（4）"天河二号"超级计算机存储系统

Fig.6 "天河二号"I/O存储体系结构

"天河二号"超级计算机的存储系统采用一种新型的混合层次的存储架构，使I/O的客户端数目、I/O带宽和存储容量实现了高可扩展性。为了适应这种体系结构中，研究人员设计并实现了一个用户级的虚拟文件系统，可实现对动态单命名空间中的本地存储和共享存储实现共同操作，以优化I/O密集型应用的性能。评测结果表明，"天河二号"超级计算机的存储系统能够满足大型超级计算机的关键参数要求，如高性能和高可扩展性。

"天河二号"的内存：每个节点拥有64GB主存，而每个Xeon Phi协处理器板载8GB内存，故每节点共88GB内存，整体总计内存1.408PB。外存：12.4PB容量的硬盘阵列。

4. 新型存储设备对存储架构影响

随着物理学、材料学、微电子学、纳米电子学等基础学科的发展，具有高速度、低功耗、体积小、低噪声等优势的新型固态存储器件取得了令人鼓舞的研究进展，固态存储技术正在存储领域带来一场革命性的变化。作为固态存储典型代表的闪存（Flash Memory）因为延迟小、功耗低、并行度高、价格适中、容量大、非易失，其应用已经从数字家电、手机等嵌入式领域，演变到今天的服务器、高性能计算机以及大规模存储领域，而且发展空间越来越大。

推动着大数据时代变革的Facebook、Amazon和Dropbox等公司已在其云存储系统中大规模部署闪存固态盘（SSD, Solid State Drive）。除此之外，相变随机存储器（Phase Change Memory，PCM）、磁阻式随机存储器（Magnetoresistive Random Access Memory，MRAM）、铁电随机存储器（Ferroelectric Random Access Memory, FRAM）和电阻式随机存储器（Resistive Random Access Memory, RRAM）等一系列技术也都相继进入产品开发阶段，这类非易失存储技术统称为存储级内存SCM (Storage Class Memory)，它们既可以用作主存（Main Memory）以扩展DRAM，也可用作高速辅存（Storage）以提高I/O性能。

SCM具有非易失性（Non-volatile），可按字节访问，读写速度堪比DRAM，并且存储密度普遍较高，耗能明显少于传统存储技术。国际著名科技咨询机构Gartner在2010年和2011年分别将闪存和存储级内存SCM列为未来三年最值得关注的十大关键技术之一。我国863计划在"十一五"专门资助了对相变存储PCM器件和忆阻存储RRAM器件等新型固态存储介质的研究，取得了一定的进展。PCM、RRAM等虽然在设备级别已经取得了突破，但目前其读写性能和容量还不尽人意，要在大规模存储系统中的应用还需要更多的研究和探索。

以闪存、RRAM、PCM等为代表的固态存储技术在未来十年将进入高速发展期，尽管固态存储颗粒以及固态盘SSD已经研制成功并得到应用，但是，如何针对新型存储器件与传统存储器在性能、容量、功耗等方面存在的差异，充分发挥新型存储器件在大规模存储系统中的性能，还有许多重要问题值得探索和研究。例如，面对大数据时代的存储挑战，如何将它们有效地部署在存储系统上？

如何充分利用固态存储和其它存储介质构建成大规模、高性能存储系统？研究这些问题对未来其他可行的固态存储介质同样具有重要的借鉴意义：

（1）对于以DRAM和磁盘为代表的传统存储系统，设计和优化目标主要考虑数据的掉电保护、漏流功耗、数据预取等，而新型存储器件具有非易失性存储的特点，可随机访问，如果新型非易失性存储器件直接应用于传统的存储系统架构中，难以完全发挥新型存储器件的优势。因此，需要研究新型存储器件的特性，在并发存储系统中采用不同特性的多种器件，充分发挥新型存储器件的并发能力和低功耗特点，显著提高新型固态存储系统的性能。

（2）传统存储器件只有存储功能，而新型存储器件（如RRAM）同时具有存储和运算的功能。融合存储与处理的功能，可缓解存储墙的影响，有效改善全系统的整体性能。但融合了运算功能的存储部件，在体系结构、组织管理、数据配置等方面都将面临全新的挑战。

（3）新型存储器件在低功耗、非易失等方面有优势，结合传统DRAM构成混合主存系统，优势互补，发挥新型存储器件的性能。但是如何有效组织存储体，采用什么编码，如何放置数据，如何管理与调度数据等问题都亟待解决。

（4）基于新型存储器件的大容量存储阵列，在读写性能、特别是小数据量的I/O性能方面有明显优势，但由于读写次数受限，需要研究数据写入均衡算法，需要研究阵列系统的可靠性，需要研究数据的缓冲、替换算法等。

（5）为提高基于新存储器件的存储系统的性能，采用软硬件协同设计技术，可有效发挥硬件性能，在通信接口、驱动程序、热点数据识别等方面仍有许多问题需要研究。据IDC统计数据显示,亚洲市场对于光纤通道方案的青睐正在升温,目前市场售出的中端阵列产品有79%采用光纤通道标准。戴尔新近推出的SC4020存储阵列面向中型企业用户需求，能够利用传统磁盘、MLC以及SLC闪存构建起多个存储层，不失为其"重新定义企业存储经济"战略一大有益尝试。

5. 结束语

超级计算机的应用将日益广泛，存储子系统在其中的影响将更为显著。深入研究不同存储体系结构对大规模高性能的影响具有重要意义。应用对存储系统的需求历来充满矛盾：更大容量、更快速度、更低功耗、更低成本、更高可靠性。新型的高性能非易失性存储器件的出现及实用化，必将对大规模存储架构带来重大影响，需要在多层次并发存储架构、软硬件协同智能管理、高可靠易用等开展更多的研究。

Alvin Kho
戴尔公司亚太区存储事业部技术总监

戴尔流动数据理念，提升大数据时代企业核心竞争力？

当下全球最火的一部美剧毫无疑问当数《纸牌屋》，出品方兼播放平台Netflix分析其在全世界3300 万用户的观看喜好和习惯等数据，选择评分最高的演员出演《纸牌屋》，最终实现Netflix股价超低谷时的三倍，这就是大数据的魅力。

在这个言及企业核心竞争力必谈大数据的时代，电视剧网站都可以利用大数据赚钱，亚马逊们也在分析客户喜好定向推送产品，那么企业的CIO们该如何看待企业核心数据并做相应的策略调整呢？

低成本、高效管理数据是CIO面临最大挑战

目前不管哪种规模企业的CIO们都发现自己面临着一个貌似“π”的无解难题——现有数据的每次整合都意味着更多数据增量的出现，而增量往往大幅高出投资的预期。根据IDC的调研发现，在接下来的12年，全球数据量将增加50倍。在2011年，全球产生了1.8ZB(也就是1.8万亿GB)的数据量，而到2020年，全球产生的数据将达到40 ZB。与此同时，Gartner预期，未来每年IT管理费用增加3%，而且这部分是包含所有IT的整体支出。这表明，2013年IT预算支出仅比2012年增加0.8%，而增加的50倍的数据中85%是非结构化数据，这代表着CIO们要用极少的钱来管理和运营极其庞大的数据，并将数据转化为有价值的数据，为企业所用。

业界公认大数据具有4V特征，即Volume，Variety，Value，Velocity。Volume特征是指大数据的规模巨大，通常是PB甚至ZB级别;Variety特征是指数据类型繁多。大数据超越了以事务为代表的结构性数据的概念，涉及了以网页为代表的半结构化数据以及形式多样的非结构化数据，如文本、音频、视频等，也涉及了物流、交通、医疗、农业、金融、工业等多样化的信息源;Value特征是指大数据的高价值信息密度低;Velocity特征是指大数据要求很高的处理速度。大数据的处理通常具有时效性，必须把握好对数据流的掌控应用，从而才能最大化地挖掘利用大数据所潜藏的价值。

但事实上，正是大数据的这4V特征，给现有的数据管理技术提出了巨大的挑战。如传统存储架构复杂且庞大，数据读取速度缓慢，耗能严重等问题，越来越无法适应大数据管理的要求;大量的非结构化数据，就要求存储必须要能处理资源的多样性、复杂性、巨大的容量而且系统反应速度要及时等特性;又如能耗在现有通常是数据中心中的费用比例逐年升高，给企业带来了沉重的经济负担等。由此可见，传统存储架构已难以适应大数据背景下的企业级存储需求，CIO需要重新思考企业核心数据资产战略，需要重新思考数据存储对于企业的价值。戴尔主张——企业核心数据如同企业的“数据血液“，通过企业存储流向需要它出现的正确的地方，持续不断地给予整个企业发展的营养和动力，因此，CIO们需从基础架构层面入手，摒弃以往传统庞大、复杂的传统架构负担，代之以更具智能、高效、弹性的存储解决方案来实现对“数据血液”的充分利用和给养。

戴尔流动数据让CIO由被动变主动

数据在企业内部的流动需以体现数据价值为要务，但这个"水"不是无序的流动，而是按照IT架构的规则去流动，让其在合适的时间、以合适的成本在不同的存储平台之间自由流动。戴尔提出"流动数据(Fluid Data)"架构的理念即在于此，它一改客户面对海量的数据面前的被动局面，更为重要的是，流动数据架构不仅仅是一个概念，而是一个体系，是戴尔为之奋斗了十几年、几经变革千锤百炼的成熟体系。这个体系具有四大核心基因优势，即虚拟化，智能化，自动化，高效化。

l 虚拟化——虚拟化是现代信息存储和管理的一个必备，是任何一个解决方案所必需面对和解决的重点，对于戴尔来说更是如此。戴尔的存储虚拟化技术可以提供绝对的高灵活性和高性能虚拟化平台、软件和企业定制服务的无限制组合，让存储软件功能和存储硬件隔离，可以有效的削弱企业对专有硬件实施或管理框架选择的局限性和企业未来信息化发展空间的制约性。

l 智能化——戴尔的智能化主要体现在两个方面，一个是颗粒级智能，粒度越精细意味着可以使用的昂贵存储的效率就越高。戴尔虚拟化可以做到子卷级，相较于传统卷级虚拟化，不再以卷来分配，而是以块来分配，这意味着流动存储将更快、更省、更稳定。以前我们说流动数据架构技术本质是自动存储分层，但现在看来还应在数据行为模型里做彻底的"读写分离"。

l 自动化——自动化的核心在于自动化分层存储技术。通过这种技术可以使数据实现阵列和阵列之间的流动，成为真正的流动数据。从技术角度来说，自动分层存储将低访问数据迁移到廉价盘上，从而提升存储效率，减少存储设备的使用，降低总体成本。

l 高效化——得益于戴尔的各项核心技术和流动数据理念，戴尔解决方案本身就代表了高效化。一是数据存储高效化，以最小的存储设备存储尽可能多的数据，物尽其用;二是合理搭建硬盘架构，将核心硬盘应用于核心数据，提高效率;三是大幅降低设备购置、能耗、空间和运维成本;四是大大提高数据访问速度，融合资源共享平台。

流动数据架构将帮助CIO们实现低成本、高效率的管理和运用企业数据。真正让数据变得有价值，从而IT在整个企业业务模式中的地位转换。

Compellent突破成本桎梏

大数据的升起，使传统的"一体适用"式存储策略设计寿终正寝，但企业限于成本的考虑，选择既能高效地处理热数据和冷数据，又能贴合现代信息高新技术的应用，快速提升企业信息自动化和智能化的存储方式便尤为困难。闪存无疑是第一选择，闪存能够用比传统旋转盘片式磁盘快得多的速度来处理数据，特别是随着闪存价格的降低，大规模的企业部署已经逐步展开，许多企业已经在其设备阵列中加装了闪存驱动，作为专用存储层进行使用。

Compellent存储解决方案是戴尔面向中高端企业存储推出的解决方案，具有统一块状存储及文件存储、存储性能高度可扩展等特点，能够帮助企业兼顾存储性能及应用需求，确保存储性能及容量：

l 具备企业级存储战略特性。作为一个多用途存储平台，Compellent存储解决方案具有诸多企业级产品特性，例如自动精简配置、自动分层、数据复制、统一文件和块状数据存储、数据库重演认知级别的数据保护以及第三方集成等特性，确保在最大程度上利用存储资源。Compellent作为一个面向未来、永不落伍的平台，可以满足客户不断变化的需求。

l 成本的大幅降低。成本一直是企业选用闪存的主要障碍，但戴尔可以用相似于磁盘的价格提供闪存。全闪存解决方案实现高达5倍的价格竞争优势，混合闪存解决方案实现高达2倍价格竞争优势。较其他闪存优化解决方案，节约最高可达80%的成本。同时，戴尔独特的基于软件的存储技术和自动智能数据分层技术可以帮助企业节省运维成本最高达50%。在同等应用效果的前提下，采用戴尔可节省成本多达74%(采购、能耗、占地)。

l 卓越的提效能力。闪存的根本意义就在于它他的高效率，Compellent存储解决方案将此发挥到极致。一是通过单一界面管理SAN和NAS，从而避免单独的解决方案所需的复杂性和额外开销。二是借助直观的自动化工具和报告，最大限度地减少存储管理时间。三是将集中支持、产品培训和销售资源完美结合，并且涵盖全天候主动系统监控功能，帮助企业进一步改进性能和稳定性。

l 简化的可扩展性。企业级IT通常追求稳定性与可靠性，而非可以追赶市场的更新换代。秉承戴尔"倾听客户"传统，Compellent存储解决方案充分考虑客户需求，将企业架构可横向扩展变成现实。首先，Compellent存储解决方案将跨块和文件轻松进行纵向和横向扩展，无需中断的控制器软件升级;其次，企业只需一次性付款即可获得永久性软件许可，从而获得诸多功能，甚至享受跨硬件升级。

未来，持续的数据爆炸和技术进步将不断推动关键的存储领域保持迅猛的发展势头，CIO们将面临更多的存储创新。作为近年来存储服务提供商新秀，戴尔存储没有丝毫传统负累，以创新精神为客户提供能够满足未来端到端数据流动性管理需求的存储解决方案，并通过原生技术收购，整合技术研发、产品组合优势，为客户带来领先业界的一系列革新技术。

薛伟
国内知名云存储、大数据专家，清华大学大数据中心特邀专家

云存储平台构建："量体裁衣"方能"保驾护航"

"云计算、物联网、社交媒体、移动互联网、大数据……"，当这些时髦的概念一个接一个出现之时，其背后意味着有越来越多的数据在无时无刻、源源不断地产生。毫无疑问，我们正处在一个被数据包围的大数据时代，数据存储、管理与价值挖掘无疑意义非凡。在云计算逐渐走向落地的今天，我们需要面对的环境也越来越复杂，私有云、公有云、混合云等环境下，构建出一个出色、符合自身特点的云存储平台不仅能够充分利用存储资源、简化存储管理，更可为大数据的数据价值挖掘提供坚实、可靠地支撑，从而真正为业务起到保驾护航的作用。

"数据"不一样了

当前的数据已经跟过去不一样了，过去几十年中数据类型往往较为简单，数据量增长和规模都较小，对于数据存储、管理、利用的模式较为固定和简单。而随着互联网的飞速发展，到现在物联网的崛起，数据每分每秒都在大量的产生，数据类型则是日益丰富，除了传统的结构化数据外，视频、音频、邮件、文档、日志文件、图片、影像等非结构化或半结构化数据正在大量涌现，并且成为数据增长的主力；与此同时，数据产生的来源也不再单一，多终端、多设备使得数据来源变得异常广泛。

更加值得关注的是，随着云计算时代的到来，应用的日渐丰富，各行各业之间的联动加强，使得数据之间的联动性和使用模式都在发生改变，过去彼此孤立的数据，现在则可能出于新的需求而进行联动和整合。因此，在这个越来越复杂的环境下，用户必须要有适合自身发展需求的云存储平台来作为支撑。

云存储平台：需要量体裁衣

构建出一个出色的云存储平台首先需要考虑的就是这个平台是否适应自身业务的发展需求，并且要从全面的角度来衡量。比如，需要从企业资深的业务场景来匹配对应的最佳存储平台；需要考虑自身机房的空间、运维人员的技术能力以及成本；还需要从性能、扩展性、高可用等角度来权衡云存储平台；甚至需要从管理性和自动化的角度来考虑云存储平台。

当然，对于用户而言，最为重要的就是懂得量体裁衣，而不是盲目跟随。我们都知道随着云计算的兴起，基于分布式的技术开始流行。而事实上，并不是所有的用户都适合采用这种方式，云计算以及云存储的本质是希望能够将资源得到自动化、弹性、高效地使用，分布式存储只不过是实现方法之一。尤其是在私有云环境下，企业往往在开发人才和技术储备有限的情况下，不能盲目追求像Google、Amazon那些互联网公司的模式，而是需要切实根据自身业务特点和实际情况来选择合理的云存储平台。

私有云环境

大多数企业级客户都希望将自己的数据中心改造成一朵私有云，让自己的IT资源能够自动化、弹性以及高效地使用。然而大部分企业级客户的IT部门往往规模不大、任务却不少，与此同时企业的机房空间往往又非常有限，在这种情况下，一些所谓的分布式技术反而不一定适用。

企业级用户在构建私有云环境下的云存储平台仍需要将可靠性、安全性以及稳定性放在首位，云存储首先具备这些特点才能够保证企业级用户的业务不出现意外；此外，还需要存储具备云的特点，比如能够将存储资源进行池化并能够通过多租户的方式按需提供使用等；更加关键的是，云存储平台需要在自动化和可管理性上满足需求。因此，对于企业级客户而言，分布式存储不一定就是构建云存储平台的最佳选择，而带有云存储特点和功能的企业级存储也不一定就已经落后。

事实上，很多传统存储厂商的产品经过发展与创新之后更加适合私有云环境使用。当前存储产品发展比较明显的趋势就是走向功能化，通过丰富的软件功能来满足用户在云存储等方面的需求；并且逐渐简化存储使用难度，让用户更加容易的配置和管理存储资源。例如，目前很多充当云存储平台的存储阵列普遍带有自动分层功能，像Dell Compellent这样的阵列，能够很好地对冷热数据进行高效迁移，从而让用户存储平台使用更加高效，而像自动精简配置、重复数据删除、快照、复制、多租户化等特性也让用户在构建云存储平台更加高效和简单。

总之，对于私有云环境下的云存储平台构建，需要充分考虑到企业人力、运维以及机房等成本，功能化丰富、性价比合适的云存储阵列不失为企业级客户的优良选择。

公有云平台

公有云平台的构建往往是针对云服务提供商，这些用户需要通过构建云存储平台来对外提供云存储服务，像这些云服务提供商往往具有大量的开发团队和技术人才。因此，拥有自主性强、易于开发和维护的云存储平台是他们的首要目标。

像云服务提供商这样的客户，首先需要明确的是成本敏感，昂贵、且对用户而言，没有自主权的传统企业级存储其实并不适用，低成本、基于标准化的、易于开发的分布式存储则非常适合云服务提供商。云服务提供商在构建云存储平台还需要考虑到如何提供优秀的服务等。

在国外云存储最为有名的无疑是Amazon S3云存储服务，其他像Google、微软的云存储服务也较为有名，但是国外的云存储模式不一定适合国内云服务提供商的发展。由于国情不同，特别是考虑到国内电信运营商的实际情况，国外的云存储模式可能在国内会遇到较大问题。笔者根据多年国内云平台构建的经验，以大文件为主的视频网站云存储平台为例，认为基于有中心和无中心混合架构模式的分级云存储平台更加符合国内云存储实际发展情况。

当前国内多运营商的情况决定了国内网络环境的不稳定会是一种常态。因此，在构建云存储平台时往往需要在技术上重点考虑这种情况。笔者认为在构建分级云存储平台的关键技术包括针对广域网不稳定环境下大文件云上传、高效的大文件指纹算法、无中心架构模式的分布式存储缓冲区以及中心架构的分布式文件系统。

针对广域网不稳定环境下的大文件云上传技术支持分片上传、断点续传、秒传、多线程上传文件以及多点上传，利用云端技术统一调度文件上传，提高用户上传速度和节省网络带宽。笔者在这里需要强调的是云存储平台在互联网应用中尤其应该注意业务的衔接问题，比如上传和下载等基本服务，不光要有云存储的通用接口，还需要为业务提供各种大小数据、冷热数据的适配接口。在视频领域的云存储服务中，4K视频文件由于文件较大，因此提供一种高效、稳定的上传方式尤为重要，针对4K视频文件需要有断点续传和多线程上传技术来支撑；而转码业务则需要有分片下载、分片转码等技术来处理数据。云存储平台只有通过这些技术才能很好地适合国内网络环境不稳定的情况，以达到提升用户使用云存储体验感受的目的。

云存储平台在互联网应用中需要注意

采用高效的大文件指纹算法则可以实现不需要读取整个大文件的数据进行计算，从而减少大量的磁盘IO、内存占用、CPU占用，极大地提升了计算效率。云存储服务提供商对成本敏感，通过大文件指纹算法能够有效地降低IT开销、提升云存储服务的效率，从而让云存储服务提供商整体运营效率更加高效。

分级云存储平台还需要采用有中心和无中心混合架构模式，将临时数据、热点数据存储在无中心架构的数据缓冲区，保证了数据存储和访问的高效性；数据最终离线则转存到中心架构的分布式文件系统内，保证海量数据的高可用性。

总体而言，公有云平台的云存储平台的设计目标就是简单、高效、健壮，能够实现存储任意规模的数据，并且保证数据的安全、可靠，以及任意时候都能够良好的访问。