亚马逊云科技正在让数据价值挖掘变得更简单-DOIT-数据产业媒体与服务平台

北京时间2022年11月30日凌晨，亚马逊云科技CEO Adam Selipsky,奉上了re:Invent第二场重磅演讲。

作为科技八卦党，在看了一遍视频回放后觉得，今年令人特别惊艳的新东西少了点，更多是对现有产品体系架构的补充。

当然，与“从零到一”的夺人眼球不同，行百里者半九十，这些能解决实际需求的补充和完善同样重要。

本文简单梳理一下主要发布的内容，所以，接下来进入看图说话环节：

CEO演讲的主题是探索广阔的数据领地（Exploring the vast data realm），具体分为合适的工具（Right tools）、数据的集成（Integration）、治理（Governance）和洞察（Insights）四部分。

第一部分，合适（正确）的数据工具。

合适的工作分成了三个方面，一个是数据库服务，一个是大数据分析服务，另一个是AI/ML服务。

数据库方面，亚马逊云科技有引以为傲的一系列数据库，其特点是类别非常全面，用法上，强调专库专用。之前我也简单梳理过，有兴趣的可以看一下，了解下基本概念和相互间的区别。

亚马逊云科技最自豪的数据库肯定就是Amazon Aurora，性能吊打开源的MySQL和PostgreSQL，成本比商业版的数据库低，最重要的是，它在亚马逊跟甲骨文的隔空对线中立下了汗马功劳。

大数据分析产品家族有七大服务，其中以云上数据仓库Amazon Redshift最为出名，七大服务的功能定位各不相同，绝大部分都以Serverless的方式对外提供服务，除了最后一个。

就在强迫症观众快要掀桌子的时候，Adam非常识趣地发布Serverless版的Amazon OpenSearch Service（预览版），至此，数据分析家族全是Serverless的了。

在AI和机器学习部分，亚马逊云科技从IaaS到PaaS和SaaS全覆盖。IaaS层支持的硬件类型特别多，除了英伟达的显卡和英特尔的Habana Gaudi，还有FPGA和自研的训练芯片Inferentia，PaaS层最值得关注的还是机器学习IDE——Amazon SageMaker。

第二部分，减少数据集成的痛苦。

数据集成部分的新发布将现场气氛推向了一个小高潮，因为Adam喊的是要帮数据工程师跳过ETL，绕过手动构建数据通道的过程，创造一个没有ETL的理想世界。

2022年，即使没有操作过也肯定也听过ETL（extract, transform, load）的大名，ETL简直就是痛苦的代名词，重复操作多，操作过程复杂，耗费时间巨多。

新发布的服务叫Amazon Aurora zero-ETL integration with Amazon Redshift，它是怎么做的呢？

其实，为了减轻ETL带来的痛苦，亚马逊云科技有两类操作：

第一类，让Amazon Redshift和Amazon Athena都支持联邦查询，所谓联邦查询是让数据停在原地，让查询计算引擎跑到数据旁边，从而避免手动ETL；

第二类，让数据源跟Amazon Redshift集成，比如AWS Data Exchange、SageMaker都是如此，它是自动将数据同步到Redshift里，从Redshift里查数据，而ETL过程无需手动操作；

Amazon Aurora zero-ETL integration with Amazon Redshift大致就就属于后者，用法上，只要你指定Aurora里的表，表里的数据马上就自动地、快速地同步到Redshift里了。

Amazon Redshift integration for Apache Spark的原理也是一样，把EMR、Glue和SageMaker的数据同步给Amazon Redshift，然后让Spark去Redshift查数据就行了。

第三部分，数据的治理（Governance）。

数据治理解决数据价值挖掘过程中的常见问题：数据访问控制的太严了，容易找不到要分析的数据，数据少了，数据价值就没法释放。数据访问控制的太松了，数据出现在不该出现的地方，容易出问题。

为了解决这个问题，于是就有了Amazon DataZone，一个专门用来给数据做分类，做数据发现，做数据分享和管理的服务，像是一个给企业准备给的数据门户。

个人觉得，Amazon DataZone的重点是帮你发现数据，万一某一个不容易发觉的角落里藏着有价值的数据，没被用上岂不是很亏，实践中，企业可以根据组织架构和业务部门的划分来发现和组织数据。

为了帮企业发现和利用数据，Amazon DataZone支持用元数据和机器学习技术来对数据进行分类，分类整理好的数据可以交给工程师、数据科学家、产品经理、分析师和业务人员来使用，在这里开展基于数据的分享和协作。

第四部分，更容易获得的数据洞察。

这部分主要介绍的是亚马逊云科技的BI服务QuickSight，最早是2015年发布的，它能让非技术人员进行数据可视化，获得洞察。

2020年，QuickSight新增了以自然语言进行交互的方式，不过，查询的数据都是当前已有的数据。

而现在，ML-powered forecasting with Q让QuickSight用自然语言对未来作出预测，比如，你可以用英语说：“请告诉我未来12个月的销售情况”，然后，系统会立马返回一个预测结果。

更有意思的是，你还能追问造成一个现象的原因，比如，你可以问，“为什么1月份的销售数据增长了那么多？”，而系统会给出一些具体的解释。

从技术上来讲，支持中文也完全不是问题，从实际使用来讲，主要是优化非技术人员使用数据的能力。最后，能不能获得好的洞察，得看你会不会问问题了，是不是还挺有意思的？

最后，顺便看一眼其他发布

除了关于“探索广阔的数据领地”这一主题，Adam还零星介绍了其他新服务：

在安全方面，威胁检测响应服务Amazon GuardDuty新增了对容器运行时环境的检测，这项服务叫做Container runtime threatdetection for GuardDuty，帮用户发现容器内部的安全威胁。

另外一项安全发布叫Amazon Security Lake，顾名思义，这是一个专门分析安全相关数据的数据湖，用户自己创建数据湖，湖里导入云上和本地环境中的各种安全相关数据，然后，使用常见的各种安全公司的检测分析工具从数据里找出安全问题，提高企业的安全水平。

在机器学习方面，发布了新一代的机器学习推理实例Inf2，推理的性能提升4倍，延迟降低了十倍。推理方面没什么可讲太多的，能做推理的芯片很多，重点是提升效率，缩短推理的时间和推理的成本。

在高性能计算领域，在原有基于AMD霄龙的Hpc6a的基础上，新推出了两款主机：

一个是之前提到过的Hpc7g，采用的是自研的专门为HPC负载优化的Graviton3E处理器和EFA高性能网络，强调计算和网络表现都有较大提升。

另一个是强调数据和内存密集型负载的Hpc6id，其特点是性价比比较高，它采用的是英特尔第三代至强可扩展处理器，能用上英特尔在高性能计算领域的优势，比如MKL和AVX 512指令集之类的。

最后，还发布了几个面向行业场景的新发布：

一个运行大规模空间模拟负载的托管服务——AWS SimSpace Weaver，省去了用户做空间模拟任务时，自己管理配置软硬件环境的麻烦。

云呼叫中心Amazon Connect新增了三个功能，一个是支持用机器学习来帮助预测和资源规划，一个是做绩效管理的功能，还有一个是面向最终用户的交互页面。

供应链管理解决方案AWS Supply Chain，可用来提升供应链的可见性，能给企业提供具有可执行性的洞察和建议，帮助企业缓解供应链方面的风险。

面向广告营销场景的AWS Clean Rooms，让用户跟合作伙伴分享数据，同时，可以保护数据隐私不泄露。

面向生物医疗领域的Amazon Omics，用于存储、查询、分析生物组学数据，并从数据中获得洞察，这是为需要大规模数据分析的生物医疗研发场景准备的。

亚马逊云科技正在让数据价值挖掘变得更简单

zhupb

相关推荐

近期文章

热门标签