DOITAPP
DOIT数据智能产业媒体与服务平台
立即打开
DOITAPP
DOIT数据智能产业媒体与服务平台
立即打开

亚马逊云科技的云原生数据战略,是一种认识世界的方式

2022年,全世界范围内,伴随着各种不确定因素,许多人调整了对于未来发展的预期。进入到2022年12月,越来越多的朋友都意识到,人们对于病毒的认识仍有一些不足,对于许多疾病的治疗手段,也并没有想象中的那么理想。

幸运的是,我们能看到科技发展总是向好的,科技进步不仅是效率的提高,通常还代表着认识世界的方式的改进,这是我看亚马逊云科技re:Invent大会之后的一个感悟。在我看来,亚马逊云科技的云服务代表着认识世界的一种方式。

正如亚马逊云科技大中华区产品部总经理陈晓建所言,当我们无法用肉眼探索太空的时候,人们发明了火箭、卫星和空间站。当我们面临像星空一样广袤的数据挑战时,我们需要构建云原生的数据战略来发现数据中的价值。

云原生数据战略:发现数据中的价值,打开认识世界的新方式

虽然数据记录着已经发生的过往,是一笔非常宝贵的财富,但是,当认知能力有限时,便无法从中发现和解决问题,进步的步伐会受限。

现如今常说的大数据、人工智能、机器学习都是从数据中发现价值的技术。

以机器学习为例,它能从数据中找出与结果的映射关系,将这种映射关系套在新的数据上,能智能地做出分类和预测,除了提高一些事务的处理效率,还能发现此前没发现的东西,比如,将人工智能用于新药研发,开发出没见过的棋招等等。

2022年,无论是文本生成图片的AIGC机器学习模型,还是ChatGPT这种交互式的智能聊天机器学习模型,都不断刷新着人工智能的能力上限。其实,也在不断改变着人们认识世界的方式,或者与世界交互的方式。

不容忽视的是,这些创新背后都是基于数据来实现的,但是,从实践层面来看,想挖掘数据价值并不容易,将新的洞察与实际需求相结合,转化为生产力的操作更是难上加难。既需要一套实践得来的经验,也需要很多现实可用的工具。

亚马逊云科技的实践经验来自亚马逊电商,比如,基于数据分析为用户推荐书籍。过程中,善于提炼总结的亚马逊云科技准备了一系列简单易用的工具。

亚马逊云科技通过提供端到端的全面数据解决方案,帮助企业摄入数据,存储数据与查询数据,做数据分析,商业智能,进行人工智能与机器学习创新,并通过安全合规的方式进行集团内或公司之间的共享和输出。

那么要如何构建云原生数据战略呢?

对此,陈晓建表示,构建端到端数据战略需要三个核心:建立面向未来的云原生数据基础设施;实现高效、跨组织的数据一体化融合;借助教育和工具,使数据普惠化。

在我看来,面向未来的云原生数据基础设施,其核心在于用云的优势来高效地存储、管理和分析数据,其重点在于工具。而实现高效、跨组织的数据一体化融合,其重点是基于实践的一套数据连接流程。

最后,借助教育和工具,使数据普惠化,则是让更多人真正掌握挖掘数据价值的能力,掌握认识世界的工具。所以说,亚马逊云科技的云原生的数据战略是认识世界的方式。

端到端数据战略需要的云原生数据基础设施

构建端到端数据战略需要三个核心之一就是建立面向未来的云原生数据基础设施。

云原生数据基础设施有四个关键点。首先,面向不同负载提供不同的工具,工具类型要丰富。同时,各种工具的性能表现要够高,并且,工具本身要足够简单易用,最后,整个过程要足够安全。

面向不同工作负载,亚马逊云科技提供的工具类型非常丰富。

多种数据库,分析工具和机器学习服务

存储上,数据存储上有Amazon S3、Amazon EFS和Amazon EBS。数据库上,有关系型数据库、非关系型数据库八大类型。

在数据分析方面,有云上数据仓库Amazon Redshift,大数据分析服务Amazon EMR,商业智能工具Amazon QuickSight,做日志分析的Amazon OpenSearch和做交互式查询的Amazon Athena。

为了更好地在云上用Spark。2022年re:Invent大会上,亚马逊云科技推出适用于 Apache Spark 的 Amazon Athena,让用户使用Athena来调用Spark。同时,还宣布了针对 Apache Spark 的Amazon Redshift 集成预览,可以更快地用上Amazon Redshift中的数据。

在机器学习上,亚马逊云科技支持包括PyTorch 和 TensorFlow 等常见的深度学习框架,还有帮人开发机器学习模型的Amazon SageMaker,另外,还提供了SaaS化的AI 服务,比如语音转文本的Amazon Transcribe和文字转语音的Amazon Polly。

性能是企业在数据海洋里驰骋的关键。

Amazon DynamoDB每秒处理超过一亿次的请求,上万个Amazon Redshift用户每天都会处理超过EB级别的数据总量,并且,Amazon Redshift在并发和延迟方面的表现都非常出众。

re:Invent今年的更新也是侧重优化性能。其中,新步伐的Amazon DocumentDB Elastic Cluster将Amazon DocumentDB集群支撑每秒百万级读写,Amazon RDS写优化提升了两倍,Amazon RDS读优化提升了最高50%。

在消除复杂性方面,亚马逊云科技主要通过自动化和机器学习来减少手动操作。

比如,Amazon S3 智能分层自动地将数据在不同存储层级之间迁移,实现成本和性能的新的平衡,过程中完全不需要用户参与。Amazon SageMaker在易用性的基础上,加入了许多智能化和自动化的能力,降低机器学习开发的复杂度。

2022年re:nvent大会上,Amazon SageMaker支持Geospatial ML,用户可以轻松地调用高质量的地理空间数据,而不用与多个数据源和供应商合作,这项功能非常实用,因为,地理空间数据对于城市市政规划,对于商家选址都非常重要。

另外一个简化操作的发布是Amazon OpenSearch Serveless,它补上了分析服务Serverless化的最后一块拼图,Amazon Opensearch Serverless会进一步让架构变得灵巧而轻便,全自动扩展,用户只管使用和按量付费即可。

作为云上的重要基石,亚马逊云科技在安全和可靠方面也不断加码。

2022年re:Invent大会上,亚马逊云科技发布了Amazon RDS蓝/绿部署功能,用于避免数据库升级的安全隐患,它开辟一个测试环境进行测试,通过测试后会将测试环境切换为生产环境,以此降低数据库运维团队的操作压力。

另外,新发布的还有Amazon Redshift Multi-AZ多可用区功能,它实现了Amazon Redshift的跨可用区容灾。结合原有的自动备份和恢复功能相结合,Amazon Redshift的安全性和可靠性上了一个新台阶。

端到端数据战略需要数据一体化融合能力

在亚马逊云科技看来,连接数据的能力,实现数据一体化融合也非常重要,与云原生数据基础设施一样重要。

连接数据的能力需要的是一套能高效、跨组织进行数据一体化融合的解决方案,一方面要能自动化数据路径,一方面要能进行数据治理。

自动化数据路径方面,亚马逊云科技特别提到了ETL和数据源两部分。

ETL是将数据经过抽取、清洗转换之后加载到数据仓库的过程,将原本分散、零乱、标准不统一的数据整合到一起,为后续数据价值挖掘,比如,大数据、BI以及机器学习开发做准备。

ETL很重要,但非常麻烦,尽管亚马逊云科技有完全托管的ETL 服务Amazon Glue,但亚马逊云科技觉得这还不够。在2022年re:Invent大会上,亚马逊云科技提出了“零ETL”的概念,让用户省去ETL的操作,也就是说,用户不再需要手动构建数据管道。

具体而言,亚马逊云科技宣布Amazon Redshift流式注入功能正式可用,它直接打通了Amazon MSK和Amazon Redshift,类似的,新发布的Amazon Redshift auto-copy from S3,打通了Amazon S3和Amazon Redshift,Amazon Aurora zero-ETL to Amazon Redshift打通了Amazon Aurora和Amazon Redshift,这几种操作都避免了手动ETL的操作。

在数据源部分,亚马逊云科技通过新增Amazon AppFlow增加支持的数据源,2022年re:Invent大会上,亚马逊云科技宣布新增22个新的 Amazon AppFlow 连接器,现已总计支持 50 多个连接器。

Amazon AppFlow支持让用户不用写任何代码就能设置数据流,获得来自Facebook Ads和Google Ads、Microsoft Teams、GitHub 等业务运营数据,并且,支持把数据连接到Amazon S3数据湖,以及Amazon Redshift数据仓库中进行后续分析。

在机器学习方面,Amazon Sagemaker Data Wrangler可以访问多达40多个新的数据源,帮助机器学习开发的过程中准备更多数据。

最后,在数据治理方面,re:Invent大会上重磅发布了一个叫Amazon DataZone的数据管理服务,它帮用户对各种数据进行分类、发现、共享和治理,同时,它还提供了更精细的控制工具,管理和治理数据访问权限,以确保数据安全。

端到端数据战略还实现数据普惠化

公有云便捷易用的特点在技术普惠化方面非常有优势,亚马逊云科技作为首屈一指的公有云服务商,在数据普惠化方面有几点也很有意思。

一个是Amazon SageMaker Studio Lab,这是一个免费的机器学习(ML)开发环境,它提供计算、存储资源,任何人都可以注册并进行机器学习开发试验,它预配置了最流行的 ML 工具、框架和库,它面向所有人,它是免费的,对于缺少GPU等训练资源的朋友很有帮助。

另一个是亚马逊云科技力推的Amazon DeepRacer,它通过所见即所得的方式帮学生认识和了解机器学习(具体说是强化学习),激发学生的兴趣和后续的学习热情,为的是让更多人掌握用云计算技术掌握机器学习开发能力。

再有一个,就是大名鼎鼎的Amazon SageMaker,作为在线的机器学习开发平台,它目前的功能是越来越多,几年前,我曾动手通过几次点击训练了一个机器学习模型,它能降低机器学习的开发门槛,让更多人入门机器学习开发。

在2022年re:Invent大会上,亚马逊云科技发布了五项Amazon Quicksight全新功能,帮助客户简化BI(商业智能)运营。此次发布扩展了自然语言查询功能Amazon QuickSight Q,支持用户用自然语言获得洞察,既可以从现有数据中获得商业智能洞察,同时还新增了预测的能力,比如,预测下一年营收的问题。

以上几个方面,都能说明亚马逊云科技作为云服务商在推动数据普惠化方面的实践,类似的操作还有很多。

结束语

从以上内容可以了解到,亚马逊云科技擅长以具体的产品技术解决复杂的问题以满足现实的需求,这是亚马逊云科技服务类型不断丰富的根本原因。

正如陈晓建所言,当面临极端挑战时,必须选择那些专门定制、功能足够强大的工具和解决方案。极端的挑战意味着对性能的极致要求,意味着在充满不确定性的时代,快速、敏捷地进行现代化应用开发,意味着每个企业都需要积极掌握最新科技,探索未知的未来。

未经允许不得转载:DOIT » 亚马逊云科技的云原生数据战略,是一种认识世界的方式