在云计算领域,数据与人工智能的融合趋势愈来愈明显,这一趋势在亚马逊云科技re:Invent 2022上可见一斑。亚马逊云科技将其总结为上云、用数、赋智。
(相关资料图)
企业数字化已经进入深水区。从早期的上云,到现在,企业需要解决如何通过数据和智能来改造企业的决策流程,重塑业务体系。
全球云计算领导亚马逊云科技在其re:Invent 2022上明确将这整体流程总结为上云、用数、赋智。三个阶段相辅相成,其中上云可以相对容易,用数学问比较大,赋智是更高的境界。
亚马逊云科技大中华区产品部总经理陈晓建表示,re:Invent2022发布了非常多的数据服务。从这些re:Invent发布的特性中能够看到,未来技术演进的方向是数智融合。
Amazon SageMaker五年增加260项新功能
提到人工智能,Amazon SageMaker绝对是明星产品。也是数据与智能融合的典范。在推出的五年时间里,Amazon SageMaker增加260项新功能,不断降低机器学习的技术门槛,简化机器学习的前期工作,加速为客户“赋智”。在数据服务方面也是如此,通过各种新服务和新功能,尽可能让开发人员可以上手开展机器学习。
其中,Amazon SageMaker Studio Notebook提供了强大的数据功能。帮助客户直观地通过几次点击检查和解决数据质量问题。
专业人员在准备训练数据时希望直接在Notebook中探索数据集,以发现和纠正潜在的数据质量问题(如信息缺失、极值、数据集失真和偏差)。专业人员可能要花费数月时间编写样板代码将数据集的不同部分可视化,检查数据集,以期识别和修复问题。
Amazon SageMaker Studio Notebook新提供了内置的数据准备功能,让专业人员只需点击几下即可直观地查看数据特征、修复数据质量问题,所有这一切都直接在Notebook环境中进行。当用户在Notebook中显示data frame(即数据的表格形式)时,Amazon SageMaker Studio Notebook 会自动生成图表帮助用户识别数据质量问题,提供数据转换建议帮助解决常见问题。专业人员选择数据转换后,Amazon SageMaker Studio Notebook 会在Notebook中生成相应代码,可供每次运行Notebook时重复应用。
Amazon SageMaker Studio 是一个集成开发环境,它提供了一个基于 Web 的可视化界面,开发人员可以在其中访问各种工具,执行所有机器学习开发步骤,从准备数据到构建、训练和部署机器学习模型,将数据科学团队的生产力提高多达 10 倍。开发人员可以快速上传数据、创建新记事本、训练和调优模型,在各个步骤之间来回切换以调整实验,还可以在不离开 Studio 的情况下将模型部署到生产环境中。
Amazon Glue Data Quality跨数据湖和数据管道自动管理数据质量
Amazon Glue 是一项完全托管的提取、转换和加载 (ETL) 服务,让客户能够轻松地准备和加载数据以供分析。此次re:Invent 2022,亚马逊云科技为Amazon Glue推出的一项新功能,叫Amazon Glue Data Quality,可以跨数据湖和数据管道自动管理数据质量。其最终目标也是指向机器学习应用。
成千上万客户使用Amazon Glue快速、轻松且经济高效地构建和管理现代数据管道。组织需要监控其数据湖和数据管道中信息的数据质量(衡量数据的即时性、准确性和完整性),确保数据的高质量,然后再将其用于分析或机器学习应用。但数据质量管理是一个耗时且复杂的过程,需要数据工程师花费数天时间收集数据的详细统计数字,根据这些统计数字信息手动识别数据质量规则,并将其应用于数千个数据集和数据管道。实施了这些规则之后,数据工程师必须持续监控数据中的错误或变化,相应地调整规则。
Amazon Glue Data Quality可以自动测量、监控和管理Amazon S3数据湖和Amazon Glue数据管道的数据质量,将数据分析和规则识别的时间从几天缩短到几小时。Amazon Glue Data Quality可以计算客户数据集的统计数字(如最小值、最大值、直方图和相关性),使用统计数字自动地推荐规则,确保数据的即时性、准确性和完整性。客户可以安排Amazon Glue Data Quality在数据发生变化时定期运行,自动分析数据并提出质量规则的更改建议以确保相关性。一旦出现质量问题,数据工程师无需编写代码即可配置用户提醒或终止数据管道。
Amazon SageMaker对地理空间数据极致支持
亚马逊云科技对地理空间数据的支持让客户能够更轻松地为气候科学、城市规划、灾难响应、零售规划、精准农业等行业开发机器学习模型。此举意在帮助客户将更多的数据用于机器学习。
当前,大部分收集到的数据都包含地理空间信息(如位置坐标、天气图和交通数据)。但是,已经用于机器学习的只有一小部分,原因是地理空间数据集很难处理,通常达到PB 级的规模,且跨越整个城市或数百公里土地。要开始构建地理空间模型,客户通常会采购卫星图像或地图数据等第三方数据源以补充其专有数据。
由于地理空间数据规模庞大,专业人员需要合并这些数据,准备数据用于训练,并编写代码将数据集划分为可管理的子集。当客户准备部署训练好的模型时,他们必须编写更多代码以重新组合多个数据集,将数据和机器学习模型预测关联起来。
为了从完成的模型中提取预测结果,专业人员需要花费数天时间使用开源的可视化工具在地图上做渲染。从数据改进到可视化,整个过程可能需要几个月的时间,这使得客户很难利用地理空间数据及时产生机器学习预测。
Amazon SageMaker将客户丰富数据集、训练地理空间模型并将结果可视化的时间从数月缩短到数小时,从而加速和简化地理空间机器学习预测的生成。客户只需几次点击或使用 API就可以使用 Amazon SageMaker访问各种地理空间数据源。
例如亚马逊云科技的位置服务Amazon Location Service、开放数据集Amazon Open Data、客户自有数据和来自Planet Labs等第三方供应商的数据。
当专业人员选择了想要使用的数据集,他们可以利用内置的运算器将这些数据集与自己的专有数据合并起来。为了加快模型开发,Amazon SageMaker 提供了预训练的深度学习模型,其支持的用例包括通过精准农业提高作物产量、监测自然灾害后区域恢复以及改善城市规划等。训练完成后,内置的可视化工具在地图上显示数据,揭示新的预测。
Amazon QuickSight Q 新功能让客户能够预测并追问预测依据
陈晓建认为Amazon QuickSight Q把人工智能和业务洞察相结合,使得客户不用再去掌握数据分析技术,而是通过人类自然语言来进行业务的洞察,从而大降低了使用门槛。
Amazon QuickSight Q使用机器学习让任何用户都能以自然语言提出有关业务数据的问题,并在几秒钟内获得可视化的准确答案。它让没有技术专业知识的业务人员都可以探索历史趋势和数据指标,让用户能够从支撑其看板和报表的数据中获得新的洞察。
亚马逊云科技新推出的Amazon QuickSight Q功能是可以针对预测结果追问预测依据。这样就可以查看特定结果受哪些历史数据影响。Amazon QuickSight Q让数据智能实现以前可以问“是什么”,现在不仅可以问“是什么”,还可以问“为什么”。
走过11个年头的亚马逊云科技re:Invent已经圆满落幕。re:Invent 2022带了诸多新的产品和新功能。其核心仍然是数据和智能的融合,降低客户使用门槛。让客户能够将更多精力放在业务本身。
Forrester 副总裁兼研究总监戴鲲评论道:“Forrester认为,在持续动荡的全球宏观经济环境下,广大企业客户亟需构建兼具韧性、自适应性和创造性的适应未来的技术战略。亚马逊云科技在今年re:Invent大会上的产品与服务发布不仅一如既往地贯彻自身以客户为中心的长期主义,而且持续彰显其作为全球公有云基础设施与开发平台市场领导者的前瞻性技术视野与快速产品创新能力。”