re:Invent全球大会全回顾:硬件创新、全面无服务器、云原生数据战略

为了参加今年的“云计算春晚”,一周前,有超过5万名科技行业从业者从全球各地飞往了拉斯维加斯。

在2022亚马逊云科技re:Invent全球大会的展区,人群熙熙攘攘,参会者们驻足流连于各个展台前,亲身体验着一个个基于亚马逊云科技的应用模拟场景。

在机器人啤酒屋,机械手臂会接受指令自动下单,为你不多不少精确地倒上满满一杯啤酒;在智能篮球罚球场地,视频能通过分析你的投篮姿势来预测你的下一次投篮是否能得分;你可以在Amazon Cloud Quest交互式角色扮演游戏里学习云计算知识,也可以去现场观摩激动人心的Amazon DeepRacer自动驾驶锦标赛……

当第一届亚马逊云科技re:Invent全球大会召开时,大数据、云计算、人工智能对于普通人来说还是陌生而又遥远的词汇。而如今,云科技已经在我们生活中变得随处可见,它深切着影响着零售、制造、办公、娱乐等各个行业,在不知不觉中给每个人的生活带来了巨大的变化。

在今年的亚马逊云科技re:Invent全球大会上,亚马逊又再次发布了一系列极具创造力和颠覆性的的新功能、新产品,突破性的创新覆盖了云计算的方方面面。从中,我们似乎又看到了一个更加智能的未来。

造芯,为云而生的硬件创新进入加速期

近年来,随着机器学习、大规模数据处理等的高负载云计算的爆发式增长,运算强度大、高并发、应用复杂的特点日益凸显,这对云计算厂商的服务质量提出了前所未有的高要求。

特别是很多应用开始上云,对云的算力性能提出了更多的要求,这也逼着云厂商提供更准确的“量体裁衣”、为不同需求的应用打造更适宜的生长土壤。而芯片作为提升算力服务最底层、最核心领域,提供了根本改变云计算的能力。

作为云计算的探路者,亚马逊云科技很早地就察觉到了这个趋势,并率先开启了自研芯片之路。

2013年,亚马逊云科技推出了首颗Nitro芯片,2015年以3.5亿美元收购芯片制造商Annapurna Labs,2018年发布第一代服务器芯片Amazon Graviton,2020年起推出第一代定制推理芯片Amazon Inferentia和训练芯片Amazon Trainium……截至目前,亚马逊已全面覆盖虚拟化芯片、云原生处理器芯片、人工智能机器学习芯片三大产品线。

一直以来,亚马逊云科技“造芯”给人的感觉都相对低调。此前亚马逊云科技曾多次强调,亚马逊云科技造芯目标并非是要在芯片、CPU市场里去争抢市场份额,而是始终围绕着用户的实际需求出发,尝试通过硬件创新为不断变化的工作负载提供更高性价比的云解决方案。

在今年的re:Invent全球大会上,亚马逊云科技的硬件创新仍然在向前大步突破。其中,最主要的看点包括:推出面向高性能计算优化的Amazon Graviton3E处理器、第五代Nitro系统,以及发布了三个基于这两个芯片和训练芯片Trainium的发布的新型云计算实例。

很多人可能还对亚马逊云科技在去年的大会推出的第三代Amazon Graviton处理器记忆犹新。Graviton3集成了大约550亿个晶体管,相比Graviton2单核性能提升25%,浮点性能提升2倍,机器学习性能提升3倍,在同样的性能上最多可以节省60%的能源 ,是ARM架构应用在云计算领域的重要实践 。

今年发布的Amazon Graviton3E处理器是在Graviton3芯片基础上针对高性能计算所需的浮点和矢量计算进行了大幅优化,在HPL基线测试中工作负载的性能提高了35%,是一款针对高性能计算所做的定制版芯片。

此外,今年还重磅推出了全新的Amazon Nitro v5系统。和前一代相比,Nitro v5的晶体管数量增加一倍,每瓦性能提升40%,同时还带来了50%的 DRAM 内存性能提升,2倍的PCle 带宽提升,改善30%延迟。

目前,在Nitro系统的加持下,亚马逊云科技已发布超过600款计算实例,可以几乎满足一切云上负载的需求。如今每天有超过6000万个新的EC2实例在亚马逊云科技上被创建。

基于两个新芯片,这次大会也发布了多个新型云计算实例。包括:

面向高性能计算的 HPC7g,最多支持64个vCPU和128GB内存,适用于天气预报、生命科学、工程计算等高性能计算场景。

针对网络密集型负载进行优化的C7gn实例,与当前一代网络优化型实例相比,为每个CPU提供了多达2倍的网络带宽,同时将每秒数据包转发性能提升50%,为网络密集型工作负载提供了超高的网络带宽、数据包转发性能和性价比。

针对大模型的部署和训练专门开发了Trn1n实例,支持多达16颗Amazon Trainium芯片,是目前云端最快的深度学习实例。在Trn1上运行的Hugging Face BERT大模型,其性能对比GPU实例有42%的提升,成本降低了54%。值得注意的是,Trn1第一次把实例的网络带宽提高到了800GB,要知道10年前连10GB的网络带宽都难以达到。

势不可挡的Serverless时代,让开发触手可及

这次的亮点不仅只是硬件创新。在今年的大会上,亚马逊云科技高级副总裁Peter DeSantis 回顾了亚马逊云科技自2014年以来Serverless 计算的发展历史,以及展示了最新的优化方向。

首先,亚马逊云科技为什么要提出Serverless无服务?

Serverless无服务这个术语最早出现在2012年,但直到2014 年亚马逊云科技在 re:Invent 全球大会上发布了Amazon Lambda 服务重新定义了云计算的 Serverless 发展理念之后,“Serverless无服务器”才逐渐成为行业“热词”,谷歌、微软等企业相继跑步入场。

简单来说,Serverless无服务是一种云计算架构,它可以简化云计算架构,让开发者可以更专注于业务逻辑而不是底层架构, 提供更高效、可扩展、灵活和成本效益的云计算方式。从目前的实践来看,Serverless无服务带来了三大方面的直接作用:节省成本、降低技术和管理负担,以及加快应用交付速度。

在2014年亚马逊云科技发布了业界第一个Serverless计算服务Amazon Lambda之后,亚马逊每年都不断在数据库、数据分析、人工智能领域扩展Serverless版图。

作为无服务器技术的先驱,Amazon Lambda 在采用率方面一直保持领先地位,至今已累计发布了超过100款新的功能,活跃用户超过100万,同时每月的调用请求量超过100万亿次。

虽然在行业内占据绝对领先优势,但亚马逊云科技对于 Lambda的维护和更新也丝毫不放松。2019年亚马逊云科技发布了 Amazon Lambda 的“预置并发(Provisioned Concurrency)”功能,允许亚马逊云科技无服务器计算用户使其函数保持“已初始化并准备好在两位数毫秒内响应”的状态,这意味着“冷启动”问题成为过去,行业达到一个成熟点。

而今年,亚马逊又再进一步发布了Amazon Lambda SnapStart,能够实现高达90%的冷启动延时,让用户几乎可以无感知的实现应用扩展。以游戏行业为例,全新的Lambda SnapStart服务不仅可以为游戏玩家提供可靠的低延迟体验,同时还能实现自动弹性扩缩,以满足玩家对流量的需求。

八年来,Amazon Lambda实质上推动了云计算用户对Serverless的认知,同时也拓宽了Serverless的边界,其提供的服务已远远超出了计算本身。

在去年的大会上,亚马逊云科技一口气发布了包括Amazon EMR Serverless、Amazon Redshift Serverless、Amazon MSK Serverless、Amazon Kinesis on-demand4个Serverless服务,将组件的数量推到了极致。在今年的主题演讲上,亚马逊云科技首席执行官Adam Selipsky 正式发布了Amazon OpenSearch Serverless(Preview),这意味着现在所有亚马逊云科技提供的数据分析服务已全部实现了Serverless无服务器化。

也就是说,Serverless已经在数据分析PaaS服务领域实现了数据仓库、大数据平台、流式数据分析的全面无服务器化,将整个数据Serverless能力拓展到了全栈,也将将云原生数据分析的敏捷、易用、无需运维抬到了一个新的高度。

对于Serverless如何帮助企业处理好并行和并发、解决资源的瓶颈压力的,在这次大会上还展示了一个真实的案例。

Trustpilot 是一个第三方评论网站,聚焦于线上电商消费购物分享和点评。从2007年创立以来,Trustpilot已经收到了1亿9千万条评论,全球用户正在快速增长。

对于Trustpilot 来说,良好地解决增长和并发量,并保证评论的可靠性和完整性是站点运行的首要任务。在过去,Trustpilot使用了单体数据库来承载所有工作负载,但在一次遇到了假日季的高流量峰值瓶颈之后,Trustpilot突破现有数据库框架,选择了事件驱动(Event-driven)的理念。

在部署了亚马逊云科技的“事件驱动”的全Serverless架构之后,Trustpilot可轻松支撑黑色星期五之类大型购物节带来的流量,再也担心任何流量陡增对基础设施的掣肘。同时,基于亚马逊云科技各类监控与安全合规服务,Trustpilot还能保证评论100%的合法性。

这样一个可以灵活伸缩的架构,不仅为Trustpilot的关键业务运转提供了可靠保障,也把开发团队解放出来,让企业更专注于产品研发和拓展的工作,大大提升了公司的运转效率。

数据,数据,还是数据

除了完善的硬件和服务体系外,此次大会讨论的内容必然也离不开云计算的基石——数据。

近些年来,企业与组织管理的数据正在经历爆炸式的增长。数据的规模在不断扩大的同时,其种类也变得越来越多样化,数字媒体与社交网络的数据、物联网的数据、在线交易、财务分析、基因组学研究的数据……如何有效利用这些数据的价值,来帮助企业做出更好、更聪明、更安全的决策,驱动业务创新,是云服务最重要的内容。

本次 re:Invent 大会上,亚马逊云科技首席执行官 Adam Selipsky表示:“在今后的五年,我们创建的数据会完全超过了数码时代一直到现在以来所有数据累加在一起的数量,这同时也告诉我们所有的组织都会面临着无限的机会。”

而为了帮助企业构建数据战略,更好的利用这些数据资源,他提出了三个核心战略:第一,需要建设能够应对所有未来情况的策略于云原生数据基础设施。第二,需要有组织把它们连接起来,打破壁垒实现数据一体化融合。第三,需要更好的工具与措施来实现数据的普惠。

针对第一点,亚马逊云科技基于自身的15年的数据创新经验、技术优势与客户案例积累,目前已经形成了一套完整的端到端数据战略方案。以Amazon Aurora和Amazon DynamoDB为典范的云原生数据库产品,能够助力企业搭建一套可弹性伸缩、高性能、安全的数据架构,应对跨区域部署与运维工作的挑战,并且避免传统架构在业务增长时的中断问题,实现应用伴随业务自动扩缩与低运维。

此外,针对如何让数据高效流转和实现数据普惠工具的问题,亚马逊此次推出了两款新产品,专门聚焦于解决这两方面的挑战。

首先是亚马逊云科技首个端到端的数据治理工具——Amazon DataZone

在爆炸性增长的数据面前,如何打破不同数据的壁垒和割裂的状态,让不同部门、业务、产品、甚至不同的数据格式都能流通、互相利用起来,是当前数据处理的一道难题。而全新的DataZone服务将允许对数据跨组织边界的大规模共享、搜索和发现,不仅可以帮助企业利用数据生成个性化视图,执行治理和合规的相关策略,同时并能够实现企业内部的跨团队无缝协作,允许以自助服务方式访问数据和分析工具。

另一个重要产品则是Amazon Zero ETL。

对于很多企业来说,为了获取业务洞察,就需要把不同来源的数据融合后进行一体化分析,这个过程中通过 ETL 将数据集成就往往显得必不可少。

ETL 是将业务系统的数据经过提取(Extract)、转换清洗(Transform)和加载(Load)到数据仓库、大数据平台的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。然而,通常情况下,ETL 会花掉整个项目至少1/3的时间,ETL 构建与维护机会会占据数据工程师70%工作量,是企业的“长久之苦”。

因此,如果如果能够利用工具加速这个流程,实现数据“无感知”的流动,将是所有开发者的福音。

近几年来,亚马逊云科技一直在持续投入开发基于 Zero ETL 理念的功能,比如 Amazon Athena 的 Federated Query 联邦查询,可以对存储在关系数据源、非关系数据源、对象数据源和外部自定义数据源中的数据运行 SQL 查询,而无需移动数据。再比如开发 Amazon Kinesis 和 Amazon MSK的流式服务,向数据存储服务(如 Amazon S3)无缝注入数据,从而助力客户及时分析数据等。

在今年的大会上,亚马逊又再次发布了更多新的 Zero ETL 功能,来助力企业更快、更轻松、更经济地实践“数据一体化融合”。

首先,发布Amazon Aurora Zero ETL to Amazon Redshift 服务,来助力 PB 级分析交易数据进行近实时分析。针对数据管道构建成本高昂且难以管理的问题,Amazon Aurora Zero ETL to Amazon Redshift(预览版)支持将交易数据在写入 Amazon Aurora 后的几秒钟内可以自动连续复制,使其在 Amazon Redshift 中即时可用。一旦数据在 Amazon Redshift 中可用,用户立即可以开始分析数据,并且利用数据共享和 Amazon Redshift ML 等高级功能获得全面的预测性洞察。

用户可以将数据从多个 Amazon Aurora 数据库集群复制到同一个 Amazon Redshift 实例,跨多个应用程序获得洞察。这样一来,用户可以使用 Amazon Aurora 支持交易数据库需求、使用 Amazon Redshift 进行分析,无需构建或维护复杂的数据管道。

此外,Amazon Redshift 经过十年不断演进迭代,其升级版本Amazon Redshift Serverless也将于今年上线。升级后的Amazon Redshift将支持 Amazon S3 自动复制,将指定的如 CSV、JSON、Parquet 和 Avro等 Amazon S3 的文件自动加载到数据仓库。同时还具有帮助用户进行实时分析场景探索的流式数据接入功能,以及帮助开发人员快速实现分析与机器学习的Amazon Redshift Integrationfor Apache Spark 功能。

此次亚马逊云科技还表示,其数据服务已经可以连接超过100种外部数据源,包括 Adobe、Salesforce 等各类 SaaS 应用以及各类 on-premise 数据源类型等。通过使用低代码或无代码、经济实惠的解决方案,只需单击几下,Amazon AppFlow 即可在应用程序与“智能湖仓”之间安全地传输数据,帮助客户打破数据孤岛。

在此次大会,亚马逊云科技一口气发布了22个新的连接器,现在 AppFlow 已经支持超过50种连接器。其中,Amazon SageMaker Data Wrangler 支持超过40种基于 AppFlow 的 SaaS 数据源,借助 SageMaker Data Wrangler,用户可以简化数据准备和功能工程的过程,在浏览器中即可轻松部署预训练模型,省去过去繁琐的配置。

在数据服务方面,最近,Stability AI 与亚马逊云科技的合作也在业界引起了广泛的关注。

今年整个人工智能领域异常火热,Stability AI等AIGC图片生成产品和最强语言模型ChatGPT先后火爆出圈,这背后,数据的处理、计算和训练起到了至关重要的作用。以Stability AI为例,其图片生成引擎由其开源算法Stable Diffusion驱动,而Stable Diffusion在训练阶段就跑了15万个GPU时。

而对于这样一个有大模型需求的公司来说,从数据整理及优化部署到训练和推理芯片的兼容和业务的整合交付,整个流程非常复杂且具有挑战性。

但此次,通过选择亚马逊云科技的Amazon SageMaker旗舰级托管式机器学习服务,开发者可以轻松和“一站式”地准备数据,并大规模地构建、训练、部署高质量机器学习模型。数据显示,在亚马逊云科技自研的Trainium训练芯片支持下,其训练时间和成本可以减少58%。

同时,在亚马逊云科技帮助下,Stability AI还可以把模型开放给更多学生、研究人员、创业公司和企业。在Stable Diffusion 2.0与Amazon SageMaker完成集成后,通过其JumpStart服务,用户只需点击下鼠标就可轻松部署预先训练好的模型,可以说全方位满足了Stability AI现阶段的核心发展需求。

赋能产业,云技术应用全面开花

实际上,不仅仅是在人工智能领域,近几年来,随着各行各业云转型的普遍诉求增加,亚马逊的云科技就像是水和电一样,成为了很多企业发展的必需品。在今年的大会上,亚马逊也针对行业用户,提供了各类创新解决方案和服务。

首先,发布跨行业通用场景新服务,普惠行业马力全开。

供应链风险对于众多行业都是困扰已久的首要挑战之一。数据分散且不兼容,导致缺乏可见性;各种干扰过多,以致很难区分噪声,识别关键信息;超长链条牵涉众多不同的团队、职能部门之间进行协调等问题长期存在。

为了解决这些挑战,亚马逊云科技CEO Adam Selipsky此次宣布了全新的供应链解决方案 Amazon Supply Chain。这个基于云的新应用程序,可帮助供应链领导者减轻风险并降低成本,提高供应链弹性,可广泛应用于制造、汽车、零售与快消、化工、医疗等行业中。

它具备构建供应链数据湖,统一供应链视图;将数据置于实时可视化地图中,自动识别并给出风险警报;通过机器学习提供更准确的需求预测,提供可执行建议;内置的上下文协作,让跨团队协作并更快地解决问题等一系列的优势。

针对获取高质量地理空间数据集困难的问题,发布了Geospatial ML with Amazon SageMaker (preview)。开创性地将地理空间数据集成到机器学习平台,让灾害应对、城市规划、门店选址、气候预测更智能。

此外,面向物联网市场,发布适用于生产制造、医疗保健、仓储物流、农林牧渔、智慧城市等领域35项IoT创新产品与服务等。

比如在制造上,工厂有大量数据沉淀,利用TwinMaker知识图谱功能可以充分运用数据产生的价值,轻松地派遣维护人员进行处理,从而省去维护人员逐层定位和信息获取等繁琐工作。

再比如在农林牧渔领域,利用IoT Core Device Location服务,可以给出设备的确切位置的经度和纬度以便您派遣工作人员快速修复,节约成本和响应时间。

面向智能客服、联络中心等场景,亚马逊云科技发布Amazon Connect三项新功能——新的预测规划和调度能力、新的实时绩效分析,以及新的用户交互界面。这新发布的三项功能,帮助Amazon Connect进一步提升智能客户服务水平。

作为可持续发展行业赋能者,亚马逊云科技承诺于2030年实现零碳排、零耗水,并通过定制芯片、AI/ML、HPC 及 IoT 技术帮助企业、社会和环境的可持续发展。

亚马逊云科技 CEO Adam Selipsky 在2022亚马逊云科技 re:Invent 全球大会上发布了公司对于可持续发展的宏大目标:“亚马逊云科技是全世界最大的购买可再生能源的公司,我们准备在2025年实现100%使用可再生能源,现在这个目标已经达到了85%。与此同时我们也在提升我们利用水资源的效率,到2030年,我们的耗水量就会少于我们排水量。”

其次,契合行业属性和业务场景,为各领域提供更具针对性的解决方案。

比如面向广告营销领域,发布Amazon Clean Rooms分析服务,可通过隐私增强措施,帮助企业、媒体和广告技术公司更安全的整合碎片化的数据和信息,减少信息处理延迟和成本,更充分的保证底层数据安全。

面向游戏等行业,发布Amazon SimSpace Weaver帮助游戏开发人员可以在云中大规模地运行实时空间模拟,以及发布Amazon GameLift Anywhere将游戏会话管理服务与底层计算资源相分离,让开发者可以在熟悉的环境中做版本迭代和开发。

面向医疗及生命科学行业,发布Amazon Omics,帮助全球医护人员利用亚马逊云科技数据湖与高性能计算等技术,提供支持 PB 级的基因,蛋白质,生命体征等多组学数据存储,传输与分析工具,支持一键式部署。

此外还面向汽车行业,将市场领先的云技术和基础设施与最完整的汽车特定服务和解决方案相结合,帮助汽车客户更快地创新和优化成本,以及面向金融行业Amazon Outposts保障纳斯达克交易所极致弹性、超低时延、极苛安全合规需求。

最后,此次的新产品和新服务还将大力推进各个行业进行应用创新。

在这次大会上,来自医疗与生命科学、汽车、游戏、工业、金融、零售、旅游、市场调研和数据分析等众多行业的用户都分享了他们借助亚马逊云科技的新品如何解决挑战、驱动业务创新的实例。

比如在医疗与生命科学领域,生物制药公司AstraZeneca把 25PB 级的数据移到了亚马逊云科技上,通过采用基于 Amazon Lambda、Amazon Step Functions、Amazon Batch、 Amazon S3 的医疗数据湖解决方案用于处理和分析数据,在不到30个小时内完成1100亿次数据统计方面的测试,并将肿瘤基因、医学图像和患者数据连接,生成了可执行的科学见解。

在游戏领域,这次重磅发布的Arm 架构 Amazon Graviton3E 服务器芯片,将浮点运算工作负载性能提高了35%。此外推出了 SRD(Scalable Reliable Datagram )协议,ENA Express 以 SRD 协议为基础,将流量的 P99 延迟减少了50%,将 P99.9 延迟减少85%(与 TCP 相比)。实例性能的升级、网络协议的优化和每流带宽的扩展,不仅增加了游戏的流畅性,同时单个游戏服务器还可承载更多的游戏会话和同时在线玩家数量,助力 Epic Games 支持数亿玩家打造次世代虚拟开放世界。

在汽车领域,Amazon SageMaker 帮助 HYUNDAI、F1、BMW Group 加速仿真训练;借助 3D/空间智能实现在家360度浏览汽车,并可促进自动驾驶汽车安全驾驶。

在金融行业,亚马逊云科技助力美国金融监管局 Finra、Capital One银行等机构基于 PB 级金融数据的可扩展的数据处理和分析来进行性能提升、降低成本和业务创新。

在工业领域,西门子和亚马逊云科技联合打造的解决方案 Space Perspective,通过虚拟方式设计、测试、优化太空飞船,将亚马逊云科技高性能计算与西门子的计算流体动力学建模软件 Simcenter 结合使用,将花费数周的时间缩短到8个小时以内完成等等。

基于Amazon Graviton3E 芯片,亚马逊云科技此次推出的向高性能计算的 HPC7g ,还可以应用于天气预报、生命科学、工程设计等高性能计算场景,帮助行业客户更快、更高效地处理业务。

总的来说,从今年亚马逊云科技re:Invent全球大会中,我们又看到了亚马逊云科技满满的诚意。当前的产业发展日新月异,数据爆炸性增长、需求迭代更加快速,这也对云技术厂商们如何能更智能地处理好并行和并发、解决好资源的瓶颈压力提出了更高的要求。

而亚马逊云科技作为云计算探路者,即使在过去十余年都处于行业领先地位,始终都没有停下前进的步伐。无论是在硬件还是服务领域,每一年都在围绕着客户的需求推陈出新。

当纷繁复杂的现实世界映射到虚拟比特世界里时,信息也充满着无序和不确定性,但幸运的是,亚马逊云科技仍然坚持带领着几百万企业,拨开迷雾,持续向前。

*点击了解更多