通信世界网消息(CWW)ChatGPT 横空出世重振云服务市场预期,全球云厂商纷纷锚定生成式AI展开布局。AWS作为长期占据全球云服务市场1/3份额的绝对龙头,2023年4月面向企业客户训练、部署、定制模型以及构建生成式AI应用等发布三项产品:训练用网络优化型加速计算实例EC2 Trn1n,新一代推理用加速计算实例EC2 Inf2,多模型调用API服务Amazon Bedrock。AWS在保持其基础设施先进性的同时将版图拓展到MaaS,形成贯通模型生产到落地的全栈云服务。
AWS面向生成式AI的全栈云服务
1. 不断丰富加速计算实例并自研高性价比AI芯片,夯实领先云基础设施
AWS提供多种加速计算实例满足不同类型客户需求。对于AI训练和推理,客户或要求效率,或关心成本。面向训练,AWS基于英伟达H100/A100/V100等GPU打造高性能EC2 P5/P4/P3等实例,承接时间敏感型客户大规模训练场景;基于英特尔Gaudi GPU打造EC2 DL1实例,为成本敏感型客户提供高性价比选项;基于自家 Trainium 芯片打造高性能低成本EC2 Trn1实例以及专为生成式AI而生的网络优化型EC2 Trn1n。面向推理,AWS依托英伟达A10G/T4及自家Inferentia/Inferentia2等芯片推出EC2 G5/G4/Inf1/Inf2等多款产品。
AWS不断创新芯片提高云端AI训练与推理成本效益。AWS认为,定制硬件是云服务商改善IT基础设施运行效率与成本、形成竞争优势的必要条件。其2018年起针对机器学习自研AI芯片,2018年底推出推理芯片Inferentia,2020年底推出训练芯片Trainium,2022年底推理芯片升级至Inferentia2,并在这些芯片支持下不断提升AI训练与推理的性价比。例如,由Trainium支持的EC2 Trn1实例与其他EC2实例相比,训练成本节省高达50%;Inferentia2支持的EC2 Inf2实例较上一代由Inferentia支持的与Inf1实例吞吐量提高4倍,延迟降低至1/10,实现与同类EC2实例相比推理成本最低。
2. 打造成熟机器学习平台和多模型调用API服务,构筑先进开发工具
面向模型厂商,AWS将亚马逊二十余年人工智能经验沉淀至Amazon SageMaker机器学习平台,为开发人员构建、训练与部署AI模型提供端到端服务。亚马逊长期关注人工智能并已在机器学习驱动下实现众多功能,如电商门户的推荐引擎、捡货机器人的路径选择、Prime Air无人机和 Amazon Go无人零售实体店中的机器视觉,Alexa语音助理处理千人千面用户诉求等。2017年,AWS将亚马逊成功经验开放,推出Amazon SageMaker机器学习平台,覆盖数据准备、模型构建、模型训练、模型部署等全周期,并包含机器学习治理、低代码机器学习、机器学习工作流等,可进一步降低开发与管理难度的工具。同时,AWS通过可与Amazon SageMaker无缝配合的第三方数据集服务AWS DataExchage拓宽机器学习数据来源。凭借Amazon SageMaker优秀的功能特性、服务交付能力与市场表现,AWS不仅位列IDC《2022年亚太地区(不含日本)AI生命周期软件工具和平台供应商评估》领导者阵营并取得第一,更是在2020~2023年连续四年入选Gartner《云AI开发者服务魔力象限》领导者象限。
图1(左) 2022年亚太地区(不含日本)AI生命周期软件工具和平台供应商评估(来源:IDC,图中圆形面积代表市场份额)
图2(右)2023年云AI开发者服务魔力象限(来源:Gartner)
面向基于模型构建生成式AI应用的客户,AWS瞄准痛点打造Amazon Bedrock 多模型调用API服务。ChatGPT出圈后全球生成式AI应用开发热情高涨,AWS展开调研并归纳出客户现阶段主要三项需求。第一,直接找到并访问与业务场景匹配度最佳的高性能基础模型;第二,将AI模型能力与自身应用无缝集成,且无需为此管理大量基础设施集群、致使成本增加过多;第三,在确保数据安全和隐私保护,掌控数据控制权的前提下使用自有数据构建差异化程序。对此,AWS推出Amazon Bedrock API服务,允许客户按需访问第三方大语言模型Claude、文生图模型Stable Diffusion、多语种大语言模型Jurassic-2和自研大语言模型Amazon Titan等多个基础模型,以及通过与AWS其他产品与工具(如S3存储服务,SageMaker的测试、工作流功能等)搭配使用完成模型测试、模型批量管理、专属模型定制及AI应用开发等工作。其中,针对数据积累不足、担忧数据泄露等制约客户使用云上基础模型的普遍痛点,Amazon Bedrock最低只需客户提供20个标注数据用以模型微调,降低数据门槛,并利用数据加密和虚拟私有云(VPC)等杜绝数据风险。
3. 通过教科书式生态合作助推AWS AI云服务能力持续升级
AWS形成以IaaS/PaaS吸引AI企业,借力AI企业强化AI PaaS的生态闭环。2021年,AWS与建有全球最大机器学习开源库的Hugging Face公司合作,实现优势互补。AWS客户可通过Amazon SageMaker调用Hugging Face上丰富的开源模型、开源数据集,以及其他AI开发工具,Hugging Face用户则不必再为开发部署环境耗费精力。2022年11月,Stability AI公司因看好Amazon SageMaker及Amazon EC2和S3等计算和存储产品首选AWS作为云服务提供商;而AWS则凭借Stability AI的Stable Diffusion模型快速补齐文生图能力,应对微软Azure OpenAI 服务(含文本理解和生成模型GPT-3/3.5/4、代码理解和生成模型Codex和文生图模型DALL-E等)带来的竞争压力;而Amazon Bedrock又将Stable Diffusion推广至更大市场,令其得以获取更多真实反馈与数据,加速迭代升级。
知乎小蓝星是什么
AWS对云厂商构筑大模型“前店后厂”的启示
在生成式AI掀起数字应用变革的当下,云计算作为数字经济承载核心向“为大模型而生”转型势在必行。AWS基于多样化加速计算实例、领先机器学习平台、生态共建模型API服务等建立起面向生成式AI的全栈云服务,为云厂商提供参考范式,即以MaaS为核心打造前店后厂型一站式业务模式,贯通模型生产到落地全环节,助推生成式AI市场蓬勃发展并从中获益。后端,对接大模型供应方,承接基础模型构建、训练、部署、销售等需求;前端,面向大模型使用者,降低模型选购、调用、定制、集成等难度;同时,运用安全沙箱、联邦学习、机密计算等技术建立模型供应方、模型使用者、云厂商三方互信基础,加速模型能力与业务场景无缝融合。