2025年,亞馬遜云科技在云服務市場成績斐然,年收入超1320億美元,同比增長20%。在此基礎上,其在AI領域積極布局,從基礎設施到應用層面均有動作,尤其是在企業(yè)級Agent場景推出一系列的產(chǎn)品。
2025年年底,在北京舉辦了亞馬遜云科技re:Invent中國行北京站的活動,亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理陳曉建和大中華區(qū)產(chǎn)品技術總監(jiān)王曉野參與活動,分享了其最新進展。
AI基礎設施與芯片
亞馬遜云科技與NVIDIA保持超15年合作,2025年推出的搭載NVIDIA最新GB300 NVL72系統(tǒng)的Amazon EC2 P6E GB300實例,為特定AI工作負載提供計算能力。
Amazon AI Factories作為私有亞馬遜云科技區(qū)域,允許客戶利用自身數(shù)據(jù)中心和電力容量,搭建含最新NVIDIA GPU、自研Amazon Trainium芯片、Amazon SageMaker AI訓練推理平臺及Amazon Bedrock模型服務平臺的先進AI基礎設施,滿足合規(guī)等要求。
對于Amazon Trainium芯片,陳曉建提到:“它已經(jīng)成為業(yè)界具有性價比的訓練和推理芯片,Claude模型100%在Amazon Trainium上運行。此次推出的Amazon Trainium3 UltraServer服務器中,芯片全部由亞馬遜云科技自研,包括Amazon Nitro、Amazon Graviton以及Amazon Trainium?!?/p>
目前,Amazon Trainium已部署超100萬片,部署速度比前沿AI芯片快四倍。據(jù)了解,下一代芯片Amazon Trainium3及規(guī)劃中的Amazon Trainium4,將在計算性能、內(nèi)存帶寬等多方面實現(xiàn)提升。
推理平臺與模型
Amazon Bedrock是目前全球領先的模型推理平臺,幫助生成式AI應用從原型走向生產(chǎn),并提供模型、定制能力及安全保障。
近期,亞馬遜云科技又推出了18個開放權重模型,包括國際知名及中國頭部模型開發(fā)商的產(chǎn)品。同時,其自研的Nova模型家族推出Nova 2各版本:Nova 2 Lite高效經(jīng)濟,適用于日常工作負載;Nova 2 Pro適合復雜工作場景;Nova 2 Sonic專注語音領域;Nova 2 Omni具備跨模態(tài)能力,可處理文本、圖像等多種信息,并實現(xiàn)圖像生成與編輯。
在被問到Amazon Bedrock以及Amazon SageMaker AI中推出的模型定制功能時,陳曉建介紹:“我們主要提供三種不同的能力。第一種是通過Amazon Bedrock進行模型微調(diào)的能力。它的特點是使用者不需要具備專業(yè)的機器學習能力,即使是不具備算法背景的IT人員也能操作。用戶只需在Amazon Bedrock中選擇合適的模型,并將其與調(diào)優(yōu)日志打通。通過上傳數(shù)據(jù)集并定義一個評估函數(shù),告知模型什么樣的結(jié)果是好的,Amazon Bedrock就會自動完成端到端的所有工作。這種模型微調(diào)工作我們稱之為強化微調(diào)(RFT)。使用RFT后,定制后的模型相比基礎模型,平均可獲得66%的準確率提升。這主要針對不具備AI訓練專業(yè)能力的場景。
第二種是Amazon SageMaker AI提供的無服務器化模型定制功能。這種功能更成熟,可以完成類似于RLHF(人類反饋強化學習)、RLAIF(AI強化學習)以及DPO(直接偏好優(yōu)化)等任務。它有兩種模式:第一種是完全自動化的模式,與Amazon Bedrock類似,可以通過自然語言描述訴求,引導系統(tǒng)自動完成從數(shù)據(jù)合成到模型評估的工作;第二種是自助引導模式,為用戶提供更多的控制權。這兩種模式都是無服務器化(Serverless)的,用戶不需要管理底層的GPU服務器、網(wǎng)絡架構或存儲,這些都由Amazon SageMaker AI自動完成。
第三種是我們推出的‘開放式訓練’路徑,也就是Nova Forge。這與前兩種模式不同,用戶可以在Nova模型訓練的環(huán)節(jié)就注入自己的數(shù)據(jù)。Swami打過一個貼切的比喻:人類在12歲之前學語言能達到母語水準,12歲以后就很難了。模型微調(diào)也面臨類似的兩難困境,后期注入數(shù)據(jù)可能會讓模型忘記之前訓練時達到的智能。Nova Forge允許用戶將Nova作為基礎模型,在訓練環(huán)節(jié)選擇檢查點,將業(yè)務數(shù)據(jù)作為訓練的一部分注入,從而獲得更好的效果。一個典型的客戶案例是Reddit。作為一個內(nèi)容網(wǎng)站,Reddit曾嘗試過各種模型微調(diào)和商業(yè)化模型,但都很難達到預期效果。最終他們通過Nova Forge環(huán)境實現(xiàn)了效果與成本的雙重目標。目前Nova Forge仍處于早期階段,已經(jīng)有多個客戶表示感興趣?!?/p>
Agent構建、應用及前沿探索
作為2025年的熱詞,Agent被反復提起。Amazon Bedrock AgentCore被用于Agent構建,陳曉建在談到Amazon Bedrock AgentCore的能力定位時說:“它是為了解決各行各業(yè)在開發(fā)Agent時遇到的通用挑戰(zhàn)。挑戰(zhàn)之一是調(diào)優(yōu)模型;之二是構建Agentic AI的后臺業(yè)務架構,這與傳統(tǒng)的云架構有很大不同。”
據(jù)他介紹,開發(fā)Amazon Bedrock AgentCore背后有兩個原因。第一,它滿足了開發(fā)Agentic AI workload時的通用需求,為客戶屏蔽底層復雜性,減少開發(fā)工作量。例如幾乎每個人都需要Memory(上下文管理),以及Runtime(為每個會話創(chuàng)建安全獨立的運行環(huán)境),這些能力通過Amazon Lambda的microVM技術解決了。第二,展現(xiàn)了亞馬遜云科技作為一流云服務商,通過20年開發(fā)所積累的豐富底層核心能力,并通過Amazon Bedrock AgentCore將這些差異化能力透傳給客戶。
王曉野補充道:“雖然Agent這個詞聽起來沒變,但技術原理與去年有很大不同。去年大家容易把assistant和Agent的概念混淆。但今年我們發(fā)布的能力代表Agent能夠主動思考。當結(jié)果錯誤時,它會自我反思并形成循環(huán),從接收指令到執(zhí)行任務、調(diào)用系統(tǒng)操作,如果出錯就反思重來。這正是Amazon Bedrock AgentCore提供給開發(fā)者構建Agent的邏輯?!?/p>
Amazon Bedrock AgentCore具備七種能力,涵蓋設定上下文記憶、配置身份權限、執(zhí)行代碼分析風險、提供安全運行環(huán)境及實現(xiàn)可觀測性監(jiān)控等,目前,有眾多不同行業(yè)的用戶正在使用。
為規(guī)范Agent執(zhí)行,亞馬遜云科技在上述七種能力模塊基礎上,還推出了Policy in Amazon Bedrock AgentCore,通過Cedar語言在智能體與工具間監(jiān)督執(zhí)行,以及Amazon Bedrock AgentCore Evaluations。王曉野表示:“Amazon Bedrock AgentCore這次發(fā)布的幾個重要功能,包括Policy和Evaluations,它們有一個共性,就是讓Agent具備Trust(可信賴)和Reliable(可靠)的特質(zhì),從而進入更嚴肅的應用場景。我們通過Automated Reasoning(自動推理技術)這種傳統(tǒng)數(shù)學推理方式,在模型之外由另一套方法控制Agent的輸出是否正確?!?/p>
同時,Amazon Bedrock AgentCore Evaluations還預設了13個評估器,用于評估Agent輸出質(zhì)量,保障開發(fā)與運行階段的質(zhì)量。
在亞馬遜內(nèi)部應用方面,Amazon Quick作為面向場景的消費級AI體驗產(chǎn)品,整合多種數(shù)據(jù)源,通過多功能及多Agent協(xié)作提升工作效率,如稅務團隊借此實現(xiàn)稅務數(shù)據(jù)處理自動化。Amazon Connect作為呼叫中心服務,增加八種新的Agentic AI功能,提升客戶服務體驗,吸引豐田等企業(yè)使用。
亞馬遜云科技還推出了Kiro自主Agent、Amazon Security Agent和Amazon DevOps Agent三款前沿Agent,適用于特定場景?!癒iro自主Agent就是一個高度智能化的編程助手。它采用Spec - Driven Programming(規(guī)格驅(qū)動編程),通過人的指令逐步分解并自動化完成任務,同時能與人交互并接受建議,最終達成目標?!标悤越ㄕf。
在談及Agent大規(guī)模落地挑戰(zhàn)時,陳曉建指出:“很多客戶遇到的挑戰(zhàn)在于,POC(原型驗證)階段效果很好,但一上生產(chǎn)環(huán)境就大打折扣。這背后有兩個核心原因:一是數(shù)據(jù)質(zhì)量。POC階段的數(shù)據(jù)往往是經(jīng)過篩選、可控的,而生產(chǎn)環(huán)境下的真實數(shù)據(jù)質(zhì)量通常遠低于預期,這對最終結(jié)果影響極大。
關于傳統(tǒng)云廠商在Agentic AI時代的價值,我認為不僅存在,而且更加重要。在真實的生產(chǎn)環(huán)境下,企業(yè)依然要面對復雜的后臺架構挑戰(zhàn)。首先是安全。我們投入大量精力開發(fā)Policy in Amazon Bedrock AgentCore,就是為了保證Agent嚴格在公司策略和預設框架內(nèi)執(zhí)行。如果無法控制Agent的行為(例如涉及大額退款的場景),沒有企業(yè)敢真正讓它上線。
其次是數(shù)據(jù)安全和個人隱私保護,這在對外提供服務時至關重要。此外,性能、成本、可伸縮性和高可用性等,都是上生產(chǎn)時必須一一攻克的難題。這些能力并非隨Agentic AI突然出現(xiàn),而是云廠商多年深耕所積累的核心優(yōu)勢?!?/p>
在采訪最后,王曉野預測:“2026年,Agent將從相對簡單的場景邁向更多嚴肅的企業(yè)級場景,安全性及可靠性更高的應用將變得更多?!?/p>