在火山引擎AI云原生的支撐下,在上層的應用產品之外,企業都獲得的是一個當下最適配AI推理落地的IT土壤。
這個土壤是可以看作是目前國內最新、最適配AI推理生長的IT架構體系。這其中有大規模GPU集群彈性調度管理,也更有國內最適配AI推理場景的存儲計算產品,以及基于AI訓練推理需求的網絡加持、對特殊推理場景數據需求滿足環境,進而幫助企業以更快、更穩、更具性價比的方式進行AI落地。
作者| 皮爺
出品|產業家
2025年,大模型落地走到哪了?
“現在在具體場景的落地過程中,我們的推理需求規模幾乎是訓練需求的 5-10 倍,伴隨著AI使用程度的加深甚至都不止。”一位AI企業相關負責人告訴產業家。
一個足夠真實的情況是,在“AI大模型”成為熱詞的近兩年時間里,關于大模型的產業落地正在呈現愈發向上的趨勢,其中最鮮明的表現恰是推理需求。
根據IDC報告顯示,未來5年中國市場的訓練、推理算力需求將分別以超50%、190%的年復合增速發展,在2028年推理算?將全面超過訓練算?。
這也是如今市場上討論的焦點。即伴隨著如智能體等越來越多AI落地形態的出現,企業對于AI技術的落地,也就是推理需求正在顯著增加。
但旺盛的需求背后,另一個問題也更在被加速擺上臺面:即在中國的AI產業生態里,AI落地的土壤到底怎么樣了?從細顆粒度的視角來看,這個問題不單純是關乎數據體系和模型發展的考校,外界更多的聚焦點是AI底層基礎設施,也就是AI Infra層的建設。
一個偏底層的認知是,在過去一眾大型流量活動的背后,提供支撐的是一個個龐大的CPU集群,基于其上的各種被適配驗證過的數據庫、存儲、計算中間件和不同PaaS層產品,這些底層一起保證了上層應用活動的開展。
但如今在AI時代,不論是PaaS層的一系列構成,還是底層IaaS側的彈性處理,抑或是網絡,在更復雜的數據類型、更大體量的數據規模等新環境里,都需要重新求解。
這些新解傳導到業務的最前端對應著的恰是企業的在AI應用上的直接落地,比如如何高效的發布和管理應用、如何應對大規模的在線推理流量等等。
可以說,在顯性的數據難題和模型難題之外,如果想要實現AI大模型的大范圍產業落地,AI infra是一個必須跨過的難題。
那么,如今它到底走到哪了?在AI推理需求即將爆發,甚至也可以說已經爆發的2025年,真正適配AI大模型大規模落地的底層AI infra應該是什么樣的?
一、大規模推理場景爆發前夜:
站上臺前的AI infra
“我們的數據也夠用,底層模型也用的是目前業內排名靠前的模型,但搭出來的AI應用就是不行。”在一個行業活動上,一位零售企業負責人告訴產業家。
更具體的細節是,這家企業有較強的IT基礎,在過去多年時間里,其早早就構建了從ERP到CRM,以及數據庫等全鏈條的數字化架構,企業有很強的數據積淀。這也使得企業負責人在AI大潮到來之前心懷激動,在他們看來,“在數據的優勢下,這是一個彎道超車的機會。”
但結果卻不盡如人意。從表現來看,包括推理訓練成本高、AI應用反應速度慢等等問題越發明顯,最終這個項目在2023年年末被暫時擱置。
實際上,這是最早一批,乃至現在很多企業嘗試AI落地都在面臨的現狀。即在數據和模型之外,越來越多AI infra的問題開始浮現,比如GPU卡資源不足、固有的計算存儲產品和前端模型的無法打通,比如數據庫的不適配,再比如網絡抖動導致訓練效率低等等,這些因素都在成為企業落地大模型的難點。
對AI infra一個普遍的定義是,其往往指的是為AI訓練、推理等操作提供支持的一整套系統,其中包括硬件(如 GPU 服務器、存儲設備)、軟件(如操作系統、開發框架)、網絡(如高速網絡連接和安全防護)和數據體系。
如果平移到固有的云計算架構,它對應的正是一系列app應用背后的覆蓋基礎設施、平臺、軟件、數據以及模型的整個IT架構,通過整個架構的運轉進而完成從客戶需求到具體應用產品表達的整個鏈條。
但這并不是一件容易的事。
“很多都是和之前CPU的模式不一樣的,尤其是推理階段。”火山引擎云基礎產品負責人羅浩告訴產業家,“比如,要存儲的數據類型更豐富了,從以前的文本、圖片小文件為主到現在大規模的視頻、大文件都需要存儲,存儲的數量也在指數級增長,以前CPU架構編排的對象是函數,現在GPU架構里編排的都是大模型,需要重新 優化計算、存儲與網絡架構來提高吞吐、降低IO的延遲。”
更準確的說法是,在AI大模型時代,伴隨著業務架構從以CPU為中心轉變為以GPU為中心,整個體系都需要升級,這里面不僅包括資源層的更高難度調度模式,也更包括對新的資源層和新的數據模型的處理方式,對應到產品側則是適配AI模型的一系列計算、存儲數據庫產品、新的編排等中間件,以及新的網絡穩定手段等等。
這些底層IT土壤的優先級甚至在數據和大模型能力之前。“嚴格意義上說,現在部分場景環節的數據是夠用的,需要新的AI infra先一步完成AI工程落地,這樣才能保證滿足企業的大規模推理落地。”一位投資人告訴我們。
實際上,在過去兩年時間里,AI infra的剛需性在過去兩年時間里也在被不斷印證。根據不完全統計,在2024 年 1 月 1 日至 7 月 31 日期間,包括智算中心方向,向量數據庫方向,以及大模型的編排能力等方向的企業備受資本推崇,融資額度占比在整個大模型領域超過15%。
但熱度和剛需之外,卻仍有問題存在。比如在如今大模型推理需求井噴的當下,不同場景、不同領域對于AI Infra仍有不同,如今國內市面上大部分AI Infra服務商提供的僅僅是其中一個單點的加持,很難為企業提供從彈性算力服務到數據存儲計算,再到模型推理、應用表達的整個完整鏈條服務。
答案在哪?或者說,在中國當下的AI落地浪潮里,這種覆蓋全鏈條的AI Infra服務模型出現了嗎?
二、火山引擎AI云原生,
“快走一步”
美圖,在中國的應用市場上幾乎可以算是骨灰級玩家。在過去的多年時間里,憑借美圖秀秀的產品在市場上引領美顏相機賽道。伴隨著AI時代的到來,轉型成為必選之路。
但也恰如上文所說,這是一個不太容易的命題。具體到美圖秀秀的應用而言則是,其不僅需要保證前端產品AI功能的用戶使用體驗,更要保持成本和投入的可控。
這種推理落地側的需求對應到AI infra側是GPU資源的彈性調度、存儲產品性能、不同地域的網絡穩定要求,以及最核心的異構GPU卡調度訓練效率等等。
火山引擎成為了美圖選擇的底層助力者。在一系列從算力資源到存儲網絡等的加持下,美圖構建了一個有彈性、成本可控、健康的AI infra架構,不僅可以做到在不同場景下實現不同GPU卡資源的調度,也更可以做到在流量高峰的資源迅速擴容,滿足其大規模推理場景的落地。
有同樣經歷的還有沐瞳科技和深勢科技。前者是國內最早一批游戲出海的企業,其2016年上線《Mobile Legends: Bang Bang》,目前游戲月活突破 1.1 億,全球累計下載量超 10 億次。在游戲內,對戰雙方存在一定程度的辱罵、宗教歧視等有攻擊性的語言和行 為,需要根據AI進行識別、隔離。
其采取的方案是,在火山引擎通過Private Link私網訪問調用豆包大模型API,同時在火山機器學習平臺、云搜索、向量數據庫等產品的加持下,基于豆包大模型進行調優和定制,最終實現推理側的超低時延、低成本的落地,完成相關AI產品的落地。
深勢科技也更是如此,作為如今國內AI for science的頭部企業,其在業務開展過程中往往會遇到大量不同格式的數據處理問題,對非結構化數據進行高速讀取,也恰是在火山引擎的加持下,其不僅實現了不同訓練推理場景的資源匹配,也更基于平臺的統一調度能力保證了底層資源的高利用率,保證業務的高效推進。
在剛剛舉辦火山引擎FORCE原動力大會上,這種面向企業大規模推理落地側的助力,也更可以理解為AI的先進底層實踐,正式被火山引擎以方案的形態放到臺前,它就是“AI云原生”方案。
其中,幾個亮點尤為值得一提。
比如算力層面,火山引擎推出彈性預約實例ESI和搶占式實例Spot,全面支持CPU和GPU,依托字節海量資源內外共池技術,線上可提供百萬核的CPU彈性算力、萬卡級的GPU彈性能力,滿足不同場景客戶的彈性算力需求,兼具性價比。
此外,在存儲層面,為了解決傳統AI架構中核心數據流動繞行CPU的問題,火山引擎正式發布彈性極速緩存EIC。
作為火山引擎的又一自研產品,其通過GPU Direct和RDMA技術完全重寫了KV,可以把顯存中的KV Cache緩存到遠端主機或者本地主機的內存中,相比傳統的緩存技術,延時降低至1/50, 在Prefix Cahce、P/D分離、多輪對話和長文本處理等場景,核心指標TTFT、TPOT最大可有數倍提升,同時還能整體降低GPU的消耗。
亮點也更在網絡層面?;鹕揭娴牡谌悩婫PU和NPU實例,以及第四代CPU實例,全面支持普惠的vRDMA互聯能力,在VPC網絡中就可以提供最高達320G的帶寬,延時相比傳統VPC網絡平均降低80%,顯著提升訓練和推理效率;同時,AI 網關的智能路由方案支持基于 GPU 利用率指標加載負載均衡,可以幫助用戶以智能化調度應對大規模推理流量,網絡成本最高優化70%。
更值得一提的是,在本次大會上,火山引擎veStack智算版也更升級到2.0階段。“新一代的智算版,不僅在智算基礎設施有了更豐富的支持,在穩定性建設、運維能力、訓練框架和模型開發能力上都有了進一步提升,同時在生態方面提供了標準化API,針對各行各業的不同場景都提供了行業落地能力,可以能夠幫助客戶更好的應對智算時代的各種挑戰。”羅浩告訴我們。
實際上,這些全部的產品已經在字節內部的AI體系內被全面鋪開。根據火山引擎總裁譚待表示,自今年5月字節跳動發布豆包大模型,7個月內其調用量增長了超過33倍,截至12月日均tokens使用量已突破4萬億。
在其中,有很大一部分都是來自推理側的需求。這些需求在火山引擎AI云原生的支持下,被以更高效、更具性價比、更實用、更安全的方式滿足。
羅浩告訴我們,現在不同的企業需求都在火山引擎底層AI云原生方案的加持推進。“一類是企業自己想做一些嘗試,比如企業自己簡單搭個應用試試水;另一種是想摘取‘低垂果實’,也就是企業決定了要做AI,并且錨定了具體的方向;最后一種就是企業有很強的AI戰略需求,比如自己搭建大模型,或者自身有卡資源等等。”
更準確的理解是,不論是對AI應用的初步探索,還是對某些環節基于AI的進化,抑或是企業層面的AI升級迭代,在火山引擎AI云原生的支撐下,在上層的應用產品之外,企業都獲得的是一個當下最適配AI推理落地的IT土壤。
這個土壤是可以看作是目前國內最新、最適配AI推理生長的IT架構體系。這其中有大規模GPU集群彈性調度管理,也更有國內最適配AI推理場景的存儲計算產品,以及基于AI訓練推理需求的網絡加持、對特殊推理場景數據需求滿足環境,進而幫助企業以更快、更穩、更具性價比的方式進行AI落地。
三、由內向外:
一個AI推理落地的土壤新范式
實際上,打造這樣一個最適宜AI推理表達的土壤并不是一件容易的事情。對羅浩和火山引擎團隊而言,這也更是一條漫漫“求真”路。
如果把時間線往回看,在2021年12月的云產品發布會上,火山引擎就發布了一系列AI產品,這些產品覆蓋從上層的應用到AI開發平臺,以及面向不同場景的AI落地方案等等。而從場景豐富度和AI開發效率來看,即使放到現在也是諸多產業場景的先進AI實踐模型。
這種技術上的先發性也一定程度上反應著火山引擎,乃至整個字節在AI上長期積累的技術和產業深度,伴隨著OpenAI的出現,這些在字節內部的AI底層積累也瞬間引爆整個國內大模型市場。
于是,在2023年,一個口號在市場被廣泛擴散,即“國內70%的大模型都跑在火山引擎上”。但在羅浩和火山引擎團隊的觀察里,在這個口號之后的不久,一個更明顯的趨勢開始增加:它就是上文提到的強勁推理側需求。
與此同時,關于推理場景更明顯的趨勢和挑戰也來自內部。即伴隨著字節跳動AI動作的推進,不論是豆包大模型,還是一系列上層如豆包助手、剪映、開發平臺扣子等AI應用,以及諸多在國內、海外市場不同場景布局的產品,對AI infra都提出了強勁的推理需求。
如果從全球視角來看,這幾乎算是全球范圍內最大規模的AI推理落地需求之一。
對羅浩和火山引擎而言,他們的首要任務恰是服務這些從字節內部生長起來的的原生AI應用,這其中不論是GPU底層資源的彈性調度,還是更高效率、更低時延的計算存儲產品,以及對不同網絡環境的優化等等,都是必須解決的問題。
可以說,這種即使從世界范圍來看也為數不多的服務大規模AI推理場景落地的實戰和“踩坑”經歷,也恰構成著如今火山引擎AI云原生方案在國內AI infra服務上的獨特優勢——極度適配大規模推理需求的穩定IT架構,最新的以GPU為中心的資源調度和數據處理能力,以及對網絡環境等核心要素的服務保障。
“整體來看,我們不單純可以幫助企業在單張卡的利用上達到好的效果,也更能在一些細分的場景和落地細節上,幫助企業做到更好。”羅浩表示。
一個被給出的綜合數據是,基于火山引擎AI云原生的方案,企業在訓練場景的有效訓練時長可以超過99%,推理場景可以幫助企業節省20% 的GPU資源,性能提升 100%。
“其實 相較于IDC預測的‘2028年推理算?超過訓練算?’的這個時間點,在我們火山引擎上或許會早兩年出現。”羅浩告訴我們。
能真實感受到的是,對火山引擎而言,伴隨著推理需求的強勁爆發,火山引擎AI云原生對企業推理場景需求的強滿足能力一定程度上會轉化為企業對火山引擎的更優先選擇。
其中的良性傳導線路不難理解,即更好的AI infra底層支撐,可以幫助企業更快的完成大范圍推理落地,進而構建更好用、更可用、更具性價比的產業AI應用,讓企業可以先人一步構建自身的新質競爭力。
實際上,把視角拉大,也更可以說,AI云原生方案也恰對應的是一眾產業乃至中國在AI時代進化的最新的底層新基建,即只有把底層的IT土壤構建好,才能保證AI技術的真實落地,實現產業場景中無數個推理需求的被滿足,進而驅動產業從數字化向數智化升級。
在這個企業乃至產業的新AI土壤上,火山引擎已經率先邁出第一步。