①盡管以DeepSeek為代表的開源大模型極大地降低了創(chuàng)新門檻,但智能體應(yīng)用的普及卻催生了Token消耗量的?“指數(shù)級海嘯”。 ②據(jù)財聯(lián)社記者了解,包括浙江、江蘇在內(nèi)的多個制造業(yè)大省,在推動“智改數(shù)轉(zhuǎn)”過程中,已將“AI應(yīng)用成本”作為企業(yè)申報專項扶持資金的重要評估維度。
財聯(lián)社1月2日訊(記者郭松嶠)“我們平臺上每天有海量的客服、推薦、風控場景需要調(diào)用大模型,Token成本就像懸在頭上的‘達摩克利斯之劍’?!币晃浑娚唐髽I(yè)的AI技術(shù)負責人近日對財聯(lián)社記者感嘆,并道出了全行業(yè)的普遍焦慮。
2026年,隨著人工智能大模型從技術(shù)演示走向產(chǎn)業(yè)落地,一個冰冷的現(xiàn)實擺在所有從業(yè)者面前:企業(yè)主和CIO們開始用商業(yè)的眼光,而非技術(shù)炫酷的程度,來審視每一筆AI投資。那個決定性的商業(yè)天平,最終傾斜到了一個最基礎(chǔ)的計量單位上——Token(令牌)。
當智能體應(yīng)用越鋪越開,單個交互會話的Token消耗量呈指數(shù)級激增,高昂的成本結(jié)構(gòu)讓許多創(chuàng)新在規(guī)?;?,就卡死在了“經(jīng)濟賬”上。
不過,企業(yè)的痛點,正是政策與產(chǎn)業(yè)發(fā)力的交匯點。
政策引擎:打響“成本殲滅戰(zhàn)”的發(fā)令槍
進入“十五五”時期,國家對于人工智能產(chǎn)業(yè)發(fā)展的頂層設(shè)計,發(fā)生了從“鼓勵探索”到“賦能千行百業(yè)”的深刻轉(zhuǎn)變。
國家部委層面,國家數(shù)據(jù)局已將“優(yōu)化算力資源布局”、“實施全國一體化算力網(wǎng)監(jiān)測調(diào)度工程”列為重點任務(wù),其深層邏輯正是通過優(yōu)化資源配置和提升使用效率,從源頭降低社會使用算力的總成本。工信部則持續(xù)推動“國貨國用”,鼓勵國產(chǎn)AI芯片及服務(wù)器等關(guān)鍵環(huán)節(jié)的生態(tài)突破,這不僅是供應(yīng)鏈安全的保障,更是通過開放、競爭的市場環(huán)境,倒逼技術(shù)效能提升和成本下降。
地方的行動更為迅速直接。深圳市在其行動計劃中,設(shè)定了AI算力綜合成本下降的量化目標。更引人注目的是如福建漳州等地推出的“算力券”政策,直接為企業(yè)抵扣使用公共算力的費用,實質(zhì)上是政府出手,替企業(yè)分擔最核心的Token成本壓力。
“這些政策組合拳,瞄準的正是AI產(chǎn)業(yè)化最后一公里的障礙——成本?!碧焓雇顿Y人、資深人工智能專家郭濤向財聯(lián)社記者解讀,“它傳遞的信號是,未來的競爭,不僅是技術(shù)高低的競爭,更是將技術(shù)轉(zhuǎn)化為經(jīng)濟價值的效率競爭?!?/p>
token消耗量指數(shù)級增長
Token是大型語言模型處理信息的基本單位。用戶輸入的每一個字、模型輸出的每一段話,都在消耗Token。因此,Token成本直接決定了調(diào)用AI服務(wù)的價格。
當前的現(xiàn)實是,盡管以DeepSeek為代表的開源大模型極大地降低了創(chuàng)新門檻,但智能體應(yīng)用的普及卻催生了Token消耗量的 “指數(shù)級海嘯”。
據(jù)行業(yè)最新數(shù)據(jù)顯示,頭部科技公司的月度Token處理量已突破千萬億級別,且年增長率超過十倍。單次交互的上下文越來越長,任務(wù)規(guī)劃越來越復雜,導致單任務(wù)Token消耗激增數(shù)十倍。
“這好比移動互聯(lián)網(wǎng)初期,如果1MB流量的價格始終居高不下,就不會有今天的短視頻和直播生態(tài)?!惫鶟赋觥K扔?,AI基礎(chǔ)設(shè)施的 “提速降本” ,將直接決定“人工智能+”在千行百業(yè)滲透的深度與廣度。
來自多方的數(shù)據(jù)也有力佐證了token消耗量的指數(shù)級增長趨勢。
火山引擎最新披露的數(shù)據(jù)顯示,截至今年12月,字節(jié)跳動旗下豆包大模型日均token使用量突破50萬億,較去年同期增長超過10倍,相比2024年5月剛推出時的日均調(diào)用量增長達417倍;谷歌在10月披露,其各平臺每月處理的token用量已達1300萬億,相當于日均43.3萬億,而一年前月均僅為9.7萬億。
華東某大型商業(yè)銀行科技部負責人告訴記者,該行一年在智能客服、風險審計、投研助手等場景的Token消耗費用已達數(shù)千萬元級?!半S著智能體覆蓋的業(yè)務(wù)越來越復雜,交互越來越頻繁,成本壓力急劇上升。我們今年技術(shù)預算的一個核心KPI,就是實現(xiàn)單位智能業(yè)務(wù)成本的顯著下降。”
這一訴求在今年以來變得尤為迫切。據(jù)財聯(lián)社記者了解,包括浙江、江蘇在內(nèi)的多個制造業(yè)大省,在推動“智改數(shù)轉(zhuǎn)”過程中,已將“AI應(yīng)用成本”作為企業(yè)申報專項扶持資金的重要評估維度。
當使用量達到“百萬億token/月”的量級時,哪怕每百萬token成本只下降1美元,也可能帶來每月1億美元的成本差異。浪潮信息首席AI戰(zhàn)略官劉軍認為:“token成本就是競爭力,它直接決定了智能體的盈利能力。要讓AI真正進入規(guī)?;栈蓦A段,token成本必須在現(xiàn)有基礎(chǔ)上繼續(xù)實現(xiàn)數(shù)量級的下降?!?/p>
硬件創(chuàng)新瞄準token成本瓶頸
降本呼聲高漲,但為何如此之難?
財聯(lián)社記者調(diào)研了解到,根源在于當前主流的AI算力基礎(chǔ)設(shè)施,其設(shè)計基因源于大模型的“訓練時代”。
訓練任務(wù)像一場持續(xù)數(shù)月、需要調(diào)動全部兵力的“集團軍大會戰(zhàn)”,追求的是總體吞吐量和穩(wěn)定性。而當進入“推理時代”,尤其是智能體所需的實時交互推理,任務(wù)更像是一場場要求“秒級響應(yīng)”的“特種部隊精確突擊”。沿用舊架構(gòu),導致了三大核心瓶頸:算力利用率(MFU)嚴重“倒掛”、“存儲墻”瓶頸加劇、橫向擴展代價高昂。
面對這一結(jié)構(gòu)性挑戰(zhàn),單純的硬件堆砌已無解。行業(yè)領(lǐng)軍企業(yè)開始將創(chuàng)新火力集中到系統(tǒng)架構(gòu)層面,目標是實現(xiàn)Token成本的 “數(shù)量級跨越”。
以算力基礎(chǔ)設(shè)施提供商浪潮信息近期發(fā)布的新品為例,其思路頗具代表性。該公司推出的元腦HC1000超擴展AI服務(wù)器,并未追求單一的算力峰值,而是瞄準了“單位算力的Token產(chǎn)出效率”這一新靶心。
劉軍表示:“我們看到原來的AI計算是瞄著大而全去建設(shè)的,五臟俱全,各種各樣的東西都在里面。但是當我們聚焦降低token成本這一核心目標之后,我們重新思考系統(tǒng)架構(gòu)設(shè)計,找到系統(tǒng)瓶頸,重構(gòu)出一個極簡設(shè)計的系統(tǒng)?!?/p>
劉軍強調(diào),當前“1元/每百萬token”還遠遠不夠,面對未來token消耗量的指數(shù)級增長,若要實現(xiàn)單token成本的持續(xù)、數(shù)量級下降,需要推動計算架構(gòu)的根本性革新。
“這也要求整個AI產(chǎn)業(yè)的產(chǎn)品技術(shù)創(chuàng)新,要從當前的規(guī)模導向轉(zhuǎn)為效率導向,從根本上重新思考和設(shè)計AI計算系統(tǒng),發(fā)展AI專用計算架構(gòu),探索開發(fā)大模型芯片,推動算法硬件化的專用計算架構(gòu)創(chuàng)新,實現(xiàn)軟硬件深度優(yōu)化,這將是未來的發(fā)展方向?!眲④娬f。
