這個大模型技術(shù)如雨后春筍般涌現(xiàn)的時代,如何將技術(shù)轉(zhuǎn)化為真實的生產(chǎn)力,已經(jīng)成為行業(yè)的必答題。
2025年11月13日,百度在北京國家會議中心舉辦了一年一度的百度世界大會,雷科技也受邀參加了本次活動。與往年強調(diào)技術(shù)突破不同,今年的核心主題是“效果涌現(xiàn)”,李彥宏認為,健康的AI產(chǎn)業(yè)結(jié)構(gòu)應(yīng)該是“倒金字塔”形態(tài),應(yīng)用層應(yīng)該遠大于模型和芯片層。

(圖源:百度)
在最新發(fā)布的一系列AI原生應(yīng)用和解決方案中,百度的聚焦點不再是如何讓模型變得更聰明,而是如何讓AI走出實驗室,深入產(chǎn)業(yè)實際,去完成更多具體的工作,為企業(yè)和個人創(chuàng)造可感知的效果。
所謂“內(nèi)化AI能力,讓智能從成本變成生產(chǎn)力”,就是這個道理。
文心5.0,原生全模態(tài)
在過去的一年里,我們見證了大模型的快速迭代。
參數(shù)量從千億級邁向萬億級,能力也從單模態(tài)拓展至多模態(tài)。AI似乎無所不能,既能理解文字,也能看懂圖片,還能聽懂聲音,但一個根本性的問題隨之而來:AI是真的理解了這個多姿多彩的世界,還是僅僅學(xué)會了將不同能力的插件拼接在一起?
這就像一個只懂語言的人,通過外掛翻譯器去理解圖像,其理解深度終究有限。真正的智能,應(yīng)當(dāng)是像人一樣,生來就能同時運用視覺、聽覺、語言去感知和思考。
在今天的百度世界大會2025上,百度發(fā)布的文心大模型5.0,給出的正是后一種答案。

(圖源:百度)
那么,什么是“原生全模態(tài)”?
百度表示,業(yè)界多數(shù)多模態(tài)模型采用的是后期融合技術(shù),即先分別訓(xùn)練語言、視覺等模型,再將它們“粘合”起來。而文心5.0從訓(xùn)練之初,就采用統(tǒng)一架構(gòu),將文本、圖像、音頻、視頻等數(shù)據(jù)融合在一起進行學(xué)習(xí)。
這意味著,它不是在學(xué)習(xí)圖像,而是在一開始就同時學(xué)習(xí)語言和圖像的底層關(guān)聯(lián)。這種原生的能力,使其能實現(xiàn)更深層次的跨模態(tài)理解與生成。
在高達2.4萬億的龐大參數(shù)規(guī)模下,文心5.0采用了超稀疏混合專家(MoE)架構(gòu),推理時激活參數(shù)低于3%,實現(xiàn)了性能與效率的兼顧。在超過40項權(quán)威評測中,其語言與多模態(tài)理解能力已追平Gemini-2.5-Pro、GPT-5-High等頂級模型,而圖像與視頻生成能力更是達到了專業(yè)級水準。

(圖源:百度)
可以說,如果說之前的多模態(tài)是“組合創(chuàng)新”,那么文心5.0則開啟了“原生融合”的新范式。目前,文心大模型5.0 Preview已同步上線文心App,用戶可直接體驗;開發(fā)者和企業(yè)用戶也可通過百度千帆大模型平臺,調(diào)用文心大模型5.0 API 服務(wù)。
值得一提的是,今天,百度還正式發(fā)布了新一代昆侖芯和超節(jié)點產(chǎn)品天池。
