2023年初,ChatGPT掀起大模型熱潮,國內(nèi)互聯(lián)網(wǎng)廠商也紛紛下場“手捏模型”,“百模大戰(zhàn)”風(fēng)起云涌。
但到了2024下半年,狂熱開始慢慢褪去,科技界、學(xué)界到投資界進入冷靜階段——反思生成式AI如何落地、商業(yè)化,大模型的能力邊界和迭代方向。
“從國內(nèi)的整體發(fā)展看,到今年7月底,中央網(wǎng)信辦批準(zhǔn)的大模型大概有200個,其中只有三分之一是通用大模型,三分之二是行業(yè)大模型。我預(yù)測未來通用大模型的數(shù)量和占比會越來越小,行業(yè)大模型會越來越多?!毕愀劭萍即髮W(xué)校董會主席、美國國家工程院外籍院士、英國皇家工程院外籍院士沈向洋在2024大灣區(qū)科學(xué)論壇上說道。
簡言之,通用大模型會逐漸往行業(yè)方向收斂,這意味著人工智能和產(chǎn)業(yè)的結(jié)合會越來越緊密,對實體經(jīng)濟的賦能也會愈加顯著。在民營經(jīng)濟活躍的粵港澳大灣區(qū),可以如何挖掘人工智能的新一輪機遇?
11月16—18日,2024大灣區(qū)科學(xué)論壇在廣州南沙舉行,包括諾貝爾獎得主、國家最高科學(xué)技術(shù)獎獲得者、菲爾茲獎獲得者在內(nèi)的百余位頂尖科學(xué)家齊聚于此,對人工智能等前沿科技話題展開熱烈討論。
資料圖片
從通用到行業(yè)模型
業(yè)界普遍把大模型訓(xùn)練形容為“煉丹”——在Transformer架構(gòu)基礎(chǔ)上,堆百億、千億級別的參數(shù),達到一定閾值后,模型的語言理解、推理、生成能力出現(xiàn)一個明顯躍升,也就是常說的“涌現(xiàn)”。
但這個過程需要耗費大量算力,燒錢自然不在話下。據(jù)國盛證券估計,GPT-3訓(xùn)練一次的成本約為140萬美元。OpenAI的財務(wù)數(shù)據(jù)顯示,到2029年都恐難實現(xiàn)盈利,到2026年虧損可能達140億美元,當(dāng)中大部分的花費要投入到模型訓(xùn)練中。
不止OpenAI,燒錢基本是大模型公司的常態(tài),因而如何實現(xiàn)盈利、完成商業(yè)轉(zhuǎn)化,成為橫亙在這些公司面前的現(xiàn)實問題。而對業(yè)界來說,也要回答大模型除了用于對話、還能拿來干嘛的問題。
“中國訓(xùn)練大模型的速度很快,最后國內(nèi)會剩下幾家企業(yè)具備萬卡算力,來做真正底層的基座大模型。一旦有這樣的通用大模型后,實際上更有意思的是行業(yè)大模型?!鄙蛳蜓笾赋?,未來在醫(yī)療、金融等垂直賽道,有千張顯卡就可以做行業(yè)大模型。每個企業(yè)肯定也要做自己的大模型,在行業(yè)大模型、通用大模型基礎(chǔ)上加上自己的數(shù)據(jù),幾百張卡就可以做一個企業(yè)大模型,對內(nèi)提高效率,對外可以提高產(chǎn)品的可用性。
Gartner的問卷調(diào)查發(fā)現(xiàn),70%的公司正在投資于生成性AI研究,并將其納入其業(yè)務(wù)戰(zhàn)略。
今年以來,谷歌、微軟和Meta都在開發(fā)自己的專有定制模型,為客戶提供個性化的服務(wù)。通過特定領(lǐng)域的預(yù)訓(xùn)練、模型對齊、監(jiān)督微調(diào),來應(yīng)用于特定行業(yè)。
加拿大工程院院士、歐洲科學(xué)院院士、香港科技大學(xué)計算機科學(xué)與工程系講座教授郭嵩向21世紀經(jīng)濟報道記者表示,學(xué)術(shù)界在做0-1的科學(xué)發(fā)現(xiàn),不一定能直接產(chǎn)出經(jīng)濟效益。這些年,自己團隊通過聯(lián)合實驗室的方法和大型企業(yè)建立了密切聯(lián)系,也和醫(yī)學(xué)院、大型醫(yī)院建立了合作,對醫(yī)療醫(yī)學(xué)建立了更深刻的理解。在這個基礎(chǔ)上,才能做出精準(zhǔn)的垂類大模型,不久前團隊剛發(fā)布了四個醫(yī)療的大模型,引起了不小反響。這是一種長期的方法,就是把AI的技術(shù)、科學(xué)計算的公式融入行業(yè),和特定領(lǐng)域的知識融會貫通,這樣或許能夠產(chǎn)生真正有效的大模型。
大模型正在“向下扎根”,這無疑是產(chǎn)業(yè)生態(tài)活躍的大灣區(qū)優(yōu)勢所在。
中國科學(xué)院院士、深圳大學(xué)校長毛軍發(fā)認為,珠三角最重要的優(yōu)勢就是民營經(jīng)濟非?;钴S,創(chuàng)新創(chuàng)業(yè)的氛圍應(yīng)該說是全中國乃至全世界最好的地區(qū)之一。人工智能技術(shù)產(chǎn)業(yè)化無非就是兩種模式,一種是AI+X,另外一種是X+AI,X就是產(chǎn)業(yè)應(yīng)用,而且毛軍發(fā)認為X+AI可能更重要,應(yīng)該由各行各業(yè)的企業(yè)、企業(yè)家對人工智能提出需求,并尋找到相關(guān)應(yīng)用落地。
應(yīng)用層正是大灣區(qū)人工智能的主要發(fā)力領(lǐng)域。就以廣州為例,豐富的應(yīng)用場景已經(jīng)吸引了一大批人工智能企業(yè),涌現(xiàn)出云從科技、文遠知行、極飛科技等明星企業(yè),它們在自動駕駛、智能農(nóng)業(yè)等不同領(lǐng)域走出差異化發(fā)展之路。
關(guān)注“賣鏟子的人”
業(yè)界常言,人工智能的發(fā)展有三要素——數(shù)據(jù)、算力、算法。算法決定模型的準(zhǔn)確性和效率,數(shù)據(jù)是養(yǎng)料,決定內(nèi)容輸出的質(zhì)量,算力則是鏟子,是訓(xùn)練大模型的基礎(chǔ)。
沈向洋提及了一組數(shù)據(jù),從2019年到現(xiàn)在,每一年出來的最新大模型所需要的算力和前一年相比,剛開始是以每年翻六七倍的規(guī)模在增長,最近幾年穩(wěn)定下來,大概以每年翻四倍的增速在增長??梢韵胂?,算力需求一年翻幾倍,十年下來這個數(shù)字會非??鋸?。因為大模型對應(yīng)大量參數(shù),需要的數(shù)據(jù)量也在增加,訓(xùn)練模型的算力需求也會激增。所以在整個AI浪潮中,最大的贏家是英偉達。
“這幾年我經(jīng)常講一句話,叫‘講卡傷感情,沒卡沒感情’,算力是人工智能發(fā)展的門檻?!鄙蛳蜓簏c出。
過去兩年,英偉達市值翻了10倍,一度登頂全球市值之王,足見算力在人工智能江湖里的地位。
但業(yè)界也知道,依賴單一一個“賣鏟子”的人是有風(fēng)險的,因為它可以壟斷供貨、操縱價格。
人工智能與數(shù)字經(jīng)濟廣東省實驗室(深圳)協(xié)理副主任黃哲學(xué)表示,我們面臨的一大挑戰(zhàn)是,英偉達限制GPU出口,以前有卡可以建大規(guī)模集群,現(xiàn)在不一定建得了。要解決這個問題,還是得走自力更生的道路,立足于國產(chǎn)算力。所以我們鵬城云腦,從II到III都是由華為供應(yīng)自主芯片的。
同時,解決國產(chǎn)算力問題最主要的還是生態(tài)問題。黃哲學(xué)進一步指出,我們現(xiàn)在用的很多大模型、開源軟件都是從國外來的,大部分是基于英偉達的。自主創(chuàng)新之后,因為芯片改變了,底層的一些算法就不一樣了,所以我們要開發(fā)類似英偉達CUDA的系統(tǒng),可以適配國外的軟件,同時也可以自主研發(fā)自己的創(chuàng)新應(yīng)用,這樣來解決算力的問題。
著眼大灣區(qū),深圳正大力建設(shè)國家超算深圳中心、鵬城云腦、騰訊云等算力基礎(chǔ)設(shè)施。此前IDC發(fā)布的《全球計算力指數(shù)評估報告》顯示,中國的算力產(chǎn)業(yè)規(guī)模和多樣性目前正持續(xù)高速增長,2018年至2022年,深圳的算力規(guī)模位居全國前三。
去年5月,鵬城實驗室首次對外發(fā)布了中國算力網(wǎng)計劃。這次大灣區(qū)科學(xué)論壇上,中國工程院院士、鵬城實驗室主任高文介紹,作為國家重大科技基礎(chǔ)設(shè)施,鵬城云腦Ⅱ已在IO500全球總榜單中連續(xù)8次奪得魁首,建設(shè)中的鵬城云腦Ⅲ建成后,算力規(guī)模將達到16000P,相當(dāng)于832萬臺家用電腦算力之和。
“大模型并非無所不能”
今年6月,牛津大學(xué)發(fā)布研究報告《Theory is all you need》,標(biāo)題上和大模型的開山之作《Attention Is All You Need》相呼應(yīng),但牛津的報告則抨擊了大模型為代表的AI局限性問題。該報告指出,人類認知的本質(zhì)是“理論驅(qū)動”的,人類不僅能夠通過現(xiàn)有數(shù)據(jù)得出合理推論,更能基于假設(shè)、直覺以及跨領(lǐng)域的聯(lián)想,提出具有前瞻性的創(chuàng)新想法。但大模型的本質(zhì)更接近于對已有知識的模仿,而非對新知識的原創(chuàng)性探索。
沈向洋也認為,大模型雖然做出來了,但是不可解釋,也不穩(wěn)定,就出很多的問題。人們認為智能有限,似乎大模型出來之后,智能就出來了。但同時,很多人也在懷疑,現(xiàn)在這樣的一套體系是不是真的可以走很遠。去年,自己也在香港科技大學(xué)組織了一批科學(xué)家去探討,“涌現(xiàn)”背后的數(shù)學(xué)原理到底是什么,試圖打開大模型的“黑盒”。
清華大學(xué)教授李宗鵬也向21世紀經(jīng)濟報道記者表示,大模型出來后,很多人以為它可以用來做很多事情,顛覆整個經(jīng)濟形態(tài),但是實際上大模型并非無所不能。就說AI幻覺這個點,從數(shù)學(xué)的角度看,這是大模型永遠擺脫不了的問題,因為自然語言處理是基于概率生成和輸出內(nèi)容的,從這一點看,就沒辦法確保百分百準(zhǔn)確。所以AI可以做藝術(shù)、文本創(chuàng)作,但是在做需要特別精確的事情時,肯定會存在局限性。
現(xiàn)階段,大模型依然在沿著規(guī)模法則(scaling law)在發(fā)展,也就是堆疊的參數(shù)、投喂的數(shù)據(jù)越多,模型就越強大。但質(zhì)疑的聲音不時出現(xiàn),即使互聯(lián)網(wǎng)的數(shù)據(jù)浩如煙海,但遲早會有用完的一天,而且靠堆參數(shù)訓(xùn)練模型,這樣的方法會越來越不經(jīng)濟。規(guī)模法則還是一條可行的路嗎?
在郭嵩看來,從目前來看,頂級的科技公司還是非常堅信規(guī)模法則,相信隨著參數(shù)、數(shù)據(jù)有指數(shù)級的增長,涌現(xiàn)的能力也會有顯著增強,也就是說投入和產(chǎn)出大致還是成比例的。至于未來要如何去顛覆、下一個規(guī)律是什么,就要有待科學(xué)界和業(yè)界去探索了。但可以關(guān)注的是,李飛飛教授提出來的空間智能,她認為這是AI的下一個方向。簡單而言就是,現(xiàn)在的大模型還停留在語言層面,但語言是離散的,也難以形成對物理世界的真正理解,所以結(jié)合對空間、時間等深層尺度的理解,才能往通用人工智能(AGI)更近一步。