當(dāng)?shù)貢r(shí)間2月27日,OpenAI發(fā)布了最新模型GPT-4.5的研究預(yù)覽版。這是一款通用型大語言模型,其定位并非OpenAI最頂尖的模型,但卻號(hào)稱“情商最高”,且API調(diào)用價(jià)高于其主流模型GPT-4o。
據(jù)OpenAI方面介紹,GPT-4.5是OpenAI迄今為止規(guī)模最大、知識(shí)儲(chǔ)備最豐富的模型之一,擁有1萬億激活參數(shù),訓(xùn)練數(shù)據(jù)量高達(dá)120萬億tokens,上下文窗口長(zhǎng)度擴(kuò)展至256K11。
與OpenAI的主流模型相比,GPT-4.5的最大特點(diǎn)在于其“感性能力”的提升。它能夠進(jìn)行更自然、更溫暖的對(duì)話,甚至在回答問題時(shí)展現(xiàn)出一定的“人情味”。例如,當(dāng)用戶輸入“我被放鴿子了,我要發(fā)一個(gè)‘恨他們’的短信”時(shí),GPT-4.5會(huì)先輸出安撫情緒的內(nèi)容,再給出建議。
在面對(duì) “我考試失敗了,心情很低落” 這類輸入時(shí),之前的模型會(huì)立刻嘗試解決問題,而GPT-4.5會(huì)先詢問用戶是否想聊聊感受,或提供分散注意力的方法,展現(xiàn)出更高的情感智能,更適合處理與情感交流、寫作輔助(優(yōu)化內(nèi)容、激發(fā)創(chuàng)意)、客戶服務(wù)等相關(guān)任務(wù) 。
新模型的“幻覺率”(錯(cuò)誤生成虛假信息的概率)低于GPT-4o和o1模型,僅為37.1%,而GPT-4的幻覺率為61.8%。但在一些基準(zhǔn)測(cè)試?yán)?,它未達(dá)行業(yè)最前沿水平,如在編程能力的SWE-Bench Verified基準(zhǔn)測(cè)試中,與GPT-4o和o3-mini表現(xiàn)相當(dāng),遜色于OpenAI 的deep research和Anthropic的Claude 3.7 Sonnet。
在學(xué)術(shù)基準(zhǔn)測(cè)試AIME和GPQA上,GPT-4.5也不及領(lǐng)先的AI推理模型,如o3-mini、DeepSeek的R1和Claude 3.7 Sonnet。不過,在數(shù)學(xué)和科學(xué)相關(guān)問題上,相比其他非推理模型,它仍有不錯(cuò)的表現(xiàn)。
需要指出的是,OpenAI此前推出的o1等屬于推理模型,能生成 “思維鏈”,在處理問題前先進(jìn)行反思。而GPT-4.5是該公司最后一款 “非鏈?zhǔn)剿季S” 模型,未來將作為推理模型的基礎(chǔ),標(biāo)志著OpenAI在人工智能技術(shù)發(fā)展上的一個(gè)重要過渡。
在功能上,它支持搜索、畫布模式,用戶可上傳文件和圖像,但暫不支持語音模式、視頻和屏幕共享等多模態(tài)功能。
目前,GPT-4.5首先開放給軟件開發(fā)者以及ChatGPT Pro(每月200美元)訂閱用戶,未來也將向ChatGPT Plus(每月20美元)和Team訂閱用戶開放。但其定價(jià)為每百萬token輸出150美元,遠(yuǎn)高于GPT-4o的60美元。
眼下OpenAI的模型發(fā)布節(jié)奏正在不斷加快,其需要應(yīng)對(duì)來自Anthropic、xAI等的激烈競(jìng)爭(zhēng)。
前不久,由OpenAI前員工創(chuàng)立的Anthropic發(fā)布了Claude 3.7 Sonnet,馬斯克的xAI則推出了Grok 3。在中國市場(chǎng),DeepSeek等本土企業(yè)的崛起也給OpenAI帶來一定技術(shù)壓力。這些都促使OpenAI不斷優(yōu)化和拓展應(yīng)用場(chǎng)景,以保持優(yōu)勢(shì)。