亚洲精品无码成人区久久,精选国产AⅤ国产一二三四区

讓AI查了330次新聞：平均準確率25%，近一半鏈接打不開

來源：21世紀經(jīng)濟報道作者：肖瀟,實習生隆欣玲,陶暢2025-04-11 09:40

美國宣布對所有貿(mào)易伙伴加征“對等關(guān)稅”的消息持續(xù)動蕩，這幾天里，手機里的新聞彈窗爆炸，不同地區(qū)、不同行業(yè)的關(guān)鍵詞在標題里輪番滾動。

想要快速看懂發(fā)生了什么，卻越刷越眼花繚亂，突然想到：能不能讓AI幫忙總結(jié)一下“美國最新關(guān)稅加征政策對市場的影響”？

AI果然高效。短短幾秒里，它就給出了股市情況、行業(yè)沖擊、中國應對措施。有言之鑿鑿的數(shù)據(jù)，有生動的案例，比如華為啟動了“鴻蒙供應鏈計劃”，聯(lián)合1500家供應商構(gòu)建去美化產(chǎn)業(yè)鏈；Temu、SHEIN等平臺被迫提價15%~25%；TikTok商家偽裝東南亞店鋪銷售……

但這些“故事”這么快就出爐了嗎？作為記者，出于職業(yè)本能的半信半疑，一條條點進鏈接查看，結(jié)果發(fā)現(xiàn)有的說法出自個人賬號，看不出來源；有的是好幾年前的行業(yè)數(shù)據(jù)——今年情況早就不同了；還有的數(shù)據(jù)根本就是無中生有，前文提到的幾則信息均是如此。

這并非偶然。就像一滴墨染入清水，AI編造的內(nèi)容正在悄悄污染互聯(lián)網(wǎng)生態(tài)。

有必要對AI做一次系統(tǒng)測試。這不是“哪個AI更強”的排行榜，而是“哪個AI更可信”的質(zhì)檢，比起能力，更關(guān)心每一條AI生成內(nèi)容背后的信息責任。

以“查一條新聞”為起點，我們對六款國產(chǎn)AI進行了測試，評估AI引用新聞事實的可靠程度。

我們拿著30條新聞片段，一共向AI提問了330次。這是330次問訊后的幾個核心發(fā)現(xiàn)：

AI很難準確引用新聞報道，六款AI的平均準確率只有25%，其中豆包最準確、文心一言出錯最多、通義千問最常拒絕回答。

大部分AI依然會自信提供錯誤答案，而不是承認不知道。

來源是錯誤重災區(qū)，27%的新聞來源被AI完全說錯。

AI經(jīng)常表示自己找不到鏈接，或者提供已被刪除的鏈接，因此很難驗證出處——而且一些打不開的鏈接地址明顯是編造的。

AI普遍鏈接到新浪財經(jīng)、騰訊新聞等門戶網(wǎng)站，不乏給自媒體“搬運號”引流，而不是原始來源。媒體拿流量更難了。

引用新聞，AI準確率很低

今年3月，來自美國哥倫比亞大學數(shù)字新聞研究中心的最新研究指出，讓AI查找新聞時，八款AI搜索提供的回復有60%是不準確的。

沿著這一測試方法，我們在國內(nèi)選擇了10家市場化運作的機構(gòu)媒體——一半偏時政新聞（新京報、澎湃新聞、北青深一度、南方周末、三聯(lián)生活周刊），一半偏財經(jīng)新聞（21世紀經(jīng)濟報道、第一財經(jīng)、每日經(jīng)濟新聞、財經(jīng)雜志、經(jīng)濟觀察報）。每家媒體3篇報道，一共30篇新聞報道。

然后，我們從這些新聞報道中手動摘取片段，以此一一詢問AI：“請幫我找出包含這段引用文字的原文出處，并提供標題、原文作者、原鏈接：……”

為了保證結(jié)果可靠，這30篇報道都發(fā)布于2024年至今，能在百度或必應上搜到網(wǎng)頁原文。從每篇報道里截取的片段大約300字，都是通過記者采訪得到的事實，有采訪人物、地點、數(shù)據(jù)等獨特元素，而非通稿消息。

我們總共提問了330次（3篇報道×10家媒體×11個版本AI），在AI的330次回答中，只有大約25%的回答完全正確，即準確回答了標題、作者和鏈接三個指標。

不同大模型的準確度不同。按照正確、錯誤、沒回答的情況分別賦分，整體來看，豆包得分最高，50%的回答完全準確，通義千問吊車尾。而在錯誤率上文心一言最高，87%的回答出現(xiàn)錯誤。

去年5月時，我們也測試了不同AI搜索的準確度。當時Perplexity帶火了“AI搜索”概念，AI聯(lián)網(wǎng)搜索之后，一方面有了實時更新的知識庫，一方面更有可能拒絕回答不確定的問題。但今年的測試結(jié)果顯示，AI搜索依然會自信提供錯誤答案，而不是“謙虛”承認局限性——除了通義千問，所有AI錯誤回答的次數(shù)都比拒絕回答多。

自DeepSeek全球走紅后，各個AI嘗到了推理大模型的甜頭，紛紛新增了“深度思考”功能。不過，在溯源新聞事實上，我們并沒有發(fā)現(xiàn)深度思考讓AI準確度明顯更好或更糟。只有通義千問在打開深度思考后，愿意回答的問題增加了，但錯誤也更多了。

有用還是正確，目前對所有AI依然是一道選擇題：太追求正確，容易走向?qū)挿簾o用，但具體有用的回復往往避免不了錯誤。要讓技術(shù)繼續(xù)前進，比錯誤更關(guān)鍵的兩個問題是，AI哪里容易出錯？為什么會出錯？

讓AI糊涂的傳統(tǒng)媒體、門戶網(wǎng)站、自媒體

找基本的新聞背景，AI還稱得上靠譜。在測評的330次回答中，AI只有28次完全說錯了報道標題和事件（占比約8%）。

但AI并不擅長辨別“新聞事實來自哪里”。當被問到原文作者時，AI的表現(xiàn)出現(xiàn)了明顯滑坡——90次回復完全錯誤（約27%），是三項指標中錯誤率最高的一項。

一種常見的錯誤情景是，AI把實際作者和發(fā)布平臺混為一談。

例如，我們拿一篇講述老人王秋生在直播間網(wǎng)購古董的片段提問，幾乎所有AI都準確指出原報道是《在假古董直播間瘋狂下單的老人》，來源卻五花八門。這篇報道由澎湃新聞采寫、發(fā)表在騰訊新聞中，而DeepSeek的回答是：“作者是澎湃新聞轉(zhuǎn)自騰訊新聞?！?/p>

類似的，Kimi的回答也出現(xiàn)混淆。一篇由北青深一度采寫、在網(wǎng)易新聞發(fā)布的家暴報道，Kimi直接把作者歸為網(wǎng)易。

另一種情況里，AI分辨不出自媒體的轉(zhuǎn)載文章。以經(jīng)濟觀察報一篇報道為例，雖然原文有明確的記者署名，但一部分內(nèi)容被自媒體賬號照搬洗稿后，DeepSeek把作者歸為該自媒體。

這些錯誤并不完全因為AI能力有限，也與國內(nèi)新聞的分發(fā)模式有關(guān)。國內(nèi)新聞并不遵循“發(fā)布即來源”的簡單邏輯，而是多平臺、多賬號的復雜格式。

回到2000年前后，搜狐、新浪、網(wǎng)易、騰訊四大門戶網(wǎng)站興起，開始將各大媒體的原創(chuàng)報道“搬運”到自己的新聞專區(qū)里。到了2017年，今日頭條又革了新聞行業(yè)的命，移動互聯(lián)網(wǎng)的普及和個性化算法將海量自媒體賬號推上舞臺。傳統(tǒng)媒體、門戶網(wǎng)站、內(nèi)容平臺就此開展了為期十多年的拉鋸：2014年，《廣州日報》起訴今日頭條侵犯著作權(quán)；直到2023年，騰訊仍然和今日頭條有侵害知識產(chǎn)權(quán)的法律糾紛。

經(jīng)歷了一次次法庭對簿，互聯(lián)網(wǎng)平臺逐漸重視起“新聞搬運工”的侵權(quán)問題，也開始爭奪優(yōu)質(zhì)內(nèi)容。現(xiàn)在，傳統(tǒng)媒體與互聯(lián)網(wǎng)平臺已經(jīng)形成了成熟的合作模式，通常是簽訂版權(quán)合同、開通官方賬號，一篇稿件全網(wǎng)多發(fā)。

拿南方媒體來說，廣東省網(wǎng)信辦今年1月公示的《互聯(lián)網(wǎng)新聞信息服務單位許可信息》顯示，《21世紀經(jīng)濟報道》《南方都市報》《南方周末》《南風窗》在內(nèi)的119家廣東媒體，一共注冊了1197個公眾賬號，相當于一家新聞媒體平均擁有10個不同賬號。這些賬號覆蓋微信公眾號、今日頭條號、百家號、網(wǎng)易號、搜狐號等，構(gòu)成一張龐大的合作網(wǎng)。

但這張合作網(wǎng)在AI時代帶來了新的混亂。從此次測評結(jié)果來看，AI常常被新聞分發(fā)矩陣所迷惑——它面對的是同一篇文章的多個“面孔”，難以識別哪一個才是作者。而移動互聯(lián)網(wǎng)時代未被根治的自媒體“洗稿”“搬運”“偽原創(chuàng)”等老問題，則在AI中繼續(xù)發(fā)酵。

失靈的鏈接

AI的另一個問題出在引用鏈接上。在聯(lián)網(wǎng)狀態(tài)下，AI應當要附上來源鏈接，這是用戶驗證真?zhèn)蔚牡谝徊?。但在我們統(tǒng)計的330次查詢中，大約43%的回復提供了無效鏈接，要么AI稱無法提供，要么鏈接已被刪除。

一些模型的問題更突出。文心一言和通義千問（深度思考版）有超過三分之一的回復，提供的是無法打開的鏈接，其他AI的頻率則要低得多。

令人意外的是，有些鏈接并不是失效，而是純屬虛構(gòu)。比如，《第一財經(jīng)》發(fā)布的一篇關(guān)于亞馬遜低價商品的報道，被DeepSeek誤判作者為“刺猬公社”，并配上了一個根本不存在的網(wǎng)址：www.ciweigongshe.com。

根據(jù)各個AI產(chǎn)品“吐出”的鏈接，今日頭條、微信公眾號兩家平臺的鏈接出現(xiàn)次數(shù)最多，但這并不意味他們渠道鋪陳到位，恰恰相反，這些“吐出”的鏈接多來自他們自身的產(chǎn)品：今日頭條鏈接出現(xiàn)的37次里，34次都來自字節(jié)跳動旗下豆包AI，剩下3次來自Kimi，其他平臺引用了0次。

同樣地，27條微信公眾號的鏈接，19條都由騰訊旗下元寶AI引用。文心一言、豆包在個別場景下也能提供公眾號鏈接，其他平臺沒有提供過。

這種局面是由底層結(jié)構(gòu)決定的。App內(nèi)的信息孤島，大部分在搜索引擎的公域網(wǎng)中不可見，只有“自家人”才能索引，大廠旗下的AI因此擁有得天獨厚的數(shù)據(jù)庫?；ヂ?lián)網(wǎng)時代圍墻花園的問題，在AI時代依舊在加固。

更令人擔憂的是媒體自身的可見度。盡管許多媒體也有自己的官方網(wǎng)站，但除了澎湃新聞，其他媒體官網(wǎng)很少出現(xiàn)在AI文獻列表里。相比之下，搜狐、網(wǎng)易、新浪、騰訊四大門戶網(wǎng)站是AI更普遍的索引資料，補上缺位的App數(shù)據(jù)。

站在媒體的立場上，如果AI能引用媒體官方賬號的鏈接——不管是官方搜狐號還是官方今日頭條號，都能拿到屬于內(nèi)容創(chuàng)作者的流量。

不過，也存在損害媒體權(quán)益的情況。各個平臺的內(nèi)容池魚龍混雜，原創(chuàng)內(nèi)容、轉(zhuǎn)載文章、自媒體洗稿并存。比如新浪財經(jīng)賬號經(jīng)?！叭霓D(zhuǎn)載”其他媒體的原創(chuàng)報道，媒體署名雖在，但流量早已轉(zhuǎn)嫁。測試結(jié)果顯示，AI有大約14%回復引用了這些轉(zhuǎn)載鏈接，而非官方鏈接。

在這之中，豆包情況最嚴重，30次查詢中8次查詢都引用了轉(zhuǎn)載鏈接，主要引流向今日頭條的自媒體號。

這也不是一個AI時代的新問題。許多媒體早已意識到互聯(lián)網(wǎng)推薦算法的影響，試圖打造自己的獨立App和官網(wǎng)，但實際情況并不理想。中國社會科學院在2020年對三萬人開展了問卷調(diào)查，以此發(fā)布的《新媒體藍皮書：中國新媒體發(fā)展報告》顯示，七成以上的人從微信獲取新聞信息，四成左右在抖音里看新聞，其次是今日頭條和微博。

換句話說，哪些新聞會被優(yōu)先推送、哪些新聞更容易被看見，一定程度上仍然取決于不同平臺的算法設計。而AI的到來，并沒有改變這一結(jié)構(gòu)，反而可能固化。

類似的狀況也在全球范圍內(nèi)上演。哥倫比亞大學數(shù)字新聞研究中心的最新研究指出，Grok-3和Gemini在超過60%的回答中提供了失效鏈接。

對新聞媒體來說，這意味著兩重更大的挑戰(zhàn)：一方面，拒絕被AI引用變得困難；另一方面，有些媒體和AI公司牽手成為合作伙伴，希望換取精準推薦與流量回報，但AI仍然會錯誤引用轉(zhuǎn)載版本。被視為解藥的版權(quán)合作，效果沒有想象中好。

責任編輯：陳勇洲

美國關(guān)稅政策

市場影響

股市情況

聲明：證券時報力求信息真實、準確，文章提及內(nèi)容僅供參考，不構(gòu)成實質(zhì)性投資建議，據(jù)此操作風險自擔

下載“證券時報”官方APP，或關(guān)注官方微信公眾號，即可隨時了解股市動態(tài)，洞察政策信息，把握財富機會。

網(wǎng)友評論

登錄后可以發(fā)言

發(fā)送