掃碼登錄
人類(lèi)最擔(dān)心的事情還是發(fā)生了。
隨意在網(wǎng)上看幾篇新聞,卻分不清是出自 AI,還是人類(lèi)之手;忙里偷閑時(shí)打把游戲,也分不清隊(duì)友是 AI 人機(jī)還是真人。
直播間里,明星數(shù)字人自顧自地吮雞爪,與賣(mài)力吆喝的真人助播形成割裂的場(chǎng)景……
據(jù)外媒 404 media 報(bào)道,一個(gè)原本用來(lái)追蹤和分析多種語(yǔ)言中不同單詞和詞匯流行度和使用頻率的項(xiàng)目——Wordfreq,現(xiàn)在也成了最新的受害者。
陽(yáng)光明媚的地方總有陰影潛伏,顯然 Wordfreq 不是第一個(gè)受害者,也不會(huì)是最后一個(gè)受害者。
換句話(huà)說(shuō),最終為之買(mǎi)單的或許還是人類(lèi)本身。
ChatGPT 們能講人話(huà)后,AI 污染互聯(lián)網(wǎng)將變本加厲
「生成式 AI 污染了數(shù)據(jù),我認(rèn)為沒(méi)有人掌握關(guān)于 2021 年后人類(lèi)使用語(yǔ)言的可靠信息?!?/p>
這句來(lái)自 Wordfreq 項(xiàng)目創(chuàng)建者羅賓·斯皮爾心中的吶喊,透出了幾分無(wú)奈與憤懣。
要探究這背后的原委,還得從 Wordfreq 的來(lái)歷談起。
通過(guò)分析維基百科、電影和電視字幕、新聞報(bào)道、以及 Reddit 等網(wǎng)站內(nèi)容,Wordfreq 試圖追蹤 40 多種語(yǔ)言的變遷,進(jìn)而研究隨著俚語(yǔ)和流行文化變化而不斷變化的語(yǔ)言習(xí)慣。
對(duì)于語(yǔ)言學(xué)家、作家和翻譯人員而言,Wordfreq 無(wú)疑是一項(xiàng)寶庫(kù)。但是現(xiàn)在,GitHub 地址上偌大的一句聲明「該項(xiàng)目將不再更新」,也悲情地給這個(gè)項(xiàng)目敲響了喪鐘。
ChatGPT 們能講人話(huà)后,AI 污染互聯(lián)網(wǎng)將變本加厲
曾經(jīng),網(wǎng)絡(luò)抓取公開(kāi)數(shù)據(jù)是該項(xiàng)目數(shù)據(jù)源的生命線(xiàn),但生成式 AI 的崛起讓 AI 文本開(kāi)始大行其道。
斯皮爾舉了一個(gè)典型的例子,過(guò)去人們很少使用「delve」這個(gè)詞,而隨著 ChatGPT 將這個(gè)詞匯變成了口頭禪,大有李鬼冒充李逵之勢(shì),間而也就讓失真的詞頻統(tǒng)計(jì)影響了對(duì)人類(lèi)語(yǔ)言習(xí)慣的準(zhǔn)確分析。
如果這還不夠直觀,GPT 們那些陳詞濫調(diào),比如「總之」、「綜上所述」等詞匯的泛濫便是最醒目的警告。
ChatGPT 們能講人話(huà)后,AI 污染互聯(lián)網(wǎng)將變本加厲
這種趨勢(shì)也正逐漸滲透到學(xué)術(shù)寫(xiě)作乃至文學(xué)創(chuàng)作中。
一份來(lái)自斯坦福大學(xué)的報(bào)告曾指出,ChatGPT 在短短五個(gè)月內(nèi),就成了許多專(zhuān)家學(xué)者們的「寫(xiě)作神器」。其中在計(jì)算機(jī)科學(xué)領(lǐng)域,幾乎每六篇摘要、每七篇引言中,就有一篇出自它的手筆。
隨之而來(lái)的,便是生成式 AI 對(duì)人類(lèi)寫(xiě)作風(fēng)格的「大舉入侵」。
意大利國(guó)際高等研究院的博士生耿明萌的研究成果就像一面鏡子,進(jìn)一步映照出 ChatGPT 的詞語(yǔ)偏好,也充分證實(shí)了它在學(xué)術(shù)論文寫(xiě)作中的影響力。
在分析 arXiv 上超過(guò)百萬(wàn)篇論文的摘要后,耿明萌發(fā)現(xiàn),論文的詞頻在 ChatGPT 普及后出現(xiàn)了明顯變化。其中,「significant」等詞匯的使用頻率大幅上升,而「is」和 「are」等詞匯則減少了約 10%。
ChatGPT 們能講人話(huà)后,AI 污染互聯(lián)網(wǎng)將變本加厲
多數(shù)情況下,生成式 AI 可以讓一個(gè)創(chuàng)造力 60 分的人變成 70 分甚至更高的分?jǐn)?shù),但在文本創(chuàng)作中,雖然個(gè)人創(chuàng)造力和寫(xiě)作質(zhì)量有所提高,卻在無(wú)形中讓集體創(chuàng)意變得無(wú)趣且同質(zhì)化。
UCL 和??巳卮髮W(xué)的兩位學(xué)者在《Science》上發(fā)表了一項(xiàng)研究,500 名參與者被指派借助 AI 圍繞隨機(jī)主題撰寫(xiě)約 8 行故事,并分析目標(biāo)受眾。
結(jié)果顯示,借助 AI 的靈感,故事變得更有「創(chuàng)造性」,但這些 AI 生成的故事彼此之間的相似度也驚人地高。
因此,當(dāng)生成式 AI 文本如同無(wú)孔不入的污染物,肆意涌入互聯(lián)網(wǎng),對(duì)于 Wordfreq 也好,還是人類(lèi)也罷,怎么看都是利遠(yuǎn)小于弊。
Wordfreq 項(xiàng)目的終止算得上是巨頭爬蟲(chóng)戰(zhàn)爭(zhēng)夾縫中的犧牲品。
AI 的發(fā)展離不開(kāi)算法、算力和數(shù)據(jù)的支持。盡管 AI 生成的文本與人類(lèi)真實(shí)語(yǔ)言相比還有差距,但它在語(yǔ)法和邏輯性方面越來(lái)越像模像樣。
這片風(fēng)平浪靜的水面之下,一場(chǎng) AI 爬取與反爬取的無(wú)聲戰(zhàn)爭(zhēng)正在醞釀。
在當(dāng)前的輿論環(huán)境中,爬取網(wǎng)頁(yè)數(shù)據(jù)似乎成了冒天下大不韙的禁忌,不少新聞報(bào)道評(píng)論區(qū)里充斥著網(wǎng)友的唾棄之聲,而 Wordfreq 本質(zhì)上也是通過(guò)爬取不同語(yǔ)言的文本而構(gòu)建起來(lái)的。
在生成式 AI 尚未盛行之時(shí),Wordfreq 也曾度過(guò)一段蜜月期。
以往一般來(lái)說(shuō),只要遵守網(wǎng)站的 robots.txt 文件規(guī)定,爬取公開(kāi)數(shù)據(jù)似乎也合情合理。這是網(wǎng)站與爬蟲(chóng)之間的一種默契約定,用來(lái)指示爬蟲(chóng)哪些內(nèi)容可以抓取,哪些則不可以。
ChatGPT 們能講人話(huà)后,AI 污染互聯(lián)網(wǎng)將變本加厲
當(dāng)一個(gè)網(wǎng)站設(shè)置 robots.txt 限制協(xié)議時(shí),就像豎起了禁止擅自進(jìn)入的標(biāo)志牌。如果爬蟲(chóng)違反了 robots.txt 協(xié)議,或者采用了突破網(wǎng)站反爬蟲(chóng)技術(shù)手段的方法獲取數(shù)據(jù),那么就可能會(huì)構(gòu)成不正當(dāng)競(jìng)爭(zhēng)或侵犯版權(quán)等違法行為。
然而,隨著模型對(duì)高質(zhì)量數(shù)據(jù)的灌溉需求日益增長(zhǎng),這場(chǎng)爬取與反爬取的戰(zhàn)也愈發(fā)激烈。
回顧過(guò)去,關(guān)于生成式 AI 巨頭爬蟲(chóng)與反爬蟲(chóng)數(shù)據(jù)的糾紛比比皆是。為首突出的自然是 OpenAI 和 Google。
去年,OpenAI 公司特地推出網(wǎng)絡(luò)爬蟲(chóng)工具 GPTBot,聲稱(chēng)用于抓取網(wǎng)頁(yè)數(shù)據(jù)訓(xùn)練 AI 模型。但顯然,沒(méi)有哪家媒體愿意被爬蟲(chóng)暗地里薅羊毛。
意識(shí)到數(shù)據(jù)和版權(quán)重要性的媒體遵循著一手交錢(qián),一手交數(shù)據(jù)的商業(yè)邏輯。
一項(xiàng)來(lái)自路透社研究所進(jìn)行的研究表明,截至 2023 年底,全球 10 個(gè)國(guó)家的熱門(mén)新聞網(wǎng)站中,近一半的網(wǎng)站屏蔽了 OpenAI 的爬蟲(chóng)(Crawler),而近四分之一的網(wǎng)站也對(duì) Google 的爬蟲(chóng)采取了相同的措施。
后來(lái)的故事大家應(yīng)該都很熟悉了,OpenAI 三天兩頭就被傳統(tǒng)媒體起訴,無(wú)一例外不是版權(quán)訴訟糾紛。直到今年,官司纏身的 OpenAI 才老老實(shí)實(shí)和新聞出版商建立合作關(guān)系。
ChatGPT 們能講人話(huà)后,AI 污染互聯(lián)網(wǎng)將變本加厲
只是,此前的高墻林立、以及數(shù)據(jù)收費(fèi)等策略也讓 Wordfreq 也成為了這場(chǎng)「數(shù)據(jù)荒」的犧牲品。
斯皮爾指出,由于 Twitter 和 Reddit(Wordfreq 包含的網(wǎng)站)已經(jīng)開(kāi)始對(duì)其 API 收費(fèi),這使得網(wǎng)絡(luò)抓取數(shù)據(jù)變得更加困難。
「過(guò)去免費(fèi)獲取的信息變得昂貴,」斯皮爾寫(xiě)道?!肝也幌?yún)⑴c任何可能與生成式 AI 混淆的工作,或可能使生成式 AI 受益的工作?!?/p>
即便能用金錢(qián)換數(shù)據(jù),但數(shù)據(jù)總有用盡的一天。
研究公司 Epoch AI 預(yù)測(cè),互聯(lián)網(wǎng)上可用的高質(zhì)量文本數(shù)據(jù)或?qū)⒃?2028 年耗盡,這一現(xiàn)象在業(yè)內(nèi)被稱(chēng)為「數(shù)據(jù)墻」,可能成為減緩 AI 發(fā)展的最大障礙。
于是乎,不少大模型廠(chǎng)商開(kāi)始將目光轉(zhuǎn)向合成數(shù)據(jù),主打一個(gè)用 AI 訓(xùn)練 AI。
我的直覺(jué)是,網(wǎng)絡(luò)上的文本都是狗屎,這些數(shù)據(jù)上進(jìn)行訓(xùn)練簡(jiǎn)直是在浪費(fèi)算力。
當(dāng) Llama 3.1-405B 以掀桌子的實(shí)力橫掃一眾開(kāi)源大模型之時(shí),領(lǐng)導(dǎo) Llama 系列的 Meta AI 研究員 Thomas Scialom 在接受采訪(fǎng)時(shí)發(fā)出了如上暴論。
據(jù)他透露, Llama 3 的訓(xùn)練過(guò)程并不依賴(lài)任何人類(lèi)編寫(xiě)的答案,而是完全基于 Llama 2 生成的合成數(shù)據(jù)。
Scialom 的說(shuō)法或許過(guò)于粗暴,但也有一定的道理。
ChatGPT 們能講人話(huà)后,AI 污染互聯(lián)網(wǎng)將變本加厲
互聯(lián)網(wǎng)每天都在涌現(xiàn)源源不斷的數(shù)據(jù),但訓(xùn)練 AI 從來(lái)就是一個(gè)寧缺毋濫的單選題,若數(shù)據(jù)中滿(mǎn)是錯(cuò)誤和噪聲,模型自然也會(huì)跟著學(xué)習(xí)這些「瑕疵」,預(yù)測(cè)和分類(lèi)的準(zhǔn)確性可想而知。
而且,低質(zhì)量的數(shù)據(jù)往往充斥著偏見(jiàn),無(wú)法真正代表整體數(shù)據(jù)分布,從而導(dǎo)致模型產(chǎn)生有偏見(jiàn)的回復(fù)。教科文組織總干事阿祖萊也曾警告:
「新的 AI 工具有著在不知不覺(jué)中改變千百萬(wàn)人認(rèn)知的力量,因此,即便是生成內(nèi)容中極為微小的性別偏見(jiàn),也可能顯著加劇現(xiàn)實(shí)世界中的不平等?!?/p>
不過(guò),合成數(shù)據(jù)也未必是解決「數(shù)據(jù)墻」難題的靈丹妙藥。
最近來(lái)自牛津劍橋的研究人員發(fā)現(xiàn),當(dāng)模型使用 AI 生成的數(shù)據(jù)集,則輸出的質(zhì)量會(huì)逐漸下降,最終產(chǎn)生無(wú)意義的內(nèi)容,也就是俗稱(chēng)的模型崩潰。
ChatGPT 們能講人話(huà)后,AI 污染互聯(lián)網(wǎng)將變本加厲
研究負(fù)責(zé)人 Ilia Shumailov 用了拍照的比喻來(lái)形容這一過(guò)程:
如果你拍了一張照片,掃描、打印出來(lái)并再對(duì)其拍照,然后不斷重復(fù)這個(gè)過(guò)程,隨著時(shí)間的推移,基本上整個(gè)過(guò)程都會(huì)被「噪聲」淹沒(méi)。最后,你會(huì)得到一個(gè)黑暗的方塊。
當(dāng)越來(lái)越多 AI 生成的垃圾網(wǎng)頁(yè)開(kāi)始充斥互聯(lián)網(wǎng),訓(xùn)練 AI 模型的原材料也將遭到污染。
例如,程序員問(wèn)答社區(qū) Stack Overflow 深受 AI 其害。
在 ChatGPT 爆火之初,Stack Overflow 便宣布「臨時(shí)禁用」。「從 ChatGPT 獲得正確答案的平均比例太低了。」官方在聲明中如是吐槽。
ChatGPT 們能講人話(huà)后,AI 污染互聯(lián)網(wǎng)將變本加厲
專(zhuān)業(yè)用戶(hù)的數(shù)量畢竟有限,不可能逐一核實(shí)所有答案,而 ChatGPT 的錯(cuò)誤率又是顯而易見(jiàn)的。當(dāng) AI 污染社區(qū)環(huán)境,彼時(shí)無(wú)計(jì)可施的人類(lèi)也只能一禁了之。
在圖像領(lǐng)域,AI 模型趨向于重現(xiàn)最常見(jiàn)的數(shù)據(jù),經(jīng)歷多次迭代后,最終可能連最初的事物都會(huì)忘得一干二凈。
被看到的這一切指向了一個(gè)惡性循環(huán):AI 生成低質(zhì)量乃至錯(cuò)誤信息,與人類(lèi)數(shù)據(jù)混淆在一起,這些普遍低質(zhì)量的數(shù)據(jù)又被 AI 反復(fù)喂養(yǎng),最終導(dǎo)致肆意泛濫的 AI 反噬自身。