首頁(yè) > 新聞資訊 > 正文

ChatGPT 們能講人話(huà)后，AI 污染互聯(lián)網(wǎng)將變本加厲

2024年09月27日 17:12

行業(yè)資訊瀏覽：179

人類(lèi)最擔(dān)心的事情還是發(fā)生了。

隨意在網(wǎng)上看幾篇新聞，卻分不清是出自 AI，還是人類(lèi)之手；忙里偷閑時(shí)打把游戲，也分不清隊(duì)友是 AI 人機(jī)還是真人。

直播間里，明星數(shù)字人自顧自地吮雞爪，與賣(mài)力吆喝的真人助播形成割裂的場(chǎng)景……

據(jù)外媒 404 media 報(bào)道，一個(gè)原本用來(lái)追蹤和分析多種語(yǔ)言中不同單詞和詞匯流行度和使用頻率的項(xiàng)目——Wordfreq，現(xiàn)在也成了最新的受害者。

陽(yáng)光明媚的地方總有陰影潛伏，顯然 Wordfreq 不是第一個(gè)受害者，也不會(huì)是最后一個(gè)受害者。

換句話(huà)說(shuō)，最終為之買(mǎi)單的或許還是人類(lèi)本身。

ChatGPT 們能講人話(huà)后，AI 污染互聯(lián)網(wǎng)將變本加厲

GPT 們污染語(yǔ)言，人類(lèi)要為之買(mǎi)單

「生成式 AI 污染了數(shù)據(jù)，我認(rèn)為沒(méi)有人掌握關(guān)于 2021 年后人類(lèi)使用語(yǔ)言的可靠信息?！?/p>

這句來(lái)自 Wordfreq 項(xiàng)目創(chuàng)建者羅賓·斯皮爾心中的吶喊，透出了幾分無(wú)奈與憤懣。

要探究這背后的原委，還得從 Wordfreq 的來(lái)歷談起。

通過(guò)分析維基百科、電影和電視字幕、新聞報(bào)道、以及 Reddit 等網(wǎng)站內(nèi)容，Wordfreq 試圖追蹤 40 多種語(yǔ)言的變遷，進(jìn)而研究隨著俚語(yǔ)和流行文化變化而不斷變化的語(yǔ)言習(xí)慣。

對(duì)于語(yǔ)言學(xué)家、作家和翻譯人員而言，Wordfreq 無(wú)疑是一項(xiàng)寶庫(kù)。但是現(xiàn)在，GitHub 地址上偌大的一句聲明「該項(xiàng)目將不再更新」，也悲情地給這個(gè)項(xiàng)目敲響了喪鐘。

ChatGPT 們能講人話(huà)后，AI 污染互聯(lián)網(wǎng)將變本加厲

曾經(jīng)，網(wǎng)絡(luò)抓取公開(kāi)數(shù)據(jù)是該項(xiàng)目數(shù)據(jù)源的生命線(xiàn)，但生成式 AI 的崛起讓 AI 文本開(kāi)始大行其道。

斯皮爾舉了一個(gè)典型的例子，過(guò)去人們很少使用「delve」這個(gè)詞，而隨著 ChatGPT 將這個(gè)詞匯變成了口頭禪，大有李鬼冒充李逵之勢(shì)，間而也就讓失真的詞頻統(tǒng)計(jì)影響了對(duì)人類(lèi)語(yǔ)言習(xí)慣的準(zhǔn)確分析。

如果這還不夠直觀，GPT 們那些陳詞濫調(diào)，比如「總之」、「綜上所述」等詞匯的泛濫便是最醒目的警告。

ChatGPT 們能講人話(huà)后，AI 污染互聯(lián)網(wǎng)將變本加厲

這種趨勢(shì)也正逐漸滲透到學(xué)術(shù)寫(xiě)作乃至文學(xué)創(chuàng)作中。

一份來(lái)自斯坦福大學(xué)的報(bào)告曾指出，ChatGPT 在短短五個(gè)月內(nèi)，就成了許多專(zhuān)家學(xué)者們的「寫(xiě)作神器」。其中在計(jì)算機(jī)科學(xué)領(lǐng)域，幾乎每六篇摘要、每七篇引言中，就有一篇出自它的手筆。

隨之而來(lái)的，便是生成式 AI 對(duì)人類(lèi)寫(xiě)作風(fēng)格的「大舉入侵」。

意大利國(guó)際高等研究院的博士生耿明萌的研究成果就像一面鏡子，進(jìn)一步映照出 ChatGPT 的詞語(yǔ)偏好，也充分證實(shí)了它在學(xué)術(shù)論文寫(xiě)作中的影響力。

在分析 arXiv 上超過(guò)百萬(wàn)篇論文的摘要后，耿明萌發(fā)現(xiàn)，論文的詞頻在 ChatGPT 普及后出現(xiàn)了明顯變化。其中，「significant」等詞匯的使用頻率大幅上升，而「is」和「are」等詞匯則減少了約 10%。

ChatGPT 們能講人話(huà)后，AI 污染互聯(lián)網(wǎng)將變本加厲

多數(shù)情況下，生成式 AI 可以讓一個(gè)創(chuàng)造力 60 分的人變成 70 分甚至更高的分?jǐn)?shù)，但在文本創(chuàng)作中，雖然個(gè)人創(chuàng)造力和寫(xiě)作質(zhì)量有所提高，卻在無(wú)形中讓集體創(chuàng)意變得無(wú)趣且同質(zhì)化。

UCL 和?？巳卮髮W(xué)的兩位學(xué)者在《Science》上發(fā)表了一項(xiàng)研究，500 名參與者被指派借助 AI 圍繞隨機(jī)主題撰寫(xiě)約 8 行故事，并分析目標(biāo)受眾。

結(jié)果顯示，借助 AI 的靈感，故事變得更有「創(chuàng)造性」，但這些 AI 生成的故事彼此之間的相似度也驚人地高。

因此，當(dāng)生成式 AI 文本如同無(wú)孔不入的污染物，肆意涌入互聯(lián)網(wǎng)，對(duì)于 Wordfreq 也好，還是人類(lèi)也罷，怎么看都是利遠(yuǎn)小于弊。

四圣封神魔法師打金服

反爬蟲(chóng)戰(zhàn)爭(zhēng)打響，Wordfreq 遭殃

Wordfreq 項(xiàng)目的終止算得上是巨頭爬蟲(chóng)戰(zhàn)爭(zhēng)夾縫中的犧牲品。

AI 的發(fā)展離不開(kāi)算法、算力和數(shù)據(jù)的支持。盡管 AI 生成的文本與人類(lèi)真實(shí)語(yǔ)言相比還有差距，但它在語(yǔ)法和邏輯性方面越來(lái)越像模像樣。

這片風(fēng)平浪靜的水面之下，一場(chǎng) AI 爬取與反爬取的無(wú)聲戰(zhàn)爭(zhēng)正在醞釀。

在當(dāng)前的輿論環(huán)境中，爬取網(wǎng)頁(yè)數(shù)據(jù)似乎成了冒天下大不韙的禁忌，不少新聞報(bào)道評(píng)論區(qū)里充斥著網(wǎng)友的唾棄之聲，而 Wordfreq 本質(zhì)上也是通過(guò)爬取不同語(yǔ)言的文本而構(gòu)建起來(lái)的。

在生成式 AI 尚未盛行之時(shí)，Wordfreq 也曾度過(guò)一段蜜月期。

以往一般來(lái)說(shuō)，只要遵守網(wǎng)站的 robots.txt 文件規(guī)定，爬取公開(kāi)數(shù)據(jù)似乎也合情合理。這是網(wǎng)站與爬蟲(chóng)之間的一種默契約定，用來(lái)指示爬蟲(chóng)哪些內(nèi)容可以抓取，哪些則不可以。

ChatGPT 們能講人話(huà)后，AI 污染互聯(lián)網(wǎng)將變本加厲

當(dāng)一個(gè)網(wǎng)站設(shè)置 robots.txt 限制協(xié)議時(shí)，就像豎起了禁止擅自進(jìn)入的標(biāo)志牌。如果爬蟲(chóng)違反了 robots.txt 協(xié)議，或者采用了突破網(wǎng)站反爬蟲(chóng)技術(shù)手段的方法獲取數(shù)據(jù)，那么就可能會(huì)構(gòu)成不正當(dāng)競(jìng)爭(zhēng)或侵犯版權(quán)等違法行為。

然而，隨著模型對(duì)高質(zhì)量數(shù)據(jù)的灌溉需求日益增長(zhǎng)，這場(chǎng)爬取與反爬取的戰(zhàn)也愈發(fā)激烈。

回顧過(guò)去，關(guān)于生成式 AI 巨頭爬蟲(chóng)與反爬蟲(chóng)數(shù)據(jù)的糾紛比比皆是。為首突出的自然是 OpenAI 和 Google。

去年，OpenAI 公司特地推出網(wǎng)絡(luò)爬蟲(chóng)工具 GPTBot，聲稱(chēng)用于抓取網(wǎng)頁(yè)數(shù)據(jù)訓(xùn)練 AI 模型。但顯然，沒(méi)有哪家媒體愿意被爬蟲(chóng)暗地里薅羊毛。

意識(shí)到數(shù)據(jù)和版權(quán)重要性的媒體遵循著一手交錢(qián)，一手交數(shù)據(jù)的商業(yè)邏輯。

一項(xiàng)來(lái)自路透社研究所進(jìn)行的研究表明，截至 2023 年底，全球 10 個(gè)國(guó)家的熱門(mén)新聞網(wǎng)站中，近一半的網(wǎng)站屏蔽了 OpenAI 的爬蟲(chóng)（Crawler），而近四分之一的網(wǎng)站也對(duì) Google 的爬蟲(chóng)采取了相同的措施。

后來(lái)的故事大家應(yīng)該都很熟悉了，OpenAI 三天兩頭就被傳統(tǒng)媒體起訴，無(wú)一例外不是版權(quán)訴訟糾紛。直到今年，官司纏身的 OpenAI 才老老實(shí)實(shí)和新聞出版商建立合作關(guān)系。

ChatGPT 們能講人話(huà)后，AI 污染互聯(lián)網(wǎng)將變本加厲

只是，此前的高墻林立、以及數(shù)據(jù)收費(fèi)等策略也讓 Wordfreq 也成為了這場(chǎng)「數(shù)據(jù)荒」的犧牲品。

斯皮爾指出，由于 Twitter 和 Reddit（Wordfreq 包含的網(wǎng)站）已經(jīng)開(kāi)始對(duì)其 API 收費(fèi)，這使得網(wǎng)絡(luò)抓取數(shù)據(jù)變得更加困難。

「過(guò)去免費(fèi)獲取的信息變得昂貴，」斯皮爾寫(xiě)道?！肝也幌?yún)⑴c任何可能與生成式 AI 混淆的工作，或可能使生成式 AI 受益的工作?！?/p>

即便能用金錢(qián)換數(shù)據(jù)，但數(shù)據(jù)總有用盡的一天。

研究公司 Epoch AI 預(yù)測(cè)，互聯(lián)網(wǎng)上可用的高質(zhì)量文本數(shù)據(jù)或?qū)⒃?2028 年耗盡，這一現(xiàn)象在業(yè)內(nèi)被稱(chēng)為「數(shù)據(jù)墻」，可能成為減緩 AI 發(fā)展的最大障礙。

于是乎，不少大模型廠(chǎng)商開(kāi)始將目光轉(zhuǎn)向合成數(shù)據(jù)，主打一個(gè)用 AI 訓(xùn)練 AI。

用 AI 訓(xùn)練 AI，可能越練越「傻」

我的直覺(jué)是，網(wǎng)絡(luò)上的文本都是狗屎，這些數(shù)據(jù)上進(jìn)行訓(xùn)練簡(jiǎn)直是在浪費(fèi)算力。

當(dāng) Llama 3.1-405B 以掀桌子的實(shí)力橫掃一眾開(kāi)源大模型之時(shí)，領(lǐng)導(dǎo) Llama 系列的 Meta AI 研究員 Thomas Scialom 在接受采訪(fǎng)時(shí)發(fā)出了如上暴論。

據(jù)他透露， Llama 3 的訓(xùn)練過(guò)程并不依賴(lài)任何人類(lèi)編寫(xiě)的答案，而是完全基于 Llama 2 生成的合成數(shù)據(jù)。

Scialom 的說(shuō)法或許過(guò)于粗暴，但也有一定的道理。

ChatGPT 們能講人話(huà)后，AI 污染互聯(lián)網(wǎng)將變本加厲

互聯(lián)網(wǎng)每天都在涌現(xiàn)源源不斷的數(shù)據(jù)，但訓(xùn)練 AI 從來(lái)就是一個(gè)寧缺毋濫的單選題，若數(shù)據(jù)中滿(mǎn)是錯(cuò)誤和噪聲，模型自然也會(huì)跟著學(xué)習(xí)這些「瑕疵」，預(yù)測(cè)和分類(lèi)的準(zhǔn)確性可想而知。

而且，低質(zhì)量的數(shù)據(jù)往往充斥著偏見(jiàn)，無(wú)法真正代表整體數(shù)據(jù)分布，從而導(dǎo)致模型產(chǎn)生有偏見(jiàn)的回復(fù)。教科文組織總干事阿祖萊也曾警告：

「新的 AI 工具有著在不知不覺(jué)中改變千百萬(wàn)人認(rèn)知的力量，因此，即便是生成內(nèi)容中極為微小的性別偏見(jiàn)，也可能顯著加劇現(xiàn)實(shí)世界中的不平等?！?/p>

不過(guò)，合成數(shù)據(jù)也未必是解決「數(shù)據(jù)墻」難題的靈丹妙藥。

最近來(lái)自牛津劍橋的研究人員發(fā)現(xiàn)，當(dāng)模型使用 AI 生成的數(shù)據(jù)集，則輸出的質(zhì)量會(huì)逐漸下降，最終產(chǎn)生無(wú)意義的內(nèi)容，也就是俗稱(chēng)的模型崩潰。

ChatGPT 們能講人話(huà)后，AI 污染互聯(lián)網(wǎng)將變本加厲

研究負(fù)責(zé)人 Ilia Shumailov 用了拍照的比喻來(lái)形容這一過(guò)程：

如果你拍了一張照片，掃描、打印出來(lái)并再對(duì)其拍照，然后不斷重復(fù)這個(gè)過(guò)程，隨著時(shí)間的推移，基本上整個(gè)過(guò)程都會(huì)被「噪聲」淹沒(méi)。最后，你會(huì)得到一個(gè)黑暗的方塊。

當(dāng)越來(lái)越多 AI 生成的垃圾網(wǎng)頁(yè)開(kāi)始充斥互聯(lián)網(wǎng)，訓(xùn)練 AI 模型的原材料也將遭到污染。

例如，程序員問(wèn)答社區(qū) Stack Overflow 深受 AI 其害。

在 ChatGPT 爆火之初，Stack Overflow 便宣布「臨時(shí)禁用」。「從 ChatGPT 獲得正確答案的平均比例太低了。」官方在聲明中如是吐槽。

ChatGPT 們能講人話(huà)后，AI 污染互聯(lián)網(wǎng)將變本加厲

專(zhuān)業(yè)用戶(hù)的數(shù)量畢竟有限，不可能逐一核實(shí)所有答案，而 ChatGPT 的錯(cuò)誤率又是顯而易見(jiàn)的。當(dāng) AI 污染社區(qū)環(huán)境，彼時(shí)無(wú)計(jì)可施的人類(lèi)也只能一禁了之。

在圖像領(lǐng)域，AI 模型趨向于重現(xiàn)最常見(jiàn)的數(shù)據(jù)，經(jīng)歷多次迭代后，最終可能連最初的事物都會(huì)忘得一干二凈。

被看到的這一切指向了一個(gè)惡性循環(huán)：AI 生成低質(zhì)量乃至錯(cuò)誤信息，與人類(lèi)數(shù)據(jù)混淆在一起，這些普遍低質(zhì)量的數(shù)據(jù)又被 AI 反復(fù)喂養(yǎng)，最終導(dǎo)致肆意泛濫的 AI 反噬自身。

上一篇: 從“金牌工人”到“人民工匠” 他無(wú)愧于時(shí)代

下一篇: 淘寶正式接入微信支付，互聯(lián)網(wǎng)巨頭“拆墻”標(biāo)志性事件落地

暫無(wú)評(píng)論

0/1000

匿名

人妻在线日韩免费视频|国产潮吹喷水在线观看|无码高清不卡五月天激情|影音先锋av在线资源站|精品一区二区在线欧美日韩|欧美一级99在线观看国产|性久久久久久久久波多野结衣|久久精品2019中文字幕国语

ChatGPT 們能講人話(huà)后，AI 污染互聯(lián)網(wǎng)將變本加厲

GPT 們污染語(yǔ)言，人類(lèi)要為之買(mǎi)單

反爬蟲(chóng)戰(zhàn)爭(zhēng)打響，Wordfreq 遭殃

用 AI 訓(xùn)練 AI，可能越練越「傻」

GPT 們污染語(yǔ)言，人類(lèi)要為之買(mǎi)單

反爬蟲(chóng)戰(zhàn)爭(zhēng)打響，Wordfreq 遭殃

用 AI 訓(xùn)練 AI，可能越練越「傻」