人妻在线日韩免费视频|国产潮吹喷水在线观看|无码高清不卡五月天激情|影音先锋av在线资源站|精品一区二区在线欧美日韩|欧美一级99在线观看国产|性久久久久久久久波多野结衣|久久精品2019中文字幕国语

X

掃碼登錄

二維碼
  • 賬號(hào)登錄
登錄
登錄視為您已同意第三方賬號(hào)綁定協(xié)議、服務(wù)條款、隱私政策
X

掃碼注冊(cè)

二維碼
  • 賬號(hào)注冊(cè)
我以閱讀并同意 服務(wù)條款、 隱私政策
注冊(cè)
注冊(cè)視為您已同意第三方賬號(hào)綁定協(xié)議、服務(wù)條款、隱私政策

ChatGPT 們能講人話(huà)后,AI 污染互聯(lián)網(wǎng)將變本加厲

2024年09月27日 17:12
行業(yè)資訊 瀏覽:179

人類(lèi)最擔(dān)心的事情還是發(fā)生了。

隨意在網(wǎng)上看幾篇新聞,卻分不清是出自 AI,還是人類(lèi)之手;忙里偷閑時(shí)打把游戲,也分不清隊(duì)友是 AI 人機(jī)還是真人。

直播間里,明星數(shù)字人自顧自地吮雞爪,與賣(mài)力吆喝的真人助播形成割裂的場(chǎng)景……

據(jù)外媒 404 media 報(bào)道,一個(gè)原本用來(lái)追蹤和分析多種語(yǔ)言中不同單詞和詞匯流行度和使用頻率的項(xiàng)目——Wordfreq,現(xiàn)在也成了最新的受害者。

陽(yáng)光明媚的地方總有陰影潛伏,顯然 Wordfreq 不是第一個(gè)受害者,也不會(huì)是最后一個(gè)受害者。

換句話(huà)說(shuō),最終為之買(mǎi)單的或許還是人類(lèi)本身。

ChatGPT 們能講人話(huà)后,AI 污染互聯(lián)網(wǎng)將變本加厲

ChatGPT 們能講人話(huà)后,AI 污染互聯(lián)網(wǎng)將變本加厲

GPT 們污染語(yǔ)言,人類(lèi)要為之買(mǎi)單

「生成式 AI 污染了數(shù)據(jù),我認(rèn)為沒(méi)有人掌握關(guān)于 2021 年后人類(lèi)使用語(yǔ)言的可靠信息?!?/p>

這句來(lái)自 Wordfreq 項(xiàng)目創(chuàng)建者羅賓·斯皮爾心中的吶喊,透出了幾分無(wú)奈與憤懣。

要探究這背后的原委,還得從 Wordfreq 的來(lái)歷談起。

通過(guò)分析維基百科、電影和電視字幕、新聞報(bào)道、以及 Reddit 等網(wǎng)站內(nèi)容,Wordfreq 試圖追蹤 40 多種語(yǔ)言的變遷,進(jìn)而研究隨著俚語(yǔ)和流行文化變化而不斷變化的語(yǔ)言習(xí)慣。

對(duì)于語(yǔ)言學(xué)家、作家和翻譯人員而言,Wordfreq 無(wú)疑是一項(xiàng)寶庫(kù)。但是現(xiàn)在,GitHub 地址上偌大的一句聲明「該項(xiàng)目將不再更新」,也悲情地給這個(gè)項(xiàng)目敲響了喪鐘。

ChatGPT 們能講人話(huà)后,AI 污染互聯(lián)網(wǎng)將變本加厲

ChatGPT 們能講人話(huà)后,AI 污染互聯(lián)網(wǎng)將變本加厲

曾經(jīng),網(wǎng)絡(luò)抓取公開(kāi)數(shù)據(jù)是該項(xiàng)目數(shù)據(jù)源的生命線(xiàn),但生成式 AI 的崛起讓 AI 文本開(kāi)始大行其道。

斯皮爾舉了一個(gè)典型的例子,過(guò)去人們很少使用「delve」這個(gè)詞,而隨著 ChatGPT 將這個(gè)詞匯變成了口頭禪,大有李鬼冒充李逵之勢(shì),間而也就讓失真的詞頻統(tǒng)計(jì)影響了對(duì)人類(lèi)語(yǔ)言習(xí)慣的準(zhǔn)確分析。

如果這還不夠直觀,GPT 們那些陳詞濫調(diào),比如「總之」、「綜上所述」等詞匯的泛濫便是最醒目的警告。

ChatGPT 們能講人話(huà)后,AI 污染互聯(lián)網(wǎng)將變本加厲

ChatGPT 們能講人話(huà)后,AI 污染互聯(lián)網(wǎng)將變本加厲

這種趨勢(shì)也正逐漸滲透到學(xué)術(shù)寫(xiě)作乃至文學(xué)創(chuàng)作中。

一份來(lái)自斯坦福大學(xué)的報(bào)告曾指出,ChatGPT 在短短五個(gè)月內(nèi),就成了許多專(zhuān)家學(xué)者們的「寫(xiě)作神器」。其中在計(jì)算機(jī)科學(xué)領(lǐng)域,幾乎每六篇摘要、每七篇引言中,就有一篇出自它的手筆。

隨之而來(lái)的,便是生成式 AI 對(duì)人類(lèi)寫(xiě)作風(fēng)格的「大舉入侵」。

意大利國(guó)際高等研究院的博士生耿明萌的研究成果就像一面鏡子,進(jìn)一步映照出 ChatGPT 的詞語(yǔ)偏好,也充分證實(shí)了它在學(xué)術(shù)論文寫(xiě)作中的影響力。

在分析 arXiv 上超過(guò)百萬(wàn)篇論文的摘要后,耿明萌發(fā)現(xiàn),論文的詞頻在 ChatGPT 普及后出現(xiàn)了明顯變化。其中,「significant」等詞匯的使用頻率大幅上升,而「is」和 「are」等詞匯則減少了約 10%。

ChatGPT 們能講人話(huà)后,AI 污染互聯(lián)網(wǎng)將變本加厲

ChatGPT 們能講人話(huà)后,AI 污染互聯(lián)網(wǎng)將變本加厲

多數(shù)情況下,生成式 AI 可以讓一個(gè)創(chuàng)造力 60 分的人變成 70 分甚至更高的分?jǐn)?shù),但在文本創(chuàng)作中,雖然個(gè)人創(chuàng)造力和寫(xiě)作質(zhì)量有所提高,卻在無(wú)形中讓集體創(chuàng)意變得無(wú)趣且同質(zhì)化。

UCL 和??巳卮髮W(xué)的兩位學(xué)者在《Science》上發(fā)表了一項(xiàng)研究,500 名參與者被指派借助 AI 圍繞隨機(jī)主題撰寫(xiě)約 8 行故事,并分析目標(biāo)受眾。

結(jié)果顯示,借助 AI 的靈感,故事變得更有「創(chuàng)造性」,但這些 AI 生成的故事彼此之間的相似度也驚人地高。

因此,當(dāng)生成式 AI 文本如同無(wú)孔不入的污染物,肆意涌入互聯(lián)網(wǎng),對(duì)于 Wordfreq 也好,還是人類(lèi)也罷,怎么看都是利遠(yuǎn)小于弊。

魔法師打金服四圣封神魔法師打金服


廣告


反爬蟲(chóng)戰(zhàn)爭(zhēng)打響,Wordfreq 遭殃

Wordfreq 項(xiàng)目的終止算得上是巨頭爬蟲(chóng)戰(zhàn)爭(zhēng)夾縫中的犧牲品。

AI 的發(fā)展離不開(kāi)算法、算力和數(shù)據(jù)的支持。盡管 AI 生成的文本與人類(lèi)真實(shí)語(yǔ)言相比還有差距,但它在語(yǔ)法和邏輯性方面越來(lái)越像模像樣。

這片風(fēng)平浪靜的水面之下,一場(chǎng) AI 爬取與反爬取的無(wú)聲戰(zhàn)爭(zhēng)正在醞釀。

在當(dāng)前的輿論環(huán)境中,爬取網(wǎng)頁(yè)數(shù)據(jù)似乎成了冒天下大不韙的禁忌,不少新聞報(bào)道評(píng)論區(qū)里充斥著網(wǎng)友的唾棄之聲,而 Wordfreq 本質(zhì)上也是通過(guò)爬取不同語(yǔ)言的文本而構(gòu)建起來(lái)的。

在生成式 AI 尚未盛行之時(shí),Wordfreq 也曾度過(guò)一段蜜月期。

以往一般來(lái)說(shuō),只要遵守網(wǎng)站的 robots.txt 文件規(guī)定,爬取公開(kāi)數(shù)據(jù)似乎也合情合理。這是網(wǎng)站與爬蟲(chóng)之間的一種默契約定,用來(lái)指示爬蟲(chóng)哪些內(nèi)容可以抓取,哪些則不可以。

ChatGPT 們能講人話(huà)后,AI 污染互聯(lián)網(wǎng)將變本加厲

ChatGPT 們能講人話(huà)后,AI 污染互聯(lián)網(wǎng)將變本加厲

當(dāng)一個(gè)網(wǎng)站設(shè)置 robots.txt 限制協(xié)議時(shí),就像豎起了禁止擅自進(jìn)入的標(biāo)志牌。如果爬蟲(chóng)違反了 robots.txt 協(xié)議,或者采用了突破網(wǎng)站反爬蟲(chóng)技術(shù)手段的方法獲取數(shù)據(jù),那么就可能會(huì)構(gòu)成不正當(dāng)競(jìng)爭(zhēng)或侵犯版權(quán)等違法行為。

然而,隨著模型對(duì)高質(zhì)量數(shù)據(jù)的灌溉需求日益增長(zhǎng),這場(chǎng)爬取與反爬取的戰(zhàn)也愈發(fā)激烈。

回顧過(guò)去,關(guān)于生成式 AI 巨頭爬蟲(chóng)與反爬蟲(chóng)數(shù)據(jù)的糾紛比比皆是。為首突出的自然是 OpenAI 和 Google。

去年,OpenAI 公司特地推出網(wǎng)絡(luò)爬蟲(chóng)工具 GPTBot,聲稱(chēng)用于抓取網(wǎng)頁(yè)數(shù)據(jù)訓(xùn)練 AI 模型。但顯然,沒(méi)有哪家媒體愿意被爬蟲(chóng)暗地里薅羊毛。

意識(shí)到數(shù)據(jù)和版權(quán)重要性的媒體遵循著一手交錢(qián),一手交數(shù)據(jù)的商業(yè)邏輯。

一項(xiàng)來(lái)自路透社研究所進(jìn)行的研究表明,截至 2023 年底,全球 10 個(gè)國(guó)家的熱門(mén)新聞網(wǎng)站中,近一半的網(wǎng)站屏蔽了 OpenAI 的爬蟲(chóng)(Crawler),而近四分之一的網(wǎng)站也對(duì) Google 的爬蟲(chóng)采取了相同的措施。

后來(lái)的故事大家應(yīng)該都很熟悉了,OpenAI 三天兩頭就被傳統(tǒng)媒體起訴,無(wú)一例外不是版權(quán)訴訟糾紛。直到今年,官司纏身的 OpenAI 才老老實(shí)實(shí)和新聞出版商建立合作關(guān)系。

ChatGPT 們能講人話(huà)后,AI 污染互聯(lián)網(wǎng)將變本加厲

ChatGPT 們能講人話(huà)后,AI 污染互聯(lián)網(wǎng)將變本加厲

只是,此前的高墻林立、以及數(shù)據(jù)收費(fèi)等策略也讓 Wordfreq 也成為了這場(chǎng)「數(shù)據(jù)荒」的犧牲品。

斯皮爾指出,由于 Twitter 和 Reddit(Wordfreq 包含的網(wǎng)站)已經(jīng)開(kāi)始對(duì)其 API 收費(fèi),這使得網(wǎng)絡(luò)抓取數(shù)據(jù)變得更加困難。

「過(guò)去免費(fèi)獲取的信息變得昂貴,」斯皮爾寫(xiě)道?!肝也幌?yún)⑴c任何可能與生成式 AI 混淆的工作,或可能使生成式 AI 受益的工作?!?/p>

即便能用金錢(qián)換數(shù)據(jù),但數(shù)據(jù)總有用盡的一天。

研究公司 Epoch AI 預(yù)測(cè),互聯(lián)網(wǎng)上可用的高質(zhì)量文本數(shù)據(jù)或?qū)⒃?2028 年耗盡,這一現(xiàn)象在業(yè)內(nèi)被稱(chēng)為「數(shù)據(jù)墻」,可能成為減緩 AI 發(fā)展的最大障礙。

于是乎,不少大模型廠(chǎng)商開(kāi)始將目光轉(zhuǎn)向合成數(shù)據(jù),主打一個(gè)用 AI 訓(xùn)練 AI。


用 AI 訓(xùn)練 AI,可能越練越「傻」

我的直覺(jué)是,網(wǎng)絡(luò)上的文本都是狗屎,這些數(shù)據(jù)上進(jìn)行訓(xùn)練簡(jiǎn)直是在浪費(fèi)算力。

當(dāng) Llama 3.1-405B 以掀桌子的實(shí)力橫掃一眾開(kāi)源大模型之時(shí),領(lǐng)導(dǎo) Llama 系列的 Meta AI 研究員 Thomas Scialom 在接受采訪(fǎng)時(shí)發(fā)出了如上暴論。

據(jù)他透露, Llama 3 的訓(xùn)練過(guò)程并不依賴(lài)任何人類(lèi)編寫(xiě)的答案,而是完全基于 Llama 2 生成的合成數(shù)據(jù)。

Scialom 的說(shuō)法或許過(guò)于粗暴,但也有一定的道理。

ChatGPT 們能講人話(huà)后,AI 污染互聯(lián)網(wǎng)將變本加厲

ChatGPT 們能講人話(huà)后,AI 污染互聯(lián)網(wǎng)將變本加厲

互聯(lián)網(wǎng)每天都在涌現(xiàn)源源不斷的數(shù)據(jù),但訓(xùn)練 AI 從來(lái)就是一個(gè)寧缺毋濫的單選題,若數(shù)據(jù)中滿(mǎn)是錯(cuò)誤和噪聲,模型自然也會(huì)跟著學(xué)習(xí)這些「瑕疵」,預(yù)測(cè)和分類(lèi)的準(zhǔn)確性可想而知。

而且,低質(zhì)量的數(shù)據(jù)往往充斥著偏見(jiàn),無(wú)法真正代表整體數(shù)據(jù)分布,從而導(dǎo)致模型產(chǎn)生有偏見(jiàn)的回復(fù)。教科文組織總干事阿祖萊也曾警告:

「新的 AI 工具有著在不知不覺(jué)中改變千百萬(wàn)人認(rèn)知的力量,因此,即便是生成內(nèi)容中極為微小的性別偏見(jiàn),也可能顯著加劇現(xiàn)實(shí)世界中的不平等?!?/p>

不過(guò),合成數(shù)據(jù)也未必是解決「數(shù)據(jù)墻」難題的靈丹妙藥。

最近來(lái)自牛津劍橋的研究人員發(fā)現(xiàn),當(dāng)模型使用 AI 生成的數(shù)據(jù)集,則輸出的質(zhì)量會(huì)逐漸下降,最終產(chǎn)生無(wú)意義的內(nèi)容,也就是俗稱(chēng)的模型崩潰。

ChatGPT 們能講人話(huà)后,AI 污染互聯(lián)網(wǎng)將變本加厲

ChatGPT 們能講人話(huà)后,AI 污染互聯(lián)網(wǎng)將變本加厲

研究負(fù)責(zé)人 Ilia Shumailov 用了拍照的比喻來(lái)形容這一過(guò)程:

如果你拍了一張照片,掃描、打印出來(lái)并再對(duì)其拍照,然后不斷重復(fù)這個(gè)過(guò)程,隨著時(shí)間的推移,基本上整個(gè)過(guò)程都會(huì)被「噪聲」淹沒(méi)。最后,你會(huì)得到一個(gè)黑暗的方塊。

當(dāng)越來(lái)越多 AI 生成的垃圾網(wǎng)頁(yè)開(kāi)始充斥互聯(lián)網(wǎng),訓(xùn)練 AI 模型的原材料也將遭到污染。

例如,程序員問(wèn)答社區(qū) Stack Overflow 深受 AI 其害。

在 ChatGPT 爆火之初,Stack Overflow 便宣布「臨時(shí)禁用」。「從 ChatGPT 獲得正確答案的平均比例太低了。」官方在聲明中如是吐槽。

ChatGPT 們能講人話(huà)后,AI 污染互聯(lián)網(wǎng)將變本加厲

ChatGPT 們能講人話(huà)后,AI 污染互聯(lián)網(wǎng)將變本加厲

專(zhuān)業(yè)用戶(hù)的數(shù)量畢竟有限,不可能逐一核實(shí)所有答案,而 ChatGPT 的錯(cuò)誤率又是顯而易見(jiàn)的。當(dāng) AI 污染社區(qū)環(huán)境,彼時(shí)無(wú)計(jì)可施的人類(lèi)也只能一禁了之。

在圖像領(lǐng)域,AI 模型趨向于重現(xiàn)最常見(jiàn)的數(shù)據(jù),經(jīng)歷多次迭代后,最終可能連最初的事物都會(huì)忘得一干二凈。

被看到的這一切指向了一個(gè)惡性循環(huán):AI 生成低質(zhì)量乃至錯(cuò)誤信息,與人類(lèi)數(shù)據(jù)混淆在一起,這些普遍低質(zhì)量的數(shù)據(jù)又被 AI 反復(fù)喂養(yǎng),最終導(dǎo)致肆意泛濫的 AI 反噬自身。

暫無(wú)評(píng)論
頭像
0/1000
匿名