欧美在线专区-欧美在线伊人-欧美在线一区二区三区欧美-欧美在线一区二区三区-pornodoxxx中国妞-pornodoldoo欧美另类

position>home>Spotlights

號稱超越 GPT

一位國產(chǎn)大模型算法工程師在接受「甲子光年」采訪時的吐槽,可以說是非常到位了。

號稱超越 GPT

它準確地闡述 AI 業(yè)內(nèi)一個所有人「心照不宣」的公開秘密。

所有人都知道,大家卻都盡量不「直視」它,那就是「偷數(shù)據(jù)」。

最近,「The Information」戳破了這層紗,道出大模型「套殼」中最糟糕的一種形態(tài)。而它背后的數(shù)據(jù)之戰(zhàn),也在今年獲得了更多關(guān)注。

讓模型走向同質(zhì)化的「數(shù)據(jù)捷徑」

如果所有人都用一樣的數(shù)據(jù),你又怎么會比其他人好呢?

投資了 OpenAI 競爭對手 Anthropic 的門羅風(fēng)投(Menlo Ventures)總經(jīng)理 Matt Murphy 評論道。

大家都知道,在大模型訓(xùn)練過程中,數(shù)據(jù)至關(guān)重要,并且在不同階段的側(cè)重點也有所差異。

在訓(xùn)練基座模型時,數(shù)據(jù)追求的是「量」,對算力要求也是極高,它決定了大模型對事物的基本「理解能力」。

顯然,不是所有初創(chuàng)企業(yè)都能給得起這個費用和時間。所以很多創(chuàng)業(yè)公司會跳過第一步,直接用 Meta 或 Mistral AI 開源的模型來用。

在這個基礎(chǔ)上,創(chuàng)業(yè)公司需要針對自己的產(chǎn)品專注方向來對模型進行微調(diào) —— 數(shù)據(jù)輸入量相對少,但更具針對性和高質(zhì)量,可以幫助模型成為特定領(lǐng)域的「專家」,做出產(chǎn)品差異性。

在這個階段,開發(fā)者需要輸入「問題」「回答」,試圖為模型建立特定「聯(lián)想」傾向。

這也是「偷數(shù)據(jù)」出現(xiàn)的環(huán)節(jié)。

因為 OpenAI、Anthropic 和 Google 這類大公司有資源去完善地完成兩個階段的訓(xùn)練,所以它們的模型所輸出的結(jié)果質(zhì)量也相對較高。

缺乏自有數(shù)據(jù)的初創(chuàng)公司,會購買 GPT-4 這類最新模型的付費賬戶,然后根據(jù)自己模型訓(xùn)練的需要去向 GPT-4 提問,再把回答和提問問題一并輸入到模型訓(xùn)練。

譬如,主打編程細分領(lǐng)域模型的開發(fā)者可以直接輸入一段代碼,然后問 GPT-4 這段代碼有什么問題,這樣就生成了一個數(shù)據(jù)材料。

理論上,大公司們并不允許如此操作。

然而,有消息稱 OpenAI 的 Sam Altman 在去年的一次會議上對創(chuàng)業(yè)者說,他們可以這樣去做。這固然讓當下的創(chuàng)業(yè)者安心了一些,但誰也說不準哪天 Altman 就決定要把這「特權(quán)」收回去。

Google 去年也有自己的「數(shù)據(jù)門」—— 不僅被指用百度的文心一言生成的中文數(shù)據(jù)來訓(xùn)練 Gemini,還有員工因 Google 用 ChatGPT 生成的數(shù)據(jù)訓(xùn)練自己的模型怒而辭職。

在行業(yè)整體「默許」下,這種情況變得越來越普遍。

幫助開發(fā)者研發(fā)對話式 AI 的 Unsloth AI 聯(lián)合創(chuàng)始人 Daniel Han 表示,其客戶中大概有一半的人都會用 GPT-4 或者 Anthropic 的 Claude 生成的數(shù)據(jù)來優(yōu)化自己的模型。

原本用來分享有趣 ChatGPT 對話的工具 ShareGPT 成為了不少公司直接扒數(shù)據(jù)的地方,而類似 OpenPipe 這類工具則甚至可提升整個過程的自動化程度。

結(jié)果就是,現(xiàn)在市面上有越來越多創(chuàng)業(yè)公司提供大同小異的模型。這甚至衍生出如舊金山的 Martian 一般,專門為需要用 AI 服務(wù)的企業(yè)尋找「平替」方案的創(chuàng)業(yè)公司。

但投資人并不喜歡這種被欺騙的感覺。

正如《紐約時報》在最近文章的指出,目前 AI 行業(yè)缺乏標準和評測體系,人們很難統(tǒng)一標準地了解不同模型的表現(xiàn)差異或優(yōu)勢所在。

這讓投資人更重視 AI 創(chuàng)業(yè)公司訓(xùn)練數(shù)據(jù)的來源。Radical Ventures 合伙人Rob Toews 強調(diào)說:

AI 模型訓(xùn)練數(shù)據(jù)的質(zhì)量和來源已經(jīng)成為其中一個最重要的熱點關(guān)注之一。沒人知道未來會怎樣,但任何在數(shù)據(jù)來源上不謹慎或不具備策略性的 AI 創(chuàng)業(yè)公司都將落后。

數(shù)據(jù)大戰(zhàn)中,「沉默」成為了共鳴

如果說「缺芯」是 2023 年 AI 行業(yè)的共識,那「缺數(shù)據(jù)」則是 2024 年的新主題。不僅創(chuàng)業(yè)公司缺,大公司更缺。

無論體量是大還是小,為了獲得數(shù)據(jù),這些公司都開始在灰色地帶徘徊。

早在 2021 年,OpenAI 就面臨了數(shù)據(jù)短缺問題。

雖然有員工提出行為不當性憂慮,最后 OpenAI 還是寫了一個語音轉(zhuǎn)文字工具 Whisper 來將超過 100 萬小時的 YouTube 視頻轉(zhuǎn)為文字,用作 GPT-4 訓(xùn)練。

在這次行動中,OpenAI 總裁 Greg Brockman 還親自出馬幫忙收集視頻。

知情人士透露,當 Google 發(fā)現(xiàn) OpenAI 的所作所為后,它并沒有揭發(fā)斥責這些侵害創(chuàng)作者版權(quán)的行為,因為,Google 也要做同樣的事情。

Google 發(fā)言人 Matt Bryant 回應(yīng)稱,公司對 OpenAI 的行為并不知情,且嚴禁未經(jīng)授權(quán)的數(shù)據(jù)抓取。

除了 YouTube 以外,三位知情人士表示,Google 也在盯著旗下線上協(xié)作文檔工具 Google Doc 里的數(shù)據(jù),但其隱私政策限制了 Google 使用這些數(shù)據(jù)的方式。

去年 7 月,Google 更新了隱私政策,明說可通過收集網(wǎng)絡(luò)上的公開信息或來自其他公共來源的信息來訓(xùn)練 AI 模型。

對于在 AI 領(lǐng)域「起了大早卻趕了個晚集」的 Meta 來說,雖然有法務(wù)曾警告過版權(quán)問題,最后也是決定跟隨 OpenAI 的「行業(yè)先例」去使用有版權(quán)保護的書籍、文章等材料。

泄露出來的錄音還表明,Meta 高管們一致同意,出事了可用 2015 年作家協(xié)會訴 Google 案失敗的先例來辯護。

至于看起來應(yīng)該是 Meta 最大優(yōu)勢的 Facebook 和 Instagram,事實上可用數(shù)據(jù)并不多,很多 Facebook 用戶都刪掉了自己早期發(fā)布的內(nèi)容,而社交媒體通常也不是人們愛用來發(fā)布長篇內(nèi)容的地方。

這些巨頭們不愿言說的過往,構(gòu)成了 AI 行業(yè)在訓(xùn)練數(shù)據(jù)上一致的閃爍其詞。

Adobe 算是其中鮮有積極討論自家模型訓(xùn)練數(shù)據(jù)的大公司。

最近,它也「塌房」了。

Adobe 一直以來標榜公司是和創(chuàng)作者站在同一邊,堅定只使用自家獲得授權(quán)的圖庫來訓(xùn)練模型,不會像 Midjourney、Dall-E 那樣擅自用有版權(quán)保護的圖像素材訓(xùn)練。

直到有人發(fā)現(xiàn),Adobe 的訓(xùn)練數(shù)據(jù)里其實有包括 AI 生成圖片,而且 Adobe 也是知情的。

雖然 Adobe 強調(diào),模型的訓(xùn)練數(shù)據(jù)里只有 5% 左右的圖像是 AI 生成的,但無論如何那些圖像也是通過侵害創(chuàng)作者版權(quán)利益而造的文生圖模型做出來的,因此并不完全「道德」。

這個月初,Adobe 高級副總裁 Ashley Still 還在一場公開活動上說:

我們在推出 Firefly 時,有企業(yè)用戶會來跟我們說:「我們很愛你們在做的事,真的非常感激你沒有盜取我們在網(wǎng)上的知識產(chǎn)權(quán)。」

不知道「塌房」消息出來后,這位企業(yè)用戶會作何感想。

「榨干」互聯(lián)網(wǎng)后,下一步在哪?

我們曾以為互聯(lián)網(wǎng)「浩瀚無垠」,直到現(xiàn)在大語言模型已經(jīng)「吃不飽」。

兩年前,研究機構(gòu) Epoch 的 Pablo Villalobos 指出,高質(zhì)量數(shù)據(jù)很有可能會在 2024 年中期出現(xiàn)需求超過供給。他們現(xiàn)在樂觀了一點,認為這個情況會在 2028 年才出現(xiàn)。

即便如此,OpenAI 現(xiàn)在可能也已經(jīng)在忙了。

Epoch估算,GPT-4 所用訓(xùn)練數(shù)據(jù)約為 12 萬億 token,根據(jù)尺度定律(Scaling Law),要訓(xùn)練出被寄予厚望的 GPT-5 大概要 60-100 萬億 token。

如果按這個標準,現(xiàn)有的高質(zhì)量文字數(shù)據(jù)和圖像數(shù)據(jù)加起來體量根本不夠,還差 10-20 萬億 token。

改變迫在眉睫。

Sam Altman 之前也暗示過,OpenAI 在找尋新的出路:

我想,那個追求龐大模型的時代已經(jīng)快要到頭了。我們將用其他方法來讓它們變得更好。

與此同時,消息人士稱 OpenAI 和 Google 都考慮做一套可以丈量特定數(shù)據(jù)對模型訓(xùn)練貢獻程度的系統(tǒng),這樣好給提供這些數(shù)據(jù)的人計算要支付的費用,但目前還沒有什么進展。

而在這些開拓數(shù)據(jù)和創(chuàng)新技術(shù)實現(xiàn)之前,有一件事 AI 創(chuàng)業(yè)公司現(xiàn)在就有能力但不一定愿意做的事 —— 提高透明度,打破沉默。

如果這也做不到,我們又怎能相信這些公司能做出對社會負責任的 AI 產(chǎn)品?

文章來源:APPSO

Popular articles

主站蜘蛛池模板: 中文理论片| 亚洲成a人一区二区三区| 日韩精品免费在线视频| 四虎影视永久地址www成人| 一区二区三区四区电影视频在线观看| 免费看a级黄色片| 波多野结衣按摩| 中文字幕电影在线观看| 第一福利官方航导航| 美女的扒开尿口让男人桶动态图| 欧美日产国产亚洲综合图区一 | 小莹与翁回乡下欢爱姿势| 播播开心激情网| 国产成人精品怡红院在线观看| 久久国产精品免费一区二区三区| 欧美最猛性xxxxx69交| 台湾三级全部播放| 亚洲午夜一区二区电影院| 亚洲冬月枫中文字幕在线看| 亚洲国产精品专区| 国产动作大片中文字幕| 三年片免费高清版| 四虎影视精品永久免费| 亚洲国产视频网| 练瑜伽的时候进入| 亚洲ww| 探花www视频在线观看高清| 久久免费视频网站| 国产精品久久久久9999| 中文字幕一二三四区2021| 扒开双腿猛进入免费观看美女| 欧洲美女与动性zozozo| 污污视频大全| 亚洲噜噜噜噜噜影院在线播放| 免费大片黄国产在线观看| 99re热在线观看| 91精品免费观看| 好色英雄| 欧美一区二区三区视频在线观看| 一区精品麻豆入口| 毛片a级毛片免费播放下载|