风间由美久久久无码人妻,免费的一级毛片的网站,亚洲日韩欧美一区二区三区在线

AI大模型的人類安全問題越發(fā)成為業(yè)界關(guān)心的焦點問題。在OpenAI公司“宮斗”事件中，咋監(jiān)自己CEO山姆·奧爾特曼被認為是督比的支持引進商業(yè)資本推動技術(shù)發(fā)展的“激進派”，而原首席科學家蘇茨克維則是聰明注重安全把關(guān)的“保守派”。

人類咋監(jiān)督比自己聰明的AI？OpenAI首席科學家這么說

雖然在激烈內(nèi)斗后，首說奧爾特曼上演“王者歸來”，席科學“激進派”占據(jù)了上風，人類但AI安全的咋監(jiān)自己問題也被擺上了臺面。當?shù)貢r間12月18日，督比的OpenAI宣布了一套全新的聰明監(jiān)管框架，對奧爾特曼的首說權(quán)力進行制約。在這套框架下，席科學一個新的人類安全團隊將會定期向董事會匯報安全隱患，盡管奧爾特曼可以對此發(fā)表意見，咋監(jiān)自己但董事會也可以根據(jù)安全報告“一票否決”未來的督比的大模型發(fā)布。

而在本月14日，由蘇茨克維領(lǐng)導的“超級對齊”（Superalignment）團隊剛剛發(fā)布成立以來的第一篇論文，為人類今后對AI模型的監(jiān)管提供了思路：論文結(jié)論顯示，用能力較弱的GPT-2來監(jiān)督能力更強的GPT-4模型具有一定可行性。

蘇茨維克一直認為，AI將在未來10年內(nèi)發(fā)展到比人類更聰明的程度。“一個弱小的監(jiān)管者怎樣監(jiān)督一個強大的AI”被視作今后AI領(lǐng)域必須面對的終極問題，有觀點認為，“超級對齊”的研究讓人類看到了一絲曙光。

OpenAI建新安全框架

董事會可以否決新模型發(fā)布

12月18日，OpenAI宣布采取一套新的“準備框架”用以規(guī)范今后的AI安全監(jiān)管工作，這套框架已經(jīng)處于測試階段。領(lǐng)導新的安全框架的團隊叫做“準備”（Preparedness）團隊，是公司內(nèi)部一個跨部門的職能團隊，由麻省理工學院出身的計算機專家亞歷山大·梅德里負責領(lǐng)導。

梅德里團隊將針對各類AI模型進行能力評估和紅線測試，以追蹤、預測及防范各類別的災難性風險。該團隊每月會定期向一個新組建的內(nèi)部安全咨詢小組發(fā)送報告，該小組隨后將對報告進行分析，并向奧爾特曼和董事會提交建議。奧爾特曼和其他公司高層可以根據(jù)這些報告決定是否發(fā)布新的AI模型，但董事會有權(quán)撤銷奧爾特曼的決定。

在“宮斗”事件之后，奧爾特曼雖然回到OpenAI重新主持工作，但他的名字并不在“重啟”后的董事會名單中。如今OpenAI在新模型發(fā)布這一重大問題上給予董事會“一票否決權(quán)”，被外界認為是制衡奧爾特曼個人權(quán)力的一項措施。

根據(jù)“準備”團隊的工作手冊，工作人員將反復評估OpenAI尚未發(fā)布的最先進AI模型，根據(jù)不同類型的風險類型評為四個等級，風險程度從低到高依次是“較低”“適中”“較高”和“嚴重威脅”。根據(jù)新的指導方針，OpenAI未來將只能推出風險評級為“較低”和“適中”的模型。手冊顯示，該團隊最為關(guān)注的維度包括網(wǎng)絡信息安全、模型是否教唆用戶實施犯罪行動、是否泄露核機密或生化武器技術(shù)等。

此外，OpenAI還宣布了一項獎勵計劃，鼓勵任何研究者、學校或科研機構(gòu)就AI安全方面做出技術(shù)貢獻，獎金最高可達1000萬美元。而且OpenAI承諾如果有較好的研究方向，可以通過“快捷通道”向該公司申請資金支持。

蘇茨維克團隊論文：

GPT-2可以監(jiān)督GPT-4

OpenAI官網(wǎng)介紹稱，“超級對齊”團隊于今年7月成立，由首席科學家蘇茨克維領(lǐng)導，目標是在4年內(nèi)解決“超級智能對齊”問題，即如何讓AI系統(tǒng)發(fā)展的終極目標符合人類的價值觀和利益。為此OpenAI撥出全公司20%的計算能力供“超級對齊”團隊調(diào)配。

▲“超級對齊”團隊用插畫說明“讓AI對齊AI”的思路

對于這個安全方面的終極問題，在今年8月時蘇茨克維對外界講述了自己的思路，就是讓“AI對齊AI”。這個思路可以用該團隊論文中的一幅插圖形象地展現(xiàn)出來：在早期階段人類比AI強，監(jiān)督AI的學習并不成問題，但在未來的某個階段AI的能力會超過人類，屆時如何監(jiān)督更強大的AI？而解題思路是，讓前一代能力較弱的AI模型去監(jiān)督下一代更強的AI模型，然后以此類推。

這篇論文借鑒了人類如何監(jiān)督早期GPT模型的思路，試著讓GPT-2去監(jiān)督GPT-4的學習。結(jié)論認為，雖然目前GPT-2還沒有辦法“批量化復制”人類的監(jiān)督工作思路，但在能力較弱的GPT-2的監(jiān)督下，GPT-4還是達到了大部分的潛能。

具體來說，如果完全依靠GPT-2來監(jiān)督新模型的訓練和學習，那么新模型所能達到的水平大約介于GPT-3和GPT-3.5之間。但是如果加上少量的人工監(jiān)督，模型就能做到現(xiàn)在GPT-4能做的絕大部分事情。

這篇論文的主要合著者之一簡·雷克總結(jié)表示，研究證明未來的AI模型可以在完全脫離人類監(jiān)督的情況下變得比弱小監(jiān)管者（即上一代舊模型）更加聰明。盡管這種進步幅度不算太大，也有很多條件限制，但無論如何這為人類在未來放心“讓AI自己去對齊AI”打造了一個良好的開端。