目前,構(gòu)建通用人工智能(AGI)系統(tǒng)的方法,在幫助人們更好地解決現(xiàn)實(shí)問題的同時,也會帶來一些意外的風(fēng)險。
因此,在未來,人工智能的進(jìn)一步發(fā)展可能會導(dǎo)致很多極端風(fēng)險,如具有攻擊性的網(wǎng)絡(luò)能力或強(qiáng)大的操縱技能等等。
今天,Google DeepMind 聯(lián)合劍橋大學(xué)、牛津大學(xué)等高校和 OpenAI、Anthropic等企業(yè),以及 Alignment Research Center 等機(jī)構(gòu),在預(yù)印本網(wǎng)站 arXiv 上發(fā)表了題為“Model evaluation for extreme risks”的文章,提出了一個針對新型威脅評估通用模型的框架,并解釋了為何模型評估對應(yīng)對極端風(fēng)險至關(guān)重要。
(相關(guān)資料圖)
他們認(rèn)為,開發(fā)者必須具備能夠識別危險的能力(通過"危險能力評估"),以及模型應(yīng)用其能力造成傷害的傾向(通過"對齊評估")。這些評估將對讓決策者和其他利益相關(guān)方保持了解,并對模型的訓(xùn)練、部署和安全做出負(fù)責(zé)任的決策至關(guān)重要。
學(xué)術(shù)頭條(ID:SciTouTiao)在不改變原文大意的情況下,做了簡單的編譯。內(nèi)容如下:
為了負(fù)責(zé)任地推動人工智能前沿研究的進(jìn)一步發(fā)展,我們必須盡早識別人工智能系統(tǒng)中的新能力和新風(fēng)險。
人工智能研究人員已經(jīng)使用一系列評估基準(zhǔn)來識別人工智能系統(tǒng)中不希望出現(xiàn)的行為,如人工智能系統(tǒng)做出誤導(dǎo)性的聲明、有偏見的決定或重復(fù)有版權(quán)的內(nèi)容?,F(xiàn)在,隨著人工智能社區(qū)建立和部署越來越強(qiáng)大的人工智能,我們必須擴(kuò)大評估范圍,包括對具有操縱、欺騙、網(wǎng)絡(luò)攻擊或其他危險能力的通用人工智能模型可能帶來的極端風(fēng)險的考慮。
我們與劍橋大學(xué)、牛津大學(xué)、多倫多大學(xué)、蒙特利爾大學(xué)、OpenAI、Anthropic、Alignment Research Center、Centre for Long-Term Resilience 和 Centre for the Governance of AI 合作,介紹了一個評估這些新威脅的框架。
模型安全評估,包括評估極端風(fēng)險,將成為安全的人工智能開發(fā)和部署的重要組成部分。
圖|方法概述:為了評估來自新的、通用的人工智能系統(tǒng)的極端風(fēng)險,開發(fā)者必須評估其危險能力和對齊水平。早期識別風(fēng)險,可以使得在訓(xùn)練新的人工智能系統(tǒng)、部署這些人工智能系統(tǒng)、透明地描述它們的風(fēng)險以及應(yīng)用適當(dāng)?shù)木W(wǎng)絡(luò)安全標(biāo)準(zhǔn)時更加負(fù)責(zé)。
對極端風(fēng)險進(jìn)行評估
通用模型通常在訓(xùn)練中學(xué)習(xí)它們的能力和行為。然而,現(xiàn)有的指導(dǎo)學(xué)習(xí)過程的方法并不完善。例如,Google DeepMind 之前的研究已經(jīng)探討了人工智能系統(tǒng)如何學(xué)習(xí)追求人們不希望看到的目標(biāo),即使我們正確地獎勵了它們的良好行為。
負(fù)責(zé)任的人工智能開發(fā)者必須更進(jìn)一步,預(yù)測未來可能的發(fā)展和新的風(fēng)險。隨著持續(xù)進(jìn)步,未來的通用模型可能會默認(rèn)學(xué)習(xí)各種危險的能力。例如,未來的人工智能系統(tǒng)能夠進(jìn)行攻擊性的網(wǎng)絡(luò)活動,在對話中巧妙地欺騙人類,操縱人類進(jìn)行有害的行為,設(shè)計或獲取武器(如生物、化學(xué)武器),在云計算平臺上微調(diào)和操作其他高風(fēng)險的人工智能系統(tǒng),或者協(xié)助人類完成任何這些任務(wù),這都是可能的(盡管不確定)。
懷有不良意圖的人可能會濫用這些模型的能力?;蛘?,由于無法與人類價值觀和道德對齊,這些人工智能模型可能會采取有害的行動,即使沒有人打算這樣做。
模型評估有助于我們提前識別這些風(fēng)險。在我們的框架下,人工智能開發(fā)者將使用模型評估來揭開:
一個模型在多大程度上具有某些“危險的能力”,威脅安全,施加影響,或逃避監(jiān)督。模型在多大程度上容易使用其能力來造成傷害(即模型的對齊水平)。有必要確認(rèn)模型即使在非常廣泛的情況下也能按預(yù)期行事,并且在可能的情況下,應(yīng)該檢查模型的內(nèi)部運(yùn)作情況。這些評估的結(jié)果將幫助人工智能開發(fā)者了解是否存在足以導(dǎo)致極端風(fēng)險的因素。最高風(fēng)險的情況將涉及多種危險能力的組合。如下圖:
圖|構(gòu)成極端風(fēng)險的要素:有時,特定的能力可能會被外包,可以是交給人類(例如用戶或眾包工作者)或其他AI系統(tǒng)。這些能力必須被用于造成傷害,無論是因?yàn)闉E用還是因?yàn)閷R失?。ɑ騼烧呓杂校?。
一個經(jīng)驗(yàn)法則:如果一個人工智能系統(tǒng)具有足以造成極端傷害的能力特征,假設(shè)它被濫用或無法對齊,那么人工智能社區(qū)應(yīng)將其視為“高度危險”。要在現(xiàn)實(shí)世界中部署這樣的系統(tǒng),人工智能開發(fā)者需要展現(xiàn)出異常高的安全標(biāo)準(zhǔn)。
模型評估是關(guān)鍵的治理基礎(chǔ)設(shè)施
如果我們有更好的工具來識別哪些模型是有風(fēng)險的,公司和監(jiān)管機(jī)構(gòu)就能更好地確保:
負(fù)責(zé)任的訓(xùn)練:負(fù)責(zé)任地決定是否以及如何訓(xùn)練一個顯示出早期風(fēng)險跡象的新模型。負(fù)責(zé)任的部署:對是否、何時以及如何部署有潛在風(fēng)險的模型做出負(fù)責(zé)任的決定。透明度:向利益相關(guān)者報告有用的和可操作的信息,以幫助他們應(yīng)對或減少潛在的風(fēng)險。適當(dāng)?shù)陌踩簭?qiáng)大的信息安全控制和系統(tǒng)適用于可能構(gòu)成極端風(fēng)險的模型。我們已經(jīng)制定了一個藍(lán)圖,說明了針對極端風(fēng)險的模型評估應(yīng)如何為訓(xùn)練和部署能力強(qiáng)大的通用模型的重要決策提供支持。開發(fā)者在整個過程中進(jìn)行評估,并授權(quán)外部安全研究人員和模型審核員對模型進(jìn)行結(jié)構(gòu)化訪問,以便他們進(jìn)行額外的評估。評估結(jié)果可以在模型訓(xùn)練和部署之前提供風(fēng)險評估的參考。
圖|將針對極端風(fēng)險的模型評估嵌入到整個模型訓(xùn)練和部署的重要決策過程中。
展望未來
在Google DeepMind和其他地方,對于極端風(fēng)險的模型評估的重要初步工作已經(jīng)開始進(jìn)行。但要構(gòu)建一個能夠捕捉所有可能風(fēng)險并有助于防范未來新出現(xiàn)的挑戰(zhàn)的評估流程,我們需要更多的技術(shù)和機(jī)構(gòu)方面的努力。
模型評估并不是萬能的解決方案;有時,一些風(fēng)險可能會逃脫我們的評估,因?yàn)樗鼈冞^于依賴模型外部的因素,比如社會中復(fù)雜的社會、政治和經(jīng)濟(jì)力量。模型評估必須與其他風(fēng)險評估工具以及整個行業(yè)、政府和大眾對安全的廣泛關(guān)注相結(jié)合。
谷歌最近在其有關(guān)負(fù)責(zé)任人工智能的博客中提到,“個體實(shí)踐、共享行業(yè)標(biāo)準(zhǔn)和合理的政府政策對于正確使用人工智能至關(guān)重要”。我們希望許多從事人工智能工作和受這項(xiàng)技術(shù)影響的行業(yè)能夠共同努力,為安全開發(fā)和部署人工智能共同制定方法和標(biāo)準(zhǔn),造福所有人。
我們相信,擁有跟蹤模型中出現(xiàn)的風(fēng)險屬性的程序,以及對相關(guān)結(jié)果的充分回應(yīng),是作為一個負(fù)責(zé)任的開發(fā)者在人工智能前沿研究工作中的關(guān)鍵部分。