无码人妻久久一区二区三区蜜桃,性欧美zozo另类xxxx,性欧美熟妇freetube

性色av一区二区三区,天堂中文а√在线,天堂…在线最新版资源,色诱久久久久综合网ywww

Google DeepMind、OpenAI等最新研究：如何評估AI模型極端風(fēng)險(xiǎn)？

目前，構(gòu)建通用人工智能（AGI）系統(tǒng)的方法，在幫助人們更好地解決現(xiàn)實(shí)問題的同時，也會帶來一些意外的風(fēng)險(xiǎn)。

因此，在未來，人工智能的進(jìn)一步發(fā)展可能會導(dǎo)致很多極端風(fēng)險(xiǎn)，如具有攻擊性的網(wǎng)絡(luò)能力或強(qiáng)大的操縱技能等等。

今天，Google DeepMind 聯(lián)合劍橋大學(xué)、牛津大學(xué)等高校和 OpenAI、Anthropic等企業(yè)，以及 Alignment Research Center 等機(jī)構(gòu)，在預(yù)印本網(wǎng)站 arXiv 上發(fā)表了題為“Model evaluation for extreme risks”的文章，提出了一個針對新型威脅評估通用模型的框架，并解釋了為何模型評估對應(yīng)對極端風(fēng)險(xiǎn)至關(guān)重要。

(相關(guān)資料圖)

他們認(rèn)為，開發(fā)者必須具備能夠識別危險(xiǎn)的能力（通過"危險(xiǎn)能力評估"），以及模型應(yīng)用其能力造成傷害的傾向（通過"對齊評估"）。這些評估將對讓決策者和其他利益相關(guān)方保持了解，并對模型的訓(xùn)練、部署和安全做出負(fù)責(zé)任的決策至關(guān)重要。

學(xué)術(shù)頭條（ID：SciTouTiao）在不改變原文大意的情況下，做了簡單的編譯。內(nèi)容如下：

為了負(fù)責(zé)任地推動人工智能前沿研究的進(jìn)一步發(fā)展，我們必須盡早識別人工智能系統(tǒng)中的新能力和新風(fēng)險(xiǎn)。

人工智能研究人員已經(jīng)使用一系列評估基準(zhǔn)來識別人工智能系統(tǒng)中不希望出現(xiàn)的行為，如人工智能系統(tǒng)做出誤導(dǎo)性的聲明、有偏見的決定或重復(fù)有版權(quán)的內(nèi)容?，F(xiàn)在，隨著人工智能社區(qū)建立和部署越來越強(qiáng)大的人工智能，我們必須擴(kuò)大評估范圍，包括對具有操縱、欺騙、網(wǎng)絡(luò)攻擊或其他危險(xiǎn)能力的通用人工智能模型可能帶來的極端風(fēng)險(xiǎn)的考慮。

我們與劍橋大學(xué)、牛津大學(xué)、多倫多大學(xué)、蒙特利爾大學(xué)、OpenAI、Anthropic、Alignment Research Center、Centre for Long-Term Resilience 和 Centre for the Governance of AI 合作，介紹了一個評估這些新威脅的框架。

模型安全評估，包括評估極端風(fēng)險(xiǎn)，將成為安全的人工智能開發(fā)和部署的重要組成部分。

圖｜方法概述：為了評估來自新的、通用的人工智能系統(tǒng)的極端風(fēng)險(xiǎn)，開發(fā)者必須評估其危險(xiǎn)能力和對齊水平。早期識別風(fēng)險(xiǎn)，可以使得在訓(xùn)練新的人工智能系統(tǒng)、部署這些人工智能系統(tǒng)、透明地描述它們的風(fēng)險(xiǎn)以及應(yīng)用適當(dāng)?shù)木W(wǎng)絡(luò)安全標(biāo)準(zhǔn)時更加負(fù)責(zé)。

對極端風(fēng)險(xiǎn)進(jìn)行評估

通用模型通常在訓(xùn)練中學(xué)習(xí)它們的能力和行為。然而，現(xiàn)有的指導(dǎo)學(xué)習(xí)過程的方法并不完善。例如，Google DeepMind 之前的研究已經(jīng)探討了人工智能系統(tǒng)如何學(xué)習(xí)追求人們不希望看到的目標(biāo)，即使我們正確地獎勵了它們的良好行為。

負(fù)責(zé)任的人工智能開發(fā)者必須更進(jìn)一步，預(yù)測未來可能的發(fā)展和新的風(fēng)險(xiǎn)。隨著持續(xù)進(jìn)步，未來的通用模型可能會默認(rèn)學(xué)習(xí)各種危險(xiǎn)的能力。例如，未來的人工智能系統(tǒng)能夠進(jìn)行攻擊性的網(wǎng)絡(luò)活動，在對話中巧妙地欺騙人類，操縱人類進(jìn)行有害的行為，設(shè)計(jì)或獲取武器（如生物、化學(xué)武器），在云計(jì)算平臺上微調(diào)和操作其他高風(fēng)險(xiǎn)的人工智能系統(tǒng)，或者協(xié)助人類完成任何這些任務(wù)，這都是可能的（盡管不確定）。

懷有不良意圖的人可能會濫用這些模型的能力?；蛘撸捎跓o法與人類價(jià)值觀和道德對齊，這些人工智能模型可能會采取有害的行動，即使沒有人打算這樣做。

模型評估有助于我們提前識別這些風(fēng)險(xiǎn)。在我們的框架下，人工智能開發(fā)者將使用模型評估來揭開：

一個模型在多大程度上具有某些“危險(xiǎn)的能力”，威脅安全，施加影響，或逃避監(jiān)督。模型在多大程度上容易使用其能力來造成傷害（即模型的對齊水平）。有必要確認(rèn)模型即使在非常廣泛的情況下也能按預(yù)期行事，并且在可能的情況下，應(yīng)該檢查模型的內(nèi)部運(yùn)作情況。

這些評估的結(jié)果將幫助人工智能開發(fā)者了解是否存在足以導(dǎo)致極端風(fēng)險(xiǎn)的因素。最高風(fēng)險(xiǎn)的情況將涉及多種危險(xiǎn)能力的組合。如下圖：

圖｜構(gòu)成極端風(fēng)險(xiǎn)的要素：有時，特定的能力可能會被外包，可以是交給人類（例如用戶或眾包工作者）或其他AI系統(tǒng)。這些能力必須被用于造成傷害，無論是因?yàn)闉E用還是因?yàn)閷R失?。ɑ騼烧呓杂校?。

一個經(jīng)驗(yàn)法則：如果一個人工智能系統(tǒng)具有足以造成極端傷害的能力特征，假設(shè)它被濫用或無法對齊，那么人工智能社區(qū)應(yīng)將其視為“高度危險(xiǎn)”。要在現(xiàn)實(shí)世界中部署這樣的系統(tǒng)，人工智能開發(fā)者需要展現(xiàn)出異常高的安全標(biāo)準(zhǔn)。

模型評估是關(guān)鍵的治理基礎(chǔ)設(shè)施

如果我們有更好的工具來識別哪些模型是有風(fēng)險(xiǎn)的，公司和監(jiān)管機(jī)構(gòu)就能更好地確保：

負(fù)責(zé)任的訓(xùn)練：負(fù)責(zé)任地決定是否以及如何訓(xùn)練一個顯示出早期風(fēng)險(xiǎn)跡象的新模型。負(fù)責(zé)任的部署：對是否、何時以及如何部署有潛在風(fēng)險(xiǎn)的模型做出負(fù)責(zé)任的決定。透明度：向利益相關(guān)者報(bào)告有用的和可操作的信息，以幫助他們應(yīng)對或減少潛在的風(fēng)險(xiǎn)。適當(dāng)?shù)陌踩簭?qiáng)大的信息安全控制和系統(tǒng)適用于可能構(gòu)成極端風(fēng)險(xiǎn)的模型。

我們已經(jīng)制定了一個藍(lán)圖，說明了針對極端風(fēng)險(xiǎn)的模型評估應(yīng)如何為訓(xùn)練和部署能力強(qiáng)大的通用模型的重要決策提供支持。開發(fā)者在整個過程中進(jìn)行評估，并授權(quán)外部安全研究人員和模型審核員對模型進(jìn)行結(jié)構(gòu)化訪問，以便他們進(jìn)行額外的評估。評估結(jié)果可以在模型訓(xùn)練和部署之前提供風(fēng)險(xiǎn)評估的參考。

圖｜將針對極端風(fēng)險(xiǎn)的模型評估嵌入到整個模型訓(xùn)練和部署的重要決策過程中。

展望未來

在Google DeepMind和其他地方，對于極端風(fēng)險(xiǎn)的模型評估的重要初步工作已經(jīng)開始進(jìn)行。但要構(gòu)建一個能夠捕捉所有可能風(fēng)險(xiǎn)并有助于防范未來新出現(xiàn)的挑戰(zhàn)的評估流程，我們需要更多的技術(shù)和機(jī)構(gòu)方面的努力。

模型評估并不是萬能的解決方案；有時，一些風(fēng)險(xiǎn)可能會逃脫我們的評估，因?yàn)樗鼈冞^于依賴模型外部的因素，比如社會中復(fù)雜的社會、政治和經(jīng)濟(jì)力量。模型評估必須與其他風(fēng)險(xiǎn)評估工具以及整個行業(yè)、政府和大眾對安全的廣泛關(guān)注相結(jié)合。

谷歌最近在其有關(guān)負(fù)責(zé)任人工智能的博客中提到，“個體實(shí)踐、共享行業(yè)標(biāo)準(zhǔn)和合理的政府政策對于正確使用人工智能至關(guān)重要”。我們希望許多從事人工智能工作和受這項(xiàng)技術(shù)影響的行業(yè)能夠共同努力，為安全開發(fā)和部署人工智能共同制定方法和標(biāo)準(zhǔn)，造福所有人。

我們相信，擁有跟蹤模型中出現(xiàn)的風(fēng)險(xiǎn)屬性的程序，以及對相關(guān)結(jié)果的充分回應(yīng)，是作為一個負(fù)責(zé)任的開發(fā)者在人工智能前沿研究工作中的關(guān)鍵部分。

標(biāo)簽：

性色av一区二区三区,天堂中文а√在线,天堂…在线最新版资源,色诱久久久久综合网ywww

Google DeepMind、OpenAI等最新研究：如何評估AI模型極端風(fēng)險(xiǎn)？

對極端風(fēng)險(xiǎn)進(jìn)行評估

模型評估是關(guān)鍵的治理基礎(chǔ)設(shè)施

展望未來

Google DeepMind、OpenAI等最新研究：如何評估AI模型極端風(fēng)險(xiǎn)？