性色av一区二区三区,天堂中文а√在线,天堂…在线最新版资源,色诱久久久久综合网ywww

手機(jī)版
位置:筑能財經(jīng) > 熱點(diǎn) >

Google DeepMind、OpenAI等最新研究:如何評估AI模型極端風(fēng)險?

來源:手機(jī)網(wǎng)易網(wǎng) | 2023-05-27 09:41:27

目前,構(gòu)建通用人工智能(AGI)系統(tǒng)的方法,在幫助人們更好地解決現(xiàn)實(shí)問題的同時,也會帶來一些意外的風(fēng)險。

因此,在未來,人工智能的進(jìn)一步發(fā)展可能會導(dǎo)致很多極端風(fēng)險,如具有攻擊性的網(wǎng)絡(luò)能力或強(qiáng)大的操縱技能等等。

今天,Google DeepMind 聯(lián)合劍橋大學(xué)、牛津大學(xué)等高校和 OpenAI、Anthropic等企業(yè),以及 Alignment Research Center 等機(jī)構(gòu),在預(yù)印本網(wǎng)站 arXiv 上發(fā)表了題為“Model evaluation for extreme risks”的文章,提出了一個針對新型威脅評估通用模型的框架,并解釋了為何模型評估對應(yīng)對極端風(fēng)險至關(guān)重要。


(相關(guān)資料圖)

他們認(rèn)為,開發(fā)者必須具備能夠識別危險的能力(通過"危險能力評估"),以及模型應(yīng)用其能力造成傷害的傾向(通過"對齊評估")。這些評估將對讓決策者和其他利益相關(guān)方保持了解,并對模型的訓(xùn)練、部署和安全做出負(fù)責(zé)任的決策至關(guān)重要。

學(xué)術(shù)頭條(ID:SciTouTiao)在不改變原文大意的情況下,做了簡單的編譯。內(nèi)容如下:

為了負(fù)責(zé)任地推動人工智能前沿研究的進(jìn)一步發(fā)展,我們必須盡早識別人工智能系統(tǒng)中的新能力和新風(fēng)險。

人工智能研究人員已經(jīng)使用一系列評估基準(zhǔn)來識別人工智能系統(tǒng)中不希望出現(xiàn)的行為,如人工智能系統(tǒng)做出誤導(dǎo)性的聲明、有偏見的決定或重復(fù)有版權(quán)的內(nèi)容?,F(xiàn)在,隨著人工智能社區(qū)建立和部署越來越強(qiáng)大的人工智能,我們必須擴(kuò)大評估范圍,包括對具有操縱、欺騙、網(wǎng)絡(luò)攻擊或其他危險能力的通用人工智能模型可能帶來的極端風(fēng)險的考慮。

我們與劍橋大學(xué)、牛津大學(xué)、多倫多大學(xué)、蒙特利爾大學(xué)、OpenAI、Anthropic、Alignment Research Center、Centre for Long-Term Resilience 和 Centre for the Governance of AI 合作,介紹了一個評估這些新威脅的框架。

模型安全評估,包括評估極端風(fēng)險,將成為安全的人工智能開發(fā)和部署的重要組成部分。

圖|方法概述:為了評估來自新的、通用的人工智能系統(tǒng)的極端風(fēng)險,開發(fā)者必須評估其危險能力和對齊水平。早期識別風(fēng)險,可以使得在訓(xùn)練新的人工智能系統(tǒng)、部署這些人工智能系統(tǒng)、透明地描述它們的風(fēng)險以及應(yīng)用適當(dāng)?shù)木W(wǎng)絡(luò)安全標(biāo)準(zhǔn)時更加負(fù)責(zé)。

對極端風(fēng)險進(jìn)行評估

通用模型通常在訓(xùn)練中學(xué)習(xí)它們的能力和行為。然而,現(xiàn)有的指導(dǎo)學(xué)習(xí)過程的方法并不完善。例如,Google DeepMind 之前的研究已經(jīng)探討了人工智能系統(tǒng)如何學(xué)習(xí)追求人們不希望看到的目標(biāo),即使我們正確地獎勵了它們的良好行為。

負(fù)責(zé)任的人工智能開發(fā)者必須更進(jìn)一步,預(yù)測未來可能的發(fā)展和新的風(fēng)險。隨著持續(xù)進(jìn)步,未來的通用模型可能會默認(rèn)學(xué)習(xí)各種危險的能力。例如,未來的人工智能系統(tǒng)能夠進(jìn)行攻擊性的網(wǎng)絡(luò)活動,在對話中巧妙地欺騙人類,操縱人類進(jìn)行有害的行為,設(shè)計或獲取武器(如生物、化學(xué)武器),在云計算平臺上微調(diào)和操作其他高風(fēng)險的人工智能系統(tǒng),或者協(xié)助人類完成任何這些任務(wù),這都是可能的(盡管不確定)。

懷有不良意圖的人可能會濫用這些模型的能力?;蛘?,由于無法與人類價值觀和道德對齊,這些人工智能模型可能會采取有害的行動,即使沒有人打算這樣做。

模型評估有助于我們提前識別這些風(fēng)險。在我們的框架下,人工智能開發(fā)者將使用模型評估來揭開:

一個模型在多大程度上具有某些“危險的能力”,威脅安全,施加影響,或逃避監(jiān)督。模型在多大程度上容易使用其能力來造成傷害(即模型的對齊水平)。有必要確認(rèn)模型即使在非常廣泛的情況下也能按預(yù)期行事,并且在可能的情況下,應(yīng)該檢查模型的內(nèi)部運(yùn)作情況。

這些評估的結(jié)果將幫助人工智能開發(fā)者了解是否存在足以導(dǎo)致極端風(fēng)險的因素。最高風(fēng)險的情況將涉及多種危險能力的組合。如下圖:

圖|構(gòu)成極端風(fēng)險的要素:有時,特定的能力可能會被外包,可以是交給人類(例如用戶或眾包工作者)或其他AI系統(tǒng)。這些能力必須被用于造成傷害,無論是因?yàn)闉E用還是因?yàn)閷R失?。ɑ騼烧呓杂校?。

一個經(jīng)驗(yàn)法則:如果一個人工智能系統(tǒng)具有足以造成極端傷害的能力特征,假設(shè)它被濫用或無法對齊,那么人工智能社區(qū)應(yīng)將其視為“高度危險”。要在現(xiàn)實(shí)世界中部署這樣的系統(tǒng),人工智能開發(fā)者需要展現(xiàn)出異常高的安全標(biāo)準(zhǔn)。

模型評估是關(guān)鍵的治理基礎(chǔ)設(shè)施

如果我們有更好的工具來識別哪些模型是有風(fēng)險的,公司和監(jiān)管機(jī)構(gòu)就能更好地確保:

負(fù)責(zé)任的訓(xùn)練:負(fù)責(zé)任地決定是否以及如何訓(xùn)練一個顯示出早期風(fēng)險跡象的新模型。負(fù)責(zé)任的部署:對是否、何時以及如何部署有潛在風(fēng)險的模型做出負(fù)責(zé)任的決定。透明度:向利益相關(guān)者報告有用的和可操作的信息,以幫助他們應(yīng)對或減少潛在的風(fēng)險。適當(dāng)?shù)陌踩簭?qiáng)大的信息安全控制和系統(tǒng)適用于可能構(gòu)成極端風(fēng)險的模型。

我們已經(jīng)制定了一個藍(lán)圖,說明了針對極端風(fēng)險的模型評估應(yīng)如何為訓(xùn)練和部署能力強(qiáng)大的通用模型的重要決策提供支持。開發(fā)者在整個過程中進(jìn)行評估,并授權(quán)外部安全研究人員和模型審核員對模型進(jìn)行結(jié)構(gòu)化訪問,以便他們進(jìn)行額外的評估。評估結(jié)果可以在模型訓(xùn)練和部署之前提供風(fēng)險評估的參考。

圖|將針對極端風(fēng)險的模型評估嵌入到整個模型訓(xùn)練和部署的重要決策過程中。

展望未來

在Google DeepMind和其他地方,對于極端風(fēng)險的模型評估的重要初步工作已經(jīng)開始進(jìn)行。但要構(gòu)建一個能夠捕捉所有可能風(fēng)險并有助于防范未來新出現(xiàn)的挑戰(zhàn)的評估流程,我們需要更多的技術(shù)和機(jī)構(gòu)方面的努力。

模型評估并不是萬能的解決方案;有時,一些風(fēng)險可能會逃脫我們的評估,因?yàn)樗鼈冞^于依賴模型外部的因素,比如社會中復(fù)雜的社會、政治和經(jīng)濟(jì)力量。模型評估必須與其他風(fēng)險評估工具以及整個行業(yè)、政府和大眾對安全的廣泛關(guān)注相結(jié)合。

谷歌最近在其有關(guān)負(fù)責(zé)任人工智能的博客中提到,“個體實(shí)踐、共享行業(yè)標(biāo)準(zhǔn)和合理的政府政策對于正確使用人工智能至關(guān)重要”。我們希望許多從事人工智能工作和受這項(xiàng)技術(shù)影響的行業(yè)能夠共同努力,為安全開發(fā)和部署人工智能共同制定方法和標(biāo)準(zhǔn),造福所有人。

我們相信,擁有跟蹤模型中出現(xiàn)的風(fēng)險屬性的程序,以及對相關(guān)結(jié)果的充分回應(yīng),是作為一個負(fù)責(zé)任的開發(fā)者在人工智能前沿研究工作中的關(guān)鍵部分。

標(biāo)簽:

精彩放送

新聞資訊

  1. 全球時訊:符合哪些條件的可以提前申請退休
  1. 2023年廣東退休人員養(yǎng)老金調(diào)整最新進(jìn)展 上調(diào)方式及補(bǔ)發(fā)時間何時公布|全球微頭條
  1. 小鵬汽車業(yè)績亮“紅燈”
  1. 天天新動態(tài):鋼廠減產(chǎn)動能趨弱
  1. 洛克王國輪回黑洞拼圖任務(wù)_洛克王國輪回黑洞拼圖怎么拼
  1. 德陽市人民政府副秘書長帶隊督導(dǎo)重點(diǎn)項(xiàng)目建設(shè)
  1. 我國風(fēng)電光伏發(fā)電總裝機(jī)突破8億千瓦
  1. 心理學(xué)的詭計價格_心理學(xué)的詭計大全集
  1. 快消息!我該如何清潔薄紗?_異性女朋友過生日送什么禮物
  1. 【獨(dú)家】寶山區(qū)助力老年朋友提升數(shù)字技能,共創(chuàng)友善數(shù)字社區(qū)
  1. 成都郫都區(qū)示范幼兒園城南園區(qū)招生補(bǔ)錄程序及資料2023 當(dāng)前訊息
  1. 環(huán)球通訊!期限日益臨近 美國兩黨仍未就債務(wù)上限達(dá)成協(xié)議
  1. 哈啰順風(fēng)車開始測試自營拼車業(yè)務(wù)
  1. 抖音直播間怎么點(diǎn)贊主播詳細(xì)介紹
  1. 今日熱議:絕地求生怎么更新版本(steam平臺怎么樣)
  1. 調(diào)查 | 私裝GPS跟蹤竊聽他人行蹤?有人拿定位器動歪腦筋
  1. 全球看熱訊:浙江云和縣:校園“雙減”球類聯(lián)賽精彩紛呈
  1. 全球關(guān)注:以文塑旅 “景”上添花——寧夏非遺旅游漸入佳境
  1. 天天即時看!5月25日歐洲地區(qū)對二甲苯收盤價格上漲
  1. 入境游恢復(fù)近兩月 外國游客紛至沓來-世界時快訊
  1. 祁山在哪里呢 祁山在哪里-環(huán)球報資訊
  1. 中國國家話劇院與愛奇藝達(dá)成戰(zhàn)略合作,“CNT現(xiàn)場”首部作品《英雄時代》5月26日上線云影院
  1. 廣東華興銀行:創(chuàng)新服務(wù)體系,探索科技金融新生態(tài)
  1. 環(huán)球熱頭條丨“田頭小站”保障荔枝生長全生命周期 助力豐產(chǎn)豐收
  1. 比亞迪、長城汽車股價繼續(xù)下挫 比亞迪跌超3%長城汽車跌超4% 環(huán)球快消息
  1. 世界視點(diǎn)!通勤服務(wù)公司中區(qū)分公司 “花式宣傳”主題月
  1. 蕎麥花開搖曳生姿 小雜糧產(chǎn)業(yè)帶動農(nóng)民增收致富
  1. 玩酷網(wǎng)絡(luò)自助下單 玩酷vip
  1. 嘴里苦怎么回事怎么解決_嘴里苦怎么回事 天天新資訊
  1. 匯通財經(jīng)整理:金屬市場5月26日看點(diǎn)
  1. 金山區(qū)張堰鎮(zhèn)獲“中國曲藝之鄉(xiāng)”稱號 世界報資訊
  1. 注意!最高罰5萬元!柳州發(fā)布最新通告|天天速看料
  1. 【碧藍(lán)檔案/棗伊呂波/同人文章】得來閑處,且適閑情
  1. 當(dāng)前資訊!渭南聯(lián)通總經(jīng)理閆剛上任已數(shù)月 從商洛聯(lián)通平調(diào)早年起步西安聯(lián)通
  1. 當(dāng)前熱門:應(yīng)收賬款是負(fù)數(shù)是什么意思_應(yīng)收賬款負(fù)數(shù)是什么意思
  1. 鄭州擬入選中央財政支持中醫(yī)藥傳承創(chuàng)新發(fā)展示范試點(diǎn) 最新消息
  1. 今日報丨美聯(lián)儲5月會議紀(jì)要:繼續(xù)加息尚存分歧 后續(xù)政策走向更依賴經(jīng)濟(jì)數(shù)據(jù)
  1. 電力ETF指數(shù)基金(560580)沖高1.20%,華電國際漲5.35%,華能國際漲2.02%
  1. 寧波隆洋投資管理有限公司-世界最新
  1. 當(dāng)前要聞:2023年紡織和服裝行業(yè)專題報告 美國和日本服裝及化妝品行業(yè)疫后復(fù)盤
  1. 規(guī)范使用人工智能 助力維護(hù)司法公正
  1. vivo S17系列官宣:31日發(fā)布 1.5K雙曲屏
  1. 劍指過往業(yè)績展示 銀行理財醞釀新規(guī)-每日熱門
  1. 當(dāng)前視點(diǎn)!今年買基金有這三大困惑?快進(jìn)來看看吧
  1. 投資“雞肋時間” 3招讓你“變廢為寶”!
  1. 北交所主題基金業(yè)績回升 新基金密集成立 全球新資訊
  1. 聯(lián)合信用:2023年城投企業(yè)區(qū)域分化持續(xù) 債務(wù)化解有五大信號 聚焦
  1. 聚和材料:5月25日融券凈賣出4.36萬股,連續(xù)3日累計凈賣出5.6萬股
  1. 鞏固制造業(yè)升級發(fā)展良好態(tài)勢 天天簡訊
  1. 當(dāng)前熱議!教育部部署開展“2023高考護(hù)航行動”
  1. 穿越千年與歷史相遇 這種方式最“窟”|世界快資訊
  1. 前沿生物:5月25日融資買入97.31萬元,融資融券余額8316.13萬元 視焦點(diǎn)訊
  1. 瞄準(zhǔn)算力基礎(chǔ)設(shè)施風(fēng)口 9只相關(guān)主題ETF產(chǎn)品扎堆申報
  1. 世界微資訊!9只算力領(lǐng)域ETF密集申報 基金公司爭奪細(xì)分領(lǐng)域結(jié)構(gòu)性機(jī)會
  1. 怎么做清燉羊肉?
  1. 月余時間雙方互相起訴 動視暴雪與網(wǎng)易“矛盾”再升級
  1. 進(jìn)入u盤系統(tǒng)怎么修復(fù)系統(tǒng)文件-(進(jìn)入u盤系統(tǒng)怎么修復(fù)系統(tǒng)文件)_每日視點(diǎn)
  1. 江蘇“潤心”行動織密學(xué)生心理健康關(guān)愛網(wǎng) 天天熱推薦
  1. 天天速遞!蘋果手機(jī)刷機(jī)的方法(蘋果手機(jī)刷機(jī)的方法教程視頻)
  1. 焦點(diǎn)速看:反擊!中國在南沙三島礁布設(shè)燈浮標(biāo)
  1. 即時看!句號在右上_句號怎么打在右下角
  1. “銷售一空”!口岸免稅店火爆回歸_天天通訊
  1. 網(wǎng)易Q1游戲相關(guān)毛利率創(chuàng)近年新高,《蛋仔派對》帶動業(yè)績增長-世界微速訊
  1. 60魔獸插件文件夾在哪里_60魔獸插件
  1. 韓火火微博新浪超話_韓火火微博 環(huán)球新資訊
  1. 每日視訊:2700x配什么顯卡(r71700x和2700x主板一樣嗎)
  1. 天天觀點(diǎn):扁食餡怎么做好吃 自制扁食餡
  1. 當(dāng)前速讀:美財政部賬上現(xiàn)金不足500億美元 下月初或無錢可用
  1. 當(dāng)前簡訊:認(rèn)罪認(rèn)罰具結(jié)書_認(rèn)罪
  1. 生化總動員_關(guān)于生化總動員介紹|世界新消息
  1. 頭條焦點(diǎn):生員_關(guān)于生員介紹
  1. 比亞迪,又火了!_焦點(diǎn)短訊
  1. 今日觀點(diǎn)!掐斷交易?俄羅斯黃金:換個殼繼續(xù)賣
  1. 安寧股份(002978):5月25日北向資金減持7.43萬股-全球播報
  1. 初戀50次迅雷下載 RMVB 下載_初戀50次迅雷下載 天天熱資訊
  1. 臘豆腐干的家常做法(豆腐干的家常做法)
  1. 胸有成竹的近義詞是什么_胸有成竹的近義詞介紹_世界動態(tài)
  1. 如何清理積碳最有效_如何清理積碳|全球熱點(diǎn)
  1. 定罪通論
  1. 消息!小手拍拍歌詞歌曲_小手拍拍歌詞
  1. 108坊故事|華商報雙仁府社區(qū)聯(lián)系點(diǎn)成立_環(huán)球速看
  1. 小學(xué)成績分析及改進(jìn)措施(小學(xué)成績多好能考上好一本)|世界熱點(diǎn)評
  1. 腺苷怎么讀_腺苷
  1. 【世界時快訊】無冠藤_關(guān)于無冠藤介紹
  1. 寫在騰訊320_環(huán)球熱文
  1. 環(huán)球速訊:最后的玩家(對于最后的玩家簡單介紹)
  1. 寵物小精靈之mega進(jìn)化_寵物小精靈之精靈獵手_熱門看點(diǎn)
  1. 全球信息:彈彈堂萌小喵等級獲得技能(彈彈堂萌小喵)
  1. 浙江寧波一醫(yī)院門診樓發(fā)生火災(zāi) 無人員傷亡
  1. 快播:嘉峪關(guān)市代表隊在全省青少年速度滑冰錦標(biāo)賽暨公開賽中獲總獎牌數(shù)第一的好成績
  1. 大規(guī)模裁員?阿里辟謠
  1. V觀財報|晶科能源擬斥資560億擴(kuò)產(chǎn) 上交所:合理?有必要?
  1. 綠城管理控股(09979)將于7月26日派發(fā)特別股息每股約8.91港仙
  1. 劉亞仁的逮捕令被駁回,離開警察局后被人扔咖啡瓶、潑水-世界熱點(diǎn)評
  1. 海力風(fēng)電董監(jiān)高陳海駿2023年05月24日減持3,400股,套現(xiàn)29.26萬元 每日熱訊
  1. 堿性氧化物與水反應(yīng)方程式 堿性氧化物
  1. 哈薩克斯坦媒體人走進(jìn)新疆霍爾果斯感知中華文化-今日熱搜
  1. 精選!王曼昱4-1險勝!比孫穎莎陳夢贏得更艱難,馬琳眉頭緊鎖很不滿意
  1. 奪冠前夕多特給出承諾 官宣胡梅爾斯續(xù)約至2024年
  1. 法國蒙彼利埃大學(xué)DBA學(xué)費(fèi)多少錢?附申請流程_世界看熱訊