語言是人類獨(dú)特的認(rèn)知工具,它在組織思維、推理邏輯、表達(dá)創(chuàng)意和交流觀點(diǎn)方面起著重要作用。正如柏拉圖所言:“思想的靈魂,就是語言?!闭Z言的重要性不言而喻。那么,大腦是如何編碼語義的呢?
(相關(guān)資料圖)
如何量化語義?
由于單詞或概念本身是離散的,要想用正交基來定義語言是極其困難的。然而,它們之間又存在著復(fù)雜的關(guān)聯(lián)結(jié)構(gòu),比如提到“端午”,接下來可能會(huì)出現(xiàn)“安康”“粽子”等與端午相關(guān)的內(nèi)容。這就表明短語之間具有連接性。根據(jù)分布式語義模型,如Word2Vec模型,計(jì)算語言學(xué)家們可以利用大量的文本和上下文詞頻的統(tǒng)計(jì),將每個(gè)單詞量化為高維空間中的向量,一般稱為詞向量或詞嵌入。將詞向量的乘積視為變量,大腦活動(dòng)視為應(yīng)變量,便可研究不同語義會(huì)激活腦皮層的哪些區(qū)域。
利用這種方法,在2016年Alexander G. Huth等人構(gòu)建了一個(gè)大腦的詞匯地圖,并發(fā)現(xiàn)大腦并不存在一個(gè)單一的區(qū)域來編碼這些詞匯。相反,語義表征在大腦的多個(gè)分布式高級(jí)區(qū)域中進(jìn)行。
隨著性能出色的大語言模型相繼出現(xiàn),詞向量或語義空間的表征得到不斷優(yōu)化,從而支持更多更好的下游任務(wù),如翻譯、推理、分類和對(duì)話等。這為我們提供了更強(qiáng)大的工具來量化語義空間,并用它來研究大腦如何編碼語義。即使是最簡(jiǎn)單、較早期的Word2Vec模型,其表征空間也具有非常有趣的性質(zhì):語義關(guān)系可以被視為線性算子。這個(gè)性質(zhì)使得Word2Vec空間的幾何結(jié)構(gòu)更易于分析和解讀。
構(gòu)建神經(jīng)編碼模型
為了分析語義類別和語義關(guān)系的神經(jīng)編碼,基于語義與大腦活動(dòng)聯(lián)系的方法和“語義關(guān)系可以被視為線性算子”的性質(zhì),張博士構(gòu)建了一種神經(jīng)編碼模型。
構(gòu)建過程如下:首先,收集來自19位健康被試者的fMRI數(shù)據(jù);接下來,被試者聽取6個(gè)大約10分鐘的英語故事,其中一些故事涵蓋了常用詞匯;然后,將這些故事的文本輸入到已經(jīng)訓(xùn)練好的Word2Vec模型中。每個(gè)故事對(duì)應(yīng)于一個(gè)在300維空間上的軌跡,該軌跡描述了所有詞義隨時(shí)間的變化;隨后,構(gòu)建了一個(gè)線性回歸的預(yù)測(cè)模型。將300維空間上的軌跡視為自變量,而不同腦區(qū)的神經(jīng)活動(dòng)作為應(yīng)變量。
通過擬合預(yù)測(cè)模型,就可以得到從Word2Vec詞空間到腦部空間活動(dòng)的線性映射。這個(gè)線性映射也就是我們接下來要使用的神經(jīng)編碼模型。
神經(jīng)編碼模型的性能及應(yīng)用
基于這個(gè)神經(jīng)編碼模型,張博士用一個(gè)全新的英文故事測(cè)試了該模型的預(yù)測(cè)性能。結(jié)果顯示,盡管不同區(qū)域的大腦活動(dòng)模式看起來差異很大,但這些區(qū)域的真實(shí)大腦活動(dòng)與模型的預(yù)測(cè)結(jié)果高度吻合。這個(gè)結(jié)果表明,通過簡(jiǎn)單的線性回歸模型,我們是可以建立一個(gè)相對(duì)準(zhǔn)確的從語義空間到大腦活動(dòng)的映射。
并且,大腦對(duì)語義的編碼是分布式的,而不是集中式的,不同區(qū)域在這個(gè)過程中可能承擔(dān)著不同的功能。
神經(jīng)編碼模型可以視為連接AI模型和大腦活動(dòng)之間的橋梁,利用該模型可以將語義類別映射為腦圖。比如輸入3萬個(gè)英文單詞到神經(jīng)編碼模型中,我們就可以得到3萬個(gè)不同的腦圖。另外,根據(jù)這些詞的語義將它們分成9個(gè)大類,會(huì)發(fā)現(xiàn)這9個(gè)大類并不是單獨(dú)存在于一個(gè)腦區(qū),而是分布在整個(gè)大腦中(見圖一)。
同時(shí),研究還觀察到,相對(duì)于具體的詞語更多地分布在左腦,而相對(duì)于抽象的詞語,尤其是涉及情感的詞語,更多地在右腦中表達(dá)。
?圖一:語義分類的皮層表征。圖源:由張逸真博士提供
語義關(guān)系與大腦活動(dòng)
在前面的研究中,我們已能通過神經(jīng)編碼模型將語義與大腦活動(dòng)聯(lián)系起來。而在語言中,除了語義本身,語義關(guān)系也很重要。通過語義關(guān)系,我們能很容易地將已經(jīng)學(xué)到的知識(shí)遷移到新的概念中,類似于類比推理學(xué)習(xí)。那語義關(guān)系如何映射到大腦皮層中呢?
語義關(guān)系有很多種類,張博士著重介紹了整體-部分的語義關(guān)系(如手與手指)是如何映射大腦活動(dòng)的。
首先,找到上百個(gè)符合這種整體部分關(guān)系的單詞,然后對(duì)它們的詞向量的差取平均。這樣就保留了抽象的語義關(guān)系,即整體與部分的關(guān)系。利用訓(xùn)練好的神經(jīng)編碼模型,就可以把這些向量差對(duì)應(yīng)成一個(gè)大腦活動(dòng)(見圖二)。結(jié)果顯示,越是黃色的區(qū)域,就越傾向于表達(dá)整體的概念,而越是藍(lán)色的區(qū)域,就越傾向于表達(dá)部分的概念。
?圖二:語義關(guān)系的皮層表征。圖源:由張逸真博士提供
大腦學(xué)習(xí)語言與文本
前面所構(gòu)建的神經(jīng)編碼模型,以及一些大語言模型只接收語料中上下文的統(tǒng)計(jì)分布信息(即一些文本信息)來進(jìn)行訓(xùn)練。而人類學(xué)習(xí)語言不僅僅是接收文本的信息,還有來自五感的信息(見圖三)。受此啟發(fā),張博士開展了一項(xiàng)工作:通過跨模態(tài)對(duì)比學(xué)習(xí)將視覺認(rèn)知接入語言模型。
?圖三:人腦認(rèn)知香蕉的過程。圖源:由張逸真博士提供
將視覺認(rèn)知接入語言模型
簡(jiǎn)單來說,就是參照大腦的語言網(wǎng)絡(luò)和視覺網(wǎng)絡(luò)構(gòu)建一個(gè)雙流模型,并且用三步來訓(xùn)練(見圖四)。
第一步,單獨(dú)訓(xùn)練語言流和數(shù)視覺流,這里使用的是預(yù)訓(xùn)練好的BERT模型和VGG模型。
第二步,用對(duì)比學(xué)習(xí)來配對(duì)圖像和語言描述,通過該訓(xùn)練,視覺信息就接入到了語言模型的訓(xùn)練中。
第三步,讓模型進(jìn)一步學(xué)習(xí)圖像中各物體之間的關(guān)系。這一步中匹配的不是圖像和它的語言描述,而是圖像中的物體間關(guān)系。在這一步訓(xùn)練之后,強(qiáng)化了語義空間的結(jié)構(gòu),使得它不僅能夠反映物體的內(nèi)容,還能反映它們之間的關(guān)系。
?圖四:物體關(guān)系的視覺定位。圖源:由張逸真博士提供
模型驗(yàn)證
為理解這樣的學(xué)習(xí)過程是不是能學(xué)到信息量更豐富、更具可解釋性、更接近神經(jīng)語言學(xué)知識(shí)的語義空間,研究還使用了語言流模型進(jìn)行探究。
值得注意的是,這個(gè)模型的參數(shù)在訓(xùn)練過程中已經(jīng)受到了視覺信息的影響。隨后提取這個(gè)語言流的詞向量,并進(jìn)行了很多組的評(píng)估實(shí)驗(yàn)。用主成分分析發(fā)現(xiàn),在訓(xùn)練過程中加入視覺信息,詞向量空間的可解釋性大大提高。
另外,研究還用顏色編碼了三個(gè)主成分激活不同腦區(qū)的程度。結(jié)果顯示,擁有相似特性的詞,也就是相近顏色的塊總是被編碼在相近的區(qū)域。這就表明大腦編碼的是一個(gè)詞的語義特征或者性質(zhì)。
除此之外,對(duì)這個(gè)模型進(jìn)行評(píng)估和測(cè)試后,研究發(fā)現(xiàn)在視覺信息的輔助訓(xùn)練下,我們可以學(xué)習(xí)到一個(gè)更好的語義空間,這個(gè)語義空間可以支持簡(jiǎn)單的詞義組合和推理。
類腦語言學(xué)習(xí)模型的發(fā)展為我們理解和應(yīng)用語言提供了新的視角和可能性。利用類腦語言學(xué)習(xí)模型,我們能夠?qū)崿F(xiàn)更準(zhǔn)確、更細(xì)致的語義表示。這將有助于提升計(jì)算機(jī)對(duì)語義的理解,進(jìn)一步拓展人機(jī)交互的可能性,為人類創(chuàng)造出更智能、更自然的語言交流環(huán)境。
參考文獻(xiàn):
[1] A. G. Huth, W. A. de Heer, T. L. Griffiths, F. E. Theunissen, and J. L. Gallant.Natural speech reveals the semantic maps that tile human cerebral cortex, Nature, 532(7600), 2016.[2] Y. Zhang, K. Han, R. Worth, and Z. Liu.Connecting concepts in the brain by mapping cortical representations of semantic relations, Nature Communications, 11, 1877, 2020.[3] Y. Zhang, M. Choi, K. Han, and Z. Liu. Explainable Semantic Space by Grounding Language to Vision with Cross-Modal Contrastive Learning, in Advances in Neural Information Processing Systems, 2021, 34, 18513–18526.