成人sese/国产免费人成视频在线观看/九色 在线/免费观看又色又爽又黄的/啪在线视频/日日做日日摸夜夜爽

首頁 資訊 > 創新 > 正文

世界新消息丨斯坦福訓練Transformer替代模型:1.7億參數,能除偏、可控可解釋性強

機器之心報道

編輯:Panda W

用背包(backpack)裝詞比用袋子(bag)好?在這篇論文中,斯坦福大學的研究者提出了可干預的 Backpac k 語言模型,通過調控意義向量來干預語言模型行為,引導語言模型輸出想要的結果。

以 GPT 為代表的大型語言模型已經并還將繼續取得非凡成就,但它們也存在著眾所周知的問題,比如由于訓練集不平衡導致的偏見問題。


(相關資料圖)

針對這一問題,斯坦福大學幾位研究者提出了一種新型神經架構 Backpack,宣稱能夠調控意義向量來干預語言模型的行為,引導語言模型輸出想要的結果。該項目的代碼和模型都已發布。

論文地址:

https://arxiv.org/abs/2305.16765

項目地址:

https://backpackmodels.science

論文一作、斯坦福大學 CS 博士生 John Hewitt 表示,Backpacks 是 Transformers 的替代,它可以在表現力(expressivity)上進行擴展,并為通過控制實現可解釋性提供一種新接口。一個 backpack 學習每個字詞的 k 個非上下文意義向量,從而無監督地解耦字詞的預測用途。

引言

首先我們假設有前半個語句「The CEO believes that _」,我們的問題是消除神經語言模型在該句子的性別分布上的偏見。憑直覺我們就能知道該句子的性別偏見源自「CEO」一詞,因為如果把「CEO」換成「護士」,偏見就會發生性別逆轉。為了消除在 CEO 上的偏見,必須要對模型進行干預并且要應用到 CEO 一詞所出現的所有上下文中。

理想情況下,我們希望采取的干預措施不會改變模型的上下文并且可以預測這個干預帶來的影響。通常來說,從可解釋性與控制的各個方面看,我們更傾向于通過一個全局應用的容易操作的接口(比如非上下文表征)來實施干預。

但對 Transformer 來說,這種干預卻難以實現,因為它們的上下文表征是其輸入的單體函數(monolithic function)。單體函數是指內部具有邏輯分支的函數,能夠根據輸入執行不同的邏輯。對 Transformer 模型的任何干預都會根據上下文情況產生復雜的非線性影響。但我們希望模型能實現豐富的精準干預,nenggou 預測在所有上下文中的情況,并依然能富有表現力;如此一來,這樣的模型就能成為 Transformer 的可行替代模型。

針對這些挑戰,研究者提出了一種新的神經架構 Backpack,其預測是非上下文表征的對數 - 線性組合。他們的做法是將詞匯表中的每個詞都表示成一組非上下文的意義向量(sense vector),這些向量表示的是學習到的該詞的不同方面。

舉個例子,「science」這個詞的意義向量可以編碼科學的類型、與技術的關系、已經得到公認的科學概念以及科學過程的不同方面(復現或實驗),參見下表 1。意義向量學習的不是經典的詞義,而是一個詞在不同語境中的潛在作用的更一般性方面;事實上,意義向量可被視為經典詞向量的一種多向量泛化。

圖 1 :Transformer 是序列的單體函數,而 Backpack 的輸出是非上下文的、所學詞的各個方面的加權和。

在干預意義向量時,為了使干預結果在不同上下文中都是可預測的,Backpack 會將一個序列中的每個詞都表示成該序列中所有詞的意義向量的一個線性組合。Backpack 的表現能力來自于計算該線性組合的權重的網絡模型,其計算方式是將這些權重作為整個序列的一個函數。順便一提,研究者在實驗中使用的網絡模型是 Transformer。由于意義向量是根據上下文大致選擇的,因此它們可以專門限定到特定領域;每個意義都可以學會僅在某些上下文中才有用,并且是否有用可以預測出來。也就是說,意義對預測的貢獻呈對數 - 線性模式,這意味著不管上下文如何,對意義向量的干預也同樣適用(直到權重變成非負標量)。

研究者的實驗表明 Backpack 語言模型確實表現力強大,并且表明對意義向量進行干預有助于解釋和控制模型。在實驗中,研究者在 OpenWebText 的 500 億 token 上訓練了 Backpack 語言模型;這個 Backpack 模型的上下文網絡有 1.24 億參數(意義向量有 4600 萬參數),能達到一個 1.24 億參數 Transformer 的困惑度;但如果想要更高的可解釋性,就需要更大的模型。研究者還展示了如何通過意義向量來針對性地編碼豐富的詞義概念。

在四個詞匯相似性數據集(例如 SimLex999)上的定量分析結果看,1.7 億參數的 Backpack 的意義向量優于 60 億參數的 GPT-J-6B Transformer 的詞嵌入,并且接近針對該任務的專用方法的當前最佳表現。研究者還表明意義向量能為 Backpack 語言模型提供一種控制機制。

舉個例子,對于具有職業性別刻板偏見的詞(如「CEO」或「護士」),往往會學習到與該性別偏見相關聯的意義向量;研究者發現通過為該意義向量降幅,能在有限環境中極大降低上下文預測中的性別差異。

表 1:左側是表示 science 一詞的意義向量示例,其中具有豐富的特定領域指向;右側是以非上下文的方式編輯意義向量的示例(將 MacBook 變得與惠普相關),從而改變了所得的上下文預測。

Backpack 架構

下面首先將定義 Backpack 架構的一般形式,然后會證明連續詞袋 word2vec(CBOW)和僅自注意力網絡其實就是 Backpack 的特例。

Backpack 的一般形式

Backpack 是一個將符號序列

映射成向量序列

的參數函數,其中每個符號 x_i 都屬于一個有限詞匯表 V,而

這里將 o_i 稱為 x_i 在上下文序列 x_ 中的 Backpack 表征。

意義向量。對于每個 x ∈ V,Backpack 構建 k 個意義向量:

其中

意義向量是一種多向量,類似于 word2vec 或 GloVe 等經典的非上下文詞表征。

加權和。對于一個序列 x_,元素 x_i 的表征 o_i 是詞在上下文中的預測意義向量的加權和:給定上下文化權重

Backpack 的上下文化權重

則由整個序列 x_ 的一個(非線性)上下文函數定義:

其中

Backpack 這個名稱靈感來自這一事實:backpack 是指背包,就像是一個袋子(類比于詞袋 /bag-of-words),但是背包更有秩序一些。類似于詞袋,Backpack 表征也是非上下文意義的加權和;但 Backpack 更加有序,因為這個加權和的權重取決于有序的序列。

Backpack 模型。Backpack 模型是一種概率模型,它將在某一輸出空間 Y 上的概率定義為一個 Backpack 表征 o_ 的對數 - 線性函數:

其中

是一種線性變換。因為 Backpack 模型的表征呈現對數 - 線性模式,所以意義向量對預測的貢獻也呈對數 - 線性模式。這讓我們可以檢查意義向量,具體做法是經由 E 將意義向量投射到詞匯表上,然后在任意上下文中觀察其究竟會如何對預測做出貢獻。

模型的參數化可使用常用的深度神經網絡,包括 LSTM 和 Transformer;這些都不是 Backpack,因為它們的輸出表征是整個序列的(相對而言)無約束函數。相對而言,Backpack 的表現力看起來是有限的:其表征 o_i 是非上下文向量

以標量加權的和。序列元素之間的上下文關系只能通過權重 α 來表示。盡管如此,研究者的實驗表明,一個表現能力強的上下文化權重網絡可以通過意義向量的加權和來表示復雜函數,比如新提出的 1.7 億參數的 Backpack 語言模型使用了一個 1.24 億參數的 Transformer 模型來計算 α,并實現了和 1.24 億參數 Transformer 語言模型一樣的損失。

研究者通過數學形式證明了連續詞袋與單層注意力都是 Backpack 的特例,但這里我們不再過多論述了,詳情參閱原論文。

使用 Backpack 的語言建模

研究者使用 Backpack 來進行參數化,定義了一個神經自回歸語言模型。對于序列的下一 token 的概率,他們使用了標準的 softmax 參數化,其中有一個將表征

映射成 logit

的權重矩陣

回想一下,Backpack 表征 o_j 是通過意義向量 C (x) 和上下文化權重 α_j 定義的。下面首先會介紹等式 (1) 中預測意義向量 C 的參數化,然后是上下文化權重網絡 A 的參數化。當 o_j 是由 Backpack 參數化時,就可以稱該模型為 Backpack 語言模型。

對意義參數化

對于意義函數

我們將每個 x ∈ V 都嵌入到

中,然后將這些嵌入通過一個前向網絡

其中,嵌入 / 投射矩陣 E 與 (9) 式中的輸出矩陣緊密關聯。現在我們可以使用一個查找表來定義所有 k × |V| 意義向量,但隨著 k 增大,參數數量也會變得非常大。于是研究者在這里采用的做法是將詞嵌入成

然后使用共享權重將它們放大到

這也許可以解釋在不同詞類型上觀察到的相關意義作用。

對上下文化權重參數化

研究者使用了一個標準 Transformer 加一層多頭關鍵詞查詢自注意力來對

進行參數化,也就是讓一個嵌入的序列通過一個 Transformer:

這里使用了適當的自回歸掩碼和某種位置表征,然后計算

其中對于每個預測意義 ?=1,...,k 有

并且矩陣

研究者把這 k 個意義看作是頭,對于每個頭,上下文化權重都為對詞的注意力定義一個分布。

訓練 Backpack 語言模型的實驗

這一節介紹了研究者為了進行驗證而做的實驗,其中包含訓練 Backpack 和 Transformer 語言模型的超參數、數據和優化流程、評估和結果。這里我們不多介紹了,但研究者重點指出:學習 k>1 個意義向量對于實現優良的語言建模性能而言是必需的。

表 2:語言建模性能,所有模型都訓練了 10 萬步,token 批大小為 50 萬,是在 OWT 上。對于 PPL 指標,越低越好;對于準確度指標,越高越好。注意這些模型的參數沒有可比性;每個 Backpack 的上下文化網絡中都有一個大小相當的 Transformer。

可以看出,對比每個 Backpack 語言模型以及與 Backpack 的上下文化網絡的規格相當的 Transformer 語言模型,Backpack 語言模型的表現大致相當。需要指出,Backpack 的參數更多,這主要來自意義向量。研究者發現,在訓練時,Backpack 語言模型的收斂時間長于 Transformer。奇怪的是,盡管 Small Backpack 和 Transformer 實現了幾乎一樣的 OWT 困惑度,但 Backpack 語言模型在 LAMBADA 和 Wikitext 上的表現卻顯著更好,同時在 BLiMP 上卻又更差。

意義向量中的涌現結構

下面將通過定性和定量實驗,來驗證意義向量在計算詞匯相似性和相關性方面的有效性。這些結果表明意義向量可以成為實施干預的高層面接口。

意義的可視化

基于實驗經驗,經過訓練的 Backpack 模型會將特定的意義向量索引與不同的預測作用關聯起來。研究者為了解釋這些作用,做法是選取詞 x 的意義 ? 并將這個意義投射到詞嵌入:

請注意,這正是(直到一個標量)意義有助于模型的任何預測的方式。研究者是通過報告該投射下分數最高的詞來解釋意義向量的作用。

下表 3 可視化地展示一些意義,比如意義 12 似乎為幾乎所有單詞都編碼了廣泛的相關概念;意義 3 編碼了給定 x 的二元分布的特定情況;意義 14 似乎為動詞編碼了相關的賓語,也為名詞編碼了相關的修飾詞依賴子項。

表 3:可視化地展示了在許多詞上的同一意義索引如何編碼細粒度的含義、相關性和預測使用情況的概念。

詞匯關系測試

從下表 4 可以看到,意義 12(同義詞意義)在所有數據集上都表現良好,媲美或者優于 GPT-2-1.5B 和 GPT-J-6B 等嵌入,而 GPT-J-6B 在 RG-65 上則例外。意義 14 是動詞賓語意義,僅在動詞相似度(VerbSim3500)上表現好,而意義的最小相似性在名詞詞匯相似性上表現尤其出色 (SimLex999)。這說明新提出的方法足以比肩當前最優的方法,盡管它們的訓練任務非常不同,意義向量編碼了大量的詞匯信息。

表 4:詞匯相似性評估結果。所有的數值都是 Spearman 相關度;越高越好。

用于控制的意義向量

最后,研究者通過一些具體案例進行了概念驗證,即可以使用意義向量來控制語言模型的行為。

生成限定主題的內容

下圖 2 中,通過 Backpack 中的意義干預來控制生成主題,對比了 Transformer 的 PPLM。

降低性別偏見

研究者發現,許多職業名詞(比如護士、CEO、教師)的意義向量 10 都帶有性別的刻板印象,并且這種刻板印象會通過代詞連貫地表達出來。通過調降意義 10(乘以小于 1 的標量),研究者發現可以降低 Backpack 在這些職業名詞上的性別偏見。

表 5:在有限設置中降低基于代詞的性別偏見。

圖 3:對于前半句「when the nurse walked into the room」(當那位護士走進房間),Backpack 語言模型通過將「護士」一詞的意義 10 從 0(完全移除)變成 1(原始情況),條件概率分布受到的影響。

知識編輯

研究者還研究了新方法在知識編輯方面的應用。知識編輯是指編輯模型對于世界知識的預測。特別要指出,與專有名詞相關的許多詞都可以定位到該名詞的意義向量。在定性的概念驗證實驗中,研究者編輯了目標詞(比如 MacBook)的意義向量,移除了與另一個詞(比如 Apple)的相關性,然后用再一個詞(比如 HP)替代了這些相關性。可以想見,這種干預會導致 MacBook 與 HP 在預測結果中產生關聯。

表 6:來自 Backpack 的樣本,其中 Apple 被投射到了 MacBook 的意義嵌入之外,而 Apple 原來的位置被 HP 替代。第三個樣本類似,是美式橄欖球球隊和運動員相關的樣本。其中加粗的部分為 prompt。

責任編輯:

關鍵詞:

最近更新

關于本站 管理團隊 版權申明 網站地圖 聯系合作 招聘信息

Copyright © 2005-2023 創投網 - m.zhigu.net.cn All rights reserved
聯系我們:39 60 29 14 2@qq.com
皖ICP備2022009963號-3

主站蜘蛛池模板: 亚洲gv猛男gv无码男同 | 亚洲香蕉视频综合在线 | 欧美自拍三级 | 最近免费中文字幕 | 亚洲老少妇 | 成人有码 | 国产欧美激情日韩成人三区 | 少妇高潮太爽了在线视频 | 国产亚洲精品美女久久久 | 奇米影视亚洲精品一区 | 亚欧美色 | 中文字幕熟妇人妻在线视频 | 婷婷成人在线 | 亚洲精品色视频 | 又大又硬又爽免费视频 | 四虎精品久久 | 久久成人精品视频 | 登山的目的在线观看 | 爱情岛论坛自拍亚洲品质极速福利 | 午夜久久精品 | 国产美女精品视频免费播放软件 | 日本精品巨爆乳无码大乳巨 | 人妻尝试又大又粗久久 | 91九色首页 | 中文字幕,久热精品,视频在线 | www.啪 | 一区二区精品国产 | 亚洲成a人片77777在线播放 | 天天艹夜夜| 九九99九九精彩3 | 四虎四虎| 麻豆视频一区二区 | 日日躁狠狠躁狠狠爱 | 国产精品久久精品第一页 | 日韩精品人妻av一区二区三区 | 欧美mv日韩mv国产网站 | 国产成人av性色在线影院 | 免费看国产一级特黄aaaa大片 | 新版天堂资源中文8在线 | 欧美三级不卡在线观看 | 97久久精品无码一区二区天美 | 亚洲另类精品无码专区 | 国产老师开裆丝袜喷水视频 | 日本三级韩国三级欧美三级 | 久久亚洲精品中文字幕 | 日韩国产欧美综合 | 在线观看a网站 | 国产日产欧产精品精品推荐免费 | 正在播放久久 | 麻豆高清免费国产一区 | 久久精品在这里 | 女同互慰国产一区 | 你懂的视频在线播放 | 亚洲日韩国产成网在线观看 | 6080yy伦理亚洲第一区 | 色综合国产 | 色婷婷六月亚洲综合香蕉 | 黄色大片中文字幕 | 九九99久久精品国产 | 主站蜘蛛池模板: 蛛词}| 国产黄色片在线播放 | 嫩草av久久伊人妇女超级a | 国产色午夜婷婷一区二区三区 | 日韩黄色三级 | 欧美日韩一区二区三区在线 | 亚洲欧美日韩v在线观看不卡 | 国产亚洲精品久久77777 | 亚洲熟妇无码av在线播放 | 日韩精品在线一区二区 | 久久不卡 | 久久婷香 | 欧美巨鞭大战丰满少妇 | 成人影院yy111111在线 | 国产精品一国产av麻豆 | 日韩免费码中文在线观看 | 精品视频一二区 | 成人a免费| 69一区二区 | 精品国产亚洲福利一区二区 | 一本无码中文字幕在线观 | 国产精品毛片完整版视频 | 婷婷天天| 免费大黄美女片免费网站 | 免费国产一级 | 精品国产乱码久久久久久浪潮 | 国产成人精品午夜福利在线观看 | 日韩经典在线 | 色骚网| 色一欲一性一乱—区二区三区 | 玖玖资源 av在线 亚洲 | 日本乱偷中文字幕 | 久久成人激情视频 | www.精品 | 日美韩av| 在线观看黄 | 天天午夜| 日韩久久久精品 | 成人亚洲精品国产www | 亚洲精品自偷自拍无码忘忧 | 超碰热久久 | 国产成年无码久久久免费 | 久久婷婷五月综合色高清 | 欧美亚洲国产另类 | 久久久久久久黄色 | 激情射精爽到偷偷c视频无码 | 免费人成网站在线观看不 | 国产在线精品二区 | 久久婷婷国产综合 | 欧美午夜精品久久久久久浪潮 | 春药高潮抽搐流白浆在线观看 | 狠狠婷婷色五月中文字幕 | 午夜不卡无码中文字幕影院 | 日本久久精品一区二区三区 | 99久久黄色 | 亚洲欧美闷骚影院 | 国产在线视频一区 | 国产麻豆放荡av剧情演绎 | 亚洲97在线| 久久九九影院 | 主站蜘蛛池模板: 蛛词}| 国产自产 | 亚洲欧洲国产视频 | 精品中文视频 | 日本操操操 | 亚洲性欧美色 | 日韩 亚洲 制服 欧美 综合 | 在线亚洲午夜片av大片 | 黄色影院国产 | 韩国精品视频一区二区在线播放 | 大唐艳妇臀荡乳欲伦小说 | 日韩精品无码一区二区中文字幕 | 丁香美女社区 | 亚洲欧美日韩国产综合v | 四虎成人精品在永久免费 | 上司侵犯下属人妻中文字幕 | 国产精品a免费一区久久电影 | 成人av在线一区二区三区 | 无码国模国产在线观看免费 | 国产精品午夜剧场免费观看 | 黄色录像a级片 | 图片区小说区视频区综合 | 在线欧美a | 337p西西人体大胆瓣开下部 | 久久综合久久88 | 亚洲人成网77777亚洲色 | 视频福利网 | 国产精品无码免费专区午夜 | 99视频在线精品免费观看2 | 在线国产中文字幕 | 久久久久久中文 | 国产一精品久久99无吗一高潮 | 青青草免费在线观看 | 日本肉体做爰猛烈高潮全免费 | 午夜精品久久久久久99热软件 | 久久99在线| 老男人久久青草av高清 | 夭天干天天躁天天摸 | 中文日韩字幕 | 亚洲国产欧美在线人成aaaa | 成人涩涩视频 | 日本真人做爰免费的视频 | 一本一本大道香蕉久在线精品 | 波多野结衣乳巨码无在线观看 | 91国产丝袜脚调教 | av不卡高清| 十八禁无遮无挡动态图 | 精品乱码一卡2卡三卡4卡二卡 | 97免费人妻在线视频 | 手机av在线网址 | 少妇性l交大片久久免费 | 精品性久久 | 中文字幕日韩精品无码内射 | 婷婷伊人五月色噜噜精品一区 | 亚洲精品一区二区三区蜜臀 | 久久久亚洲欧洲日产国码606 | 丰满的少妇xxxxx人 | 狠狠色丁香婷婷综合 | 亚洲一本二卡三卡四卡乱码 | 成人老司机 | 主站蜘蛛池模板: 蛛词}| 日韩精品一区二区三区免费视频 | 中文字幕爱爱 | 人人草av | 日本内射精品一区二区视频 | 国产精品丝袜久久久久久久不卡 | 麻豆传传媒久久久爱 | 欧美成人午夜免费影院手机在线看 | 伊人久久综合无码成人网 | www,99| 国产又粗又猛又爽又黄的视频文字 | 69视频污 | 久久久婷婷成人综合激情 | 亚洲国产精品人人做人人爱 | 在线免费观看日本视频 | 极品美女在线观看免费直播 | 免费观看av | 国产精品高清一区二区三区不卡 | 亚洲精品乱码久久久久久久久久 | 侵犯人妻女教师中文字幕 | 韩国日本欧美一区 | av黄色片| 中文在线天堂www | 亚洲人成国产精品无码果冻 | 久久丁香五月天综合网 | 久久亚洲精品无码观看不卡 | 欧美性色黄大片a级毛片视频 | 免费无码又爽又刺激软件下载直播 | 亚洲射情| 久久在线看 | 超碰1024| 午夜精品在线视频 | 日韩在线小视频 | 日本一卡2卡3卡4卡免费专区 | 天天天堂| 性欧美丰满熟妇xxxx性 | 亚 洲 视 频 高 清 无 码 | 国产超碰人人做人人爽av动图 | 久久精品国产72国产精 | 九九热播视频 | 一区二三区在线 | 中国 | 亚洲色无码专区一区 | 尤物爽到高潮潮喷视频大全 | 掀开奶罩边吃边摸下娇喘视频 | 少妇性l交大片欧洲热妇乱xxx | 九一九色国产 | 成人精品二区 | 东京热人妻丝袜无码av一二三区观 | 久久国产成人精品国产成人亚洲 | 又大又粗欧美黑人aaaaa片 | 国产黄色自拍视频 | 国产黄视频在线观看 | 婷婷日| 亚洲精品97久久中文字幕无码 | 亚洲国产一区二区三区亚瑟 | 在线伊人av | 福利国产视频 | 在线观看av你懂的 | 国产亚洲精品久久久久久床戏 | 久久天天躁夜夜躁狠狠综合 | 主站蜘蛛池模板: 蛛词}| 美女视频黄是免费 | 欧美绝顶高潮抽搐喷水合集 | 国产成人精品日本亚洲11 | 国产成人久久精品流白浆 | 干夜夜 | 亚洲精品国产av天美传媒 | 嫩草影院在线观看免费 | 亚洲精品无码永久在线观看男男 | 亚洲成亚洲乱码一二三四区软件 | 欧美高清性色生活片免费观看 | 日本aⅴ免费视频一区二区三区 | 国产欧美日韩视频一区二区三区 | 啊啊啊啊亚洲 | 久久伊人草 | 色狠狠一区二区三区 | 中国老熟妇自拍hd发布 | 激情久久中文字幕 | 国产又黄又爽又色视频 | 成人高清在线观看视频 | 精品国产一二三产品价格 | 亚洲无人区码一码二码三码的含义 | 亚欧美日韩香蕉在线播放视频 | 一边摸一边叫床一边爽av | 天天看片夜夜爽 | 一区二区三区鲁丝不卡 | a狠狠久久蜜臀婷色中文网 亚洲国产精品一 | 久久精品一日日躁夜夜躁 | 91成人福利视频 | 国产精品国产自线拍免费 | 日韩av三区 | 欧美亚洲日本国产黑白配 | 天天综合永久入口 | 乱爱性全过程免费视频 | 欧美伊人精品成人久久综合97 | 男人的天堂com | 亚洲精品一区二区三区影院忠贞 | 日韩伦乱 | 亚洲经典视频在线观看 | 天堂网在线观看av | 欧美三日本三级少妇三99r | 国产亚洲精品久久情网 | 国产一区二区免费在线观看 | 国产a∨精品一区二区三区不卡 | 双性受肉 | 五月天激情婷婷婷久久 | 亚洲一区二区色 | 插鸡网站在线播放免费观看 | 国产精品久久久久不卡无毒 | 奇米777四色影视在线看 | 日本久久精品 | 国产精品国产三级国产传播 | 男男无码gv片在线看 | 国产精品一区二区av不卡 | 日本熟熟妇xxxxx精品熟妇 | 亚洲午夜无码久久yy6080 | 香蕉国产在线观看 | 一级特黄性色生活片 | 国产精品人成视频免费软件 | 尤物视频在线播放 |