中文字幕精品亚洲无线码二区,国产黄a三级三级三级看三级,亚洲七七久久桃花影院,丰满少妇被猛烈进入,国产小视频在线观看网站

AI應用(yong)實戰課學習總結(12)Transformer

大家好,我是Edison。

最(zui)近入坑黃佳老(lao)師(shi)的《AI應(ying)用(yong)實戰(zhan)課》,記錄下我的學習之旅,也算是總(zong)結回顧。

今天是我們的第12站也是最后(hou)(hou)一站,一起了解下在(zai)DNN/CNN/RNN之(zhi)后(hou)(hou)橫(heng)空出世的Transformer,作為大(da)語(yu)言模型的基(ji)礎架構,它到底有什么(me)樣的優勢?

從CNN到Transformer

在之前(qian)的兩篇內容中,我們了解了深度學習和(he)基于CNN發(fa)展(zhan)出來(lai)的神經網絡(luo)模型如RNN等,經過(guo)了多年的發(fa)展(zhan),現在已經發(fa)展(zhan)到了Transformer,突(tu)破了自(zi)然語言處理的瓶頸,從而真正開始(shi)能夠(gou)理解語言然后開始(shi)和(he)人類聊天對話。

Transformer也是一種深度學習模(mo)(mo)型,具有Encoder(編(bian)碼器)和(he) Decoder(解(jie)碼器)的(de)架構,有的(de)模(mo)(mo)型只用(yong)(yong)了Encoder(如BERT),有的(de)模(mo)(mo)型只用(yong)(yong)了Decoder(如GPT),還有的(de)模(mo)(mo)型Encoder和(he)Decoder都有使用(yong)(yong)到(如T5)。

它最初是為了解決從序列(lie)到序列(lie)(Seq2Seq)的任務,比如說機器翻(fan)譯,它先給語(yu)言(yan)做一個編碼,然后(hou)再解(jie)碼,就能夠實現完成這個機器的翻(fan)譯。

Transformer架構中最核心的內容就是引入了自注意力機制(zhi),通過自注意力和多頭自注意力機制實現了并(bing)行處理(li),通過多層(ceng)具有自注(zhu)意機制的網絡層(ceng)疊加(jia)來實現模式的學習,進而大幅(fu)提高了(le)處理(li)效率(lv)。

從Transformer演化出了GPT,或者說GPT是基于Transformer的一個自回歸的模型,它只用到了Transformer的(de)(de)Decoder(解碼(ma)器)。所謂自(zi)回歸任(ren)務,就是專(zhuan)注于預(yu)測(ce)序列中的(de)(de)下(xia)一個(ge)字(zi)(嚴(yan)謹(jin)點(dian)說(shuo)是Token),如下(xia)圖所示(shi):

GPT通過(guo)自回(hui)歸模型(xing)進行預(yu)訓練,在進行預(yu)訓練的(de)(de)時(shi)候,模型(xing)會被輸(shu)入大量(liang)的(de)(de)文本(ben)數(shu)據,然(ran)后(hou)開始(shi)預(yu)測每一(yi)個詞的(de)(de)下一(yi)個詞,如此往復,直(zhi)到整個句子說(shuo)的(de)(de)差不多(duo)了,不斷生成新內容(rong)。通過(guo)這種方式,GPT學(xue)習(xi)到了語言規律(lv)、語法、詞法、詞匯搭配等等,然(ran)后(hou)生成的(de)(de)都是自然(ran)流暢的(de)(de)文本(ben)。

Transformer為何有效?

還記得上一篇RNN中舉得例子嗎?老師給學生傳紙條,一個學生看一個字,再通過Hidden節點將前面的字記下來,這是一種非常低效的記憶方式。

在Transformer中,則是通過自注意力機制并行計算互相注意的(de)方(fang)式(shi)實現高效便捷的(de)處理,進而將編碼器和解(jie)碼器串聯起來。

因(yin)此(ci),Transformer相較于RNN更加有(you)效的原因(yin)在(zai)于:

(1)自注意力機制

Transformer會將整個序(xu)列(lie)一次性導入,并將整個序(xu)列(lie)中的元(yuan)素分(fen)配不同的注意力權重。換(huan)句(ju)(ju)話說,在考慮上下文(wen)時為每一個單詞(嚴(yan)格來說是Token)都分(fen)配一個適當的重要(yao)性,這(zhe)就可以讓模(mo)型可以在一個序(xu)列(lie)中捕捉長距離的依賴(lai)關系。而這(zhe)個依賴(lai)關系,其實就可以幫(bang)助模(mo)型理(li)解句(ju)(ju)子中的各種語法和語義的模(mo)式(shi)。

如(ru)下圖所(suo)示,當(dang)聚(ju)焦到前(qian)面一(yi)列頭部的某(mou)個 Token 時,它(ta)會在后面一(yi)列(也是同一(yi)個句子(zi)中(zhong)的 Token 序列)找(zhao)到與該 Token 更相(xiang)關(guan)(guan)的其(qi)它(ta) Token,或(huo)者(zhe)可(ke)以(yi)說句子(zi)中(zhong)的每個 Token 都與前(qian)面當(dang)前(qian)所(suo)聚(ju)焦 Token 有一(yi)個相(xiang)關(guan)(guan)數值(zhi),值(zhi)越大(da)表示越相(xiang)關(guan)(guan),對(dui)應的注意力權重(zhong)也越大(da)。當(dang)然(ran),同一(yi)個 Token 與它(ta)自己最(zui)相(xiang)關(guan)(guan),通常相(xiang)關(guan)(guan)值(zhi)最(zui)大(da)。

(2)多(duo)頭注(zhu)意力(li)

所謂多頭注意(yi)力(li)就是(shi)指(zhi)它不僅(jin)僅(jin)一組一組地尋找注意(yi)力(li),而(er)是(shi)融合多個注意(yi)力(li),進而(er)學到更多的(de)行(xing)為。人類的(de)語言(yan)非常微(wei)妙,一個句子可能(neng)有多種含義(yi),因此只找一組是(shi)不夠的(de)。

比如,在(zai)機器翻(fan)(fan)譯(yi)任務中,使用(yong)多頭注(zhu)意(yi)力能夠學(xue)習并捕(bu)捉到(dao)輸入序列中的(de)不同類(lei)型信息:一(yi)個注(zhu)意(yi)力頭可能學(xue)習句(ju)(ju)子的(de)語法結構,而(er)另一(yi)個注(zhu)意(yi)力頭可能學(xue)習句(ju)(ju)子中的(de)于語義信息,這樣更有利(li)于模(mo)(mo)型生成(cheng)準(zhun)確、自然的(de)翻(fan)(fan)譯(yi)結果(guo),從而(er)提高了模(mo)(mo)型的(de)性(xing)能。

(3)并(bing)行性和可(ke)擴展性

因為Transformer是并行處理本身具有并行性,因此可以通過簡單地增加它的層數隱藏單元數或者注意力的頭數,實現可擴(kuo)展性,獲得更(geng)好的處理(li)效(xiao)率(lv)。

大語言模型的訓練方式

不同的(de)大(da)語(yu)言(yan)模型使(shi)用了不同的(de)預訓練方(fang)式,這(zhe)里以BERT和GPT為例說明:

BERT采取(qu)的是 摳字完形填空 的方式:

如果模型(xing)猜(cai)對了,損失函(han)數(shu)(shu)就低,相反損失函(han)數(shu)(shu)就高。因此,通過這種猜(cai)詞的方式調整參(can)數(shu)(shu),慢慢讓其形成猜(cai)詞能力。猜(cai)詞這種方式是(shi)雙(shuang)向(xiang)關注,而下面GPT是(shi)單項關注。

GPT采取的(de)是 猜測下一句 的(de)方(fang)式(shi):

如上圖(tu),如果(guo)生成的準(zhun)確,損失(shi)函數(shu)(shu)就低,相反損失(shi)函數(shu)(shu)就大,慢(man)慢(man)調參(can)形成下個(ge)句子的預測能力。

大語言模型的使用方式

目前主流的大語言模型的使用方式為:預訓練 + 微調

預訓練(lian) (Pre-Training) 相當于蓋一座房(fang)子(zi)的(de)地基(ji)和框架,經過預訓練(lian)之后的(de)大語言(yan)模型(xing)通常稱為(wei)基(ji)線模型(xing)(Base Model)。

微調(diao)(Fine-Tuning)則相(xiang)當于根據業務(wu)需(xu)求做精裝修(xiu),借(jie)助基(ji)線模型我們不用每次都從做起(qi),只需(xu)要(yao)用少(shao)量的特定業務(wu)場景的領域數據進行二次訓(xun)練(lian)或遷移訓(xun)練(lian),使(shi)其適應具(ju)體(ti)業務(wu)任務(wu)即可。

通過結合預訓練和(he)微(wei)調,既節省訓練資源又能專業化應用。

小結

本(ben)文介紹(shao)了Transformer的基本(ben)概念和(he)(he)架構,它相對于(yu)RNN的優勢主要就在于(yu)自注意力機(ji)制,實現了并行性和(he)(he)可擴展(zhan)性,進而(er)催(cui)生(sheng)了GPT等(deng)大語(yu)言模型的誕生(sheng)。

目前我們可(ke)以通過(guo)對預(yu)訓練好的大語言模型進行微調,進而(er)讓(rang)其適應我們的業務任務,節省資源又能(neng)保(bao)證質量。

參考文章

簡單之美,《》

CoCoML,《詳解深度學習中的“注意力機制”

推薦學習

黃佳,《AI應(ying)用(yong)實(shi)戰課》(課程)

黃佳,《圖解GPT:大模型是如(ru)何構建的》(圖書)

黃佳,《動手做(zuo)AI Agent》(圖書)

 

posted @ 2025-03-03 08:30  EdisonZhou  閱讀(206)  評論(0)    收藏  舉報