pos機模型模板,谷歌Quoc Le這篇NLP預訓練模型論文值得一看

 新聞資訊  |   2023-04-15 09:57  |  投稿人:pos機之家

網(wǎng)上有很多關(guān)于pos機模型模板,谷歌Quoc Le這篇NLP預訓練模型論文值得一看的知識,也有很多人為大家解答關(guān)于pos機模型模板的問題,今天pos機之家(www.tjfsxbj.com)為大家整理了關(guān)于這方面的知識,讓我們一起來看下吧!

本文目錄一覽:

1、pos機模型模板

pos機模型模板

在 BERT 論文出現(xiàn)的幾周前,斯坦福大學和谷歌大腦合作的一篇同樣關(guān)于 NLP 預訓練模型的論文發(fā)布。該研究提出一種新型自訓練算法 Cross-View Training (CVT),結(jié)合預訓練詞向量和自訓練算法,使用標注數(shù)據(jù)和無標注數(shù)據(jù)的混合,從而改善 Bi-LSTM 句子編碼器的表征,進而改善整個模型。此外,CVT 與多任務學習結(jié)合起來后效果尤為顯著。

在大量標注數(shù)據(jù)上訓練的深度學習模型效果最好。但是,數(shù)據(jù)標注成本很高,這刺激了人們對有效半監(jiān)督學習技術(shù)的需求(半監(jiān)督學習可以利用無標注樣本)。在神經(jīng)自然語言處理任務中廣泛使用且成功的一種半監(jiān)督學習策略是預訓練詞向量 (Mikolov et al., 2013)。近期的研究訓練 Bi-LSTM 句子編碼器去做語言建模,然后將其語境敏感(context-sensitive)表征納入監(jiān)督模型中。這種預訓練方法先在大型無標注數(shù)據(jù)語料庫上進行無監(jiān)督表征學習,然后再進行監(jiān)督訓練。

預訓練的一個重要缺陷在于表征學習階段無法利用標注數(shù)據(jù)——模型嘗試學習通用表征而不是針對特定任務的表征。較老的半監(jiān)督學習算法(如自訓練算法)沒有這個問題,因為它們在標注和無標注數(shù)據(jù)上連續(xù)學習一項任務。自訓練曾對 NLP 非常有效,但該方法較少用于神經(jīng)模型。而斯坦福大學和谷歌大腦合作的這篇論文展示了一種對神經(jīng)序列模型也很有效的新型自訓練算法——Cross-View Training (CVT)。

在自訓練中,模型在標注數(shù)據(jù)上正常學習,而在無標注數(shù)據(jù)上則兼任教師和學生:教師對樣本作出預測,學生基于預測進行訓練。盡管該過程對一些任務有價值,但它略顯累贅:模型已經(jīng)在訓練過程中生成預測了。近期的計算機視覺研究解決了這個問題,方法是向?qū)W生網(wǎng)絡(luò)的輸入添加噪聲,訓練一個對輸入擾動足夠魯棒的模型。但是,使用噪聲對離散輸入(如文本)比較困難。

該研究從多視角學習(multiview learning)中獲得靈感,訓練模型對同一輸入的不同視角生成一致的預測結(jié)果。CVT 沒有將整個模型作為學生模型,而是向模型添加輔助預測模塊——將向量表征轉(zhuǎn)換成預測的神經(jīng)網(wǎng)絡(luò),將它們也作為學生來訓練。每個學生預測模塊的輸入是模型中間表征的子集,對應于受限視角的輸入樣本。例如,用于序列標注的一個輔助預測模塊僅關(guān)聯(lián)到模型第一個 Bi-LSTM 層的「前向」(forward)LSTM,因此它在進行預測時看不到當前序列右側(cè)的任何 token。

CVT 的作用在于改善模型的表征學習。輔助預測模塊可以從整個模型的預測中學習,因為整個模型具備更好、視角不受限的輸入。盡管輔助模塊的輸入對應受限視角的輸入樣本,但它們?nèi)匀荒軌驅(qū)W習作出正確的預測,因此能夠改進表征的質(zhì)量。這反過來改善了整個模型,因為它們使用的是同樣的表征。簡而言之,該方法將在無標注數(shù)據(jù)上進行表征學習與傳統(tǒng)的自訓練方法結(jié)合了起來。

CVT 可用于多種任務和神經(jīng)架構(gòu),但是本研究主要聚焦于序列建模任務,其預測模塊與共享 Bi-LSTM 編碼器關(guān)聯(lián)。研究者提出對于序列標注器、基于圖的依存句法分析器和序列到序列模型都很有效的輔助預測模塊,并在英語依存句法分析、組合范疇語法(CCG)supertagging、命名實體識別、詞性標注、文本語塊識別(text chunking)和英語-越南語機器翻譯任務上對該方法進行了評估。CVT 在所有這些任務上都改進了之前發(fā)布的結(jié)果。此外,CVT 還可以輕松高效地與多任務學習結(jié)合使用:只需在共享 Bi-LSTM 編碼器上添加適合不同任務的額外預測模塊。訓練統(tǒng)一模型來聯(lián)合執(zhí)行所有任務(除了機器翻譯)可以改善結(jié)果(優(yōu)于多任務 ELMo 模型),同時降低總訓練時間。

論文:Semi-Supervised Sequence Modeling with Cross-View Training

論文鏈接:https://arxiv.org/pdf/1809.08370.pdf

代碼地址:https://github.com/tensorflow/models/tree/master/research/cvt_text

摘要:無監(jiān)督表征學習算法(如 word2vec 和 ELMo)可以提升很多監(jiān)督式 NLP 模型的準確率,主要原因在于它們可以利用大量無標注文本。而監(jiān)督模型在主要的訓練階段只能從任務特定的標注數(shù)據(jù)中學習。因此,我們提出一種半監(jiān)督學習算法 Cross-View Training (CVT),使用標注數(shù)據(jù)和無標注數(shù)據(jù)的混合改善 Bi-LSTM 句子編碼器的表征。在標注數(shù)據(jù)上使用標準的監(jiān)督學習;在無標注數(shù)據(jù)上,CVT 教只能看到有限輸入(如句子的一個部分)的輔助預測模塊將預測結(jié)果與能看到完整輸入的整個模型的預測結(jié)果進行匹配。由于輔助模塊和完整模型共享中間表征,因此這會反過來改善完整模型。此外,我們還展示了 CVT 與多任務學習結(jié)合起來后效果尤為顯著。我們在五個序列標注任務、機器翻譯和依存句法分析任務上對 CVT 進行了評估,均達到了當前最優(yōu)結(jié)果。

2 Cross-View Training(CVT)

2.1 方法

圖 1:CVT 方法概覽。

2.2 將 CVT 與多任務學習結(jié)合起來

在共享 Bi-LSTM 編碼器上添加適用于其他任務的額外預測模塊即可輕松結(jié)合 CVT 與多任務學習。在監(jiān)督學習階段,我們隨機選擇任務,然后使用小批量標注數(shù)據(jù)更新 Lsup。在無監(jiān)督學習階段,我們一次性在所有任務上聯(lián)合優(yōu)化 LCVT,首先讓所有主要預測模塊運行推斷,然后讓所有輔助預測模塊從預測中學習。模型在小批量標注數(shù)據(jù)和無標注數(shù)據(jù)上進行交替訓練。

多個任務的標注數(shù)據(jù)對多任務系統(tǒng)的學習很有用,但是大部分數(shù)據(jù)集只為一個任務而標注。因此多任務 CVT 的一個好處就是模型基于無標注數(shù)據(jù)創(chuàng)建了適用所有任務的(artificial)標注數(shù)據(jù)。這顯著改善了模型的數(shù)據(jù)效率、縮短了訓練時間。由于運行預測模塊計算成本較低,因此計算用于多個任務的 LCVT 并不比單任務模型慢多少。但是,我們發(fā)現(xiàn)適用所有任務的標注數(shù)據(jù)可以大幅加速模型收斂速度。例如,在六個任務上訓練的 CVT 模型收斂時間大約是單個任務上模型的平均收斂時間的 3 倍,總訓練時間降低了 50%。

圖 2:序列標注模型中的輔助預測模塊。每個模塊都只看到受限視角的輸入。例如,「forward」預測模塊在預測當前 token 的標簽時看不到它右側(cè)的語境。為簡潔起見,這里僅展示了一個層 Bi-LSTM 編碼器,以及該模型一個時間步的預測。

4 實驗

表 1:在測試集上的結(jié)果,所有分數(shù)均為 5 次運行的平均值。NER、FGN 和機器翻譯任務的分數(shù)標準差大約為 0.1,POS 的分數(shù)標準差是 0.02,其他任務的分數(shù)標準差是 0.05。+Large 模型的隱藏單元數(shù)量是其他模型的 4 倍,它的大小與包含 ELMo 的模型差不多。* 表示半監(jiān)督,? 表示多任務。

表 2:有/沒有適用所有任務的標注數(shù)據(jù)時,多任務 CVT 的開發(fā)集性能。

圖 4:不同方法的開發(fā)集 vs. 訓練集準確率?!竤mall」模型的 LSTM 隱藏狀態(tài)大小是其他模型的 1/4(256 vs. 1024)。

表 3:在序列標注任務上,對輔助預測模塊進行模型簡化測試(ablation study)。

圖 5:左圖:模型在開發(fā)集上的性能 vs. 模型訓練集所占比例。右圖:開發(fā)集性能 vs. 模型大小。x 軸表示 LSTM 層中隱藏單元的數(shù)量,網(wǎng)絡(luò)中投影層和其他隱藏層的隱藏單元數(shù)量是它的一半。點表示三次運行的平均值。

表 4:單任務模型在開發(fā)集上的性能對比。CVT-MT frozen 表示我們在五個任務上預訓練了 CVT + 多任務模型,然后在第六個任務上僅訓練預測模塊。ELMo frozen 表示我們基于 ELMo 嵌入訓練預測模塊(不包括 LSTM)。

以上就是關(guān)于pos機模型模板,谷歌Quoc Le這篇NLP預訓練模型論文值得一看的知識,后面我們會繼續(xù)為大家整理關(guān)于pos機模型模板的知識,希望能夠幫助到大家!

轉(zhuǎn)發(fā)請帶上網(wǎng)址:http://www.tjfsxbj.com/news/18616.html

你可能會喜歡:

版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權(quán),不承擔相關(guān)法律責任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請發(fā)送郵件至 babsan@163.com 舉報,一經(jīng)查實,本站將立刻刪除。