科學突破很少發生在真空中。相反,它們通常是建立在人類累積的知識之上的樓梯的倒數第二級。要了解 ChatGPT 和 Google Bart 等大型語言模型 (LLM) 的成功,我們需要回顧過去並討論 BERT。 BERT 由 Google

Engage in the Latest Data forum for valuable lead-generation strategies
Post Reply
urrifat77
Posts: 34
Joined: Tue Dec 03, 2024 8:07 am

科學突破很少發生在真空中。相反,它們通常是建立在人類累積的知識之上的樓梯的倒數第二級。要了解 ChatGPT 和 Google Bart 等大型語言模型 (LLM) 的成功,我們需要回顧過去並討論 BERT。 BERT 由 Google

Post by urrifat77 »

科學突破很少發生在真空中。相反,它們通常是建立在人類累積的知識之上的樓梯的倒數第二級。要了解 ChatGPT 和 Google Bart 等大型語言模型 (LLM) 的成功,我們需要回顧過去並討論 BERT。

BERT 由 Google 研究人員於 2018 年開發,是首批法學碩士之一。憑藉其驚人的結果,它迅速成為 NLP 任務中普遍存在的基線,包括一般語言理解、問答和命名實體識別。

有興趣了解更多關於法學碩士的資訊嗎?立即開始我們的大型語言模型 (LLM) 概念課程的第一章。

可以公平地說,BERT 為我們如今目睹的生成式 AI 革 波斯尼亞和黑塞哥維那電話號碼列表 命鋪平了道路。儘管是最早的法學碩士之一,BERT 仍然被廣泛使用,有數千個開源、免費和預訓練的 BERT 模型可用於特定用例,例如情緒分析、臨床記錄分 析和有毒評論檢測。

對 BERT 感到好奇嗎?繼續閱讀本文,我們將探討 Ber 的架構、該技術的內部運作、它的一些實際應用及其限制。

什麼是 BERT?
BERT(Transformers 雙向編碼器表示)是 Google 於 2018 年開發的開源模型。架構2017 年,關於自然語言 (NLP) 任務,注意力就是你所需要的。

BERT 成功的關鍵是它的 Transformer 架構。在 Transformer 出現之前,對自然語言進行建模是一項非常具有挑戰性的任務。儘管複雜的神經網路(即循環神經網路或卷積神經網路)興起,但結果只取得了部分成功。

主要挑戰在於用於預測句子中缺失單字的神經網路機制。當時,最先進的神經網路依賴編碼器-解碼器架構,這是一種強大但耗時和資源消耗的機制,不適合併行運算。

考慮到這些挑戰,Google研究人員開發了 Transformer,這是一種基於注意力機制的創新神經架構,如下一節所述。

BERT 是如何運作的?
讓我們來看看 BERT 是如何運作的,包括模型背後的技術、它是如何訓練的以及它如何處理資料。

核心架構和功能
循環神經網路和卷積神經網路使用順序計算來產生預測。也就是說,一旦在巨大的資料集上進行訓練,他們就可以預測哪個單字將跟隨給定的單字序列。從這個意義上說,它們被認為是單向或上下文無關的演算法。

相較之下,BERT 等變壓器驅動的模型也基於編碼器-解碼器架構,是雙向的,因為它們根據前面的單字和後面的單字來預測單字。這是透過自註意力機制實現的,該機制同時包含在編碼器和解碼器中。注意力層的目標是捕捉輸入句子中不同單字之間存在的上下文關係。

如今,預訓練的 BERT 有許多版本,但在原始論文中,Google 訓練了兩個版本的 BERT:BERTbase 和 BERTlarge,具有不同的神經架構。本質上,BERTbase 是用 12 個變壓器層、12 個注意力層和 1.1 億個參數開發的,而 BERTlarge 使用 24 個變壓器層、16 個注意力層和 3.4 億個參數。正如預期的那樣,BERTlarge 在準確性測試中優於其較小的兄弟。

要詳細了解 Transformer 中的編碼器-解碼器架構如何運作,我們強烈建議您閱讀我們的Transformers 使用簡介和 Hugging Face。

Transformer 架構的解說

Transformer 架構的解說

預訓練和微調
Transformer 是在龐大的資料集上從頭開始訓練的,過程耗時且昂貴(只有包括Google在內的少數公司能夠負擔得起)。

就 BERT 而言,它在維基百科(約 2.5B 字)和 Google 的 BooksCorpus(約 8 億字)上進行了四天的預訓練。這使得模型不僅可以獲得英語知識,還可以獲得世界各地許多其他語言的知識。

為了優化訓練過程,Google開發了新的硬件,即所謂的TPU(張量處理單元),專為機器學習任務而設計。

為了避免訓練過程中不必要且成本高昂的交互,Google研究人員使用遷移學習技術將(預)訓練階段與微調階段分開。這使得開發人員可以選擇預訓練模型,細化目標任務的輸入輸出對數據,並使用特定領域的數據重新訓練預訓練模型的頭部。這項特性使得像 BERT 這樣的 LLM 成為建立在其之上的無盡應用程式的基礎模型,

Masked Language Modeling 在 BERT 處理中的作用
在 BERT(以及每個基於 Transformer 的 LLM)中實現雙向學習的關鍵要素是注意力機制。該機制基於掩碼語言建模(MLM)。透過屏蔽句子中的單詞,該技術迫使模型分析句子中兩個方向的剩餘單詞,以增加預測屏蔽單詞的機會。 MLM 是基於電腦視覺領域已經嘗試過的技術,非常適合需要對整個序列有良好上下文理解的任務。

BERT 是第一個應用該技術的法學碩士。特別是,隨機 15% 的標記化單字在訓練過程中被屏蔽。結果表明,BERT 可以高精度地預測隱藏詞。

對掩碼語言建模感到好奇嗎?查看我們的大型語言模型 (LLM) 概念課程,以了解有關此創新技術的所有詳細資訊。

BERT 有何用途? BERT 對 NLP 的影響
在 Transformer 的支援下,BERT 能夠在多項 NLP 任務中取得最先進的結果。以下是 BERT 擅長的一些測試:

Image

問答。 BERT 是首批由 Transformer 驅動的聊天機器人之一,取得了令人印象深刻的成果。
情緒分析。例如,BERT 已成功預測電影評論的正面或負面標點符號。
文字生成。作為下一代聊天機器人的先驅,BERT 已經能夠透過簡單的提示創建長文字。
總結文字。同樣,BERT 能夠閱讀和總結複雜領域的文本,包括法律和醫療保健。
語言翻譯。 BERT 接受過以多種語言編寫的資料的訓練。這使得它成為一個多語言模型,這意味著非常適合語言翻譯。
自動完成任務。 BERT 可用於自動完成任務,例如在電子郵件或訊息服務中。
BERT 的實際應用
許多法學碩士已經在實驗集中進行了嘗試,但沒有多少法學碩士被納入成熟的應用程式中。 BERT 的情況並非如此,每天有數百萬人使用 BERT(儘管我們可能沒有意識到這一點)。

一個很好的例子是谷歌搜尋。 2020 年,Google宣布已透過 70 多種語言的Google搜尋採用 BERT。這意味著 Google 使用 BERT 對內容進行排名並顯示特色片段。借助注意力機制,Google 現在可以使用您問題的上下文來提供有用的信息,如下例所示。

來源:Google

來源:Google

BERT 的變體與改編
但這只是故事的一部分。 BERT 的成功很大程度上歸功於其開源特性,它允許開發人員存取原始 BERT 的原始程式碼並創建新功能和改進。

這導致了 BERT 的大量變體。下面,您可以找到一些最著名的變體:

羅伯塔。 RoBERTa 是「穩健優化 BERT 方法」的縮寫,是 Meta 與華盛頓大學合作創建的 BERT 變體。 RoBERTa 被認為是比原始 BERT 更強大的版本,其訓練資料集比用於訓練 BERT 的資料集大 10 倍。就其架構而言,最顯著的差異是使用動態掩蔽學習而不是靜態掩蔽學習。這項技術涉及複製訓練資料並將其屏蔽 10 次,每次都使用不同的屏蔽策略,使 RoBERTa 能夠學習更穩健和更通用的單字表示。
蒸餾伯特。自 2010 年代末期推出第一批法學碩士以來,建立更大、更重的法學碩士已成為一種綜合趨勢。這是有道理的,因為模型大小和模型精度之間似乎存在直接關係。然而,模型越大,運作所需的資源就越多,因此有能力使用它的人就越少。 DistilBERT 旨在透過提供更小、更快、更便宜和更輕的變體來使 BERT 更容易使用。基於原始 BERT 的架構,DistilBERT 在預訓練過程中使用知識蒸餾技術,將尺寸縮小了 40%,同時保留了 97% 的語言理解能力,速度提高了 60%。
阿爾伯特。 ALBERT 代表 A Lite BERT,專門設計用於提高 BERTlarge 在預訓練期間的效率。由於訓練較大的模型通常會導致記憶體限制、更長的訓練時間和意外的模型退化,因此 ALBERT 創建者開發了兩種參數減少技術來減少記憶體諮詢並提高訓練期間的速度。
如果您想了解更多有關開源 LLM 運動的信息,我們強烈建議您閱讀我們的 2023 年頂級開源 LLM 文章

針對特定任務微調 BERT
BERT 和法學碩士的最大優點之一是預訓練過程與微調過程是分開的。這意味著開發人員可以採用 BERT 的預訓練版本,並針對其特定用例進行客製化。

就 BERT 而言,有數百個針對各種 NLP 任務而開發的微調版本。下面,您可以找到非常非常有限的 BERT 微調版本清單:

BERT-基礎中文。用於 NLP 任務訓練的中文版 BERTbase
BERT-base-NER。為命名實體識別定制的 BERTbase 版本
Symps_disease_bert_v3_c41。自然語言聊天機器人的症狀到疾病分類模型。
專利 BERT。是 Google 在全球 1 億多專利上訓練的模型。它基於 BERTlarge。
了解 BERT 的局限性
BERT 存在與法學碩士相關的傳統限制和問題。 BERT 的預測始終基於用於訓練的資料的數量和品質。如果訓練資料有限、品質不佳且有偏差,BERT 可能會拋出不準確、有害的結果,甚至是所謂的LLM 幻覺。

就原始 BERT 而言,這種情況更有可能發生,因為該模型是在沒有使用人類反饋強化學習(RLHF) 的情況下進行訓練的,RLHF 是ChatGPT、LLaMA 2 和Google Bard 等更高級模型使用的標準技術,旨在增強人工智慧安全。 RLHF 涉及在培訓期間使用人類回饋來監控和指導法學碩士的學習過程,從而確保有效、安全和值得信賴的系統。

此外,雖然與 ChatGPT 等其他最先進的 LLM 相比,它可以被認為是一個小模型,但它仍然需要大量的計算能力來運行它,更不用說從頭開始訓練它了。因此,資源有限的開發者可能無法使用它。

BERT 和 NLP 的未來
Post Reply