BERT後繼者「ModernBERT」登場:速度、準確度大升級

Ai

BERT終於迎來繼任者:ModernBERT

速度與準確度兼備的全新語言模型

Hugging Face、Nvidia、約翰霍普金斯大學,以及Answer.AI和LightOn共同宣佈推出BERT的繼任者——ModernBERT,一個全新的編碼器式Transformer模型。

這個新模型在速度和準確性方面都超越了BERT。它的上下文長度增加到8000個token,而大多數編碼器模型只有512個token,換言之,其上下文長度是其他編碼器模型的十六倍之多。此外,它還在2萬億個token上進行了訓練。

ModernBERT也是首個在訓練數據中包含大量代碼的編碼器模型。

HuggingFace的公告中寫道:「這些特性開闢了以前通過開放模型無法實現的新應用領域,例如大規模代碼搜索、新的IDE功能以及基於完整文檔檢索而非小片段的新型檢索管道。」

一份詳細闡述ModernBERT的技術報告也已發表在Arxiv上。根據發表的基準測試結果,ModernBERT在多項任務中均優於其他多個編碼器模型。

ModernBERT在NVIDIA RTX 4090上也展現出高效能的表現,其得分優於許多其他編碼器模型。「我們正在分析一款價格合理的消費級GPU的效率,而不是最新的、難以獲得的、被炒作的硬件。」公告中這樣寫道。

BERT,即來自Transformer的雙向編碼器表示,是由Google在2018年創建的語言模型。與GPT、Llama和Claude等流行的僅限解碼器模型不同,BERT專門是一個編碼器模型。

在公告中,Hugging Face將僅限解碼器模型比作法拉利——一項旨在獲勝的非凡工程成就,而將BERT模型比作本田思域——一款經濟高效的汽車。

這些模型可以高效地大規模處理文檔以進行檢索,而不會在推理過程中消耗大量資源。因此,正如技術報告中所述,編碼器模型繼續被用於各種任務,例如分類和命名實體識別。

報告中寫道:「雖然大型語言模型 (LLM) 在近年來備受關注,但它們也激發了人們對在信息檢索 (IR) 中使用僅限編碼器模型的 renewed interest。」

**個人評論:**

這篇文章報道了ModernBERT的推出,其核心亮點在於速度、準確度和更長的上下文長度上的提升,以及首次在訓練數據中納入大量程式碼。這對於程式碼搜索、IDE功能開發等領域具有重大意義。 然而,文章中將僅解碼器模型比作法拉利,編碼器模型比作本田思域的比喻,雖然生動形象,卻略顯片面。 實際上,不同模型的優勢取決於具體應用場景,不能簡單地用「跑車」和「家用車」來概括。 ModernBERT的出現,並非完全取代BERT,而是針對特定需求提供更優化的解決方案。 這也反映了AI模型發展的趨勢:針對不同任務,開發更專精、更有效的模型,而非追求單一模型的「全能」。 此外,文章著重於技術層面的突破,卻缺乏對其潛在社會影響的討論。例如,更強大的程式碼搜索能力可能會如何影響軟體開發效率,甚至可能引發的版權或安全問題,這些都是值得進一步探討的議題。 最後,文章提及ModernBERT在價格合理的消費級GPU上的高效表現,這點值得關注,因為它暗示了AI技術的普及化進程,以及未來AI應用場景的擴展可能性。 然而,我們也需要關注其能源消耗和環境影響等問題。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Chat Icon