BERT後繼者「ModernBERT」登場：速度、準確度大升級

zero comment

BERT終於迎來繼任者：ModernBERT

速度與準確度兼備的全新語言模型

Hugging Face、Nvidia、約翰霍普金斯大學，以及Answer.AI和LightOn共同宣佈推出BERT的繼任者——ModernBERT，一個全新的編碼器式Transformer模型。

這個新模型在速度和準確性方面都超越了BERT。它的上下文長度增加到8000個token，而大多數編碼器模型只有512個token，換言之，其上下文長度是其他編碼器模型的十六倍之多。此外，它還在2萬億個token上進行了訓練。

ModernBERT也是首個在訓練數據中包含大量代碼的編碼器模型。

HuggingFace的公告中寫道：「這些特性開闢了以前通過開放模型無法實現的新應用領域，例如大規模代碼搜索、新的IDE功能以及基於完整文檔檢索而非小片段的新型檢索管道。」

一份詳細闡述ModernBERT的技術報告也已發表在Arxiv上。根據發表的基準測試結果，ModernBERT在多項任務中均優於其他多個編碼器模型。

ModernBERT在NVIDIA RTX 4090上也展現出高效能的表現，其得分優於許多其他編碼器模型。「我們正在分析一款價格合理的消費級GPU的效率，而不是最新的、難以獲得的、被炒作的硬件。」公告中這樣寫道。

BERT，即來自Transformer的雙向編碼器表示，是由Google在2018年創建的語言模型。與GPT、Llama和Claude等流行的僅限解碼器模型不同，BERT專門是一個編碼器模型。

在公告中，Hugging Face將僅限解碼器模型比作法拉利——一項旨在獲勝的非凡工程成就，而將BERT模型比作本田思域——一款經濟高效的汽車。

這些模型可以高效地大規模處理文檔以進行檢索，而不會在推理過程中消耗大量資源。因此，正如技術報告中所述，編碼器模型繼續被用於各種任務，例如分類和命名實體識別。

報告中寫道：「雖然大型語言模型 (LLM) 在近年來備受關注，但它們也激發了人們對在信息檢索 (IR) 中使用僅限編碼器模型的 renewed interest。」

**個人評論：**

這篇文章報道了ModernBERT的推出，其核心亮點在於速度、準確度和更長的上下文長度上的提升，以及首次在訓練數據中納入大量程式碼。這對於程式碼搜索、IDE功能開發等領域具有重大意義。然而，文章中將僅解碼器模型比作法拉利，編碼器模型比作本田思域的比喻，雖然生動形象，卻略顯片面。實際上，不同模型的優勢取決於具體應用場景，不能簡單地用「跑車」和「家用車」來概括。 ModernBERT的出現，並非完全取代BERT，而是針對特定需求提供更優化的解決方案。這也反映了AI模型發展的趨勢：針對不同任務，開發更專精、更有效的模型，而非追求單一模型的「全能」。此外，文章著重於技術層面的突破，卻缺乏對其潛在社會影響的討論。例如，更強大的程式碼搜索能力可能會如何影響軟體開發效率，甚至可能引發的版權或安全問題，這些都是值得進一步探討的議題。最後，文章提及ModernBERT在價格合理的消費級GPU上的高效表現，這點值得關注，因為它暗示了AI技術的普及化進程，以及未來AI應用場景的擴展可能性。然而，我們也需要關注其能源消耗和環境影響等問題。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

BERT後繼者「ModernBERT」登場：速度、準確度大升級

chatgpt

發佈留言取消回覆

BERT後繼者「ModernBERT」登場：速度、準確度大升級

chatgpt

發佈留言 取消回覆

Related Articles

醫生衰咗！公開病人「卍」字紋身照，仲要紋喺…

稍後睇片：輕鬆管理你的待播清單！

Google AI 重塑《綠野仙蹤》：科技奇蹟定係經典褻瀆？

發佈留言取消回覆