即日起至12月31日免費使用
登入密碼: ssfuture
每小時限30條問題
此程式所有對話紀錄都是暫存在你的browser暫存空間,所以你是無法看到其他人的對話紀錄,其他人亦不會見到你的對話紀錄。
Llama-3.1-Nemotron-70B-Instruct 模型簡介
模型概觀
Llama-3.1-Nemotron-70B-Instruct 是由 NVIDIA 專門客製的大型語言模型,其主要目標是提升大語言模型(LLM)生成響應對用戶查詢的幫助程度。
性能表現
該模型在多個權威基準測試中展現出色的成績,具體包括:
- Arena Hard
- AlpacaEval 2 LC
- GPT-4-Turbo MT-Bench
排名
截至 2024 年 10 月 1 日,在所有三個自動對齊基準測試中,Llama-3.1-Nemotron-70B-Instruct 模型穩居第一的榮譽榜單。
訓練細節
HelpSteer2-Preference 提示
基礎模型:Llama-3.1-70B-Instruct
訓練方法:基於 RLHF(強化學習從人類反饋),特別是 REINFORCE
訓練資料:
Llama-3.1-Nemotron-70B-Reward