DeepSeek又有重大突破 開源大模型性能卓越

DeepSeek發布了新一代開源大模型DeepSeek-R1。該模型在數學、代碼、自然語言推理等任務上的性能與美國OpenAI公司的最新o1大模型相當。依據數據,DeepSeek-R1在算法類代碼場景(Codeforces)和知識類測試(GPQA、MMLU)中的得分略低于OpenAI o1,但在工程類代碼場景(SWE-Bench Verified)、美國數學競賽(AIME 2024, MATH)項目上表現更優。

與之前發布的DeepSeek-V3相比,DeepSeek-R1在AIME 2024和Codeforces中的得分提升了近一倍,其他方面也有所提升。深度求索更新了用戶協議,明確模型開源許可將使用標準的MIT許可,并允許用戶利用模型輸出訓練其他模型。數據顯示,在基于DeepSeek-R1進行“蒸餾”的6個小模型中,32B和70B模型在多項能力上對標了OpenAI的o1-mini。

深度求索表示,DeepSeek-R1后訓練階段大量使用了強化學習技術,在極少人工標注數據的情況下顯著提升了模型推理能力,幾乎跳過了監督微調步驟。這使得DeepSeek-R1能夠自我優化,生成更符合人類偏好的內容。盡管強化學習需要大量反饋且計算成本高,但其優勢在于不依賴高質量的人工標注數據。

值得注意的是,深度求索還開發了一個完全通過大規模強化學習替代監督微調的大模型DeepSeek-R1-Zero,但因存在一些問題未對外公開。工作人員發現,在自我學習過程中,DeepSeek-R1-Zero出現了復雜行為,如自我反思、評估先前步驟、自發尋找替代方案的情況,甚至有一次“尤里卡時刻”。這種現象表明模型學會了用擬人化的語氣進行自我反思,并主動為問題分配許多時間重新思考。

盡管DeepSeek-R1-Zero展示出強大的推理能力,但也出現了一些語言混亂及可讀性問題。為此,深度求索引入數千條高質量冷啟動數據和多段強化學習來解決這些問題,最終推出了正式版的DeepSeek-R1。目前,DeepSeek-R1 API服務定價為每百萬輸入tokens 1元(緩存命中)/4元(緩存未命中),每百萬輸出tokens 16元。

? 版權聲明
評論 搶沙發
加載中~
每日一言
不怕萬人阻擋,只怕自己投降
Not afraid of people blocking, I'm afraid their surrender