還沒等來 DeepSeek-R2,DeepSeek-R1 昨天晚上先悄悄更新了一波。
和上次 V3-0324 版本一樣,這回 DeepSeek 又又又往 Hugging Face 上默默扔了一個 DeepSeek-R1-0528,Model Card 和官方的更新公告都沒出。
而在大伙兒還沒反應過來的時候,R1 新版本已經是大模型熱搜榜的第一了。
由于每次 DeepSeek 都喜歡趕在中國傳統節日前后出點新東西,國外網友已經開始從國慶和端午的放假時間,來推測發布日期了。。。
值得一提的是,今天也是 NVIDIA Q1 財報發布的日子。遙想上次 R1 技術報告給大模型訓練算力帶來的拷打,還好這次只是 DeepSeek 小更,并沒有公布算力信息,不然真的有點難繃。
話說回 R1 這次更新,DeepSeek 官方表示,R1-0528 的推理性能大幅提升、前端開發能力更強、工具使用能力更智能。
精彩的東西咱放在前面看,我們本來以為這只是一次普通的測試,沒想到事情沒那么簡單。。。
世超給 R1 的提示詞只有簡單的:" 請給我寫一篇 10000 字的科幻小說。" 其余從文章的大綱到內容全是它自己完成。
話不多說,大家直接看文吧:
此刻,世超只恨不能把全篇小說截給大家,感興趣的差友可以去文末鏈接閱讀全文。
作為一篇懸疑科幻小說,DeepSeek 行文流暢,科幻氛圍濃厚,人物描寫細致入微,從情節到邏輯都無可挑剔。
寫出這樣的故事,DeepSeek 只思考了 40 秒。
而一直以來被大家認為文字功底很強的 Gemini 2.5 pro 表現一般,寫出來的小說像是辭藻堆砌,有些晦澀難懂。
難道失業的風也要吹到。。。世超表示瑟瑟發抖。
咱再說說代碼生成上的更新。其實 R1-0528 的代碼能力也有顯著的提升,只不過比起它的長文本生成,就有點不夠看了。
在大模型代碼能力測試基準 LiveCodeBench 上,DeepSeek-R1-0528 已經躍升到了榜單第四,略遜于 o4-Mini(Medium),但和 o3-Mini 打得有來有回,直接被閉源的 OpenAI 包圍了。
各位差友可能還有印象,之前咱評測 V3-0324 版本的時候也把老 R1 拿出來溜了溜,結果那時候 R1 的表現非常拉垮。
不過,這次 R1-0528 的表現確實出乎意料,比起老 R1 好了不是一點半點。
左邊舊 R1,右邊 R1-0528
除了物理效果提升,R1-0528 生成的界面也很美觀,甚至可以自定義重力強度、旋轉速度、彈性系數、摩擦系數的參數,還能實時看到小球運動的各種物理參數。
世超還看到有網友說 R1-0528 能和 Claude Sonnet 4 碰一碰。記得上次測 V3-0324 的時候,Claude Sonnet 3.7 贏得很徹底。不知道這回 DeepSeek 的前端審美有啥優化?
測試完世超覺得,R1 真的沒輸。
我們給兩個模型分別只一次機會,相同的提示詞,生成的結果該是啥樣就是啥樣,不能重來。
首先從畫面美觀度和功能完整度來說,兩者算打個平手。R1-0528 的界面明顯不像 V3 時期那么簡陋了。功能方面,Sonnet 4 有的,R1-0528 通通都有,R1 還貼心地加上了使用說明。
左 DeepSeek-R1-0528,右 Claude Sonnet 4
總的來說,這次更新 DeepSeek 依然延續了他們過往的風格:輕描淡寫小更一下,但是整個大活兒。
DeepSeek-R1-0528 不管是縱向和自己比,還是橫向和其它大模型比,表現都絲毫不輸,甚至在中文長文本生成方面一騎絕塵。
世超覺得,這次 DeepSeek 帶來的驚喜,讓我們對國產大模型又有了新的期待。DeepSeek-R1-0528 向我們展示了,它們不僅可以和閉源模型卷性能,還有不可替代的本土化優勢。
最后,想體驗的差友,現在上官網就能用到 R1 最新的 0528 版本啦。
來源:差評 XPIN