91视频观看-91视频观看免费-91视频免费网址-91视频免费网站-国产日产欧产精品精品推荐在线-国产日产欧美a级毛片

關于ZAKER 合作
鈦媒體 昨天

Gemini 2.5 彎道超車背后的靈魂人物

文 | 硅谷 101

從去年在大會前夜被 OpenAI 的 4o 模型 " 精準狙擊 ",到今年 Gemini 2.5 Pro 全面霸榜。短短一年時間,Gemini 是如何完成從追趕者到領跑者的逆轉?

《硅谷 101》創始人泓君邀請了 Energent.ai 聯合創始人 Kimi Kong 和 HeyRevia 創始人 Shaun Wei,一起和兩位前 Google 的技術專家聊聊 Gemini 模型登頂背后的底層邏輯。

以下是這次對話內容的精選 :

01 Gemini2.5 崛起背后的底層邏輯

泓君:谷歌此次發布的 Gemini 2.5 Pro,在當前各項評測中的數據都是所有大模型中最好的,Kimi 你可以分析一下它是如何做到的嗎?

Kimi:我已經離開 DeepMind 快一年時間了,也不太清楚我的前同事們在這一年中又做了哪些新的創新。但大語言模型訓練根本的步驟是不變的,包括以下三點:Pre-training(預訓練)、SFT (Supervised Fine-tuning,監督微調)和利用 RLHF(基于人類反饋的強化學習)技術做的 Alignment(對齊)。

大概在去年的 NeurIPS(神經信息處理系統大會)上,業內已經普遍承認,公開網絡數據基本都已經抓完了,就像化石燃料已經被消耗殆盡一樣。因此,在過去這一年里,更多精力其實是投入到了對齊階段,特別是強化學習方向,尤其是在 " 人類反饋 " 和 "AI 反饋 " 上的探索。比如在數學和編程類這類目標清晰且可驗證的任務上。

對于 Google 來說,從 Gemini 1 到 1.5 再到 2,已經積累了相當堅實的基座模型訓練經驗。再加上 Google 開始更加重視強化學習的作用,不只是依賴人類反饋,而是啟動了一種 " 讓 AI 批判 AI" 的機制。就像當年 AlphaGo 的成功,它的核心突破點就在于下出 " 第 37 手 " 那樣超越人類常規理解的棋步,是 AI 突破人類認知的體現。

所以我認為,未來的 AI 模型需要在強化學習中能實現 " 自我判斷正確性 "。而在 Gemini 2.5 的訓練過程中,很可能正是引入了更多此類強化學習策略,才使它在編程、數學等高確定性任務中,展現出如此令人驚艷的表現。

泓君:對,在去年大模型的訓練中出現了一個比較明顯的趨勢,各家都在預訓練基礎上加入了后訓練。比如 OpenAI 的 o1 系列和 DeepSeek 的 R1,都在推理任務上表現得很好。雖然 Anthropic 在很長一段時間內,并沒有新推出推理模型,但 Sonnet 3.5 和 3.7,它們在代碼能力上出現了明顯的質變。這也帶動了 Cursor、Windsurf 這樣一批編程類 Agent 的迅速崛起。這次發布會 Google 也特別強調了自己在代碼生成上的質量提升。

我一直很好奇的一點是:為什么 Anthropic 生成的代碼質量,明顯優于其他家?代碼質量的提升,主要是靠什么能力實現的?

Kimi:我還是從我剛提到的三個步驟展開。首先在預訓練階段,大家一定會面臨數據配比的問題:比如要放多少代碼,多少自然語言進去,其中中文和英文分別占多少等等。這件事現在并沒有任何行業共識,沒有人知道最優比例是什么。但我猜,對于 Anthropic 來說,代碼的優先級是最高的。它們在預訓練時可能就投入了大量高質量的代碼數據,所以模型在基座層面的編程能力非常強。

接下來是對齊環節,在大公司里,我們私下會調侃它像是一個 YOLO RUN(快速整合、節奏緊湊的大模型訓練迭代方式)。比如今天我們三位分別在 Google 不同的團隊,每個人在各自的方向上推進各類創新,然后我們定一個節奏,比如兩周,把所有成果整合起來跑一個版本,看看最終迭代出了什么。這就意味著,模型在對齊的時候,不同團隊的優先級是不同的。有的團隊注重寫作能力,有的注重數學能力。

我猜 Anthropic 的內部認為編程是第一優先級,也可能他們認為編程是解決推理模型的鑰匙。所以無論是在預訓練階段,還是在后續的監督微調、強化學習環節,它們都傾向于引入更多的編程訓練進去。這樣會讓它在 Coding 能力上表現好,但是這樣做也會導致它在別的能力上稍有欠缺。

我舉個我自己最近經歷的有趣的例子。作為初創公司的創始人,我現在每天不只是寫代碼,也要做市場、銷售、寫文案的工作。我經常會用同一段提示詞,分別輸入給 Gemini、ChatGPT、Claude、Perplexity,比如讓它們都輸出一段市場營銷的文案。結果我對比發現,OpenAI 寫出來的內容最有調性,讓我很愿意直接用。Claude 寫的文案就會顯得特別枯燥,像是在和一個無聊的碼農聊天,這是策略問題。

大語言模型的訓練本來就是人們常說的:垃圾進,垃圾出。如果你喂進去大量高質量代碼,自然產出的代碼質量也會高,這還是數據配比的問題,我認為 Anthropic 在代碼問題上思考的更多。

泓君:主要也是看團隊把哪一塊放成是重點,你覺得 DeepMind 之前的重點在哪里呢?

Kimi:我覺得其實 DeepMind 一直追求的是一種綜合能力,包括在編程、數學、推理、寫作等多個維度上都具備較強的表現。所以我們會設定一套通用的評估指標體系,用于覆蓋多個不同的評估維度。

不過我也知道,我們過去確實有些能力是相對薄弱的,比如寫代碼。也正因為如此,整個團隊在編程上投入了更多的精力和資源。這一輪我認為在代碼能力上算是追上了 Anthropic。

泓君:推理能力呢?也是取決于重視程度,還是需要在后訓練階段加入一些特別的技巧?

Kimi:我在 Google 的時候,Google 還沒有開始它的推理模型,但我離開 Google 的時候,是 OpenAI 的 o1 剛開始出來的時候,當時 Google 推理模型還沒有排在優先級很高的位置上,Google 當時還是在追趕 OpenAI 的寫作能力和問題解決能力。

OpenAI 剛出的時候,大家都很喜歡它輸出的內容,所以 Google 最早做的是要追上 OpenAI 在人類偏好這方面的輸出質量。但人類偏好的數據是非常有限的。所以后來大家開始思考:還有什么能力是更可量化、也更容易做出突破的? 答案就是編程。

Anthropic 在這方面做出了突破之后,Google 接著也意識到,不能只輸出人類偏好的內容,我還要寫出非常牛的代碼。而當大家都寫出非常牛的代碼之后,OpenAI 又把重點轉向了推理。它認為不能只是想寫出人喜歡的內容,不能只是寫出好的代碼,還要做出邏輯嚴密的模型,能讓用戶真正看懂問題是怎么被解決的。

當這件事做成之后,目前我覺得 Google 已經開始憑借推理能力,在引領這股潮流了,讓別人成為了追趕者。

泓君:在數學能力方面,我注意到 Grok 的表現挺不錯的,XAI 的模型。它們的創始團隊里有很多非常頂尖的數學家,而且一直在嘗試解決一些全球最難的數學問題。

Kimi:我的數學能力沒有辦法達到這個頂尖數學家的水平,這是一個 " 先有雞還是先有蛋 " 的問題,你需要人有這個能力,才能評價模型好不好。我作為軟件工程師,只有能力評價代碼能力。但這個能力也分兩個方面:模型是擅長寫出商業可用的代碼,還是只是擅長寫代碼這件事本身。

我記得 Anthropic 聯合創始人 Dario 曾經說過一句很有意思的話:" 我不希望我的編程模型只是能解決 LeetCode 題目。" 因為 LeetCode 的題目本身不具備直接的商業價值。他希望編程模型生成的高質量代碼,能直接進入像 Shaun 或者我們這樣的初創公司的生產流程。這也是 Anthropic 非常專注的方向。

再說回數學問題本身。我覺得也分成兩方面:一方面,有一部分人確實需要解決高難度的奧數題,這是模型能秀肌肉的地方。但另一方面,如何把這些數學問題接入不同的創業公司,從而創造商業價值。這可能是很多商業公司需要思考的問題。

02 三位靈魂人物撐起 Gemini

泓君:你覺得誰是 DeepMind 的靈魂人物?谷歌模型的價值觀會更偏向誰?

Kimi:" 谷歌是誰 " 這個問題挺有意思的。我的理解是,在 Gemini 之前,Google 的模型基本是由 Jeff Dean 和 Oriol Vinyals 共同主導的,他們也是 Google 的靈魂人物。

Jeff Dean 可以說是計算機科學界的 " 活化石 "。我們經常開玩笑說,他如果要寫簡歷,可能直接寫 " 沒做過什么 " 比寫 " 做過什么 " 還要短很多。因為 Jeff Dean 實在做了太多事,所以只需要寫他 " 沒做過什么 ",這樣可以在一頁上寫完他所有的人生成就。

Jeff Dean 非常擅長對集群大量地調度,就是預訓練。Oriol 則是 AlphaGo、AlphaStar、AlphaZero、MuZero 這些項目的靈魂人物,他作為 DeepMind 的代表,在強化學習方面的研究更深入。

所以基于 Google 擅長的預訓練,加上 DeepMind 擅長的強化學習與對齊,使得 Google 能快速地追趕上競爭對手的步伐。

后來,隨著 Google 收購 Character.AI,也重新贏回了 Noam Shazee。他可能是我最敬重的一位人物,因為他是長期深耕在自然語言處理領域的,從他寫的《Attention Is All You Need》,到后來的提出的 Grouped Query Attention。

這三位巨頭形成三足鼎立的格局,把預訓練、強化學習、語言能力整合成一個有機的、迭代的整體流程,使模型能力不斷得到提升,讓 Google 也變得更好。我對這三位也都非常崇拜,我覺得 Google 這一波能快速趕上競爭對手,也是依靠這三位的能力,包括 Jeff Dean 代表預訓練與基礎設施的能力,Oriol 代表對齊與強化學習的能力,Noam 代表自然語言處理的能力。

Kimi:我覺得在 Google Brain 和 DeepMind 還沒有合并之前,兩邊的思路是完全不同的。DeepMind 強化學習的能力非常強,這也是 Google 收購它的原因。而 Google 瞬間調度大量資源來規模化訓練的能力是非常強的,包括預訓練與監督微調能力也很厲害。

最終我覺得這是一次強強聯手的過程,Google 和 DeepMind 把彼此最擅長的領域整合了起來。

我覺得 Demis 在團隊里扮演的角色更多是管理者和領導者。比如,我以前做 IC(Individual Contributor,個人貢獻者)的時候,每天的工作只需要把代碼寫好就可以了。但當我真的去運營一家公司的時候就會意識到:真正難的不是完成任務,而是要怎樣激勵一群極其聰明的人,朝著同一個方向努力。

這其實是非常有挑戰性的。因為越聰明的人,往往越有自己非常強的想法,他們是不愿意聽從他人的指令的。而我覺得 Demis 在這方面做得非常好,他能把兩個剛剛整合的公司團結成一個整體。并且能讓所有人都發揮出最擅長的能力,一起朝著實現 AGI(通用人工智能)的目標共同努力。

泓君:Jeff Dean 和 Demis 之間的關系是怎么樣的?

Kimi:Jeff Dean 現在是首席科學家,Demis 是 Google DeepMind 的 CEO。我不確定現在如何,我記得我走的時候 Demis 和 Jeff Dean 都直接向 Sundar Pichai 匯報。

泓君:我看 Sergey Brin 在 2023 年的時候也回來了,不過最近才開始高調亮相。你覺得作為 Google 的創始人之一,他的回歸會帶來什么變化嗎?

Kimi:我覺得 Sergey Brin 帶給 Google 的,更多是一種 "Founder Mode",也就是創始人的工作狀態。他讓大家明白要以什么樣的投入和方式,去完成這項工作。

如果創始人都親自回來做這件事了,而且一周在辦公室待 60 個小時,那你作為 Google 的一名員工,難道好意思只干 40 小時就回家嗎?而且據我所知有些團隊是真的一周工作 60 個小時的。比如我有朋友在圖像生成團隊,他們提到過,Sergey Brin 有一次突然說:"Meta 又發新模型了,我們的模型什么時候能出來?" 大家一聽,心想:" 得了吧,周末加班吧。" 所以我覺得他的回歸更多的是帶來 "Founder Mode",能非常鼓舞大家的士氣。

泓君:Shaun 你怎么看 Gemini 2.5 Pro?

Shaun:我覺得 Kimi 把該講的、不該講的,都已經講得非常好了,我就從一個相對 " 外部 " 的視角補充一些,畢竟我也在 Google 工作過。

大家都知道 Google 的人才密度非常高,但大部分人其實都處在一個比較 " 躺平 " 的狀態。因為廣告太賺錢了,很多團隊并不需要太拼命。但這波 AI 浪潮真的起來之后,特別是去年 OpenAI 搶了 Google 不少風頭,再加上 Sergey Brin 回歸帶來的 "Founder Mode",整個 Gemini 團隊的士氣都非常高漲。大家其實都為了拼一口氣:如果 AGI 真的有人能做出來,那是不是就應該是 Google。

因為 Google 有全球最強的計算機,有最優秀的人才,還有接近無限的資源,現在連創始人都親自沖回來了。站在外部來看,這一波 Gemini 的崛起其實就花了一年時間。從去年的 I/O 被 OpenAI 搶了風頭,到今年的 Gemini 2.5 直接霸榜,所有都是第一名,連 OpenAI 可能今年也沒辦法再搶風頭了。

03 Google API 價格優勢揭秘

泓君:大家現在都能看到 Gemini 的模型做得很好,但很久之前,我記得在 OpenAI 和 Anthropic 的 API 價格還很高的時候,Gemini 就把 token 價格就降到了大概只有 OpenAI 的五分之一、甚至十分之一。不過后續是否它也反向促使 OpenAI 和 Anthropic 跟著降價,我沒有特別去跟進現在最新的數據。

但整體來看,在開發者社區里面,大家都知道 Gemini 的 API 接入成本和 token 使用成本是非常低的。我也很好奇,Google 是如何把這個價格降下來的?

Shaun:我認為主要有三方面的原因。

第一,Google 大概從十年前就開始大量投入 TPU 了。當時它們就很清楚,如果整個 Google Cloud 發展起來后,就沒辦法不停地向 NVIDIA 或 AMD 采購 GPU。所以 Google 從十年前就開始慢慢地深耕 TPU 生態,而且 TPU 的迭代速度在近幾年也明顯變快了。因為現在需求量非常大,如果擁有自己的 TPU,就可以避開所謂的 "NVIDIA 稅 ",也不用等 NVIDIA 新的 GPU 出來之后和市場搶貨。

第二是大家都知道 Google Infra(基礎設施)的能力非常強,所以相當于擁有幾乎無限的資源。而且 Google 動態調度資源的能力也是遠強于 OpenAI 和 Anthropic 的,因為這兩家目前還沒有自己的數據中心。Grok 現在很強,做出了全球最大 GPU 集群。但行業內大多數 AI 公司還是沒有調動如此大的集群的能力的,還是需要依賴 Amazon、Microsoft 這些第三方云服務來做這些事情。

第三,因為 Google 能夠自行定制硬件,又能調用巨大的集群資源,在優化模型時就相當于軟硬件一體化了,因此在硬件上發揮出的能力也會更強。并且 Google 還有自己整個開發者生態。

Kimi:我非常同意 Shaun 說的,Google 內部的 Infra 能力確實非常強。很早之前,SemiAnalysis 出過一篇很有意思的報告,對不同的 GPU 云服務進行了打分和排名。當時它們把 CoreWeave 排在了第一,我知道 OpenAI 用的就是 CoreWeave 來做整個 GPU 調度的。當時我還跟我的聯合創始人開玩笑說,其實在 CoreWeave 之上還有一個,最牛的應該是 Google 自己內部的系統,它的 Infra 能力真的非常強。

關于 API 的價格,雖然我們現在都覺得 API 價格已經很便宜了,但其實我們都并不知道它的成本價是多少。唯一一個我們能看到的線索,是之前 DeepSeek 發布的一篇論文,里面提到:DeepSeek 有 80% 的溢價空間,說明它的成本價格只有收取費用的 20% 左。

對比 DeepSeek 用的 GPU 的體量,我們可以反推 OpenAI 的利潤一定是非常高的。當然,我不是說 Google 的 API 一定是成本價,但它確實有足夠的資本和能力去這么做。

相關標簽

覺得文章不錯,微信掃描分享好友

掃碼分享

熱門推薦

查看更多內容
主站蜘蛛池模板: 久久精品视频在线 | 午夜国产精品久久久久 | 免费播放美女一级毛片 | 国产三级精品久久三级国专区 | 久久国产三级精品 | wwwxx在线| 欧美成人猛男性色生活 | 国产欧美一区二区成人影院 | 免费人成黄页网站在线观看国产 | 成年人在线观看免费 | 国产午夜精品理论片免费观看 | 欧美视频三级 | 538在线视频二三区视视频 | 一级毛片国产 | 国产亚洲福利一区二区免费看 | 国产亚洲人成网站观看 | 国模肉肉人体大尺度啪啪 | 九九在线精品 | 在线はじめてのおるすばん | 国产三级视频在线 | 亚洲一区二区三区免费视频 | 久久综合精品国产一区二区三区 | 美国成人免费视频 | 国产日韩一区二区三区在线观看 | 亚洲欧美成人综合在线 | 亚洲欧美日韩在线一区二区三区 | 美女动作一级毛片 | 成年网站在线在免费播放 | 美女张开腿 | a毛片免费视频 | 国产一区二区三区四区五区tv | 日韩国产在线观看 | 欧美激情亚洲一区中文字幕 | 免费看香港一级毛片 | 蜜桃日本一道无卡不码高清 | 全部精品孕妇色视频在线 | 亚洲一级黄色毛片 | 看久久 | 亚洲精品一区二区三区四区 | 成年人毛片网站 | 九色自拍视频 |