來源:新智元
它急了,它急了!
就在昨天,美國各方頻頻發出對DeepSeek‘偷竊數據’的指控。
先是特朗普的AI事務主管David Sacks聲稱,有所謂‘確鑿證據’表明DeepSeek利用了OpenAI模型的輸出數據來開發自身技術。
然后微軟的研究人員就跟著站出來表示,與DeepSeek相關的個人,曾在去年秋天使用OpenAI的API大規模提取數據。
剛剛, Anthropic CEO Dario Amodei也發出了長篇檄文:DeepSeek的進展表明,美國應該加強對華芯片出口管制!
不僅如此,美國還針對DeepSeek的線上服務,進行不間斷的大規模攻擊。
直到目前,API和網頁對話服務都還處于異常狀態。
據悉,美國海軍已向相關人員發出郵件示警,提醒‘不得以任何形式下載、安裝或使用DeepSeek模型’。
而作為美國忠實‘盟友’的意大利,也在第一時間跟進了制裁——直接把蘋果和谷歌應用商店里的DeepSeek APP,全給下架了。
蘋果App Store向意大利用戶顯示的通知稱,該應用‘目前在您所在的國家或地區不可用’。谷歌應用平臺則顯示在意大利‘不支持’下載。
微軟和OpenAI:DeepSeek偷我們數據,有證據
DeepSeek僅用了2048塊英偉達H800,投入560萬美元,就訓出了約6710億參數的V3模型,由此引發前所未有的風暴。
彭博社表示,如今微軟和OpenAI已經在展開調查,DeepSeek是否曾以未經授權的方式,獲得了OpenAI的數據輸出。
他們表示,這類活動可能已經違反了OpenAI的服務條款,或者說相關團體正在試圖繞過OpenAI對可獲取數據量的限制。
知情人士透露,微軟作為OpenAI的技術合作伙伴及其最大投資者,已將此事透露給了OpenAI。
彭博社這樣描述DeepSeek-R1模型引起的轟動效應:‘這一潛在威脅動搖了美國科技公司的行業領先地位,導致與AI相關的科技股大跌,包括微軟、英偉達、甲骨文以及谷歌母公司Alphabet。本周一,這些公司的市值合計蒸發近1萬億美元。’
特朗普的AI事務專員David Sacks周二表示,已有‘證據’表明DeepSeek利用了OpenAI模型的輸出來開發自己的技術。
在接受福克斯新聞采訪時,Sacks表示,DeepSeek利用蒸餾技術獲得了能力,即一個AI模型使用另一個模型的輸出進行訓練。
‘有確鑿證據表明DeepSeek通過蒸餾技術提取了OpenAI模型的知識,而我認為OpenAI對此并不高興。’
不過,到底都有哪些證據,卻只字未提。
OpenAI:正在展開調查
而針對Sacks的言論,OpenAI也在一份聲明中表示,中國的一些團隊‘正在使用包括蒸餾在內的方法,試圖復制美國先進的AI模型。’
我們已經注意到DeepSeek可能不當蒸餾我們模型的跡象,正在對之審查,并將在掌握更多信息后進行分享。
我們正在采取一系列保護措施來維護知識產權,包括謹慎評估在發布模型時應包含哪些前沿技術能力。
我們認為,與美國政府保持密切合作對于保護最先進的模型至關重要,這可以防止競爭對手和其他相關方獲取美國的核心技術。
在業界,蒸餾其實是一種常見做法。
但在OpenAI但服務條款中,有這么一條規定:用戶不得‘復制’其任何服務或‘使用輸出來開發與OpenAI存在競爭的模型’。
業內人士透露,中美兩國的AI實驗室,普遍都會用OpenAI模型的輸出內容。畢竟OpenAI斥巨資雇傭了人員訓練模型產生更接近人類的響應,這種人類對齊訓練成本高昂,需要大量人力。
UC伯克利的AI博士生Twik Gupta就表示:‘初創公司和學術界普遍會使用ChatGPT等經過人類對齊的商業LLM輸出,來訓練新模型。這相當于免費獲得了人類反饋這個訓練環節。’
DeepSeek是‘克隆’?LeCun轉發:不懂別瞎說
對于這些流傳甚廣的說法,LeCun前幾日就轉發了Perplexity CEO Aravind Srinivas的帖子,表示澄清。
Aravind Srinivas寫道,很多人以為中國克隆了OpenAI的成果,他們明顯對模型訓練方式的理解很片面。
DeepSeek已經找到了強化學習微調的方法,他們的‘DeepSeek-R1 Zero’論文中,也沒有使用監督微調。
隨后,他們結合了一些SFT,并通過良好的拒絕采樣(即過濾)來增加領域知識。
DeepSeek-R1之所以表現出色,主要原因在于它是從零開始學習推理能力,而不是簡單模仿人類或其他模型。
機器學習大牛Sebastian Raschka也對于這種說法表示駁斥。
他表示,在LLM的背景下,‘蒸餾’這個術語的使用已經相當寬泛。
團隊只是為SFT創建并整理了一個數據集,用于訓練基于Qwen和Llama的R1模型。
Anthropic CEO長篇檄文:加大制裁力度,趕緊的
Anthropic CEO Dario Amodei也剛剛發出萬字檄文,對美國政府發出警告——
DeepSeek的崛起,就證明美國對華的芯片管制應該繼續加碼!
有趣的是,針對Amodei的行為,LeCun轉發了以下這個梗圖。
檄文全文如下。
出口管制肩負著一個重要使命:確保我們在AI發展中保持領先地位。為此,美國及其盟友的AI公司就必須開發出比中國更優秀的模型。
幾周前,我曾提出加強美國對華芯片出口管制的理由。緊接著,DeepSeek就以更低的成本,實現了接近美國前沿AI模型的性能。
結合這些情況來看,我認為加緊出口管制,比一周前顯得更重要了!
AI發展的三個動態特征
在闡述政策主張之前,我將描述AI系統的三個基本動態特征。
1. Scaling Law
AI的一個特性,就是在其他條件相同的情況下,擴大AI系統的訓練規模會導致在各類認知任務上的性能平穩提升。
例如,一個100萬美元的模型可能解決20%的重要編程任務,1000萬美元的可能解決40%,1億美元的可能解決60%,以此類推。
這些差異在實踐中往往帶來重大影響——再增加10倍投入,可能意味著從本科生到博士水平的跨越——因此各公司都在大力投資訓練這些模型。
2. 曲線位移
AI領域正不斷涌現大大小小的創新理念,使系統變得更有效或更高效:可能是模型架構的改進,或只是優化模型在底層硬件上的運行方式。
新一代硬件同樣具有這種效果。
這通常會導致曲線位移:如果創新帶來2倍的‘計算乘數’(Compute Multiplier,CM),那么只需500萬美元而非1000萬美元就能在編程任務上達到40%的成功率;或者用5000萬美元而非1億美元達到60%的成功率。
每家前沿AI公司都經常發現這樣的算力倍增效應:通常是小幅度的(約1.2倍),有時是中等規模的(約2倍),偶爾會有顯著的(約10倍)。
由于更智能系統的價值極高,這種曲線位移往往促使公司增加而非減少模型訓練投入:成本效率的提升將完全用于訓練更智能的模型,僅受限于公司的財務資源。
人們通常會有‘先貴后便宜’的思維模式——仿佛AI是一個質量恒定的單一產品,變得更便宜時就能用更少的芯片來訓練。
但關鍵在于規模曲線(scaling curve):當曲線位移時,我們只是更快地達到目標,因為終點的價值無比重要。
2020年,我的團隊就發表論文指出,算法進步帶來的曲線位移每年約為1.68倍。這個速度現已顯著提升,且尚未考慮效率和硬件因素。
我估計現在這個數字可能達到每年4倍。訓練曲線的位移也會帶動推理曲線位移,因此多年來在保持模型質量不變的情況下,價格持續大幅下降。
例如,比GPT-4晚15個月發布的Claude 3.5 Sonnet,在幾乎所有基準測試中都超越了GPT-4,而API價格僅為后者的十分之一。
3. 范式轉變
有時,被擴展的基礎要素會發生變化,或訓練過程中會引入新的擴展類型。
2020年至2023年間,擴展主要集中在預訓練模型上:這些模型在海量互聯網文本上訓練,只需少量額外訓練。
到了2024年,使用強化學習(RL)訓練模型生成思維鏈已成為擴展的新焦點。
Anthropic、OpenAI、DeepSeek等公司發現,這種訓練顯著提升了模型在特定、可客觀衡量的任務(如數學、編程競賽)及類似推理任務上的表現。
這種新范式始于常規預訓練模型,然后在第二階段使用RL添加推理能力。
值得注意的是,由于這種RL方法較新,我們仍處于擴展曲線(scaling curve)的早期:所有參與者在第二階段RL上的投入都相對較小。從10萬美元增加到100萬美元就能帶來顯著提升。
DeepSeek-R1不值一提
上述三個動態特征可以幫助我們理解DeepSeek最近發布的模型。
大約一個月前,DeepSeek發布了名為‘DeepSeek-V3’的純預訓練模型。隨后在上周,他們又發布了添加第二階段訓練的‘R1’模型。
雖然從外部視角難以完全掌握這些模型的所有細節,但以下是我對這兩次發布的深入理解。
DeepSeek-V3的發布堪稱重大創新,這本應在一個月前就引起業界廣泛關注。
作為一個預訓練模型,它在某些重要任務上的表現已經接近美國最先進的模型,同時顯著降低了訓練成本。
DeepSeek團隊通過一系列令人印象深刻的創新實現了這一突破,主要集中在提升工程效率方面。他們在‘鍵值緩存’(Key-Value cache)管理方面做出了特別創新的改進,并且將MoE方法推進到了前所未有的水平。
然而,我們需要仔細審視:
DeepSeek并非‘只用600萬美元就做到了美國AI公司需要數十億美元才能做到的事’。
Claude 3.5 Sonnet是一個中等規模的模型,訓練成本在數千萬美元級別(具體數字不便透露)。此外,3.5 Sonnet的訓練過程完全沒有涉及更大或更昂貴的模型(與某些傳言相反)。
Sonnet的訓練是在9-12個月前進行的,而DeepSeek的模型是在去年11、12月訓練的,但在眾多內部和外部評估中,Sonnet仍然保持明顯領先。
因此,一個客觀的說法是:‘DeepSeek以較低的成本(但遠未達到外界猜測的比例)開發出了一個性能接近7-10個月前美國模型水平的產品’。
如果成本曲線的歷史下降趨勢是每年約4倍,這意味著在正常業務發展過程中——即在 2023年和2024年出現的常規成本下降趨勢中——我們預計現在會出現比3.5 Sonnet/GPT-4便宜3-4倍的模型。
由于DeepSeek-V3不如這些美國前沿模型——在擴展曲線上大約差了2倍,這個估計對DeepSeek-V3來說已經相當寬容——這表明如果DeepSeek-V3的訓練成本比一年前開發的美國當前模型低約8倍,這完全符合預期。
我不會給出具體數字,但從前面的分析可以清楚看出,即使按照表面價值來看DeepSeek的訓練成本,他們最多只是符合行業趨勢,甚至可能還達不到這個水平。
例如,這比原始GPT-4到Claude 3.5 Sonnet的推理價格差異(10倍)還要小,而且3.5 Sonnet是比GPT-4更優秀的模型。
這些都表明,DeepSeek-V3并非獨特的突破,也不是從根本上改變LLM經濟學的創新;它只是持續成本降低曲線上的一個預期點。
這次的特殊之處在于,首先展示預期成本降低的是一家中國公司。這種情況前所未有,具有重要的地緣政治意義。
然而,美國公司很快就會跟進——他們不是通過復制DeepSeek,而是因為他們同樣在實現常規的成本降低趨勢。
DeepSeek和美國AI公司目前都擁有比訓練其主打模型時更多的資金和芯片。
這些額外的芯片用于研發模型背后的理念,有時也用于訓練尚未成熟的更大模型(或需要多次嘗試才能完善的模型)。
據真實性未經證實的報道,DeepSeek擁有50,000片Hopper芯片,我估計這在規模上與主要美國AI公司相差約2~3倍。
因此,DeepSeek作為一家公司的總投入與美國AI實驗室的差距并不顯著。
值得注意的是,‘擴展曲線’分析可能過于簡化,因為不同模型各有特色,優劣勢各異;擴展曲線的數據只是一個忽略了諸多細節的粗略平均值。
正如前文所述,Claude在編程能力和人機交互設計方面表現卓越。在這些及其他特定任務上,DeepSeek與之相比仍有較大差距。這些優勢特性并未反映在擴展曲線的數據中。
上周發布的R1模型引發了公眾的廣泛關注,但從創新或工程的角度來看,它遠不如V3具有研究價值。
R1增加的第二階段訓練(強化學習),是復制了OpenAI在o1上所做的工作。
然而,由于我們仍處于模型‘擴展曲線’的早期階段,只要以一個強大的預訓練模型為基礎,多家公司都有可能開發出這類模型。在已有V3的基礎上,開發R1的成本可能相當低。
因此,我們正處于一個關鍵的轉折點,即暫時出現了多家公司都能生產出高質量推理模型的局面。但隨著各公司在這些模型的擴展曲線上繼續向上攀升,這種局面將很快改變。
出口管制力度還需加大
以上內容都是為我的核心關注點作鋪墊:對中國的芯片出口管制。
我對這種情況的看法如下:
目前存在一個持續的趨勢,即各公司在訓練強大的AI模型上的投入不斷增加,盡管成本曲線會周期性下移,訓練特定智能水平模型的成本也在迅速下降。
然而,由于訓練更智能模型所帶來的經濟價值極其巨大,任何成本節約幾乎立即就被消耗殆盡——這些節省下來的成本又被投入到使用相同巨額預算開發更智能的模型中。
對于美國實驗室尚未發現的創新,DeepSeek開發的效率創新很快就會被美國和中國的實驗室應用于訓練數十億美元級別的模型。
這些模型的表現會比他們之前計劃訓練的數十億美元模型更優異——但投入仍將保持在數十億美元水平。
這個數字會持續攀升,直到我們實現在幾乎所有領域都超越絕大多數人類智能水平的AI。
開發出在幾乎所有領域都超越絕大多數人類智能水平的AI將需要數百萬片芯片、至少數百億美元的投入,這很可能發生在2026-2027年。
DeepSeek的發布并不會改變這一預期,因為它們基本符合這些計算中一直考慮在內的預期成本下降曲線。
這意味著在2026-2027年,我們可能會面臨兩個截然不同的世界。
在美國,多家公司必定會獲得所需的數百萬片芯片(耗資數百億美元)。關鍵問題在于中國是否也能獲得這樣數量的芯片。
如果中國能獲得,我們將生活在一個兩極世界,美國和中國都將擁有強大的AI模型,這將推動科技呈現爆發式發展——我將其稱為‘數據中心里的天才國度’(countries of geniuses in a datacenter)。
但這種兩極格局不一定能永遠維持平衡。
即使美中兩國在AI系統上實力相當,中國可能會將更多的人才、資金和注意力投入到這項技術當中。
結合其龐大的工業基礎優勢,這可能幫助中國在全球舞臺上獲得主導地位,不僅是在AI領域,而是在所有領域。
如果中國無法獲得數百萬片芯片,我們將生活在一個單極世界,只有美國及其盟友擁有這些模型。
單極世界的持續時間尚難預測,但存在這樣一種可能:由于AI系統最終可以協助開發更智能的系統,暫時的領先優勢可能會轉化為持久的優勢。
因此,在這種情況下,美國及其盟友可能會在全球舞臺上確立主導地位并長期保持這一優勢。
嚴格執行的出口管制是唯一能阻止中國獲得數百萬片芯片的手段,因此也是決定我們最終是進入單極還是兩極世界的最關鍵因素。
DeepSeek的表現并不意味著出口管制失敗。如前文所述,DeepSeek擁有中等到大規模數量的芯片,因此他們能夠開發并訓練出一個強大的模型并不令人意外。
他們所面臨的資源限制并不比美國AI公司明顯更多,出口管制也并非促使他們‘創新’的主要因素。他們只是一群極具才華的工程師,這也顯示了為什么中國是美國的重要競爭對手。
DeepSeek的AI芯片儲備中,由應該但還沒被禁的芯片、在禁令前交付的芯片等構成。
這表明出口管制實際上正在發揮作用并不斷完善:監管漏洞正在被逐步填補;否則,他們所有的芯片可能都是最頂級的H100。
如果我們能夠及時堵住這些漏洞,就可能阻止中國獲得數百萬片芯片,從而增加形成美國領先的單極世界格局的可能性。
鑒于我對出口管制和美國國家安全的關注,我需要明確一點:我并不將DeepSeek視為對手,我們的重點也并非針對他們。
從他們接受的采訪來看,他們是一群聰明且充滿求知欲的研究人員,只是希望開發能造福社會的技術。
然而,為了防止中國在AI領域追平美國,出口管制就是最有效工具之一。
若認為技術日益強大、投資回報率提高就是應當解除出口管制的理由,這種邏輯是完全站不住腳的。
(聲明:本文僅代表作者觀點,不代表新浪網立場。)