來源:數(shù)科每日
2025年1月25日, 美國主流媒體 CNBC 對(duì)中國剛剛發(fā)布的 AI 大模型 Deepseek 做了專題報(bào)道 《How China’s New AI Model DeepSeek Is Threatening U.S. Dominance》

低調(diào)入場,一鳴驚人
在競爭激烈的 AI 領(lǐng)域,DeepSeek 就像一位低調(diào)的 “黑馬” 選手,在人們還未充分留意時(shí),已悄然崛起,憑借一系列技術(shù)成果驚艷眾人。
2024 年 12 月 26 日晚間,DeepSeek 的開源模型 DeepSeek-V3 上線,瞬間在國內(nèi)外 AI 圈引發(fā)轟動(dòng)。該模型自研了 MoE 模型,擁有 671B 參數(shù),激活 37B,并在 14.8Ttoken 上進(jìn)行了預(yù)訓(xùn)練 。
其性能不僅甩開了此前發(fā)布的所有開源模型,更是在大多數(shù)基準(zhǔn)上,比肩乃至優(yōu)于世界頂尖閉源模型 GPT-4o,關(guān)鍵是整個(gè)訓(xùn)練僅花費(fèi) 557.6 萬美元,與 OpenAI、Meta 等動(dòng)輒數(shù)億美元的預(yù)訓(xùn)練成本相比,堪稱 “性價(jià)比之王”。
緊接著,2025 年 1 月 20 日晚,DeepSeek 又發(fā)布推理模型 DeepSeek-R1 正式版。在數(shù)學(xué)、代碼、自然語言推理等多個(gè)領(lǐng)域,DeepSeek-R1 展現(xiàn)出與 OpenAI o1 正式版比肩的實(shí)力 。
在被廣泛認(rèn)可的 Chatbot Arena 榜單上,DeepSeek-R1 綜合排名進(jìn)入前三,在風(fēng)格控制類(StyleCtrl)中與 OpenAI o1 并列第一。而且,DeepSeek-R1 采用 MIT 許可協(xié)議,支持免費(fèi)商用、任意修改和衍生開發(fā),進(jìn)一步擴(kuò)大了其影響力。
幻方量化,作為一家在量化投資領(lǐng)域赫赫有名的私募巨頭,早在創(chuàng)立之初就將目光投向了人工智能技術(shù)。2015 年成立后,幻方量化迅速在量化投資領(lǐng)域嶄露頭角,2016 年便推出了第一個(gè) AI 模型,開啟了量化投資的智能化時(shí)代。
此后,幾乎所有量化策略都采用 AI 模型計(jì)算,其管理規(guī)模也在 2019 年突破百億,成為國內(nèi)量化私募的 “四巨頭” 之一,甚至一度成為中國首家突破千億規(guī)模的私募量化大廠。
在技術(shù)投入上,幻方量化堪稱豪擲千金。2020 年,幻方累計(jì)投資超億元打造的 AI 超級(jí)計(jì)算機(jī) “螢火一號(hào)” 正式投入運(yùn)作,其算力號(hào)稱可匹敵 4 萬臺(tái)個(gè)人電腦,為 AI 研究提供了強(qiáng)大的計(jì)算支持 。
僅僅一年后,幻方又投入十億建設(shè) “螢火二號(hào)”,算力擴(kuò)容翻倍,集群連續(xù)滿載運(yùn)行,平均占用率達(dá)到 96% 以上。據(jù)國盛證券數(shù)據(jù),在云算力端,當(dāng)時(shí)國內(nèi)擁有超過 1 萬張 A100 芯片儲(chǔ)備的企業(yè)寥寥無幾,幻方量化便是其中之一,強(qiáng)大的算力資源為其在人工智能領(lǐng)域的探索奠定了堅(jiān)實(shí)基礎(chǔ)。
2023 年,全球人工智能熱潮洶涌澎湃,幻方量化順勢(shì)而為,孵化出了 DeepSeek。依托幻方量化在人工智能領(lǐng)域多年積累的技術(shù)、數(shù)據(jù)和算力,DeepSeek 一成立便站在了巨人的肩膀上,專注于 AI 大模型的研究與開發(fā),開啟了在大模型領(lǐng)域的征程。
驚艷業(yè)界的模型成果

(一)性價(jià)比之王:DeepSeek V2
2024 年 5 月,DeepSeek 發(fā)布的 DeepSeek V2 開源模型,憑借創(chuàng)新的架構(gòu)設(shè)計(jì),在 AI 領(lǐng)域引發(fā)了一場 “性價(jià)比革命”。
它創(chuàng)新性地提出了 MLA(多頭潛在注意力機(jī)制)架構(gòu),將顯存占用大幅降低至過去常用 MHA 架構(gòu)的 5%-13% ,同時(shí),獨(dú)創(chuàng)的 DeepSeekMoE Sparse 結(jié)構(gòu),把計(jì)算量也降到極致。
這一系列創(chuàng)新使得推理成本大幅下降,每百萬 token 僅需 1 元錢,約為 Llama3 70B 的七分之一,GPT-4 Turbo 的七十分之一 。
如此親民的價(jià)格,瞬間打破了 AI 模型市場的原有格局,引發(fā)了國內(nèi)大模型的價(jià)格戰(zhàn)。字節(jié)、騰訊、百度、阿里等大廠紛紛跟進(jìn)降價(jià),讓更多開發(fā)者和企業(yè)能夠享受到大模型帶來的技術(shù)紅利,推動(dòng)了 AI 技術(shù)的普及和應(yīng)用。
(二)性能飛躍:DeepSeek V3
僅僅半年多后,DeepSeek 再次發(fā)力,推出 DeepSeek-V3。這一次,它以更強(qiáng)大的性能和更低的訓(xùn)練成本震驚了全球 AI 界。
DeepSeek-V3 采用了自研的 MoE 模型,擁有高達(dá) 6710 億的總參數(shù),雖然參數(shù)總量不及 GPT-4o 的 1.76 萬億,但通過巧妙的架構(gòu)設(shè)計(jì),每次推理僅激活 370 億參數(shù),在保持高性能的同時(shí),大大提高了計(jì)算效率。
在 14.8 萬億 token 上的預(yù)訓(xùn)練,讓它在多項(xiàng)評(píng)測(cè)中成績斐然,不僅超越了 Qwen2.5-72B 和 Llama-3.1-405B 等開源模型,更是在性能上與世界頂尖的閉源模型 GPT-4o 和 Claude-3.5-Sonnet 不相上下 。
在百科知識(shí)類任務(wù)中,DeepSeek-V3 在 MMLU、MMLU-Pro、GPQA、SimpleQA 等測(cè)試上的表現(xiàn)顯著提升,接近 Claude-3.5-Sonnet-1022;長文本測(cè)評(píng)里,在 DROP、FRAMES 和 LongBench v2 上,平均表現(xiàn)超越其他模型;代碼領(lǐng)域,在算法類代碼場景(Codeforces)中,遠(yuǎn)遠(yuǎn)領(lǐng)先于非 o1 類模型,在工程類代碼場景(SWE-Bench Verified)中逼近 Claude-3.5-Sonnet-1022;數(shù)學(xué)方面,在美國數(shù)學(xué)競賽(AIME 2024, MATH)和全國高中數(shù)學(xué)聯(lián)賽(CNMO 2024)上,大幅超過所有開源閉源模型 。
更令人驚嘆的是,其訓(xùn)練成本僅為 557.6 萬美元,僅用了 278.8 萬個(gè) GPU 小時(shí),而 Llama3-405B 的訓(xùn)練則消耗了 3080 萬 GPU 小時(shí)。這種高效的訓(xùn)練方式,為大模型的發(fā)展開辟了新的路徑,證明了在有限資源下,通過優(yōu)化算法和架構(gòu),同樣可以訓(xùn)練出高性能的模型。
(三)推理新貴:DeepSeek - R1
2025 年 1 月發(fā)布的 DeepSeek - R1,將 DeepSeek 的技術(shù)實(shí)力提升到了新的高度。它專注于推理能力的提升,在數(shù)學(xué)、代碼、自然語言推理等多個(gè)領(lǐng)域展現(xiàn)出與 OpenAI o1 正式版比肩的實(shí)力。
在 Codeforces 算法類代碼場景和 GPQA、MMLU 知識(shí)類測(cè)試中,DeepSeek - R1 的得分與 OpenAI o1 接近,在 SWE-Bench Verified 工程類代碼場景、AIME 2024 和 MATH 美國數(shù)學(xué)競賽項(xiàng)目上,甚至超過了 OpenAI o1 。與前作 DeepSeek-V3 相比,在 AIME 2024 和 Codeforces 中的得分提升了近一倍,推理能力有了顯著進(jìn)步。
DeepSeek - R1 在訓(xùn)練過程中大規(guī)模使用了強(qiáng)化學(xué)習(xí)(RL)技術(shù),幾乎跳過了監(jiān)督微調(diào)(SFT)步驟,就能實(shí)現(xiàn)推理能力的自我提升。在推理過程中,它能夠自然地涌現(xiàn)出強(qiáng)大的推理能力和有趣的推理行為,如自我反思、評(píng)估先前步驟、自發(fā)尋找替代方案等,甚至出現(xiàn)了 “尤里卡時(shí)刻”,即突然理解并解決以前無法理解的問題 。
DeepSeek - R1 采用 MIT 許可協(xié)議,完全開源,開發(fā)者可以自由使用、修改和分發(fā),這一舉措進(jìn)一步推動(dòng)了 AI 技術(shù)的共享與創(chuàng)新,讓更多人能夠基于其進(jìn)行二次開發(fā)和應(yīng)用拓展,加速了 AI 技術(shù)在各個(gè)領(lǐng)域的落地應(yīng)用。
Deepseek 對(duì)于中美競爭的影響

對(duì)于科技戰(zhàn)影響
在當(dāng)前中美科技戰(zhàn)的大背景下,AI 領(lǐng)域無疑是雙方角逐的關(guān)鍵戰(zhàn)場。DeepSeek 的橫空出世,宛如一顆投入平靜湖面的巨石,激起千層浪,極大地改變了中美在 AI 領(lǐng)域的競爭態(tài)勢(shì)。
長期以來,美國憑借其雄厚的科研實(shí)力、豐富的人才資源和強(qiáng)大的資本支持,在 AI 領(lǐng)域占據(jù)著領(lǐng)先地位。OpenAI、Meta 等科技巨頭在大模型研發(fā)上投入巨大,不斷推出具有影響力的模型,引領(lǐng)著全球 AI 技術(shù)的發(fā)展潮流。而中國的 AI 企業(yè)雖然也在積極追趕,但在技術(shù)實(shí)力和國際影響力上與美國仍存在一定差距。
DeepSeek 的出現(xiàn),打破了這一局面。其研發(fā)的 DeepSeek-V3 和 DeepSeek-R1 等模型,在性能上可與美國頂尖模型相媲美,甚至在某些方面實(shí)現(xiàn)了超越。DeepSeek-V3 以其 6710 億參數(shù)的強(qiáng)大模型容量和創(chuàng)新的架構(gòu)設(shè)計(jì),在多項(xiàng)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,接近或超過了美國同類閉源模型的水平 。
DeepSeek-R1 更是在推理能力上與 OpenAI o1 正式版比肩,在數(shù)學(xué)、代碼等專業(yè)領(lǐng)域展現(xiàn)出卓越的性能。這一系列成果表明,中國在 AI 核心技術(shù)上已經(jīng)取得了重大突破,成功拉近了與美國的技術(shù)差距,讓中國在這場科技戰(zhàn)中有了更有力的 “武器”。
DeepSeek 的創(chuàng)新技術(shù)路線,如 MLA 架構(gòu)、MoE 架構(gòu)以及 FP8 低精度訓(xùn)練等技術(shù),為中國 AI 產(chǎn)業(yè)的發(fā)展提供了新的思路和方向。
這些技術(shù)不僅提升了模型的性能和效率,還降低了研發(fā)成本,使得中國 AI 企業(yè)在面對(duì)美國的技術(shù)封鎖和競爭時(shí),能夠另辟蹊徑,通過技術(shù)創(chuàng)新實(shí)現(xiàn)彎道超車。這對(duì)于中國在全球 AI 產(chǎn)業(yè)中占據(jù)一席之地,打破美國的技術(shù)壟斷,具有重要的戰(zhàn)略意義。
對(duì)于金融戰(zhàn)的影響
AI 技術(shù)的發(fā)展與金融市場緊密相連,美國股市近年來的牛市行情,科技股尤其是 AI 相關(guān)股票功不可沒。英偉達(dá)、微軟、谷歌等公司憑借在 AI 領(lǐng)域的領(lǐng)先地位,股價(jià)一路飆升,成為推動(dòng)美國股市上漲的核心力量。
其中,英偉達(dá)作為 AI 芯片的龍頭企業(yè),其股價(jià)的走勢(shì)更是對(duì)美國股市有著舉足輕重的影響。
在 AI 熱潮的推動(dòng)下,英偉達(dá)的市值大幅增長,一度成為全球市值最高的公司之一,其業(yè)績表現(xiàn)和市場預(yù)期直接影響著投資者對(duì)科技股乃至整個(gè)股市的信心。
DeepSeek 的崛起,卻給美國股市的這一繁榮景象帶來了潛在的沖擊。DeepSeek 以極低的成本實(shí)現(xiàn)了高性能的模型研發(fā),這一成果讓市場開始重新審視 AI 行業(yè)的投資邏輯和價(jià)值體系。
一直以來,美國科技公司在 AI 研發(fā)上投入巨大,依賴大量昂貴的芯片和高額的研發(fā)費(fèi)用來維持技術(shù)領(lǐng)先地位。而 DeepSeek 僅用少量芯片和 557.6 萬美元的訓(xùn)練成本,就打造出了與美國頂尖模型媲美的產(chǎn)品 。
這使得投資者開始質(zhì)疑,那些投入大量資金用于 AI 研發(fā)的美國公司,其高昂的成本是否合理,是否能夠獲得相應(yīng)的回報(bào)。
如果市場對(duì)美國 AI 公司的投資價(jià)值產(chǎn)生懷疑,資金可能會(huì)從這些公司流出,導(dǎo)致其股價(jià)下跌。英偉達(dá)等 AI 芯片企業(yè)的市場份額和盈利能力可能會(huì)受到影響。
若 DeepSeek 的技術(shù)路線被證明可行,更多的企業(yè)可能會(huì)選擇采用低成本的研發(fā)模式,減少對(duì)昂貴芯片的依賴,這將直接沖擊英偉達(dá)的市場需求,進(jìn)而影響其股價(jià)。而英偉達(dá)股價(jià)的下跌,可能會(huì)引發(fā)連鎖反應(yīng),導(dǎo)致整個(gè)美國科技股板塊的調(diào)整,甚至對(duì)美國股市的牛市行情構(gòu)成威脅。
從宏觀角度看,美國股市在全球金融市場中占據(jù)著重要地位,其波動(dòng)會(huì)對(duì)全球金融市場產(chǎn)生溢出效應(yīng)。若因 DeepSeek 的出現(xiàn)導(dǎo)致美國股市出現(xiàn)大幅調(diào)整,可能會(huì)引發(fā)全球金融市場的動(dòng)蕩,改變當(dāng)前的金融格局,為中美金融博弈帶來新的變數(shù)。
美國逐漸失去對(duì)中國的優(yōu)勢(shì)
DeepSeek 的出現(xiàn),無疑讓美國在 AI 領(lǐng)域的優(yōu)勢(shì)進(jìn)一步縮小。這不僅是技術(shù)層面的較量,更是國家綜合實(shí)力和創(chuàng)新能力的體現(xiàn)。美國一直試圖通過技術(shù)封鎖、人才限制等手段,遏制中國在高科技領(lǐng)域的發(fā)展,以維持其在全球的科技霸權(quán)地位 。
但 DeepSeek 的成功,打破了美國的如意算盤,讓中國在 AI 領(lǐng)域擁有了與美國分庭抗禮的實(shí)力。這也促使美國重新審視其對(duì)華科技政策,思考如何在新的競爭格局下保持自身的競爭力。
從更宏觀的角度來看,DeepSeek 的崛起是中國科技實(shí)力不斷提升的一個(gè)縮影。近年來,中國在 5G 通信、高鐵、航天等多個(gè)領(lǐng)域取得了舉世矚目的成就,在國際舞臺(tái)上的話語權(quán)越來越大。
美國在這些領(lǐng)域的傳統(tǒng)優(yōu)勢(shì)正逐漸被削弱,而中國則以創(chuàng)新為驅(qū)動(dòng),不斷縮小與美國的差距,甚至在某些方面實(shí)現(xiàn)了超越。DeepSeek 的出現(xiàn),只是中國科技崛起浪潮中的一朵浪花,但它所蘊(yùn)含的力量,卻足以讓世界重新認(rèn)識(shí)中國科技的實(shí)力和潛力。

責(zé)任編輯:李桐
VIP課程推薦
APP專享直播
熱門推薦
收起
24小時(shí)滾動(dòng)播報(bào)最新的財(cái)經(jīng)資訊和視頻,更多粉絲福利掃描二維碼關(guān)注(sinafinance)