AI黑馬DeepSeek屠城!何以低成本秘技挑起AI競賽?
2025-01-28
相信大家在過去數天都被DeepSeek瘋狂洗版,甚至目前被誇張地稱為美國矽谷的現代危機,更加有指即時引發了Meta內部的恐慌情緒。到底源自中國的DeepSeek是甚麼?同樣都是AI模組,到底DeepSeek有何能力令到現今領先的OpenAi迎來了重大危機?馬上讓大家了解一下!
DeepSeek是甚麼?
由中國AI新科創公司創立的DeepSeek,是創辦人梁文鋒於2023年成立的一間全新科創AI企業,主要是開發AI模組。公司成立不足一年,便在當時率先推出了代號為「DeepSeekV2」的模型。
這組全新登場的模型具有兩大特色,1) 採用了強化學習(RL)技術,讓AI可以透過不斷嘗試錯誤生產,令模型可以不斷自我進化;2) 以混合專家(MoE)作為設計架構,令運算精密效能化,簡單而言,就是懂得每次解難時選擇最合適的運算細胞,大大減低了運算消耗量。
到底發生甚麼事?
非常簡單,DeepSeek的出現引證了目前可以低成本製作出如OpenAI旗鼓相當的AI模型,直接打擊了本來已被認定需要極高成本的OpenAI,挑戰了美國矽谷的現今發展版圖。
而真正令到恐慌情緒暴現的是,DeepSeek最近接連推出了DeepSeek- V3 和 DeepSeek- R1 兩款全新大型模組,進一步確立其「低成本、高效能」的特色。而且,就連知名公司Scale AI創辦人Alexandr Wang都表示,DeepSeek目前成為了其團隊進行的測試中,得到最好成果的模組。早前「DeepSeekV2」出現時,前OpenAI政策總監、Anthropic聯合創辦人Jack Clark也現身說法,公開表示DeepSeek推出的AI模型高深莫測,絕對有能力威脅美國。
隨著DeepSeek再推出兩大全新模型,據聞Meta工程師們已經連夜進行測試,嘗試複製DeepSeek的運算模組。而這部分也是DeepSeek的最大特色,源於梁文鋒與團隊製作DeepSeek模型時採取了「開源策略」,意味模型無任歡迎外來開發者一同參與改進工程,加速模組的訓練、運算等功效。
成本數字簡直驚人
據悉,DeepSeek-V3所採用的MoE的架構僅需啟動370億參數進行運算,比起完整模型所需的6710億參數,大大減低了即時運算的資源消耗。而且,為了進一步提升效能,DeepSeek-V3甚至引入多頭潛在注意力(MLA)技術,能大幅壓縮長文本處理時的記憶體需求,減少高達 96% 的資源消耗 — 數字上,DeepSeek V3和 ChatGPT-4的成本比較,就是$0.14/每百萬字 vs $2.5/每百萬字。
隨著低成本成為了DeepSeek的關鍵,公司也透露團隊當時僅花上560萬美元和約2,048塊H800 GPU晶片進行AI模組開發。相比OpenAI,團隊為ChatGPT-4花上了逾1億美元作為訓練成本。
問題來了
隨著討論不斷升溫,不少AI科學家及工程師也現身說法,並指出了兩大重點以正視聽。1) DeepSeek一直提的「成本」是開發成本,而其開發的AI模型是使用市面上已有的模型再蒸餾而成,如Qwen和Llama,因此該「成本」並非OpenAI當日的訓練成本;2) 由於AI模型的訓練成本實在覆蓋了很多類別,多模型態、語音技術、時間序列、計算生物學、生成式等,因此如果只以單次訓練成本比較的話,你會發現OpenAI的數字只比DeepSeek超越非常少。
迷思出現了
這次DeepSeek的出現引發如此大問題,源於它的「低成本」製作引起外界好奇:到底是否只需要極少量的晶片,就能生產出高效能的AI模型?因此,晶片龍頭公司NVIDIA首當其衝受到影響,直接令公司股價打破了有史以來的下跌紀錄,令公司一夜間蒸發了4,650億美元。
低成本高效能,少晶片低需求,目前仍然是個未知數,源於暫時未有確實趨勢證實NVIDIA的高效能晶片已無用處。而且,不少報導一直指DeepSeek只需要極少晶片進行開發,但近日Scale AI創辦人Alexandr Wang透露,DeepSeek實際上約有了約50,000張高效H100 GPU晶片,而有報導更指DeepSeek的訓練成本是高達200,000張H100 GPU晶片 (Google在2024年僅購入了169,000張)。而NVIDIA也正面回應了見前局勢,直接說明DeepSeek的技術突破仍然非常依賴晶片需求。
無疑地,危機是出現了,可是有危就有機,何況NVIDIA等多個龍頭擁有的是目前最強大的團隊,相信經過這番波動後,NVIDIA定下了應對方案後,便會正式穩定局勢。這意味著甚麼?AI競賽,正式開始。 最後分享一下Meta的AI科學家論點:「不是中國超越了美國,而是開源技術超越了閉源技術。」