clock December 24,2023
news 即時新聞
clock


(圖/ gemini AI)

中華雲新聞網 (文/記者 莊雲川)

人工智慧多模態技術再迎突破。DeepSeek於4/30日發布最新技術報告《用視覺原語思考》(Thinking with Visual Primitives),首度完整揭露其新一代識圖模型架構,提出「邊思考邊指認」的創新推理方式,為視覺理解能力帶來關鍵升級。

此次公開的模型參數規模高達2840億,啟動參數為130億,基於DeepSeek-V4-Flash打造,未來將整合至基礎模型體系中統一發布。相較過去多數模型強調「看得更清楚」,透過提高解析度與圖像切分提升辨識能力,DeepSeek則直指核心問題,語言在描述空間時存在「指代不清」的天然限制。

團隊指出,在複雜場景中,模型若僅依賴文字描述(如「左邊那個物體」),往往無法準確鎖定目標,進而導致多步推理、計數或路徑判斷失準。為此,DeepSeek導入「視覺原語」概念,讓模型在推理過程中同步使用座標點與邊界框,將空間資訊轉化為可計算的思維單位。

在實際運作上,模型會於圖像中即時「框選」或「標記」思考對象,並持續引用這些視覺錨點進行後續推理,使整體判斷更精確且具連貫性。此設計大幅改善過去多模態模型在空間推理上的不穩定問題。

技術架構方面,系統由視覺編碼器DeepSeek-ViT負責圖像特徵提取,搭配文字分詞器解析語言指令,再由基座模型進行融合推理,最終輸出結合自然語言與視覺標記的結果。

為強化模型能力,DeepSeek建立完整訓練流程,包括預訓練、冷啟動與強化學習三階段。預訓練使用超過4000萬筆高品質標註資料,奠定定位能力;冷啟動則針對計數、迷宮導航等任務進行結構化訓練;強化學習則透過多維度獎勵機制,確保模型必須依賴正確推理,而非猜測答案。

此外,該模型在運算效率上亦有重大突破。以解析度756×756的圖像為例,經過多層壓縮後,最終僅保留81個關鍵視覺資訊單元,相較傳統模型動輒數百甚至數千token,壓縮比高達7000倍以上,顯著降低運算負擔並提升推理效率。

在多項高難度視覺問答測試中,該模型表現已超越 OpenAI 的GPT-5、Anthropic Claude Sonnet 4.6、Google Gemini 3 Flash 以及阿里系Qwen3-VL等主流模型,顯示其在視覺推理領域的競爭力。

不過,DeepSeek也坦言,目前技術仍存在限制,包括在複雜拓撲推理任務中的跨場景泛化能力仍待提升,以及視覺原語仍需透過明確指令觸發,尚未完全達到自主啟用。

這項技術為多模態AI發展提供新方向不再單純依賴更高解析度,而是透過空間座標與結構化思維,讓模型更接近人類「邊觀察、邊指認、邊思考」的認知模式,朝向更高層次的人工智慧邁進。

發表回覆

取消回覆

您的電子郵件地址不會被公開。

關注我們

投票表決

Top Categories

最近評論

Please Accept Cookies for Better Performance