你有沒有看過一個模型先在超大資料上學很多,再拿去做很多不同任務?
你可以把基礎模型想成打底很厚的通用模型,先學到廣泛能力,再依需求微調成不同用途。
它重要,是因為這種模型能把一次訓練的能力,快速延伸到很多下游工作,省掉很多重做成本。
你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。
容易混淆
基礎模型 vs 傳統AI模型 傳統模型常為單一任務設計。 基礎模型先學通用能力,再適配不同任務。
基礎模型 vs 大型語言模型 大型語言模型是基礎模型的常見例子。 但基礎模型不只限於文字,也可以涵蓋影像和多模態。
記住這句就好
先學通用底子,再拿去改成不同用途,就是基礎模型。
實際案例
客服和摘要共用底座 同一個大型基礎模型,先做摘要再做客服回覆,只要調整任務層就能延伸。
企業知識助理 先用通用模型打底,再針對公司文件微調,會比從零開始快很多。
算法與應用
它通常靠大規模預訓練學到一般性的表示能力,再透過提示或微調進入特定任務。 在文字、影像和多模態領域,基礎模型都已經成為很常見的起點。
情境判斷
Q1: 如果一個模型能做很多任務,通常可以說它很像基礎模型嗎?
可以,但前提是它真的有通用預訓練底座,不只是臨時拼出多功能。
Q2: 只要模型很大,就一定是基礎模型嗎?
不一定,大小不是唯一標準,能不能當通用底座才是關鍵。
常見問題
基礎模型一定要超大嗎?
不一定,但通常要有足夠廣泛的預訓練能力。
它和微調的關係是什麼?
基礎模型是底座,微調是把底座改成特定任務版本。
和少樣本學習有關嗎?
有關,好的基礎模型常能用少量範例快速適應新任務。
基礎模型只存在於語言領域嗎?
不是,影像與多模態也都有。