解析:
訓練準確率高但測試準確率低是典型的過擬合(Overfitting)現象。資料增強(Data Augmentation)透過對訓練影像進行旋轉、翻轉等隨機變化,可以增加訓練資料的多樣性,有效降低過擬合。
資料擴增術是一種增加訓練資料多樣性的技術,透過對現有資料進行微小的修改,創造出新的、但仍然代表相同類別的資料點,以提升模型泛化能力。|本頁含完整原理、應用場景、iPAS 考試重點與 3 個常見問答。
你有沒有在你資料太少,想把訓練集變得更有變化時,還在想這件事到底該怎麼看?
把它想成對同一份資料做合理變形,做出更多版本。 它能增加資料多樣性,讓模型看到更多樣的情況。 做得好會提升泛化,做過頭反而會把資料變得不自然。
你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。
synthetic-data vs 收集更多原始資料:收集更多原始資料像找更多不同的模特兒來拍,成本高且耗時;資料擴增術則像把現有模特兒「變花樣」,成本低,但也能有效增加資料多樣性。 常見混淆:資料擴增術 vs synthetic-data 擴增是基於原資料做合理變化,合成資料可從零生成。
不是亂加資料,是把原有資料變出合理變化。
影像翻轉 把左右翻轉、旋轉或裁切,讓模型不只認一種角度。 文本回譯 先翻成另一種語言再翻回來,製造語意接近但說法不同的句子。
- 圖像、文字、語音都能做擴增,但方法會不一樣。
- 擴增要保持標籤不變,不然等於把資料弄錯。
- 它常和資料不足、類別不平衡或遷移學習一起使用。
Q1: 你只有少量影像資料,想提升模型穩定度,先想到什麼?
Q2: 如果擴增後模型反而更差,可能代表什麼?
資料擴增通常能提升模型效能,尤其是在資料量不足的情況下。然而,不當的擴增策略或過度擴增可能導致模型過擬合,反而降低效能。因此,需要根據具體任務和資料集,謹慎選擇和調整擴增策略。
常用的圖像資料擴增方法包括幾何變換(旋轉、縮放、平移、翻轉)、顏色空間變換(調整亮度、對比度、飽和度)、添加雜訊、裁剪、遮擋等。還可以結合多種方法,例如先旋轉再縮放,以增加資料的多樣性。
在自然語言處理中,資料擴增可以通過同義詞替換、隨機插入、隨機刪除、回譯等方法實現。例如,可以使用同義詞詞典將句子中的某些詞替換為其同義詞,或者使用機器翻譯將句子翻譯成另一種語言,然後再翻譯回來,從而生成新的句子。
某團隊訓練影像分類模型,發現模型在訓練資料上的準確率達 98%,但在測試資料上僅有 72%。若團隊希望提升模型對新資料的適應能力,並增加訓練資料的多樣性,下列何者最適合?
解析:
訓練準確率高但測試準確率低是典型的過擬合(Overfitting)現象。資料增強(Data Augmentation)透過對訓練影像進行旋轉、翻轉等隨機變化,可以增加訓練資料的多樣性,有效降低過擬合。