iPAS AI 應用規劃師 中級 科目一

Stable Diffusion 生成影像顆粒模糊,要怎麼在生成階段改善?

原題 38

某影像設計團隊在使用 Stable Diffusion 生成 4K 級產品圖時,發現影像邊緣與細節存在顆粒化與模糊現象。若僅能在生成階段進行調整,希望提升畫面清晰度與紋理層次,同時避免過度平滑,下列哪一項操作最適合?

白話

一個設計團隊用 Stable Diffusion(一種 AI 圖像生成工具)生成產品圖,但發現圖片邊緣模糊、細節有顆粒感。

限制:只能在「生成階段」動手調整,不能改模型或重新訓練。目標是:讓圖更清晰、細節更豐富,但又不要過度平滑(糊掉)。

問你:下面哪個操作最能在生成階段改善清晰度?

點選你的答案。

01 總結

一句話總結

影像顆粒模糊是因為去噪步驟不夠精細:增加取樣步數讓去噪更仔細,搭配高品質取樣器(如 DPM++ 2M Karras)讓每步算得更準,就能強化細節還原度,同時避免過度平滑

02 情境

先感受問題:圖像生成為什麼會模糊顆粒

假設設計師小芸在用 Stable Diffusion 生成一款耳機的 4K 產品圖,Prompt 寫「premium wireless headphone, studio quality, photorealistic」。

生成出來的圖,耳機外殼的金屬質感糊掉了,海綿耳墊的紋理是一團噪點。

Stable Diffusion 的運作原理是:從一張純雜訊圖開始,一步一步「去噪(Denoising)」,最終雕出一張乾淨的圖。可以想像成雕塑:

取樣步數 = 雕刻幾刀
取樣器 = 用什麼刀(粗刀還是精刀)
步數少、刀不好 → 細節沒時間雕出來 → 糊掉或顆粒感

小芸的問題:她預設用 20 步、取樣器是 Euler,生成很快但圖很糙。她只能在「生成參數」上動手,不能換模型。

03 對照

憑直覺改生成參數,有哪些常見踩坑

  1. 降低取樣步數求快:步數從 20 降到 10,生成速度變快,但去噪不完整,顆粒感更嚴重,細節更少。完全反效果。
  2. 拉高 CFG 值求清晰:CFG(Classifier-Free Guidance)控制的是「跟著 Prompt 走的程度」,不是「清晰度」。CFG 太高(超過 15)會讓圖像過飽和、顏色過深、邊緣過於銳利但細節反而失真。
  3. 降低解析度省算力:解析度降低,細節資訊直接損失,跟要求「清晰 4K」完全相反。
  4. 換更大的模型:題目說只能在生成階段調整,不能換模型。
  5. 加強 Prompt 描述:Prompt 加「highly detailed, 8K」確實有一定效果,但對已知的模糊/顆粒問題,根本原因是去噪步驟不夠,光改 Prompt 治標不治本。
04 解法

增加步數加好取樣器,怎麼讓細節雕出來

小芸的正確操作分兩步:

第一步:增加取樣步數。從 20 步調到 40 步或 50 步。每多一步,模型就多一次機會從雜訊裡精細還原細節。耳機金屬反光的高光、海綿紋理的顆粒感,都需要足夠的步數才能被正確重建。

第二步:換高品質取樣器。從 Euler 換成 DPM++ 2M Karras 或 DDIM。高品質取樣器在相同步數下,每一步的數值計算更精準,對細節和邊緣的還原更忠實,且不容易過度平滑(Euler 在步數少時特別容易糊)。

Euler(預設):快,適合草稿預覽,細節一般
DPM++ 2M Karras:同樣步數下細節更好,是品質生產的主流選擇
DDIM:可控性高,用在 img2img 或需要精確再現的場景

兩者同時使用:40 步 DPM++ 2M Karras,耳機金屬質感和海綿紋理層次都清晰呈現,且畫面不會像調高 CFG 那樣過飽和變色。

這就是選項 B 講的:增加取樣步數並選擇高品質取樣器,以強化細節還原度

技術版:擴散模型的去噪機制與取樣器原理

中級考試大概率會考程式碼跟公式,所以這部分你還是要學。但如果現在學起來很痛苦,可以先跳過,等讀完其他題目回頭再來。

本題沒有程式碼,但相關技術背景值得知道。

擴散模型(Diffusion Model)的兩個階段

  1. 正向過程(Forward Process):訓練時,把一張真實圖片一步步加入高斯雜訊,直到變成純雜訊。模型學習的是「每一步加了多少雜訊」。
  2. 反向過程(Reverse Process,即推論/生成):從純雜訊開始,一步步預測並去除雜訊,還原成圖像。這個過程需要 T 步(取樣步數)才能完成。

取樣步數的影響

每一個去噪步驟,模型用 U-Net(一種卷積神經網路)預測當前噪聲。步數越多,每步的去噪量越小(更保守),最終結果越精細;步數太少,每步去噪量太大,細節被「過度去除」,邊緣變糊、紋理顆粒化。

取樣器的本質差異

取樣器決定「怎麼數值求解這個去噪的微分方程」。

  • Euler:最簡單的一階方法(歐拉法),快但精度低,需要較多步數才能收斂。
  • DPM++ 2M:二階方法,每步用前兩個點的資訊外推,精度更高,同樣步數下細節更好。
  • Karras 調度(Karras Schedule):一種調整去噪步驟大小分佈的方式,讓前期大步快速去除主要雜訊,後期小步精細還原細節,避免過度平滑。

CFG(Classifier-Free Guidance)的正確理解

CFG 的公式:預測噪聲 = 無條件預測 + CFG 值 × (有條件預測 - 無條件預測)。CFG 值越高,生成結果越貼近 Prompt,但超過閾值(通常 12~15)會導致顏色過飽和、細節失真。CFG 不等於清晰度,是「Prompt 服從度」的旋鈕。

05 陷阱

為什麼其他選項是錯的

A降低取樣步數,以縮短生成時間

字面在說什麼

步數少 = 時間短,生成更快完成。

為什麼不對

步數少,去噪不完整,模型沒有足夠的計算次數把細節雕出來。本來就已經模糊顆粒,再減步數只會更糟。這個選項完全跑反方向:題目要的是「提升清晰度和細節」,降低步數做到的是「降低品質換時間」。

誰會選錯

把「步數」和「清晰度」的方向搞反的考生。記住:步數和細節品質是正相關,多步數 = 更精細的去噪 = 更清晰的結果,代價是時間。

C提高 CFG(Classifier-Free Guidance)值,使生成結果更具創意與多樣性

字面在說什麼

CFG 調高,模型更嚴格地按照 Prompt 生成,應該會讓結果更「符合預期」,感覺更清晰?

為什麼不對

選項本身的描述就有問題:「更具創意與多樣性」恰好是 CFG 低時的效果,CFG 高反而是讓模型「緊跟 Prompt」。更重要的是,CFG 過高(超過 12~15)會導致過飽和、邊緣過銳利但細節失真,恰好是「避免過度平滑」但走向另一個極端「過度銳化失真」。題目要的是細節還原,CFG 解決的不是這個問題。

誰會選錯

知道 CFG 是生成品質的旋鈕,但不清楚它調的是「Prompt 服從度」而非「清晰度」的考生。記住:CFG 控制 Prompt 影響力,步數和取樣器控制細節品質。

D改用低解析度輸入以降低計算成本

字面在說什麼

解析度降低,計算量減少,生成更快,成本更低。

為什麼不對

題目說要生成「4K 級產品圖」、「提升畫面清晰度與紋理層次」,降低解析度是直接放棄這個目標。低解析度輸入意味著潛在空間(Latent Space)的資訊密度更低,還原出來的圖只會更糊,和題目要求完全相反。

誰會選錯

看到「節省成本」感覺合理就選的考生。在商業場景確實常常要省算力,但這道題的核心限制是「維持品質」,成本的節省不能以犧牲品質為代價。

06 變形

同個考點下次怎麼變形

變形 1 邊界

取樣步數增加到 100 步,圖還會繼續變清晰嗎?

直覺

步數越多越好,那就開到 100 步或 200 步?

答案

有收益遞減(Diminishing Returns)的問題。大部分取樣器在 40~60 步後,品質改善幅度已接近零但時間持續增加。超過 80 步,用 DPM++ 2M Karras,和 50 步的視覺差異已難以辨別。實務上 30~50 步是品質和效率的甜蜜點,不是越多越好。

變形 2 反例

CFG 調太高(如 20)會出現什麼具體問題?

直覺

CFG 高 = 更貼近 Prompt,應該更好?

答案

CFG 過高會導致:(1) 顏色過飽和,圖像看起來像用飽和度 +100 的濾鏡;(2) 邊緣過銳利但失去自然感,像 Photoshop 過度銳化;(3) 出現「CFG 燒焦」現象(Burn),高光區域變成純白色,暗部變成純黑色,細節全部消失。CFG 7~10 是一般場景的甜蜜點,創意生成可以試 12~14,但不建議超過 15。

變形 3 升級版

如果步數和取樣器已經最佳化,還想再提升細節,還有什麼方法?

直覺

步數和取樣器已是最佳,是否只能換更好的模型?

答案

還有幾條路:(1) 高解析度修復(Hires. Fix):先用低解析度生成構圖,再放大並重新去噪,兼顧構圖和細節;(2) 使用 ControlNet 加 Tile 模型,對圖像分塊精細化;(3) 加入 LoRA 模型(Low-Rank Adaptation),引入特定風格或物件的細節知識;(4) img2img(圖轉圖),用較低的降噪強度(Denoising Strength,0.3~0.5)重新生成,保留構圖的同時強化細節。

變形 4 跨領域

影片生成(Video Generation)也有「取樣步數」的概念嗎?

直覺

影片是圖像的延伸,應該也有類似機制?

答案

有,而且更複雜。影片生成(如 Stable Video Diffusion、Sora 的底層機制)同樣需要在時間維度做去噪,每幀的步數和跨幀的一致性都需要兼顧。步數不夠,每幀細節差;跨幀一致性不好,畫面閃爍(Temporal Flickering)。影片生成的取樣器選擇和步數設定通常比圖像生成更保守,因為錯誤會在時間軸上累積放大。

變形 5 評估指標

怎麼客觀評估 Stable Diffusion 生成圖像的品質?

直覺

圖好不好看,人眼看就知道了?

答案

人眼主觀評估不夠可重複,有幾個客觀指標:(1) FID(Fréchet Inception Distance,弗雷歇初始距離):比較生成圖分佈和真實圖分佈的距離,越低越好;(2) CLIP Score:衡量生成圖像和文字 Prompt 的語意匹配程度;(3) LPIPS(Learned Perceptual Image Patch Similarity):比較人類感知的圖像相似度。對產品圖這類有參考標準的場景,還可以計算 SSIM(結構相似性)和 PSNR(峰值信噪比)。

07 延伸

想再往下看,這 5 個

  • 穩定擴散(Stable Diffusion)在潛在空間進行去噪的開源擴散模型,本題情境的核心工具;生成階段可透過增加去噪步數和調整取樣器改善細節品質。
  • 擴散模型(Diffusion Model)透過學習逆轉「逐步加噪」過程來生成圖像;去噪步數越多、結果越細緻,但計算成本也越高,是本題關鍵取捨。
  • 潛在擴散模型(Latent Diffusion Model)在低維潛在空間而非像素空間去噪,大幅降低計算成本;Stable Diffusion 的核心架構,也是其能生成高解析度圖像的基礎。
  • 超解析度重建(Super-resolution)將低解析度影像放大並補充細節的技術,常與擴散模型結合作為後處理步驟,用來提升生成圖像的清晰度和紋理層次。
  • 圖像生成(Image Generation)以生成模型(GAN、VAE、擴散模型)合成新圖像的技術領域;本題考的是在生成階段(而非後處理)改善畫質的參數調整策略。
出處

iPAS 經濟部產業人才能力鑑定 ・ 114 年第二次 iPAS AI 應用規劃師 中級 科目一 第 38 題

查看官方原文 PDF