iPAS AI 應用規劃師中級　科目一

Stable Diffusion 生成影像顆粒模糊，要怎麼在生成階段改善？

原題 38

某影像設計團隊在使用 Stable Diffusion 生成 4K 級產品圖時，發現影像邊緣與細節存在顆粒化與模糊現象。若僅能在生成階段進行調整，希望提升畫面清晰度與紋理層次，同時避免過度平滑，下列哪一項操作最適合？

白話

一個設計團隊用 Stable Diffusion（一種 AI 圖像生成工具）生成產品圖，但發現圖片邊緣模糊、細節有顆粒感。

限制：只能在「生成階段」動手調整，不能改模型或重新訓練。目標是：讓圖更清晰、細節更豐富，但又不要過度平滑（糊掉）。

問你：下面哪個操作最能在生成階段改善清晰度？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

影像顆粒模糊是因為去噪步驟不夠精細：增加取樣步數讓去噪更仔細，搭配高品質取樣器（如 DPM++ 2M Karras）讓每步算得更準，就能強化細節還原度，同時避免過度平滑。

02　情境

先感受問題：圖像生成為什麼會模糊顆粒

假設設計師小芸在用 Stable Diffusion 生成一款耳機的 4K 產品圖，Prompt 寫「premium wireless headphone, studio quality, photorealistic」。

生成出來的圖，耳機外殼的金屬質感糊掉了，海綿耳墊的紋理是一團噪點。

Stable Diffusion 的運作原理是：從一張純雜訊圖開始，一步一步「去噪（Denoising）」，最終雕出一張乾淨的圖。可以想像成雕塑：

取樣步數 = 雕刻幾刀
取樣器 = 用什麼刀（粗刀還是精刀）
步數少、刀不好 → 細節沒時間雕出來 → 糊掉或顆粒感

小芸的問題：她預設用 20 步、取樣器是 Euler，生成很快但圖很糙。她只能在「生成參數」上動手，不能換模型。

03　對照

憑直覺改生成參數，有哪些常見踩坑

降低取樣步數求快：步數從 20 降到 10，生成速度變快，但去噪不完整，顆粒感更嚴重，細節更少。完全反效果。
拉高 CFG 值求清晰：CFG（Classifier-Free Guidance）控制的是「跟著 Prompt 走的程度」，不是「清晰度」。CFG 太高（超過 15）會讓圖像過飽和、顏色過深、邊緣過於銳利但細節反而失真。
降低解析度省算力：解析度降低，細節資訊直接損失，跟要求「清晰 4K」完全相反。
換更大的模型：題目說只能在生成階段調整，不能換模型。
加強 Prompt 描述：Prompt 加「highly detailed, 8K」確實有一定效果，但對已知的模糊/顆粒問題，根本原因是去噪步驟不夠，光改 Prompt 治標不治本。

04　解法

增加步數加好取樣器，怎麼讓細節雕出來

小芸的正確操作分兩步：

第一步：增加取樣步數。從 20 步調到 40 步或 50 步。每多一步，模型就多一次機會從雜訊裡精細還原細節。耳機金屬反光的高光、海綿紋理的顆粒感，都需要足夠的步數才能被正確重建。

第二步：換高品質取樣器。從 Euler 換成 DPM++ 2M Karras 或 DDIM。高品質取樣器在相同步數下，每一步的數值計算更精準，對細節和邊緣的還原更忠實，且不容易過度平滑（Euler 在步數少時特別容易糊）。

Euler（預設）：快，適合草稿預覽，細節一般
DPM++ 2M Karras：同樣步數下細節更好，是品質生產的主流選擇
DDIM：可控性高，用在 img2img 或需要精確再現的場景

兩者同時使用：40 步 DPM++ 2M Karras，耳機金屬質感和海綿紋理層次都清晰呈現，且畫面不會像調高 CFG 那樣過飽和變色。

這就是選項 B 講的：增加取樣步數並選擇高品質取樣器，以強化細節還原度。

技術版：擴散模型的去噪機制與取樣器原理

中級考試大概率會考程式碼跟公式，所以這部分你還是要學。但如果現在學起來很痛苦，可以先跳過，等讀完其他題目回頭再來。

本題沒有程式碼，但相關技術背景值得知道。

擴散模型（Diffusion Model）的兩個階段：

正向過程（Forward Process）：訓練時，把一張真實圖片一步步加入高斯雜訊，直到變成純雜訊。模型學習的是「每一步加了多少雜訊」。
反向過程（Reverse Process，即推論/生成）：從純雜訊開始，一步步預測並去除雜訊，還原成圖像。這個過程需要 T 步（取樣步數）才能完成。

取樣步數的影響：

每一個去噪步驟，模型用 U-Net（一種卷積神經網路）預測當前噪聲。步數越多，每步的去噪量越小（更保守），最終結果越精細；步數太少，每步去噪量太大，細節被「過度去除」，邊緣變糊、紋理顆粒化。

取樣器的本質差異：

取樣器決定「怎麼數值求解這個去噪的微分方程」。

Euler：最簡單的一階方法（歐拉法），快但精度低，需要較多步數才能收斂。
DPM++ 2M：二階方法，每步用前兩個點的資訊外推，精度更高，同樣步數下細節更好。
Karras 調度（Karras Schedule）：一種調整去噪步驟大小分佈的方式，讓前期大步快速去除主要雜訊，後期小步精細還原細節，避免過度平滑。

CFG（Classifier-Free Guidance）的正確理解：

CFG 的公式：預測噪聲 = 無條件預測 + CFG 值 × (有條件預測 - 無條件預測)。CFG 值越高，生成結果越貼近 Prompt，但超過閾值（通常 12~15）會導致顏色過飽和、細節失真。CFG 不等於清晰度，是「Prompt 服從度」的旋鈕。

05　陷阱

為什麼其他選項是錯的

A降低取樣步數，以縮短生成時間

字面在說什麼

步數少 = 時間短，生成更快完成。

為什麼不對

步數少，去噪不完整，模型沒有足夠的計算次數把細節雕出來。本來就已經模糊顆粒，再減步數只會更糟。這個選項完全跑反方向：題目要的是「提升清晰度和細節」，降低步數做到的是「降低品質換時間」。

誰會選錯

把「步數」和「清晰度」的方向搞反的考生。記住：步數和細節品質是正相關，多步數 = 更精細的去噪 = 更清晰的結果，代價是時間。

C提高 CFG（Classifier-Free Guidance）值，使生成結果更具創意與多樣性

字面在說什麼

CFG 調高，模型更嚴格地按照 Prompt 生成，應該會讓結果更「符合預期」，感覺更清晰？

為什麼不對

選項本身的描述就有問題：「更具創意與多樣性」恰好是 CFG 低時的效果，CFG 高反而是讓模型「緊跟 Prompt」。更重要的是，CFG 過高（超過 12~15）會導致過飽和、邊緣過銳利但細節失真，恰好是「避免過度平滑」但走向另一個極端「過度銳化失真」。題目要的是細節還原，CFG 解決的不是這個問題。

誰會選錯

知道 CFG 是生成品質的旋鈕，但不清楚它調的是「Prompt 服從度」而非「清晰度」的考生。記住：CFG 控制 Prompt 影響力，步數和取樣器控制細節品質。

D改用低解析度輸入以降低計算成本

字面在說什麼

解析度降低，計算量減少，生成更快，成本更低。

為什麼不對

題目說要生成「4K 級產品圖」、「提升畫面清晰度與紋理層次」，降低解析度是直接放棄這個目標。低解析度輸入意味著潛在空間（Latent Space）的資訊密度更低，還原出來的圖只會更糊，和題目要求完全相反。

誰會選錯

看到「節省成本」感覺合理就選的考生。在商業場景確實常常要省算力，但這道題的核心限制是「維持品質」，成本的節省不能以犧牲品質為代價。

06　變形

同個考點下次怎麼變形

變形 1　邊界

取樣步數增加到 100 步，圖還會繼續變清晰嗎？

直覺

步數越多越好，那就開到 100 步或 200 步？

答案

有收益遞減（Diminishing Returns）的問題。大部分取樣器在 40~60 步後，品質改善幅度已接近零但時間持續增加。超過 80 步，用 DPM++ 2M Karras，和 50 步的視覺差異已難以辨別。實務上 30~50 步是品質和效率的甜蜜點，不是越多越好。

變形 2　反例

CFG 調太高（如 20）會出現什麼具體問題？

直覺

CFG 高 = 更貼近 Prompt，應該更好？

答案

CFG 過高會導致：(1) 顏色過飽和，圖像看起來像用飽和度 +100 的濾鏡；(2) 邊緣過銳利但失去自然感，像 Photoshop 過度銳化；(3) 出現「CFG 燒焦」現象（Burn），高光區域變成純白色，暗部變成純黑色，細節全部消失。CFG 7~10 是一般場景的甜蜜點，創意生成可以試 12~14，但不建議超過 15。

變形 3　升級版

如果步數和取樣器已經最佳化，還想再提升細節，還有什麼方法？

直覺

步數和取樣器已是最佳，是否只能換更好的模型？

答案

還有幾條路：(1) 高解析度修復（Hires. Fix）：先用低解析度生成構圖，再放大並重新去噪，兼顧構圖和細節；(2) 使用 ControlNet 加 Tile 模型，對圖像分塊精細化；(3) 加入 LoRA 模型（Low-Rank Adaptation），引入特定風格或物件的細節知識；(4) img2img（圖轉圖），用較低的降噪強度（Denoising Strength，0.3~0.5）重新生成，保留構圖的同時強化細節。

變形 4　跨領域

影片生成（Video Generation）也有「取樣步數」的概念嗎？

直覺

影片是圖像的延伸，應該也有類似機制？

答案

有，而且更複雜。影片生成（如 Stable Video Diffusion、Sora 的底層機制）同樣需要在時間維度做去噪，每幀的步數和跨幀的一致性都需要兼顧。步數不夠，每幀細節差；跨幀一致性不好，畫面閃爍（Temporal Flickering）。影片生成的取樣器選擇和步數設定通常比圖像生成更保守，因為錯誤會在時間軸上累積放大。

變形 5　評估指標

怎麼客觀評估 Stable Diffusion 生成圖像的品質？

直覺

圖好不好看，人眼看就知道了？

答案

人眼主觀評估不夠可重複，有幾個客觀指標：(1) FID（Fréchet Inception Distance，弗雷歇初始距離）：比較生成圖分佈和真實圖分佈的距離，越低越好；(2) CLIP Score：衡量生成圖像和文字 Prompt 的語意匹配程度；(3) LPIPS（Learned Perceptual Image Patch Similarity）：比較人類感知的圖像相似度。對產品圖這類有參考標準的場景，還可以計算 SSIM（結構相似性）和 PSNR（峰值信噪比）。

07　延伸

想再往下看，這 5 個

穩定擴散（Stable Diffusion）在潛在空間進行去噪的開源擴散模型，本題情境的核心工具；生成階段可透過增加去噪步數和調整取樣器改善細節品質。
擴散模型（Diffusion Model）透過學習逆轉「逐步加噪」過程來生成圖像；去噪步數越多、結果越細緻，但計算成本也越高，是本題關鍵取捨。
潛在擴散模型（Latent Diffusion Model）在低維潛在空間而非像素空間去噪，大幅降低計算成本；Stable Diffusion 的核心架構，也是其能生成高解析度圖像的基礎。
超解析度重建（Super-resolution）將低解析度影像放大並補充細節的技術，常與擴散模型結合作為後處理步驟，用來提升生成圖像的清晰度和紋理層次。
圖像生成（Image Generation）以生成模型（GAN、VAE、擴散模型）合成新圖像的技術領域；本題考的是在生成階段（而非後處理）改善畫質的參數調整策略。