iPAS AI 應用規劃師中級　科目三　機器學習技術與應用

LSTM 最適合哪種應用情境？

原題 07

下列哪一種應用最適合採用長短期記憶網路（Long Short-Term Memory, LSTM）模型？

白話

長短期記憶網路（LSTM）是一種特殊的神經網路，設計上能記住時間序列中的長程依賴關係。

問你：四個應用情境中，哪一個符合 LSTM 模型的核心強項？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

LSTM 最適合有「時間順序和長程依賴」的任務，也就是時間序列預測，例如預測未來七天的電力需求：今天的用電和昨天、上週甚至上個月都有關，需要記住過去的脈絡才能預測未來。

02　情境

先感受問題：台電怎麼預測七天後的用電量

台電需要在一週前就安排發電計畫：要啟動多少機組、要從哪裡調度電力、要不要備轉容量。

要準確預測七天後的電力需求，需要考慮：

今天是週幾（工作日用電多、假日用電少）
前一週的用電趨勢（是否有季節性轉變）
上個月的模式（月初、月末不同）
去年同期的數據（年週期性規律）

這些信號有長有短：「今天星期幾」是短期，「這個月整體在升溫」是中期，「去年這週用電創新高」是長期記憶。普通的模型很難同時記住這麼不同時間尺度的信號。

03　對照

普通 RNN 為什麼記不住長程資訊

梯度消失問題：訓練時誤差要往回傳遞幾十甚至幾百個時間步，梯度越傳越小，很早期的時間步完全學不到。
短期記憶限制：普通 RNN 的隱藏狀態每個時間步都被覆蓋，舊資訊被新資訊衝掉，沒有辦法「刻意保留」某些重要的長期資訊。
只能看到近期：實際上普通 RNN 只能有效利用最近幾個時間步的資訊，幾週前的模式完全被遺忘。
無法控制遺忘：無論有沒有用，每個時間步的資訊都以固定方式混合，沒有「這個信號很重要，要保留」的機制。
訓練不穩定：長序列訓練時梯度消失或梯度爆炸，模型難以收斂到好的解。

04　解法

LSTM 怎麼解決長程記憶問題

LSTM 引入了一個「記憶細胞」（Cell State）和三個「閘門」來控制資訊的流入、保留、輸出：

輸入閘（Input Gate）：決定「現在的輸入有多少要寫進記憶」。
遺忘閘（Forget Gate）：決定「記憶裡有多少舊資訊要被清掉」。
輸出閘（Output Gate）：決定「記憶裡有多少要影響現在的輸出」。

對台電的電力預測，LSTM 可以學到：

「每逢週末，輸入閘讓用電下降的信號寫進記憶」。
「夏季高溫記憶在整個夏天都保留，不被中間幾天的變化清除」。
「預測時輸出閘把季節記憶和近期趨勢一起考慮進去」。

這讓 LSTM 在預測第 7 天時，能同時利用昨天、上週、上個月的信息，而不只看最近幾天。

這就是選項 A 講的：預測未來七天的電力需求變化趨勢。

技術版：LSTM 在序列資料處理中的位置與現狀

LSTM（長短期記憶網路）屬於循環神經網路（RNN）的改良版本，是 2017 年 Transformer 問世前，自然語言處理和時間序列預測的業界標準架構。

在 AI 領域的位置：序列模型 → 循環神經網路家族 → LSTM/GRU。適用於任何「輸入是有順序的序列」的任務：時間序列、文字、語音、DNA 序列。

LSTM 的核心優勢（與對照）：

vs 普通 RNN：LSTM 透過閘門機制解決了梯度消失問題，能記住幾百個時間步前的資訊。
vs Transformer：Transformer 用自注意力機制，理論上能注意任意距離的位置，但訓練成本高，適合大資料量；LSTM 計算順序處理，不能並行化，但參數量少，適合小規模序列任務。
vs GRU：GRU 是 LSTM 的簡化版（只有兩個閘），參數更少，在許多序列任務上效果差不多，訓練更快。

現狀：在時間序列預測任務中，LSTM 仍是可靠的基準。對於長文本理解，Transformer 已取代 LSTM。Prophet、ARIMA 在某些簡單時序任務上仍更快更可解釋。

為什麼出題者要考這題：正確識別 LSTM 的適用場景（序列/時序任務），並排除影像（CNN）、分群（K-Means/DBSCAN）、降維（PCA/Autoencoder）等其他任務，考驗應試者對各類模型「適用場景」的整體掌握度。

05　陷阱

為什麼其他選項是錯的

B辨識監視影像中不同類別的物件

字面在說什麼

對監視器影像做物件偵測，找出畫面裡有哪些車、人、路標。

為什麼不對

影像資料在空間上有結構，沒有「時間順序」的本質需求。CNN（卷積神經網路）是處理影像的標準架構，LSTM 不適合靜態影像分析。就算是影片，也是先用 CNN 提取每幀特徵，再用 LSTM/Transformer 處理時序，而不是直接用 LSTM 處理原始影像。

誰會選錯

把「深度學習」和「LSTM」畫上等號的人。LSTM 是深度學習的一個子分類，用在序列資料；CNN 才是影像的標準工具。

C將大量顧客資料依相似特徵自動分群

字面在說什麼

對顧客做分群（Clustering），把相似行為的顧客歸在一起。

為什麼不對

分群是非監督式學習任務，標準工具是 K-Means、DBSCAN、階層分群等。LSTM 是監督式/半監督的序列模型，沒有「分群」的輸出機制，硬用 LSTM 做分群既不直接也不高效。

誰會選錯

不清楚「序列模型」和「分群模型」是不同任務的人。記住：LSTM 是「預測 / 生成 / 分類」，不是「分群」。

D將高維度的感測器資料壓縮成低維表示

字面在說什麼

把幾百個感測器的高維資料壓縮成幾個維度，用來視覺化或作為其他模型的輸入。

為什麼不對

降維任務的標準工具是 PCA（主成分分析）、自動編碼器（Autoencoder）、UMAP 等。LSTM 雖然可以在序列降維場景使用，但不是首選。這個選項的需求核心是「降維」，不是「序列時序建模」。

誰會選錯

注意到「感測器資料」可能有時序性，就想到 LSTM 的人。關鍵判斷：這個任務的目的是「壓縮維度」，不是「預測序列的下一個值或趨勢」，兩者用不同的工具。

06　變形

同個考點下次怎麼變形

變形 1

LSTM 和 GRU 怎麼選？

直覺

兩者都是解決 RNN 長程依賴問題的方案。

答案

GRU 參數更少（兩個閘 vs LSTM 三個閘），訓練更快，在許多中等長度序列任務上效果差不多甚至更好。資料量少、計算資源有限時選 GRU；序列非常長、需要精細控制記憶讀寫時選 LSTM。

變形 2

LSTM 和 Transformer 在時序預測上怎麼比較？

直覺

現在很多任務 Transformer 都超過 LSTM，時序預測也一樣嗎？

答案

Transformer（如 Informer、PatchTST）在長序列時序預測上已超過 LSTM，因為自注意力能直接連接任意時間步。但 LSTM 在短序列、資料量少、計算資源受限的情境仍是可靠選擇，且不需要大量資料訓練就能有合理表現。

變形 3

雙向 LSTM（Bidirectional LSTM）和單向 LSTM 有何差異？

直覺

語言中一個詞的意思不只取決於前面的字，也取決於後面的字。

答案

雙向 LSTM 同時從序列頭往尾和從尾往頭各跑一次，把兩個方向的隱藏狀態串接起來。適合文本分析（能看到前後文），不適合即時預測（未來資料還沒到，不能往回看）。電力預測是即時任務，只能用單向 LSTM。

變形 4

LSTM 遺忘閘設為 0 代表什麼？

直覺

遺忘閘值在 0 到 1 之間，0 代表完全遺忘。

答案

遺忘閘輸出 0 代表記憶細胞的舊狀態全部清零，相當於「完全重置記憶」。輸出 1 代表完全保留舊記憶。實際訓練時，遺忘閘會學到「何時該忘、何時該記」，例如遇到句子結束符號就把上一句的記憶清掉。

變形 5

LSTM 序列到序列（Seq2Seq）是什麼應用？

直覺

輸入是一個序列，輸出也是一個序列。

答案

Seq2Seq 是「編碼器-解碼器」架構：編碼器 LSTM 讀入輸入序列（如中文句子），輸出一個固定長度的隱藏向量；解碼器 LSTM 根據這個向量逐步生成輸出序列（如英文翻譯）。機器翻譯、對話系統、程式碼生成都用過這個架構。

07　延伸

想再往下看，這 5 個

LSTM（長短期記憶網路）本題核心，透過閘門機制解決 RNN 長程依賴問題，是時間序列預測的經典架構。
RNN（循環神經網路）LSTM 的前身，能處理序列資料但有梯度消失限制，LSTM 是其改良版。
時間序列分析（Time Series Analysis）LSTM 最主要的應用場景，包括電力預測、股價預測、感測器監控等。
GRU（閘控循環單元）LSTM 的簡化版，用兩個閘替代三個，在許多任務上效果相當但訓練更快。
Seq2Seq（序列到序列模型）LSTM 的重要應用架構，輸入輸出都是序列，廣泛用於翻譯、摘要、對話生成。