iPAS AI 應用規劃師 中級 科目三 機器學習技術與應用

LSTM 最適合哪種應用情境?

原題 07

下列哪一種應用最適合採用長短期記憶網路(Long Short-Term Memory, LSTM)模型?

白話

長短期記憶網路(LSTM)是一種特殊的神經網路,設計上能記住時間序列中的長程依賴關係。

問你:四個應用情境中,哪一個符合 LSTM 模型的核心強項?

點選你的答案。

01 總結

一句話總結

LSTM 最適合有「時間順序和長程依賴」的任務,也就是時間序列預測,例如預測未來七天的電力需求:今天的用電和昨天、上週甚至上個月都有關,需要記住過去的脈絡才能預測未來。

02 情境

先感受問題:台電怎麼預測七天後的用電量

台電需要在一週前就安排發電計畫:要啟動多少機組、要從哪裡調度電力、要不要備轉容量。

要準確預測七天後的電力需求,需要考慮:

  • 今天是週幾(工作日用電多、假日用電少)
  • 前一週的用電趨勢(是否有季節性轉變)
  • 上個月的模式(月初、月末不同)
  • 去年同期的數據(年週期性規律)

這些信號有長有短:「今天星期幾」是短期,「這個月整體在升溫」是中期,「去年這週用電創新高」是長期記憶。普通的模型很難同時記住這麼不同時間尺度的信號。

03 對照

普通 RNN 為什麼記不住長程資訊

  1. 梯度消失問題:訓練時誤差要往回傳遞幾十甚至幾百個時間步,梯度越傳越小,很早期的時間步完全學不到。
  2. 短期記憶限制:普通 RNN 的隱藏狀態每個時間步都被覆蓋,舊資訊被新資訊衝掉,沒有辦法「刻意保留」某些重要的長期資訊。
  3. 只能看到近期:實際上普通 RNN 只能有效利用最近幾個時間步的資訊,幾週前的模式完全被遺忘。
  4. 無法控制遺忘:無論有沒有用,每個時間步的資訊都以固定方式混合,沒有「這個信號很重要,要保留」的機制。
  5. 訓練不穩定:長序列訓練時梯度消失或梯度爆炸,模型難以收斂到好的解。
04 解法

LSTM 怎麼解決長程記憶問題

LSTM 引入了一個「記憶細胞」(Cell State)和三個「閘門」來控制資訊的流入、保留、輸出:

  • 輸入閘(Input Gate):決定「現在的輸入有多少要寫進記憶」。
  • 遺忘閘(Forget Gate):決定「記憶裡有多少舊資訊要被清掉」。
  • 輸出閘(Output Gate):決定「記憶裡有多少要影響現在的輸出」。

對台電的電力預測,LSTM 可以學到:

  • 「每逢週末,輸入閘讓用電下降的信號寫進記憶」。
  • 「夏季高溫記憶在整個夏天都保留,不被中間幾天的變化清除」。
  • 「預測時輸出閘把季節記憶和近期趨勢一起考慮進去」。

這讓 LSTM 在預測第 7 天時,能同時利用昨天、上週、上個月的信息,而不只看最近幾天。

這就是選項 A 講的:預測未來七天的電力需求變化趨勢

技術版:LSTM 在序列資料處理中的位置與現狀

LSTM(長短期記憶網路)屬於循環神經網路(RNN)的改良版本,是 2017 年 Transformer 問世前,自然語言處理和時間序列預測的業界標準架構。

在 AI 領域的位置:序列模型 → 循環神經網路家族 → LSTM/GRU。適用於任何「輸入是有順序的序列」的任務:時間序列、文字、語音、DNA 序列。

LSTM 的核心優勢(與對照):

  • vs 普通 RNN:LSTM 透過閘門機制解決了梯度消失問題,能記住幾百個時間步前的資訊。
  • vs Transformer:Transformer 用自注意力機制,理論上能注意任意距離的位置,但訓練成本高,適合大資料量;LSTM 計算順序處理,不能並行化,但參數量少,適合小規模序列任務。
  • vs GRU:GRU 是 LSTM 的簡化版(只有兩個閘),參數更少,在許多序列任務上效果差不多,訓練更快。

現狀:在時間序列預測任務中,LSTM 仍是可靠的基準。對於長文本理解,Transformer 已取代 LSTM。Prophet、ARIMA 在某些簡單時序任務上仍更快更可解釋。

為什麼出題者要考這題:正確識別 LSTM 的適用場景(序列/時序任務),並排除影像(CNN)、分群(K-Means/DBSCAN)、降維(PCA/Autoencoder)等其他任務,考驗應試者對各類模型「適用場景」的整體掌握度。

05 陷阱

為什麼其他選項是錯的

B辨識監視影像中不同類別的物件

字面在說什麼

對監視器影像做物件偵測,找出畫面裡有哪些車、人、路標。

為什麼不對

影像資料在空間上有結構,沒有「時間順序」的本質需求。CNN(卷積神經網路)是處理影像的標準架構,LSTM 不適合靜態影像分析。就算是影片,也是先用 CNN 提取每幀特徵,再用 LSTM/Transformer 處理時序,而不是直接用 LSTM 處理原始影像。

誰會選錯

把「深度學習」和「LSTM」畫上等號的人。LSTM 是深度學習的一個子分類,用在序列資料;CNN 才是影像的標準工具。

C將大量顧客資料依相似特徵自動分群

字面在說什麼

對顧客做分群(Clustering),把相似行為的顧客歸在一起。

為什麼不對

分群是非監督式學習任務,標準工具是 K-Means、DBSCAN、階層分群等。LSTM 是監督式/半監督的序列模型,沒有「分群」的輸出機制,硬用 LSTM 做分群既不直接也不高效。

誰會選錯

不清楚「序列模型」和「分群模型」是不同任務的人。記住:LSTM 是「預測 / 生成 / 分類」,不是「分群」。

D將高維度的感測器資料壓縮成低維表示

字面在說什麼

把幾百個感測器的高維資料壓縮成幾個維度,用來視覺化或作為其他模型的輸入。

為什麼不對

降維任務的標準工具是 PCA(主成分分析)、自動編碼器(Autoencoder)、UMAP 等。LSTM 雖然可以在序列降維場景使用,但不是首選。這個選項的需求核心是「降維」,不是「序列時序建模」。

誰會選錯

注意到「感測器資料」可能有時序性,就想到 LSTM 的人。關鍵判斷:這個任務的目的是「壓縮維度」,不是「預測序列的下一個值或趨勢」,兩者用不同的工具。

06 變形

同個考點下次怎麼變形

變形 1

LSTM 和 GRU 怎麼選?

直覺

兩者都是解決 RNN 長程依賴問題的方案。

答案

GRU 參數更少(兩個閘 vs LSTM 三個閘),訓練更快,在許多中等長度序列任務上效果差不多甚至更好。資料量少、計算資源有限時選 GRU;序列非常長、需要精細控制記憶讀寫時選 LSTM。

變形 2

LSTM 和 Transformer 在時序預測上怎麼比較?

直覺

現在很多任務 Transformer 都超過 LSTM,時序預測也一樣嗎?

答案

Transformer(如 Informer、PatchTST)在長序列時序預測上已超過 LSTM,因為自注意力能直接連接任意時間步。但 LSTM 在短序列、資料量少、計算資源受限的情境仍是可靠選擇,且不需要大量資料訓練就能有合理表現。

變形 3

雙向 LSTM(Bidirectional LSTM)和單向 LSTM 有何差異?

直覺

語言中一個詞的意思不只取決於前面的字,也取決於後面的字。

答案

雙向 LSTM 同時從序列頭往尾和從尾往頭各跑一次,把兩個方向的隱藏狀態串接起來。適合文本分析(能看到前後文),不適合即時預測(未來資料還沒到,不能往回看)。電力預測是即時任務,只能用單向 LSTM。

變形 4

LSTM 遺忘閘設為 0 代表什麼?

直覺

遺忘閘值在 0 到 1 之間,0 代表完全遺忘。

答案

遺忘閘輸出 0 代表記憶細胞的舊狀態全部清零,相當於「完全重置記憶」。輸出 1 代表完全保留舊記憶。實際訓練時,遺忘閘會學到「何時該忘、何時該記」,例如遇到句子結束符號就把上一句的記憶清掉。

變形 5

LSTM 序列到序列(Seq2Seq)是什麼應用?

直覺

輸入是一個序列,輸出也是一個序列。

答案

Seq2Seq 是「編碼器-解碼器」架構:編碼器 LSTM 讀入輸入序列(如中文句子),輸出一個固定長度的隱藏向量;解碼器 LSTM 根據這個向量逐步生成輸出序列(如英文翻譯)。機器翻譯、對話系統、程式碼生成都用過這個架構。

07 延伸

想再往下看,這 5 個

出處

iPAS 經濟部產業人才能力鑑定 ・ 114 年第二梯次 iPAS AI 應用規劃師 中級 科目三 機器學習技術與應用 第 7 題

查看官方原文 PDF