iPAS AI 應用規劃師 初級 科目一 人工智慧基礎概論

LSTM 解決 RNN 哪個問題?

原題 33

某公車系統想預測各站點的到站時間,需要考慮歷史班次資料、即時路況、天氣等因素。由於路況變化複雜,傳統循環神經網路(Recurrent Neural Network, RNN)在建模時可能難以保留較早期的重要資訊。下列哪種架構最能解決這個問題?

白話

某公車系統想預測各站點的到站時間,需要同時考量歷史班次資料、即時路況和天氣等因素。由於路況變化複雜,傳統 RNN(循環神經網路)在建模時可能難以保留較早期的重要資訊。

問你:哪種神經網路架構最能解決 RNN 難以保留早期資訊的問題?

點選你的答案。

01 總結

一句話總結

RNN 記不住早期資訊;LSTM(長短期記憶網路)加入「記憶閘門」機制,專門解決這個長期依賴問題。

02 情境

先感受問題:預測公車幾點到,需要記住多久以前的事?

台北市公車處工程師小志要建立一套系統,預測 307 路公車每個站點的到站時間。這個預測需要參考的資訊包括:

  • 今天早上 7 點的第一班車從哪裡出發、當時幾分鐘一班
  • 過去一週的平均誤點率
  • 現在路況(忠孝橋上有事故,已塞 20 分鐘)
  • 今天天氣(下雨,平均速度下降 15%)

早上發生的事(第一班車狀況)和現在(下午 3 點的路況)之間相差了好幾個小時,但兩者都影響預測。這叫做「長期依賴(Long-term Dependency)」問題:模型要記住很久以前的資訊,才能做出正確預測。

03 對照

RNN 為什麼記不住早期資訊

RNN 的設計本意是「把上一步的輸出傳給下一步」,形成一個記憶鏈。但這個設計有個根本缺陷:

  1. 梯度消失(Vanishing Gradient):訓練時反向傳播信號要傳回很久以前的步驟,每傳一步信號就弱一點,傳幾十步之後信號幾乎歸零,早期的資訊根本學不到
  2. 記憶只有一個「槽」:RNN 只有一個隱藏狀態(hidden state)來記住所有過去的東西,序列越長,新資訊一直覆蓋舊資訊
  3. 早期重要事件被遺忘:早上 7 點發生的班次異常,傳到下午 3 點的預測時,幾乎已被後面大量的資訊「沖掉」了
  4. 序列越長越不準:公車預測需要回看好幾個小時的資料,RNN 在長序列上表現明顯退化
  5. 無法選擇性記憶:RNN 不能主動決定「這件事很重要,我要特別記住」,所有資訊一視同仁,重要的和不重要的都同等對待
04 解法

LSTM 怎麼解決長期記憶問題

LSTM(Long Short-Term Memory,長短期記憶網路)是 RNN 的改良版本,設計了三個「閘門(Gate)」來控制記憶:

遺忘閘(Forget Gate):決定「哪些舊記憶可以丟掉」。例如昨天的天氣狀況跟今天無關,遺忘閘會讓它淡出。

輸入閘(Input Gate):決定「哪些新資訊要記住」。今天早上忠孝橋的事故這麼重要,輸入閘讓它進入長期記憶。

輸出閘(Output Gate):決定「現在要把哪些記憶拿出來用」。在預測下午 3 點到站時間時,輸出閘把早上事故記錄和即時路況同時調出來參考。

有了這三個閘門,LSTM 可以「選擇性記憶」,重要的事記住,不重要的主動忘掉,序列再長都不會迷失。

這就是選項 D 講的:長短期記憶網路(LSTM),改善 RNN 的長期記憶問題

技術版:LSTM 在時序模型中的位置

LSTM(Long Short-Term Memory)由 Hochreiter 和 Schmidhuber 於 1997 年提出,是循環神經網路(RNN)家族的重要成員,專為解決長期依賴(Long-term Dependency)問題設計。

LSTM 跟 RNN 的核心差異:RNN 只有一個隱藏狀態(hidden state)傳遞資訊;LSTM 有兩條記憶通道:短期記憶(hidden state)和長期記憶(cell state)。長期記憶通道類似一條「高速公路」,資訊可以不受干擾地傳遞很長的距離,解決了梯度消失問題。

在 AI 領域的應用:LSTM 屬於深度學習(Deep Learning)的時序模型(Sequence Model),常用場景包含時間序列預測(股價、氣象、交通)、自然語言處理(機器翻譯、文字生成)、語音辨識等。

LSTM 的後繼者:現代 NLP 任務大多已被 Transformer 架構取代(GPT、BERT 都基於 Transformer),但 LSTM 在時間序列預測(如公車到站、氣象預報)等需要處理連續數值資料的場景仍有優勢。

為什麼出題者考這題:AI 規劃師要能選對時序模型。RNN、LSTM、Transformer 各有適用場景,選錯架構會導致模型無法處理長期依賴,預測結果不可靠。

05 陷阱

為什麼其他選項是錯的

A卷積神經網路(CNN),利用卷積層捕捉局部特徵

字面在說什麼

用 CNN 的卷積層掃描局部特徵,常用於影像辨識。

為什麼不對

CNN 設計用來處理「空間結構」資料(影像、二維矩陣),它的卷積核只看局部視野,並不是為了處理「時間序列」中的長期依賴。公車預測是時間序列問題,CNN 不是對的工具。

誰會選錯

知道 CNN 很強大但搞混它的應用場景(空間特徵 vs. 時序依賴)的人。

B自編碼器(Autoencoder, AE),先進行資料壓縮再重建

字面在說什麼

自編碼器把資料壓縮成低維表示,再解壓重建,常用於異常偵測和特徵學習。

為什麼不對

自編碼器的目的是「學習資料的壓縮表示」,不是為了處理時序依賴問題。它沒有時序記憶機制,無法解決 RNN 記不住早期資訊的根本問題。

誰會選錯

看到「壓縮資料」覺得可以「壓縮記憶」因此解決記憶問題,邏輯上被「壓縮」誤導的人。

C全連接神經網路(FCNN),增加隱藏層數量

字面在說什麼

把普通神經網路堆更多層,增加模型容量。

為什麼不對

增加層數只是增加模型「深度」,FCNN 本身沒有任何時序記憶機制,無法處理序列中的長期依賴。公車資料有時間順序,FCNN 把每個時間點當獨立輸入,根本無法建模時序關係。

誰會選錯

認為「更深的網路一定更強」的人。深度本身解決不了時序記憶問題,需要的是對的架構設計。

06 變形

同個考點下次怎麼變形

變形 1

LSTM 和 GRU(Gated Recurrent Unit)的主要差異是什麼?

直覺

GRU 是另一個常見的 RNN 改良版,考試可能問兩者差異。

答案

LSTM 有三個閘門(遺忘、輸入、輸出)和兩條記憶通道,結構較複雜、參數較多。GRU 只有兩個閘門(重置、更新),參數較少、訓練較快,在資料量不大時效果相當甚至更好。兩者都能解決 RNN 的長期記憶問題,GRU 是 LSTM 的簡化版。

變形 2

什麼是梯度消失(Vanishing Gradient)問題?它如何影響 RNN?

直覺

LSTM 的設計動機就是解決梯度消失,考試可能直接問這個根本原因。

答案

訓練神經網路時,反向傳播要把誤差信號從輸出層傳回輸入層。每傳一層,信號就乘上一個小於 1 的數字,傳很多層之後信號幾乎變成 0,早期的層根本學不到東西。RNN 序列很長時,等同「非常深的網路」,梯度消失讓 RNN 無法從早期時間步學習。LSTM 的閘門設計讓長期記憶通道的梯度可以不衰減地傳遞,解決了這個問題。

變形 3

在自然語言翻譯任務中,為什麼 Transformer 比 LSTM 表現更好?

直覺

現代 NLP 都用 Transformer,考試可能問它為什麼取代 LSTM。

答案

LSTM 是序列處理,必須一步步讀完整個句子才能建模,無法平行運算,訓練慢。Transformer 用「自注意力(Self-Attention)」機制,一次看整個序列,任意兩個位置都能直接互動,不受距離限制,且可高度平行化。長句子翻譯時,Transformer 的全局視野和並行效率明顯優於 LSTM。

變形 4

時間序列預測和一般分類問題,在模型選擇上有什麼不同?

直覺

公車預測是時間序列,能不能用一般分類模型?

答案

一般分類模型(決策樹、SVM、FCNN)把每筆資料當獨立樣本,沒有時序概念。時間序列資料的關鍵是「先後順序」,今天的資料依賴昨天,昨天依賴前天。需要能處理序列依賴的模型:LSTM、GRU、Transformer(時序版)。強行用分類模型會忽略時序關係,預測不準。

變形 5

雙向 LSTM(Bi-LSTM)比單向 LSTM 有什麼優勢?

直覺

Bi-LSTM 是 LSTM 的常見變體,考試可能考。

答案

單向 LSTM 只從「過去到現在」讀資料,看不到未來的上下文。雙向 LSTM 同時從兩個方向讀(前向和反向),讓模型在每個時間點都能看到前後文,適合需要完整上下文的任務(例如文字分類、命名實體識別)。公車到站預測通常是單向的,因為預測時未來還沒發生。

07 延伸

想再往下看,這 5 個

出處

iPAS 經濟部產業人才能力鑑定 ・ 115 年第一次 iPAS AI 應用規劃師 初級 科目一 人工智慧基礎概論 第 33 題

查看官方原文 PDF