iPAS AI 應用規劃師初級　科目一　人工智慧基礎概論

LSTM 解決 RNN 哪個問題？

原題 33

某公車系統想預測各站點的到站時間，需要考慮歷史班次資料、即時路況、天氣等因素。由於路況變化複雜，傳統循環神經網路（Recurrent Neural Network, RNN）在建模時可能難以保留較早期的重要資訊。下列哪種架構最能解決這個問題？

白話

某公車系統想預測各站點的到站時間，需要同時考量歷史班次資料、即時路況和天氣等因素。由於路況變化複雜，傳統 RNN（循環神經網路）在建模時可能難以保留較早期的重要資訊。

問你：哪種神經網路架構最能解決 RNN 難以保留早期資訊的問題？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

RNN 記不住早期資訊；LSTM（長短期記憶網路）加入「記憶閘門」機制，專門解決這個長期依賴問題。

02　情境

先感受問題：預測公車幾點到，需要記住多久以前的事？

台北市公車處工程師小志要建立一套系統，預測 307 路公車每個站點的到站時間。這個預測需要參考的資訊包括：

今天早上 7 點的第一班車從哪裡出發、當時幾分鐘一班
過去一週的平均誤點率
現在路況（忠孝橋上有事故，已塞 20 分鐘）
今天天氣（下雨，平均速度下降 15%）

早上發生的事（第一班車狀況）和現在（下午 3 點的路況）之間相差了好幾個小時，但兩者都影響預測。這叫做「長期依賴（Long-term Dependency）」問題：模型要記住很久以前的資訊，才能做出正確預測。

03　對照

RNN 為什麼記不住早期資訊

RNN 的設計本意是「把上一步的輸出傳給下一步」，形成一個記憶鏈。但這個設計有個根本缺陷：

梯度消失（Vanishing Gradient）：訓練時反向傳播信號要傳回很久以前的步驟，每傳一步信號就弱一點，傳幾十步之後信號幾乎歸零，早期的資訊根本學不到
記憶只有一個「槽」：RNN 只有一個隱藏狀態（hidden state）來記住所有過去的東西，序列越長，新資訊一直覆蓋舊資訊
早期重要事件被遺忘：早上 7 點發生的班次異常，傳到下午 3 點的預測時，幾乎已被後面大量的資訊「沖掉」了
序列越長越不準：公車預測需要回看好幾個小時的資料，RNN 在長序列上表現明顯退化
無法選擇性記憶：RNN 不能主動決定「這件事很重要，我要特別記住」，所有資訊一視同仁，重要的和不重要的都同等對待

04　解法

LSTM 怎麼解決長期記憶問題

LSTM（Long Short-Term Memory，長短期記憶網路）是 RNN 的改良版本，設計了三個「閘門（Gate）」來控制記憶：

遺忘閘（Forget Gate）：決定「哪些舊記憶可以丟掉」。例如昨天的天氣狀況跟今天無關，遺忘閘會讓它淡出。

輸入閘（Input Gate）：決定「哪些新資訊要記住」。今天早上忠孝橋的事故這麼重要，輸入閘讓它進入長期記憶。

輸出閘（Output Gate）：決定「現在要把哪些記憶拿出來用」。在預測下午 3 點到站時間時，輸出閘把早上事故記錄和即時路況同時調出來參考。

有了這三個閘門，LSTM 可以「選擇性記憶」，重要的事記住，不重要的主動忘掉，序列再長都不會迷失。

這就是選項 D 講的：長短期記憶網路（LSTM），改善 RNN 的長期記憶問題。

技術版：LSTM 在時序模型中的位置

LSTM（Long Short-Term Memory）由 Hochreiter 和 Schmidhuber 於 1997 年提出，是循環神經網路（RNN）家族的重要成員，專為解決長期依賴（Long-term Dependency）問題設計。

LSTM 跟 RNN 的核心差異：RNN 只有一個隱藏狀態（hidden state）傳遞資訊；LSTM 有兩條記憶通道：短期記憶（hidden state）和長期記憶（cell state）。長期記憶通道類似一條「高速公路」，資訊可以不受干擾地傳遞很長的距離，解決了梯度消失問題。

在 AI 領域的應用：LSTM 屬於深度學習（Deep Learning）的時序模型（Sequence Model），常用場景包含時間序列預測（股價、氣象、交通）、自然語言處理（機器翻譯、文字生成）、語音辨識等。

LSTM 的後繼者：現代 NLP 任務大多已被 Transformer 架構取代（GPT、BERT 都基於 Transformer），但 LSTM 在時間序列預測（如公車到站、氣象預報）等需要處理連續數值資料的場景仍有優勢。

為什麼出題者考這題：AI 規劃師要能選對時序模型。RNN、LSTM、Transformer 各有適用場景，選錯架構會導致模型無法處理長期依賴，預測結果不可靠。

05　陷阱

為什麼其他選項是錯的

A卷積神經網路（CNN），利用卷積層捕捉局部特徵

字面在說什麼

用 CNN 的卷積層掃描局部特徵，常用於影像辨識。

為什麼不對

CNN 設計用來處理「空間結構」資料（影像、二維矩陣），它的卷積核只看局部視野，並不是為了處理「時間序列」中的長期依賴。公車預測是時間序列問題，CNN 不是對的工具。

誰會選錯

知道 CNN 很強大但搞混它的應用場景（空間特徵 vs. 時序依賴）的人。

B自編碼器（Autoencoder, AE），先進行資料壓縮再重建

字面在說什麼

自編碼器把資料壓縮成低維表示，再解壓重建，常用於異常偵測和特徵學習。

為什麼不對

自編碼器的目的是「學習資料的壓縮表示」，不是為了處理時序依賴問題。它沒有時序記憶機制，無法解決 RNN 記不住早期資訊的根本問題。

誰會選錯

看到「壓縮資料」覺得可以「壓縮記憶」因此解決記憶問題，邏輯上被「壓縮」誤導的人。

C全連接神經網路（FCNN），增加隱藏層數量

字面在說什麼

把普通神經網路堆更多層，增加模型容量。

為什麼不對

增加層數只是增加模型「深度」，FCNN 本身沒有任何時序記憶機制，無法處理序列中的長期依賴。公車資料有時間順序，FCNN 把每個時間點當獨立輸入，根本無法建模時序關係。

長短期記憶網路（Long Short-Term Memory）在 RNN 中加入遺忘、輸入、輸出三個閘門，專門解決長期依賴資訊保留問題的改良架構
循環神經網路（Recurrent Neural Network）透過隱藏狀態傳遞時序資訊的神經網路，是 LSTM 的前身，存在長序列記憶力下降的根本問題
梯度消失（Vanishing Gradient）RNN 無法保留早期資訊的數學根因，LSTM 的閘門機制提供梯度高速公路使長期依賴可被有效學習
閘控循環單元（Gated Recurrent Unit）LSTM 的簡化版本，同樣用閘門解決長期依賴問題但參數更少，在多數序列任務上表現與 LSTM 相當
轉換器架構（Transformer）以自注意力機制取代循環結構，可平行處理整個序列，已成為取代 LSTM 的主流時序建模架構