長短期記憶網路(Long Short-Term Memory)是什麼?

長短期記憶網路是一種改良的循環神經網路,透過門控機制來克服傳統 RNN 在長序列中容易遺忘的缺陷|本頁含完整原理、應用場景、iPAS 考試重點與 3 個常見問答。

長短期記憶網路(Long Short-Term Memory)是什麼? 深度學習神經網路

你有沒有遇過模型讀到很長的句子,前面講過的重點後面就忘了? 你可以把 LSTM 想成,有一個可控的記憶盒子,會決定什麼該留下、什麼該丟掉。 它其實就是為了記住長距離依賴而設計的循環神經網路。 在語音、時間序列和長文本裡,它曾經是很重要的主力模型。

容易混淆

LSTM vs 一般循環神經網路 一般 RNN 容易忘記遠處資訊,LSTM 用門控機制把記憶保住。 一個記性短,一個記性長。

LSTM vs Transformer LSTM 靠序列一步步傳遞,Transformer 靠注意力一次看全局。 一個慢慢傳話,一個直接看重點。

最關鍵的區別: 差別在記憶保留方式和看全局的能力。

記住這句就好

想記很久,就要有門幫忙選記憶。

實際案例

語音辨識 語音前後文會影響字詞判斷,LSTM 過去常被用來吃長序列聲學特徵。

時間序列預測 像電力、銷量或股價這種連續時間資料,LSTM 能保留前面狀態對後面的影響。

算法與應用

LSTM 透過輸入門、遺忘門和輸出門控制資訊流,讓重要訊息留下來。 它比傳統 RNN 更能處理長距離依賴,但訓練和推論成本也比較高。 現在很多場景會改用 Transformer,但理解 LSTM 仍然很重要。

情境判斷

Q1(直覺題): 如果模型需要記住很前面的資訊,該考慮哪種結構?

LSTM 很適合,因為它專門處理長距離依賴。

Q2(判斷題): 只要是序列資料,就一定要用 LSTM 嗎?

不一定,現在很多任務也可以用 Transformer 或其他序列模型。

常見問題

LSTM 和 RNN 差在哪裡?

LSTM 多了門控和記憶單元,能減少長序列資訊消失。

LSTM 還常被用嗎?

有,特別是在某些時間序列和資源有限的任務裡還很實用。

LSTM 為什麼比傳統 RNN 穩?

因為它能選擇性保留和丟棄資訊,不會全靠單一路徑傳遞。