LSTM（長短期記憶網路）是什麼？完整定義與解說

你有沒有遇過模型讀到很長的句子，前面講過的重點後面就忘了？ 你可以把 LSTM 想成，有一個可控的記憶盒子，會決定什麼該留下、什麼該丟掉。它其實就是為了記住長距離依賴而設計的循環神經網路。在語音、時間序列和長文本裡，它曾經是很重要的主力模型。

容易混淆

LSTM vs 一般循環神經網路 一般 RNN 容易忘記遠處資訊，LSTM 用門控機制把記憶保住。一個記性短，一個記性長。

LSTM vs Transformer LSTM 靠序列一步步傳遞，Transformer 靠注意力一次看全局。一個慢慢傳話，一個直接看重點。

最關鍵的區別： 差別在記憶保留方式和看全局的能力。

記住這句就好

想記很久，就要有門幫忙選記憶。

實際案例

語音辨識 語音前後文會影響字詞判斷，LSTM 過去常被用來吃長序列聲學特徵。

時間序列預測 像電力、銷量或股價這種連續時間資料，LSTM 能保留前面狀態對後面的影響。

算法與應用

LSTM 透過輸入門、遺忘門和輸出門控制資訊流，讓重要訊息留下來。它比傳統 RNN 更能處理長距離依賴，但訓練和推論成本也比較高。現在很多場景會改用 Transformer，但理解 LSTM 仍然很重要。

情境判斷

Q1（直覺題）： 如果模型需要記住很前面的資訊，該考慮哪種結構？

LSTM 很適合，因為它專門處理長距離依賴。

Q2（判斷題）： 只要是序列資料，就一定要用 LSTM 嗎？

不一定，現在很多任務也可以用 Transformer 或其他序列模型。

常見問題

LSTM 和 RNN 差在哪裡？

LSTM 多了門控和記憶單元，能減少長序列資訊消失。

LSTM 還常被用嗎？

有，特別是在某些時間序列和資源有限的任務裡還很實用。

LSTM 為什麼比傳統 RNN 穩？

因為它能選擇性保留和丟棄資訊，不會全靠單一路徑傳遞。

容易混淆

記住這句就好

實際案例

算法與應用

情境判斷

常見問題

相關術語

延伸學習

資料來源與參考依據