長短期記憶網路 是什麼?
Long Short-Term Memory — 長短期記憶網路 的完整解釋
長短期記憶網路是一種改良的循環神經網路,透過門控機制來克服傳統 RNN 在長序列中容易遺忘的缺陷
容易混淆
LSTM vs 一般循環神經網路 一般 RNN 容易忘記遠處資訊,LSTM 用門控機制把記憶保住。 一個記性短,一個記性長。
LSTM vs Transformer LSTM 靠序列一步步傳遞,Transformer 靠注意力一次看全局。 一個慢慢傳話,一個直接看重點。
最關鍵的區別: 差別在記憶保留方式和看全局的能力。
記住這句就好
想記很久,就要有門幫忙選記憶。
實際案例
語音辨識 語音前後文會影響字詞判斷,LSTM 過去常被用來吃長序列聲學特徵。
時間序列預測 像電力、銷量或股價這種連續時間資料,LSTM 能保留前面狀態對後面的影響。
算法與應用
LSTM 透過輸入門、遺忘門和輸出門控制資訊流,讓重要訊息留下來。 它比傳統 RNN 更能處理長距離依賴,但訓練和推論成本也比較高。 現在很多場景會改用 Transformer,但理解 LSTM 仍然很重要。
情境判斷
Q1(直覺題): 如果模型需要記住很前面的資訊,該考慮哪種結構?
→ LSTM 很適合,因為它專門處理長距離依賴。
Q2(判斷題): 只要是序列資料,就一定要用 LSTM 嗎?
→ 不一定,現在很多任務也可以用 Transformer 或其他序列模型。
相關術語
常見問題
LSTM 和 RNN 差在哪裡?
LSTM 多了門控和記憶單元,能減少長序列資訊消失。
LSTM 還常被用嗎?
有,特別是在某些時間序列和資源有限的任務裡還很實用。
LSTM 為什麼比傳統 RNN 穩?
因為它能選擇性保留和丟棄資訊,不會全靠單一路徑傳遞。