詞向量 是什麼?

Word2Vec — 詞向量 的完整解釋

詞向量(Word2Vec)是一種將詞語轉換為數字向量的技術,其核心概念是讓語意相近的詞彙在向量空間中的距離更接近

容易混淆

Word2Vec vs 獨熱編碼 獨熱編碼只表示「是誰」,Word2Vec 還能表示「像誰」。

Word2Vec vs 嵌入表示 Word2Vec 是早期很有代表性的詞嵌入方法,嵌入表示是更大的總稱。

Word2Vec vs BERT 類上下文表示 Word2Vec 給同一個詞固定向量,BERT 類模型會依上下文改變向量。

最關鍵的區別:Word2Vec 是固定詞向量,不會因句子不同而改變。

記住這句就好

意思像的詞,向量也要靠近。

實際案例

搜尋推薦 使用者搜尋「手機充電器」,系統可以靠詞向量找到「快充頭」或「Type-C 充電線」這類語意接近的詞。

文字相似度 在客服分類裡,「退款申請」和「退費流程」雖然字不一樣,但詞向量可幫模型看出它們很接近。

算法與應用

Word2Vec 常見有 CBOW 和 Skip-gram 兩種訓練思路。

CBOW 會用上下文預測中心詞,Skip-gram 會用中心詞預測上下文。

它也常搭配負採樣、滑動視窗和大量語料一起訓練。

情境判斷

Q1(直覺題): 你想做「醫生、護士」這類語意靠近的詞表示,Word2Vec 合適嗎?

→ 合適,因為它就是在學詞與詞的語意距離。

Q2(判斷題): 如果同一個詞在不同句子裡意思不同,Word2Vec 能自動改變它的向量嗎?

→ 不能,這是它的限制。要處理多義詞,通常要看上下文型模型。

相關術語

常見問題

Word2Vec 的維度怎麼選?

沒有固定答案,常見會在 100 到 300 維之間調整,語料越大通常可考慮較高維度。

訓練前要做哪些前處理?

常見會做分詞、去停用詞、清理符號和大小寫處理,降低雜訊。

Word2Vec 跟 FastText 有什麼差別?

FastText 會進一步考慮子詞資訊,對罕見詞更有幫助。

Word2Vec 現在還有用嗎?

有,雖然已經被更強的上下文模型部分取代,但在輕量任務和語意近似任務裡仍很實用。