你有沒有想過,電腦怎麼知道「醫生」和「護士」比「醫生」和「香蕉」更像?
你可以把 Word2Vec 想成,把詞變成數字座標,讓意思相近的詞在空間裡靠近。
它重要,是因為機器如果只看字面,根本看不出詞和詞之間的語意關係。
你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。
容易混淆
Word2Vec vs 獨熱編碼 獨熱編碼只表示「是誰」,Word2Vec 還能表示「像誰」。
Word2Vec vs 嵌入表示 Word2Vec 是早期很有代表性的詞嵌入方法,嵌入表示是更大的總稱。
Word2Vec vs BERT 類上下文表示 Word2Vec 給同一個詞固定向量,BERT 類模型會依上下文改變向量。
最關鍵的區別:Word2Vec 是固定詞向量,不會因句子不同而改變。
記住這句就好
意思像的詞,向量也要靠近。
實際案例
搜尋推薦 使用者搜尋「手機充電器」,系統可以靠詞向量找到「快充頭」或「Type-C 充電線」這類語意接近的詞。
文字相似度 在客服分類裡,「退款申請」和「退費流程」雖然字不一樣,但詞向量可幫模型看出它們很接近。
算法與應用
Word2Vec 常見有 CBOW 和 Skip-gram 兩種訓練思路。
CBOW 會用上下文預測中心詞,Skip-gram 會用中心詞預測上下文。
它也常搭配負採樣、滑動視窗和大量語料一起訓練。
情境判斷
Q1(直覺題): 你想做「醫生、護士」這類語意靠近的詞表示,Word2Vec 合適嗎?
→ 合適,因為它就是在學詞與詞的語意距離。
Q2(判斷題): 如果同一個詞在不同句子裡意思不同,Word2Vec 能自動改變它的向量嗎?
→ 不能,這是它的限制。要處理多義詞,通常要看上下文型模型。
常見問題
Word2Vec 的維度怎麼選?
沒有固定答案,常見會在 100 到 300 維之間調整,語料越大通常可考慮較高維度。
訓練前要做哪些前處理?
常見會做分詞、去停用詞、清理符號和大小寫處理,降低雜訊。
Word2Vec 跟 FastText 有什麼差別?
FastText 會進一步考慮子詞資訊,對罕見詞更有幫助。
Word2Vec 現在還有用嗎?
有,雖然已經被更強的上下文模型部分取代,但在輕量任務和語意近似任務裡仍很實用。