iPAS AI 應用規劃師中級　科目三　機器學習技術與應用

互動特徵怎麼設計？乘積交叉組合是關鍵

原題 20

某電子商務公司為開發商品評論情感分析模型，希望模型能捕捉評論中不同特徵之間的關聯影響，例如「商品價格」與「顧客滿意度」的互動效果。下列哪一種特徵工程設計方式最適合用於建立互動特徵（Interaction Features）？

白話

一家電商公司想讓情感分析模型不只看單一特徵，還能看到「兩個特徵一起出現時的組合效果」，例如「商品價格」和「顧客滿意度」這兩個特徵之間的互動關係。

題目列出四種特徵工程的處理方式，要選出哪一種能建立「互動特徵（Interaction Features）」。

問你：哪一種特徵工程方法能有效建立兩個或多個特徵之間的互動效果？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

要建立互動特徵（Interaction Features），需要將兩個或多個特徵進行乘積或交互組合：新特徵 = 特徵 A × 特徵 B，直接把兩個特徵的「同時作用效果」編碼進一個新特徵，讓模型能捕捉兩者之間的互動關係。

02　情境

先感受問題：「高價格 + 不滿意」和「低價格 + 不滿意」的情緒一樣嗎？

「捷買電商」的資料科學師阿明在分析商品評論的情感。他發現了一個有趣的模式：

有人買了 50 元的手機殼，評論說「不滿意，覺得一般般」，情緒偏中性。
有人買了 5000 元的手機，評論說「不滿意，覺得一般般」，情緒非常負面。

同樣的「不滿意」情緒，在高價商品上的情感強度遠大於低價商品。這就是「商品價格」和「顧客滿意度」之間的互動效果（Interaction Effect）。

如果模型只分別看「價格高低」和「是否滿意」，它捕捉不到「高價格 × 不滿意 = 超級負面」這個組合效果，必須創造一個同時包含兩個特徵信息的新特徵。

03　對照

沒有互動特徵時，線性模型的盲點

線性模型假設特徵獨立：標準線性迴歸和邏輯迴歸假設每個特徵獨立影響輸出，無法捕捉「只有兩個特徵同時出現才有的效果」。
單一特徵看不到組合模式：「價格 = 5000」和「滿意度 = 2 分」分開看，模型會用兩個獨立的係數處理，不知道它們組合在一起代表什麼。
非線性關係無法被線性特徵表達：許多真實世界的模式是非線性的，「高價 + 不滿意 = 強烈負評」這種乘法關係不是線性加法可以表達的。
模型需要更多資料才能發現複雜模式：沒有互動特徵，模型需要從大量資料中「自己發現」這種組合規律，特徵工程可以讓模型更快、更準確地學到這種規律。
決策樹和 XGBoost 雖然可以捕捉互動，但特徵工程可以加速：樹模型理論上能通過多層分裂捕捉特徵互動，但顯式建立互動特徵可以幫助模型更快發現重要的互動模式，尤其在線性模型中更是必要的。

04　解法

互動特徵怎麼建立

阿明為情感分析模型加入了互動特徵：

新特徵 = 商品價格 × 顧客滿意度分數

效果：

50 元手機殼 × 滿意度 2 分 = 100（中性，互動值小）
5000 元手機 × 滿意度 2 分 = 10000（強烈負面，互動值大）

這個新特徵直接把「高價格 + 低滿意度 = 更強烈的不滿」這個規律編碼進去，讓模型的情感預測更準確。

互動特徵不只是乘積，也可以是：比率（A/B）、差值（A-B）、或類別型特徵的交叉組合（如「品牌 × 評論者性別」）。核心精神都是：把兩個特徵的「共同信息」創造成一個新特徵。

這就是選項 C 講的：將兩個或多個特徵進行乘積或交互組合。

技術版：互動特徵在特徵工程中的位置與實務應用

互動特徵（Interaction Features）屬於特徵工程（Feature Engineering）的「特徵組合」技術，是讓線性模型能夠捕捉非線性關係的主要手段之一。

在 AI 領域的位置：特徵工程位於資料前處理和模型訓練之間，是從原始資料中「創造更有資訊量的特徵」的過程。互動特徵是特徵工程中的高階技術，適用於已知或懷疑某兩個特徵之間存在非線性互動效果的情況。

互動特徵的主要形式：

乘積互動（Multiplicative Interaction）：A × B，最常見的形式，表達「A 和 B 同時高（或低）時才有的效果」。
比率互動（Ratio Interaction）：A / B，例如「單位重量的價格」。
多項式特徵（Polynomial Features）：A²（自身交互）或 A × B × C（三階互動），sklearn.preprocessing.PolynomialFeatures 可以自動生成所有組合。
類別型交叉特徵（Categorical Cross Features）：例如「城市 × 商品類別」，常用於推薦系統和廣告預測，在線性模型中用 One-Hot Encoding 後再相乘。

為什麼出題者要考這題：特徵工程是機器學習實務的核心技能，互動特徵是特徵工程中最有效的工具之一。能否理解「互動特徵 = 多個特徵的組合，而非單一特徵的轉換」，是區分有無實務經驗的關鍵。

05　陷阱

為什麼其他選項是錯的

A將單一特徵取平方

字面在說什麼

將某個特徵（如價格）取平方，得到 A²，這是一種多項式特徵（Polynomial Feature）。

為什麼不對

A² 是「單一特徵的自我交互」，它只涉及一個特徵本身，無法表達兩個不同特徵之間的互動關係。「價格平方」和「滿意度」之間仍然是獨立的，不能捕捉「高價格 + 低滿意度」這種組合效果。互動特徵（Interaction Features）的定義是涉及兩個或多個不同特徵的組合。

誰會選錯

知道多項式特徵可以幫助捕捉非線性關係，但混淆了「單一特徵的非線性轉換（A²）」和「兩個特徵的互動（A×B）」的人。前者是同一特徵的高階項，後者才是真正的互動特徵。

B對所有特徵進行對數轉換

字面在說什麼

對數轉換（Log Transformation）是讓偏態分布的特徵更接近正態分布的前處理技術，例如 log(價格)。

為什麼不對

對數轉換是單一特徵的「分布形態調整」，讓某個特徵的數值範圍更均勻，更適合線性模型假設。它不涉及多個特徵的組合，完全無法建立「特徵之間的互動關係」。log(價格) 和 log(滿意度) 仍然是兩個獨立特徵，無法捕捉它們之間的互動。

誰會選錯

把「特徵轉換（Feature Transformation）」和「特徵交互（Feature Interaction）」混淆的人。前者是改變單一特徵的表示方式，後者是從多個特徵中創造新特徵。

D對特徵進行標準化

字面在說什麼

標準化（Standardization）把特徵縮放到均值為 0、標準差為 1 的範圍，例如 Z-Score 標準化。

為什麼不對

標準化是「特徵縮放（Feature Scaling）」的技術，目的是讓不同尺度的特徵具有可比性，有助於梯度下降等優化過程。它改變的是特徵的數值範圍，不改變特徵之間的獨立性，無法建立任何互動特徵。標準化後的「價格」和「滿意度」仍然是兩個獨立特徵。

誰會選錯

把「提升特徵品質」和「建立互動特徵」混淆的人。標準化確實是特徵工程的重要步驟，但它解決的是「尺度不一致」問題，不是「無法捕捉互動效果」的問題。

06　變形

同個考點下次怎麼變形

變形 1

什麼時候需要手動建立互動特徵？什麼時候不需要？

直覺

深度學習和 XGBoost 好像可以自動學到特徵互動，還需要手動建立嗎？

答案

線性模型（邏輯迴歸、線性 SVM）：無法自動捕捉特徵互動，必須手動建立互動特徵。決策樹/XGBoost：能通過分支自動發現部分互動，但顯式建立重要的互動特徵可以加速學習、提升效能。深度學習：全連接層理論上能學習任意特徵互動，通常不需要手動建立，但在資料量不足時仍有幫助。結構化資料 + 線性/淺層模型：最需要互動特徵。

變形 2

建立所有兩兩互動特徵，有什麼風險？

直覺

如果有 100 個特徵，建立所有兩兩組合就有 4950 個互動特徵，這樣做有問題嗎？

答案

三個主要風險：(1) 維度爆炸（Curse of Dimensionality）：特徵數量大幅增加，模型容易過擬合，需要更多訓練資料。(2) 計算成本劇增：特徵數翻倍，訓練時間和記憶體需求大幅增加。(3) 噪音互動特徵：大多數兩兩互動可能對預測目標沒有意義，反而增加噪音。解法：用領域知識或特徵選擇（如相關性分析）篩選重要的互動對，不要盲目生成所有組合。

變形 3

類別型特徵的交叉特徵（Cross Feature）怎麼建立？

直覺

「城市」和「商品類別」都是類別型特徵，它們的互動怎麼編碼？

答案

方法一：拼接字符串，例如「台北_手機」變成一個新的類別，再做 One-Hot Encoding 或 Target Encoding。廣泛用於廣告點擊預測和推薦系統。方法二：Embedding 後相乘，把兩個類別型特徵各自 Embedding 成向量後做點積，適合深度學習模型。前者較簡單直觀，後者能學習更細緻的互動。

變形 4

互動特徵和多項式特徵（Polynomial Features）是同一件事嗎？

直覺

sklearn 裡的 PolynomialFeatures 好像可以生成 A × B 這種項，是不是就是互動特徵？

答案

部分重疊但不完全相同。多項式特徵包含：(1) 自身高次項（A²、A³）和 (2) 特徵間乘積（A×B、A²×B）兩種。互動特徵特指「涉及兩個以上不同特徵的組合」，A×B 是互動特徵，A² 不是。PolynomialFeatures(degree=2) 同時生成 A²、B²、A×B，A×B 的部分就是互動特徵，A²、B² 是同一特徵的非線性擴展。

變形 5

情感分析中，還有哪些有意義的互動特徵組合？

直覺

除了「價格 × 滿意度」，還有什麼特徵組合可能對情感分析有幫助？

答案

常見有效的情感分析互動特徵：(1) 評論字數 × 評分（長篇低評 = 深度不滿）；(2) 購買次數 × 評分（老客戶的低評 = 失望感更強）；(3) 商品品牌 × 評論情感詞頻（奢侈品牌 × 負面詞 = 更強的品牌受損信號）；(4) 購買時間距評論時間 × 評分（買了很久才給低評 = 後悔型不滿）。互動特徵的設計需要領域知識，不是純粹的數學操作。

07　延伸

想再往下看，這 5 個

特徵工程（Feature Engineering）本題的核心技術領域，互動特徵是特徵工程中的「特徵組合」技術，從原始特徵中創造更有資訊量的新特徵。
特徵選擇（Feature Selection）建立互動特徵後，特徵數量大幅增加，需要搭配特徵選擇方法篩掉無用的互動特徵，避免維度詛咒。
情感分析（Sentiment Analysis）本題的應用場景，分析文字評論的情感傾向，互動特徵能幫助模型捕捉「高價 + 不滿意」等複合情感信號。
線性迴歸（Linear Regression）最需要互動特徵的模型類型，因為它假設特徵獨立影響輸出，只有顯式加入互動特徵才能捕捉非線性互動效果。
特徵擷取（Feature Extraction）和特徵工程相關的另一個技術，從原始資料中自動學習有用的特徵表示，深度學習中特徵提取可以自動發現部分互動關係。