iPAS AI 應用規劃師 中級 科目三 機器學習技術與應用

互動特徵怎麼設計?乘積交叉組合是關鍵

原題 20

某電子商務公司為開發商品評論情感分析模型,希望模型能捕捉評論中不同特徵之間的關聯影響,例如「商品價格」與「顧客滿意度」的互動效果。下列哪一種特徵工程設計方式最適合用於建立互動特徵(Interaction Features)?

白話

一家電商公司想讓情感分析模型不只看單一特徵,還能看到「兩個特徵一起出現時的組合效果」,例如「商品價格」和「顧客滿意度」這兩個特徵之間的互動關係。

題目列出四種特徵工程的處理方式,要選出哪一種能建立「互動特徵(Interaction Features)」。

問你:哪一種特徵工程方法能有效建立兩個或多個特徵之間的互動效果?

點選你的答案。

01 總結

一句話總結

要建立互動特徵(Interaction Features),需要將兩個或多個特徵進行乘積或交互組合:新特徵 = 特徵 A × 特徵 B,直接把兩個特徵的「同時作用效果」編碼進一個新特徵,讓模型能捕捉兩者之間的互動關係

02 情境

先感受問題:「高價格 + 不滿意」和「低價格 + 不滿意」的情緒一樣嗎?

「捷買電商」的資料科學師阿明在分析商品評論的情感。他發現了一個有趣的模式:

  • 有人買了 50 元的手機殼,評論說「不滿意,覺得一般般」,情緒偏中性。
  • 有人買了 5000 元的手機,評論說「不滿意,覺得一般般」,情緒非常負面。

同樣的「不滿意」情緒,在高價商品上的情感強度遠大於低價商品。這就是「商品價格」和「顧客滿意度」之間的互動效果(Interaction Effect)。

如果模型只分別看「價格高低」和「是否滿意」,它捕捉不到「高價格 × 不滿意 = 超級負面」這個組合效果,必須創造一個同時包含兩個特徵信息的新特徵。

03 對照

沒有互動特徵時,線性模型的盲點

  1. 線性模型假設特徵獨立:標準線性迴歸和邏輯迴歸假設每個特徵獨立影響輸出,無法捕捉「只有兩個特徵同時出現才有的效果」。
  2. 單一特徵看不到組合模式:「價格 = 5000」和「滿意度 = 2 分」分開看,模型會用兩個獨立的係數處理,不知道它們組合在一起代表什麼。
  3. 非線性關係無法被線性特徵表達:許多真實世界的模式是非線性的,「高價 + 不滿意 = 強烈負評」這種乘法關係不是線性加法可以表達的。
  4. 模型需要更多資料才能發現複雜模式:沒有互動特徵,模型需要從大量資料中「自己發現」這種組合規律,特徵工程可以讓模型更快、更準確地學到這種規律。
  5. 決策樹和 XGBoost 雖然可以捕捉互動,但特徵工程可以加速:樹模型理論上能通過多層分裂捕捉特徵互動,但顯式建立互動特徵可以幫助模型更快發現重要的互動模式,尤其在線性模型中更是必要的。
04 解法

互動特徵怎麼建立

阿明為情感分析模型加入了互動特徵:

新特徵 = 商品價格 × 顧客滿意度分數

效果:

  • 50 元手機殼 × 滿意度 2 分 = 100(中性,互動值小)
  • 5000 元手機 × 滿意度 2 分 = 10000(強烈負面,互動值大)

這個新特徵直接把「高價格 + 低滿意度 = 更強烈的不滿」這個規律編碼進去,讓模型的情感預測更準確。

互動特徵不只是乘積,也可以是:比率(A/B)、差值(A-B)、或類別型特徵的交叉組合(如「品牌 × 評論者性別」)。核心精神都是:把兩個特徵的「共同信息」創造成一個新特徵。

這就是選項 C 講的:將兩個或多個特徵進行乘積或交互組合

技術版:互動特徵在特徵工程中的位置與實務應用

互動特徵(Interaction Features)屬於特徵工程(Feature Engineering)的「特徵組合」技術,是讓線性模型能夠捕捉非線性關係的主要手段之一。

在 AI 領域的位置:特徵工程位於資料前處理和模型訓練之間,是從原始資料中「創造更有資訊量的特徵」的過程。互動特徵是特徵工程中的高階技術,適用於已知或懷疑某兩個特徵之間存在非線性互動效果的情況。

互動特徵的主要形式:

  • 乘積互動(Multiplicative Interaction):A × B,最常見的形式,表達「A 和 B 同時高(或低)時才有的效果」。
  • 比率互動(Ratio Interaction):A / B,例如「單位重量的價格」。
  • 多項式特徵(Polynomial Features):A²(自身交互)或 A × B × C(三階互動),sklearn.preprocessing.PolynomialFeatures 可以自動生成所有組合。
  • 類別型交叉特徵(Categorical Cross Features):例如「城市 × 商品類別」,常用於推薦系統和廣告預測,在線性模型中用 One-Hot Encoding 後再相乘。

為什麼出題者要考這題:特徵工程是機器學習實務的核心技能,互動特徵是特徵工程中最有效的工具之一。能否理解「互動特徵 = 多個特徵的組合,而非單一特徵的轉換」,是區分有無實務經驗的關鍵。

05 陷阱

為什麼其他選項是錯的

A將單一特徵取平方

字面在說什麼

將某個特徵(如價格)取平方,得到 A²,這是一種多項式特徵(Polynomial Feature)。

為什麼不對

A² 是「單一特徵的自我交互」,它只涉及一個特徵本身,無法表達兩個不同特徵之間的互動關係。「價格平方」和「滿意度」之間仍然是獨立的,不能捕捉「高價格 + 低滿意度」這種組合效果。互動特徵(Interaction Features)的定義是涉及兩個或多個不同特徵的組合。

誰會選錯

知道多項式特徵可以幫助捕捉非線性關係,但混淆了「單一特徵的非線性轉換(A²)」和「兩個特徵的互動(A×B)」的人。前者是同一特徵的高階項,後者才是真正的互動特徵。

B對所有特徵進行對數轉換

字面在說什麼

對數轉換(Log Transformation)是讓偏態分布的特徵更接近正態分布的前處理技術,例如 log(價格)。

為什麼不對

對數轉換是單一特徵的「分布形態調整」,讓某個特徵的數值範圍更均勻,更適合線性模型假設。它不涉及多個特徵的組合,完全無法建立「特徵之間的互動關係」。log(價格) 和 log(滿意度) 仍然是兩個獨立特徵,無法捕捉它們之間的互動。

誰會選錯

把「特徵轉換(Feature Transformation)」和「特徵交互(Feature Interaction)」混淆的人。前者是改變單一特徵的表示方式,後者是從多個特徵中創造新特徵。

D對特徵進行標準化

字面在說什麼

標準化(Standardization)把特徵縮放到均值為 0、標準差為 1 的範圍,例如 Z-Score 標準化。

為什麼不對

標準化是「特徵縮放(Feature Scaling)」的技術,目的是讓不同尺度的特徵具有可比性,有助於梯度下降等優化過程。它改變的是特徵的數值範圍,不改變特徵之間的獨立性,無法建立任何互動特徵。標準化後的「價格」和「滿意度」仍然是兩個獨立特徵。

誰會選錯

把「提升特徵品質」和「建立互動特徵」混淆的人。標準化確實是特徵工程的重要步驟,但它解決的是「尺度不一致」問題,不是「無法捕捉互動效果」的問題。

06 變形

同個考點下次怎麼變形

變形 1

什麼時候需要手動建立互動特徵?什麼時候不需要?

直覺

深度學習和 XGBoost 好像可以自動學到特徵互動,還需要手動建立嗎?

答案

線性模型(邏輯迴歸、線性 SVM):無法自動捕捉特徵互動,必須手動建立互動特徵。決策樹/XGBoost:能通過分支自動發現部分互動,但顯式建立重要的互動特徵可以加速學習、提升效能。深度學習:全連接層理論上能學習任意特徵互動,通常不需要手動建立,但在資料量不足時仍有幫助。結構化資料 + 線性/淺層模型:最需要互動特徵。

變形 2

建立所有兩兩互動特徵,有什麼風險?

直覺

如果有 100 個特徵,建立所有兩兩組合就有 4950 個互動特徵,這樣做有問題嗎?

答案

三個主要風險:(1) 維度爆炸(Curse of Dimensionality):特徵數量大幅增加,模型容易過擬合,需要更多訓練資料。(2) 計算成本劇增:特徵數翻倍,訓練時間和記憶體需求大幅增加。(3) 噪音互動特徵:大多數兩兩互動可能對預測目標沒有意義,反而增加噪音。解法:用領域知識或特徵選擇(如相關性分析)篩選重要的互動對,不要盲目生成所有組合。

變形 3

類別型特徵的交叉特徵(Cross Feature)怎麼建立?

直覺

「城市」和「商品類別」都是類別型特徵,它們的互動怎麼編碼?

答案

方法一:拼接字符串,例如「台北_手機」變成一個新的類別,再做 One-Hot Encoding 或 Target Encoding。廣泛用於廣告點擊預測和推薦系統。方法二:Embedding 後相乘,把兩個類別型特徵各自 Embedding 成向量後做點積,適合深度學習模型。前者較簡單直觀,後者能學習更細緻的互動。

變形 4

互動特徵和多項式特徵(Polynomial Features)是同一件事嗎?

直覺

sklearn 裡的 PolynomialFeatures 好像可以生成 A × B 這種項,是不是就是互動特徵?

答案

部分重疊但不完全相同。多項式特徵包含:(1) 自身高次項(A²、A³)和 (2) 特徵間乘積(A×B、A²×B)兩種。互動特徵特指「涉及兩個以上不同特徵的組合」,A×B 是互動特徵,A² 不是。PolynomialFeatures(degree=2) 同時生成 A²、B²、A×B,A×B 的部分就是互動特徵,A²、B² 是同一特徵的非線性擴展。

變形 5

情感分析中,還有哪些有意義的互動特徵組合?

直覺

除了「價格 × 滿意度」,還有什麼特徵組合可能對情感分析有幫助?

答案

常見有效的情感分析互動特徵:(1) 評論字數 × 評分(長篇低評 = 深度不滿);(2) 購買次數 × 評分(老客戶的低評 = 失望感更強);(3) 商品品牌 × 評論情感詞頻(奢侈品牌 × 負面詞 = 更強的品牌受損信號);(4) 購買時間距評論時間 × 評分(買了很久才給低評 = 後悔型不滿)。互動特徵的設計需要領域知識,不是純粹的數學操作。

07 延伸

想再往下看,這 5 個

  • 特徵工程(Feature Engineering)本題的核心技術領域,互動特徵是特徵工程中的「特徵組合」技術,從原始特徵中創造更有資訊量的新特徵。
  • 特徵選擇(Feature Selection)建立互動特徵後,特徵數量大幅增加,需要搭配特徵選擇方法篩掉無用的互動特徵,避免維度詛咒。
  • 情感分析(Sentiment Analysis)本題的應用場景,分析文字評論的情感傾向,互動特徵能幫助模型捕捉「高價 + 不滿意」等複合情感信號。
  • 線性迴歸(Linear Regression)最需要互動特徵的模型類型,因為它假設特徵獨立影響輸出,只有顯式加入互動特徵才能捕捉非線性互動效果。
  • 特徵擷取(Feature Extraction)和特徵工程相關的另一個技術,從原始資料中自動學習有用的特徵表示,深度學習中特徵提取可以自動發現部分互動關係。
出處

iPAS 經濟部產業人才能力鑑定 ・ 114 年第二梯次 iPAS AI 應用規劃師 中級 科目三 機器學習技術與應用 第 20 題

查看官方原文 PDF