iPAS AI 應用規劃師 中級 科目二

114 年第二梯次 ・ 50 題深度拆解

這份教材把 50 道考古題變成「白話版深度拆解」,目的不是背答案,而是幫你真正理解每題在考什麼,下次出題形式變了還是答得出來。

怎麼用
  1. 點題目進去,先自己作答,再看完整拆解
  2. 每題依序帶你走過:白話情境 → 舊方法為什麼不夠 → 新方法怎麼解 → 技術版(程式碼/公式題含 5 Step 練習)→ 3 個錯選項拆解 → 5 道變形題 → 5 個延伸節點
  3. 技術版覺得難可以先跳過,等讀完其他題目回頭再來

下方每題標題下的小字是題目原文(不含選項),幫你判斷想先看哪題。

  1. Q01Z 分數等於 2 代表什麼?若某數據點的 Z 分數(Z-Score)= 2,請問代表下列哪一種意涵?
  2. Q02pandas 怎麼計算敘述性統計量?使用 Python 的 pandas 套件處理各商品銷售數據(變數為 df)時,若需計算「總銷售額」欄位的敘述性統計量(如平均值、標準差等),應使用下列哪一種語法?
  3. Q03直方圖左側長尾,偏態值是正還是負?附圖為某資料之分佈圖(直方圖右側集中、左側出現負值的長尾,主峰位置約在 40 附近),此圖資料之偏態(Skewness)值較有可能為下列哪個選項?
  4. Q04CDF 的數學定義是什麼?累積分佈函數(Cumulative Distribution Function, CDF)可用於描述隨機變數的機率分佈特性,其數學定義為下列何者?
  5. Q05Label Encoding 最常見的潛在風險是什麼?在進行資料前處理時,若使用 Label Encoding 將類別變數轉換為數字型態,下列何者為最常見的潛在風險?
  6. Q06關於資料格式處理,哪個敘述不正確?在進行資料分析時,會遇到類別型(Categorical)與數值型(Numerical)資料格式。關於這兩種資料格式的處理,下列敘述何者不正確?
  7. Q07資料庫 ACID 的原子性是什麼?在資料庫的 ACID 特性中,下列何者為「原子性(Atomicity)」的正確定義?
  8. Q08計算「銷售金額/瀏覽次數」是哪種特徵工程?資料科學家為分析顧客行為,利用現有欄位「銷售金額」與「瀏覽次數」,計算出新變數「銷售金額/瀏覽次數」。此動作屬於下列哪一類特徵工程方法?
  9. Q09資料有極端值時,哪種標準化最適合?在進行數值特徵的標準化(Normalization)時,若資料中存在極端值(Outliers),下列哪一種方法最適合使用?
  10. Q10哪個情境最適合用異常偵測技術?下列哪一種情境最適合應用異常偵測(Anomaly Detection)技術?
  11. Q11即時監控大量 IoT 裝置要用什麼組合?若一家公司需即時監控大量物聯網裝置的異常行為,下列哪一種組合最適合此應用?
  12. Q12隨機過採樣最常造成什麼問題?在處理分類問題時,若某一類樣本數明顯少於其他類別,研究人員可能採用隨機過採樣(Random Oversampling)以平衡資料比例,此方法最常造成下列哪一種問題?
  13. Q13同態加密的核心特性是什麼?下列何者為同態加密(Homomorphic Encryption)技術的核心特性?
  14. Q14正規化吉尼不純度怎麼算?某組資料共 10 項標籤如下:A, A, A, A, A, B, B, B, B, B 若該標籤僅有 A、B 兩種,請問這組資料的「正規化吉尼不純度(Normalized Gini impurity)」為何?
  15. Q15描述客服來電數量該用哪種分佈?某客服中心統計資料發現,平均每小時會接到約 20 通顧客來電,但每分鐘的來電數量不固定,可能為 0、1、2 通不等。這些來電事件彼此獨立,且在短時間內,發生的機率與時間長短成正比。若要以機率模型描述「每分鐘接到幾通來電」的機率分佈,下列哪一種最適合使用?
  16. Q16交易金額 3200 元的 Z 分數是多少?某金融科技公司以 Z 分數(Z-Score)監控交易金額異常狀況。若交易金額平均為新台幣 2,000 元,標準差為 400 元,某筆交易金額為 3,200 元,且公司以|Z| ≥ 3 判定為異常值(Outlier),下列判斷何者最為正確?
  17. Q17梯度提升樹的「會員等級」特徵編碼要注意什麼?某電商公司欲利用顧客行為資料建立消費預測模型,其中「會員等級」欄位包含「一般、白金、黑卡」三種類別。若模型採用梯度提升樹(Gradient Boosting Tree)演算法,資料科學家在進行特徵編碼時應特別注意下列何種情況?
  18. Q18節點錯誤後資料不出現部分更新,這是哪個特性?某人工智慧團隊使用分散式資料庫(Distributed Database)儲存模型訓練資料,並在更新訓練樣本時啟用多節點交易。若其中一個節點在交易過程中發生錯誤,但系統仍確保整體資料不會出現部分更新、最終狀態維持一致,下列何者最能說明此現象?
  19. Q19IoT 感測器兼顧即時性、完整性、可擴展性,哪種架構最合適?某製造企業導入上萬台物聯網(IoT)感測器以進行設備健康監測。系統需在毫秒級回應異常事件,並同時將完整資料保留於雲端供後續 AI 模型訓練與分析。若企業希望兼顧即時性、資料完整性與可擴展性,下列哪一種資料流程設計最符合此目標?
  20. Q20銀行不解密資料就能讓雲端執行 AI 運算,該用什麼技術?某銀行計畫將信用風險評估模型部署至雲端平台,以便即時分析客戶交易行為。由於涉及大量敏感金融資料,銀行要求雲端服務商在不解密原始資料的情況下仍能執行模型運算。為達成此目標,最適合採用下列哪一項技術?
  21. Q21Tufte 數據密度原則怎麼套用在報表設計?某資料分析師設計在業務績效報告時,希望單一頁面中同時呈現多區域、不同產品線的銷售趨勢變化,並確保主管能在短時間內掌握整體資料走向。若依據 Edward Rolf Tufte 的數據密度(Data Density)原則,下列哪一種設計方式最能符合該概念?
  22. Q22多檔股票相關性最適合用哪種圖?某投資研究員希望分析四檔科技類股(A、B、C、D)每日報酬率的變化趨勢,以判斷這些股票之間是否存在高度相關性與共變動性,並評估投資組合分散風險的程度。若研究員希望以單一圖表快速呈現各股票間的關聯強度與方向,下列哪一種視覺化呈現方式最適合?
  23. Q23p 值 0.08、信賴區間含虛無值,結論是什麼?某研究團隊以單樣本 t 檢定(one-sample t-test)檢驗「新行銷策略後的平均月銷售額是否與原本的 100 萬元不同」,顯著水準設定為 α=0.05。檢定結果顯示:p 值為 0.08,且 95%信賴區間為 [95 萬元, 108 萬元]。根據上述結果,下列敘述何者正確?
  24. Q24生成式 AI 系統多樣化資料最佳處理策略是什麼?某企業建置生成式 AI 系統,利用大量客服紀錄與產品評論資料訓練語言模型,以自動生成客服回覆與知識摘要。由於資料來源多樣,且包含非結構化文字、影像與表格資訊,團隊希望在不降低模型效能的前提下,提升資料處理效率與一致性,下列哪一種資料處理策略最適合?
  25. Q25消費資料長尾分布用哪種視覺化凸顯層級差異?某電商資料團隊繪製顧客單筆消費金額的箱型圖後發現:四分位距(IQR)範圍極小,但上鬍鬚拉得很長,且在高金額區域有多筆離群值。若希望協助行銷部門依據消費層級設計分群策略,下列哪一種視覺化方式最有助於凸顯不同消費層級間的差異?
  26. Q26關聯規則 Lift > 1,代表科幻與超英雄什麼關係?某串流影音平台運用關聯規則學習(Association Rule Learning)分析用戶的觀影行為,發現若使用者觀看了科幻影集,則有較高機率接著觀看超級英雄電影。分析顯示,同時觀看這兩種類型的使用者約佔全部觀影紀錄的 12%,而觀看科幻影集的使用者中,有 50%也觀看了超級英雄電影,該規則的提升度(Lift)為 1.8。根據上述資訊,下列哪一項推論最為正確?
  27. Q27近似分位數技術的核心目的是什麼?某金融科技公司分析每日上億筆交易資料,以監控客戶轉帳金額分佈與異常波動。由於資料量極大,為兼顧效率與準確度,團隊決定採用「近似分位數(Approximate Quantile)」方法進行資料摘要統計。下列何者最能正確反映該技術的核心目的?
  28. Q28高維度資料 DBSCAN 全判雜訊,最可能的原因是什麼?若在高維度(>500 維)的資料上應用 DBSCAN(Density-Based Spatial Clustering of Applications with Noise)演算法,卻發現所有資料點皆被判定為雜訊(Noise),下列何者為最有可能的原因?
  29. Q29PCA 前為何要先標準化?交易金額主導主成分的問題某團隊在開發風險評估模型時,使用主成分分析(Principal Component Analysis, PCA)進行降維。輸入資料包含三個數值欄位:「交易金額(單位:新台幣)」、「交易次數(次/月)」與「年齡(歲)」,其數值量級分別約為 10^5、10^1 與 10^2。分析人員直接將原始數據帶入 PCA,結果第一主成分(PC1)幾乎完全由「交易金額」主導。下列哪一項作法或判斷最合理?
  30. Q30廣告預算與銷售金額的線性關係,用哪種方法衡量?某行銷團隊想了解「廣告預算」與「銷售金額」之間的關聯程度。經繪製散佈圖後發現兩者呈現明顯線性趨勢,且資料中無明顯離群值(Outliers)。若希望衡量兩者之間線性關係的強度與方向,下列哪一種方法最適合?
  31. Q31常態近似二項分佈,什麼時候可以用?某電商團隊觀察到,每位顧客對廣告推播的點擊行為可視為一次伯努利試驗(Bernoulli Trial),單次點擊成功機率為 p=0.4。當推播對象擴增至 5,000 位顧客時,團隊想快速預估「成功點擊總數」的分佈情形,以進行模型效能模擬與預測。若希望以常態分佈(Normal Distribution)近似原始分佈,下列哪一項判斷最為合理?
  32. Q32生成式 AI 客服如何保護個資?某電信公司導入生成式 AI 客服系統,利用過去對話紀錄與用戶行為資料訓練語言模型,在資料治理與合規審查過程中,團隊發現模型可能會在回答中生成包含真實姓名、電話或交易資訊的內容。為確保系統符合個資法及生成式 AI 的安全與隱私要求,下列哪一項作法最符合實務可行及法規原則?
  33. Q33金融報酬率資料非常態,該用哪種模型?某金融機構的量化分析師在建立資產風險評估模型時,發現報酬率資料分佈明顯非對稱,且出現多次極端損失事件,使得傳統假設常態分佈的模型無法準確反映真實風險。若希望在不依賴常態分佈假設的前提下,採取更能捕捉資料極端情況的建模策略,下列哪一種方法最為合適?
  34. Q34圖形資料庫如何儲存「按讚」的時間和裝置資訊?在圖形資料庫(Graph Database)中建模社群平台資料時,若每筆「按讚」行為都包含時間戳記(Timestamp)與裝置類型(Device Type)等資訊。若希望同時保留使用者與貼文之間的互動關係,並能有效查詢「按讚」的行為屬性,下列哪一種設計方式最為合適?
  35. Q35知識圖譜要支援語意查詢和推理,用哪種圖模型?某企業欲建構知識圖譜(Knowledge Graph),以整合內部的研究報告、專利資料與專家知識,並支援語意查詢與關聯推理。若希望模型能具備良好的語意擴展性與高效推理能力,下列哪一種圖模型設計最為合適?
  36. Q36Y 右偏且變異數隨 X 增大,怎麼做前處理?某研究人員欲使用線性迴歸模型(Linear Regression Model)分析變數 Y 與 X 之間的關係,但發現 Y 的分佈明顯右偏,且其變異數隨 X 的增大而增加。為滿足模型假設並提升配適效果,下列哪一種前處理方法最為合適?
  37. Q37罕見疾病資料集嚴重不平衡,怎麼提升少數類偵測?若開發一個用於罕見疾病自動診斷的分類模型,目前資料集中確診樣本僅佔不到 1%,且因為標註成本高,短期內無法取得更多資料。在此情況下,若希望提升模型對少數類的偵測能力,同時避免過擬合,下列哪一種策略最為合理?
  38. Q38比較兩條生產線的良率差異,用哪種統計檢定?一家製造廠評估新生產線推出後,產品良率是否較原生產線提升。工程師分別從兩條生產線各抽樣 100 件產品,原生產線良率為 95%,新生產線為 97%。若欲檢定兩條生產線良率的差異是否具有統計意義,下列哪一種方法最為合適?
  39. Q39腫瘤分類模型資料不平衡,交叉驗證怎麼做才不偏差?若評估一個新開發的腫瘤分類模型,其資料集中有 80% 的樣本來自良性病例。若直接使用 5-fold 交叉驗證(Cross-Validation)進行模型評估,可能導致模型效能評估出現偏差,為避免此問題,下列哪一種作法最合適?
  40. Q40這段虛擬程式碼在描述哪一種驗證法?請參考附圖,下列虛擬程式碼(pseudocode)最可能是在描述何種驗證法? Input: - data_set: 包含 N 筆資料的資料集 - model_training_function: 用來訓練模型的函式 - model_evaluation_function: 用來評估模型的函式(如計算誤差或準確率) Output: - 平均評估指標(如平均準確率或平均誤差) Algorithm: 1…
  41. Q41這段 pseudocode 在跑什麼分群演算法?請參考附圖,下列虛擬程式碼(pseudocode)最可能是在描述何種演算法? Input: - data_points: N 筆資料,每筆資料有 D 個特徵 - X: 要分成的群數 Output: - clusters: 每筆資料所屬的群編號 - centroids: 每個群的中心點 Algorithm: 1. 隨機選擇 X 個資料點作為初始中心 2. 重複以下步驟直到收斂: a. 分群: 對每個…
  42. Q42scipy.stats.poisson 的 pmf 和 cdf 在算什麼?考慮某生產線每小時出現瑕疵品的個數符合卜瓦松分佈(Poisson Distribution),已知平均每小時產生 5 個瑕疵品,附圖程式碼展示資料處理,請問下列敘述何者正確? import numpy as np from scipy.stats import poisson lambda_poisson = 5 print(poisson.pmf(5, lambda_poisson))
  43. Q43pandas 讀 CSV 後 Year 欄位為什麼變成 float64?一間遊戲市場研究公司正在分析全球電子遊戲銷售情況,並準備建立一份「熱銷遊戲銷售報告」。分析師取得了一份名為 vgsales.csv 的資料集,內容包含全球銷量超過 10 萬份的電子遊戲清單。研究團隊希望透過這份資料,了解不同年份、平台與地區的銷售趨勢。 分析師在載入資料後,檢視 Year 欄位的資料型態,發現它是 float64,而非一般年份常用的整數。他想了解這樣的情形為什麼會發生。請問下列哪些…
  44. Q44Year 欄位含 NaN,怎麼安全轉換成整數?研究團隊接下來想要將 Year 欄位轉換為整數型態,以便後續進行年份趨勢分析。考慮到資料中可能包含缺失值(NaN),請選出最合適的轉換方式。
  45. Q45pandas groupby + sum 畫各平台全球銷售總額長條圖為了觀察各遊戲平台的市場表現,分析師想要統計每個平台的全球銷售總額,並以長條圖呈現。請選出最能正確實現此分析的程式碼。
  46. Q46seaborn barplot + pd.melt 比較四地區銷售比例團隊希望比較北美、歐洲、日本及其他地區的整體銷售比例,並使用 seaborn 套件以長條圖的形式進行可視化分析。請選出能正確顯示這些地區銷售總額比例的程式碼。
  47. Q47seaborn barplot + nlargest 找北美銷售前五名研究團隊想要知道在北美地區(NA)銷售成績最好的遊戲前五名,並希望以 seaborn 的條狀圖呈現結果。請選出能正確完成這項分析的程式碼。
  48. Q48怎麼從 df.describe() 的輸出讀對統計數字?使用銷售資料集(marketing.csv)進行迴歸分析,附圖程式碼展示資料載入與處理。根據 df.describe() 的輸出結果,下列何者正確? (describe() 輸出:youtube count=200, mean=176.451, std=103.025, min=0.840, 25%=89.25, 50%=179.700, 75%=262.590, max=355.680;face…
  49. Q49pandas 偵測 NaN:isnull、isna、isNaN 哪些有效?參考下圖計算各變數的遺漏值(NaN)個數結果,下列何者正確? (輸出結果:youtube 0 / facebook 1 / newspaper 0 / sales 0 / dtype: int64) 選項 A: df.isnull().sum() 選項 B: df.isNaN().sum() 選項 C: df.isna().sum() 選項 D: df.isnan().sum()
  50. Q50sklearn LinearRegression + statsmodels OLS 語法哪些正確?考慮資料集已經補填遺漏值,參考下圖執行結果,下列何者正確? from sklearn.linear_model import LinearRegression import statsmodels.api as sm X = df[['youtube', 'facebook', 'newspaper']] y = df['sales'] reg = 空格1 print(reg.coef_) X2 …
← 回 iPAS 備考總覽