iPAS AI 應用規劃師初級　科目一　人工智慧基礎概論

看照片判斷果實成熟，屬於哪個 AI 領域？

原題 38

某果園管理公司計畫導入 AI 系統協助農民判斷果實成熟度，透過分析果實特徵資訊，評估成熟狀態並自動判斷採收時機。根據 AI 應用領域的分類，這個系統主要屬於哪一個應用領域？

白話

某果園管理公司計畫導入 AI 系統協助農民判斷果實成熟度，系統透過分析果實特徵資訊來評估成熟狀態，並自動判斷採收時機。

問你：根據 AI 應用領域的分類，這個系統主要屬於哪個應用領域？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

從影像中讀取視覺特徵（顏色、形狀）來判斷狀態，是電腦視覺（Computer Vision）的核心任務，不是語言、聲音或推薦的領域。

02　情境

先感受問題：農民要怎麼用 AI 判斷水蜜桃熟了沒？

拉拉山果園的農民陳伯伯，種了 500 棵水蜜桃樹。傳統上，他靠幾十年的經驗，用眼睛看桃子的顏色深淺、用手摸感覺軟硬，來判斷什麼時候可以採收。

問題是：500 棵樹、每棵 200 顆桃子，共 10 萬顆，一個人一天最多看幾千顆，而且採收時機只有 2-3 天的窗口，太早採不甜、太晚採太軟。

果園管理公司提供的 AI 解決方案：在園區各處架設攝影機，AI 系統每天掃描所有桃子，分析每顆的顏色（紅色深淺）、形狀（圓不圓整）、表面紋理（有沒有斑點），給出成熟度分數，並預測最佳採收時機。

這個系統的核心能力是：從影像讀取視覺特徵，做出判斷。

03　對照

AI 四大應用領域：各管什麼資料類型

AI 的應用領域依「輸入資料的類型」來分類，各領域的邊界非常清楚：

電腦視覺（Computer Vision）：輸入是影像、視訊、照片。分析視覺特徵（顏色、形狀、位置、紋理）。桃子的顏色和形狀是視覺特徵，屬於這個領域
自然語言處理（NLP）：輸入是文字或語言資料。分析語義、語法、情感、實體。看照片不需要 NLP
語音識別（Speech Recognition）：輸入是聲音波形。把說話聲音轉換成文字。桃子不會說話，不需要語音識別
推薦系統（Recommendation System）：輸入是使用者行為資料（瀏覽記錄、購買歷史）。推薦適合的內容或商品。判斷桃子熟沒熟不是推薦問題
判斷標準：這個系統的核心輸入是「影像」，核心任務是「從影像中讀取視覺特徵做分類」，毫無疑問是電腦視覺

04　解法

電腦視覺怎麼判斷成熟度

陳伯伯的果園 AI 系統，工作流程如下：

影像採集：攝影機定期拍攝每棵樹的桃子，解析度高到可以看清楚顏色深淺和表面紋理。

特徵提取：AI 模型（通常是卷積神經網路 CNN）從影像中提取關鍵視覺特徵：紅色佔表面積的比例、形狀的圓潤程度、是否有斑點或裂縫。

成熟度分類：模型輸出 0-100 的成熟度分數，對照歷史採收資料，超過 85 分就達到採收標準。

每棵桃子一秒內完成評估，10 萬顆桃子幾個小時掃完，陳伯伯只需要在系統標記「可採收」的樹上工作，省下大量時間和錯誤判斷。

這就是選項 B 講的：電腦視覺（Computer Vision）。

技術版：電腦視覺在農業 AI 中的應用

電腦視覺（Computer Vision）是 AI 的核心子領域，目標是讓機器從影像或視訊中理解視覺資訊。農業是電腦視覺的重要應用場景之一，稱為「精準農業（Precision Agriculture）」。

農業電腦視覺的典型任務：

成熟度判定：分析顏色、形狀、紋理評估果實成熟狀態（本題情境）
病蟲害識別：識別葉片或果實上的病斑、蟲害跡象
產量估算：統計樹上果實數量，預測總產量
作物長勢監測：透過無人機航拍分析大面積農地的作物健康狀況

電腦視覺 vs. 其他領域的判斷標準：關鍵問題是「輸入資料是什麼類型？」影像和視訊 → 電腦視覺；文字 → NLP；聲音 → 語音識別；使用者行為 → 推薦系統。只要輸入是影像就是電腦視覺，不管下游任務是分類、偵測還是測量。

為什麼出題者考這題：AI 規劃師必須能快速識別業務場景屬於哪個 AI 領域，才能選對技術路線、找到對的供應商和人才。把電腦視覺任務誤歸類為 NLP 會導致技術選型完全錯誤。

05　陷阱

為什麼其他選項是錯的

A自然語言處理（NLP）

字面在說什麼

NLP 處理人類語言資料：文字分析、語義理解、機器翻譯、情感分析等。

為什麼不對

分析桃子成熟度的輸入是影像，不是文字。NLP 沒有處理影像的能力，它的技術路線（詞向量、BERT、語言模型）完全不適用於影像分析任務。

誰會選錯

幾乎不會有人選 NLP，因為「照片」和「語言」的聯繫太遠。這個選項是基本篩選項。

C語音識別（Speech Recognition）

字面在說什麼

語音識別把人類說話的聲音轉換成文字，常用於語音助理、會議記錄。

為什麼不對

果實成熟判斷的輸入是視覺影像，完全沒有聲音資料。語音識別處理的是聲音波形，跟這個場景完全無關。

誰會選錯

幾乎不會有人選。「桃子」和「聲音」沒有任何關聯，這個選項也是基本篩選項。

D推薦系統（Recommendation System）

字面在說什麼

推薦系統根據使用者的歷史行為，預測並推薦可能感興趣的內容，例如 Netflix 影片推薦、Amazon 商品推薦。

為什麼不對

推薦系統的核心是「根據行為資料預測偏好」，它的輸入是使用者的歷史行為，不是果實的影像。「判斷果實成熟度」不是推薦問題：沒有「使用者」，沒有「偏好」，沒有「行為歷史」。

誰會選錯

看到「判斷採收時機」就聯想到「推薦最佳時機」，把「推薦」廣義解讀為任何「建議或判斷」的人。推薦系統在技術上有特定定義，不是泛指「給建議的系統」。

06　變形

同個考點下次怎麼變形

變形 1

如果農民用 AI 分析農業報告文字，判斷今年適合種哪種作物，屬於哪個 AI 領域？

直覺

同樣是農業，輸入從影像換成文字，領域會不同嗎？

答案

輸入變成文字（農業報告），就屬於自然語言處理（NLP）了。分析文字語義、提取關鍵資訊、做出推論，這是 NLP 的任務。同一個農業應用，輸入資料類型決定了用哪個 AI 領域，不是應用主題。

變形 2

多模態 AI（Multimodal AI）是什麼？跟單一領域有什麼差別？

直覺

現代 AI 好像可以同時看圖又看文字，這算哪個領域？

答案

多模態 AI 能同時處理多種資料類型（文字 + 影像 + 聲音）。例如 GPT-4V 能看圖又能讀文字，LLaVA 能根據影像回答文字問題。傳統 AI 分領域是因為技術工具不同；多模態 AI 把這些技術融合。考試的 AI 應用領域分類題通常考的是「主要輸入類型」，多模態架構是更進階的概念。

變形 3

無人機拍攝農地照片分析作物病蟲害，屬於哪個 AI 領域？

直覺

無人機 + 農業，跟本題有點像。

答案

輸入是航拍影像，分析視覺特徵（葉片顏色、斑點形狀），仍然是電腦視覺。不管是地面攝影機、無人機還是衛星，只要是「分析影像中的視覺資訊」，就屬於電腦視覺。

變形 4

智慧農業的 AI 應用還有哪些典型例子？

直覺

農業還有哪些地方可以用 AI？考試可能考其他農業場景的領域分類。

答案

依領域分：電腦視覺（果實成熟判定、病蟲害偵測、作物計數）；NLP（分析農業政策文件、自動回答農民問題）；機器學習（預測農作物產量、土壤分析、天氣對收成的影響）；IoT + 機器學習（感測器資料分析土壤濕度、溫度控制溫室）。農業是 AI 多領域並用的典型行業。

變形 5

電腦視覺和圖形學（Computer Graphics）有何差異？

直覺

兩個都跟「電腦和圖像」有關，容易搞混。

答案

方向完全相反。電腦視覺是「從影像理解世界」：輸入影像，輸出理解（類別、位置、數量）。電腦圖形學是「從資料生成影像」：輸入數學描述，輸出影像（3D 渲染、動畫、特效）。前者是 AI 感知，後者是圖形生成。兩者目前的交叉點在「生成式 AI 的影像生成」（Stable Diffusion 等），但核心技術路線不同。

07　延伸

想再往下看，這 5 個

電腦視覺（Computer Vision）讓機器從影像和視訊中理解視覺資訊的 AI 領域，核心任務包括影像分類、物件偵測、影像分割和影像生成
卷積神經網路（CNN）電腦視覺的主要技術基礎，透過卷積層自動學習影像的局部特徵，是影像分類和物件偵測的標準架構
精準農業（Precision Agriculture）運用感測器、衛星影像、AI 和大數據技術優化農業生產決策，電腦視覺是其中最重要的技術之一
自然語言處理（NLP）處理和分析人類語言資料的 AI 領域，與電腦視覺的主要差異在於輸入資料類型：文字 vs. 影像
多模態 AI（Multimodal AI）能同時處理多種資料類型（文字、影像、聲音）的 AI 系統，突破傳統單一領域的界限，是近年大型語言模型的重要發展方向