Vol.02 · Stage Two

01 / 26

iPAS AI 應用規劃師初級研習

資料與學習

把雜亂倉庫整理乾淨 — 再讓機器自己找規律

CH 2·資料處理·CH 3·機器學習

Vol.02·Stage Two / Five·Duration · 6 小時授課 · 2 章

Contact·sky8697@gmail.com

經濟部產業發展署 × 弄一下工作室

30 hours · 5 stages · 1 cert

Opening · 02

02 / 26

金句 — 這 6 小時的核心命題

資料沒整理乾淨，
再強的模型也會學歪。

考試 70 題裡有 25 題出在 CH2 + CH3。
把資料側與模型側搞懂，過半的分就到手。

Stage 2 · CH 2 + CH 3

iPAS · Beginner

Stage Map · 03

03 / 26

Learning Outcomes

這 6 小時你將拿到的三件事

不是把所有名詞都背完，而是看到題目能選出對的選項。

Data Side

07小節

資料分類 / 清洗 / ETL / 統計量 / 異常檢測 / 5V / 隱私 — 看題目就能對上工具

Model Side

09小節

三大學習類型 / 監督式演算法 / 過擬合 / 評估指標 / 特徵選取陷阱 — 一眼判題型

Exam Coverage

25/ 70 題

兩章合計約三分之一試卷分數，是全課程權重最高的兩章

學員背景：0 基礎、非技術職場人員

Stage 2 / 5

Act I · 04

04 / 26

Chapter Two · Data Processing

整理倉庫

CH 2 · 資料處理與分析概念

認識資料 → 清洗 → 搬運 → 量度 → 找異常 → 護隱私
把資料側 7 件事走一遍

2.5 hours·9 sections·13 quiz items

CH 2 — 資料處理與分析概念

Act I of II

CH 2 · 2.1 · 05

05 / 26 講義 · CH 2

2.1 資料的種類與來源

結構化、半、非結構化

口訣：Excel 就結構，JSON 半結構，影音就非結構。

01

結構化

像 Excel 一樣有清楚的行與列。員工年齡 / 銷售量 / 客戶 ID。儲存：MySQL、PostgreSQL。

02

半結構化

有標籤、有層次，但欄位不一定每筆都一樣。API 回傳、網頁、設定檔。儲存：JSON / XML / CSV。

03

非結構化

沒有固定欄位，就是一坨原始內容。X 光片、錄音、PDF、郵件內文。儲存：檔案系統、S3。

關係型資料庫的記錄屬於「結構化」 — 不是非結構化（S1-Q11 必考）

資料結構分類 ≠ 資料型態（數值/文字/日期/布林）

2.1 資料種類

S1-Q11 · S1-Q12

CH 2 · 2.2 · 06

06 / 26 講義 · CH 2

2.2 資料清洗

把髒資料變乾淨 — 五種問題

遺缺值

該有資料的格子是空的 — 用平均 / 中位 / 眾數填補，或直接刪除

Missing

重複值

同一列紀錄出現兩次以上 — 透過主鍵識別後刪除

Duplicate

錯誤值

年齡寫負數、地址有亂碼 — 用規則檢查並修正

Error

離群值

數值與其他差很遠 — 視情境，可能是錯誤，也可能是高價值案例

Outlier

冗餘資料

同一資訊在多個欄位重複（score1/score2/score3）— 合併欄位、重新設計

Redundant

S1-Q15 高價值客戶情境：「明顯高於其他人」的離群值不能丟 — 業務目標決定處理方式

看到「離群值 + 高價值」幾乎都是「保留並標註」

2.2 資料清洗

S1-Q15

CH 2 · 2.2 · 07

07 / 26 講義 · CH 2

必辨對比 · S1-Q34 必考

冗餘 vs 重複 — 一字之差，全選項都會出

重複資料 · Duplicate

列重複

整筆紀錄出現兩次（同一客戶、同一日期、同一金額）

處理：找到重複的列，刪掉其中一筆

冗餘資料 · Redundant

欄重複

同一資訊存在多個欄位（score1 / score2 / score3 都在存「成績」）

處理：合併欄位、重新設計資料表

看到「多個欄位儲存相同資訊」 → 選 Redundant，不是 Duplicate

2.2 必辨

S1-Q34

CH 2 · 2.3 · 08

08 / 26 講義 · CH 2

2.3 ETL 流程 · S1-Q18 必考

把資料從 A 倉，搬到 B 倉

記法 — 「同一個東西兩種寫法」這類問題，永遠在 T。

Press Space / → 逐步揭露

01

Extract · 萃取

從 CRM / ERP / Excel / API 把原始資料抓下來。比喻：從各分店倉庫把貨運出來。

02

Transform · 轉換

統一格式、清洗、去重、欄位對應、單位換算。「陳大文 vs 陳大文先生」就在這步處理。

03

Load · 載入

把整理好的資料寫入目標資料庫 / 資料倉儲。比喻：上架到中央倉。

S1-Q18：客戶姓名拼寫不一致 → 答 (A) Transform 轉換

擷取只搬資料 / 載入是最後一步 / 型態轉換不是 ETL 標準步驟名

2.3 ETL

S1-Q18

CH 2 · 必背對比 · 09

09 / 26 講義 · CH 2

全章最危險的混淆點

正規化 vs 正則化 — 差一個字，題目兩個都會出

Normalization · 正規化

處理「資料」

階段：資料前處理（CH 2）
目的：把不同尺度的特徵縮到同尺度
方法：Min-Max、Z-score、Batch Norm
時機：訓練之前

「先把所有選手重新量身高，公平比賽」

Regularization · 正則化

處理「模型」

階段：模型訓練（CH 3）
目的：防止模型過擬合 Overfitting
方法：L1 Lasso、L2 Ridge、Dropout
時機：訓練之中

「給模型加上規矩，不要學太細」

一句話辨識法：正規化處理資料、正則化處理模型

必背對比 · CH 2 / CH 3 跨章橋接

反覆看三次

CH 2 · 2.4 · 10

10 / 26 講義 · CH 2

2.4 集中趨勢與分散程度

「在哪裡」與「散多開」 — 兩件事

集中趨勢 · Center

Mean

全部加起來除以個數 — 對稱分布用

平均數

Median

排好之後最中間那個 — 有極端值用

中位數

Mode

出現最多次的那個 — 類別資料用

眾數

分散程度 · Spread

Range

最大 - 最小 — 太粗

全距

IQR

Q3 - Q1 — 抗極端值，找離群值

四分位距

SD

「平均偏離平均數多遠」— 品管核心

標準差

勘誤要記 — 平均差正確定義 = 觀察值與平均的「絕對差值」的平均

S1-Q14 品管：標準差大 → 製程波動大、不穩定／ S1-Q16：標準差不是集中趨勢

2.4 統計量

S1-Q14 · S1-Q16

CH 2 · 2.5 · 11

11 / 26 講義 · CH 2

2.5 異常檢測 · 速查

Z-score — 量化「離平均幾步遠」

不用記公式 — Z = (數值 - 平均) / 標準差。記住用途就好。

|Z| ≤ 2

正常

約 95% 資料落在這個範圍 — 視為「正常範圍」

|Z| > 2

輕微

出現機率 < 5% — 視為輕微離群值

|Z| > 3

極端

出現機率 < 0.3% — 視為極端離群值

S1-Q10：100 萬支出是否異常 → 答 (A) Z-score。眾數適合類別、PCA 是降維、直接替換是顛倒順序。

補充：IQR 法（小於 Q1-1.5×IQR 或大於 Q3+1.5×IQR）— 不假設常態，適用更廣

2.5 異常檢測

S1-Q10

CH 2 · 2.6 · 12

12 / 26 講義 · CH 2

2.6 大數據 5V 特性 + PCA

5 個 V — 描述「我們倉庫到底有多大」

Volume

資料量超大 — 每天 PB 級

量

Velocity

變化速度快 — 股票 tick / IoT 感測

速

Variety

多樣 — 結構/半/非結構化都有

多樣

Veracity

真實性 — 社群留言有真有假

真

Value

從雜訊中提煉商業價值

價

PCA · 主成分分析

降維 + 保留資訊

原本 100 個欄位描述一個人，PCA 找出最能區分人差異的 3–5 個綜合指標，保留 90% 資訊，剩下 95 個欄位可丟。屬於非監督式學習。

S1-Q27：「降維 + 保留最大資訊量」 → 直接選 PCA

S1-Q8：「儲存位置固定」反而違反 5V — 大數據通常分散在雲端 / 地端

2.6 大數據 + PCA

S1-Q8 · S1-Q27

CH 2 · 2.8 · 13

13 / 26 講義 · CH 2

2.8 資料隱私與安全

AI 不是拿到資料就能用

用資料前先問三件事：能不能識別到人 / 能不能合法用 / 能不能降低還原風險

A

去識別化

把姓名、電話、身分證拿掉或遮蔽。
記法：「砍掉個資欄位」
解決：資料長什麼樣

B

差分隱私

在統計結果中加入雜訊。ε 越小保護越強，但可用性下降。
記法：「加雜訊讓統計模糊」
解決：統計會不會反推個人

C

聯邦學習

資料留在本地，只交換模型更新。多家醫院共訓練但不共享病歷。
解決：資料要不要集中

本節影響 4 題迂迴考點 — S2-Q9 個資跨境 / Q18 Zero-Retention / Q26 權限合規 / Q31 Zero Trust

中小企業導入 AI 客服 3 大雷：直接丟客戶名單到 LLM API、統計報告無差分隱私、多店資料集中違反跨境

2.8 資料隱私 — Act I 收

S2-Q9 · Q18 · Q26 · Q31

Act II · 14

14 / 26

Chapter Three · Machine Learning

讓機器
自己找規律

CH 3 · 機器學習概念

CH 2 把資料整理乾淨之後 — 餵給模型，讓它自己學
本章 13 題覆蓋全試卷最大比例

3 hours·9 sections·13 quiz items

CH 3 — 機器學習概念

Act II of II

CH 3 · 3.1 · 15

15 / 26 講義 · CH 3

3.1 機器學習基本原理

教小孩認水果 — 三種教法

傳統程式：工程師寫好規則。機器學習：工程師給範例，電腦自己找規則。

01

監督式

「這是蘋果，那是香蕉」— 一個個告訴他。每張圖都標好答案。

02

非監督式

「自己分組玩玩看」— 給他一籃水果不告訴名字。他會自己依顏色 / 形狀分群。

03

強化學習

「猜對給糖、猜錯不給」— 用獎懲讓他學。多次嘗試後找到最佳策略。

AI ⊃ ML ⊃ DL — 深度學習一定是機器學習，機器學習不一定是深度學習

這三組比喻會貫穿整章，遇到題目情境就對回來

3.1 ML 起手式

三層同心圓

CH 3 · 3.2 · 16

16 / 26 講義 · CH 3

3.2 三大學習類型 · 每年至少出 2-3 題

監督 / 非監督 / 強化 — 完整對比

維度

監督式

非監督式

強化學習

標籤

有標籤

無標籤

獎懲訊號

任務

分類 / 迴歸

分群 / 降維

序列決策 / 控制

演算法

線性 / 邏輯迴歸 / SVM / KNN

K-means / PCA / t-SNE

Q-Learning / PPO / DQN

應用

垃圾郵件 / 房價 / 影像分類

客戶分群 / 市場區隔

圍棋 AlphaGo / 自駕

S1-Q2「動態 + 重複 + 互動」→ 強化／ S1-Q5 垃圾郵件 → 監督／ S1-Q35 輸入是特徵，輸出是標籤

3.2 三類型對比

S1-Q2 · Q5 · Q13 · Q35

CH 3 · 3.3 · 17

17 / 26 講義 · CH 3

3.3 監督式演算法 · 速查

看到「預測一個數字」想線性迴歸；看到「預測類別」想分類

迴歸

線性迴歸

找一條最貼合的直線，預測連續數值（房價、銷售額）

分類

邏輯迴歸

名字有「迴歸」但其實是分類。輸出 0–1 機率再判類別

分類

決策樹

用一連串是非題畫成樹。可解釋性高，醫療研究最愛

集成

隨機森林

種一片樹，多數決。可透過特徵重要度輔助特徵選取

分類

SVM

在兩類間畫最公平的分隔線，適合高維資料

分類

KNN

物以類聚 — 看周圍 K 個鄰居誰多就分到哪一類

S1-Q20 銷售額預測 → 線性迴歸／ S1-Q17 醫療成因（年齡 + 血壓 + 血型混合）→ 決策樹

記法：「醫療研究 + 可解釋」就想決策樹

3.3 演算法速查

S1-Q17 · Q20

CH 3 · 必考陷阱 · 18

18 / 26 講義 · CH 3

S1-Q9 必考陷阱

K-means 的五個限制

最常被誤選的考點：「K-means 不能處理類別型資料」

不適合類別資料

要算距離，類別（顏色、性別）沒有距離概念

★ 必考

K 要事先指定

不知道要分幾群時很麻煩

參數

對離群值敏感

一個離群值會把中心拉歪

穩定性

不適合非球形群集

環狀、長條狀的群會被切錯

幾何

起始點影響結果

隨機性影響穩定性

隨機

S1-Q9 問「不正確」的選項 → 答 (D) 可以處理類別型＝錯的

看清題目要選的方向：問「不正確」就是要找錯的那個

K-means 限制

S1-Q9

CH 3 · 3.6 · 19

19 / 26 講義 · CH 3

3.6 模型的兩種失敗

過擬合 vs 欠擬合 — 看訓練 / 測試表現對比

Overfitting · 過擬合

死讀書

訓練集：好（甚至 99%+）
測試集：差（大幅落差）
比喻：學生背題庫考 100 分，遇新題就掛

解法：正則化、Early Stopping、增加資料量、Data Augmentation

Underfitting · 欠擬合

沒讀書

訓練集：差
測試集：差
比喻：學生連考古題都看不懂，根本沒學進去

解法：加複雜度、加更多特徵、訓練更久

「訓練好測試差」= 過擬合／「訓練都差」= 欠擬合

3.6 過 vs 欠擬合

S1-Q3

CH 3 · 3.6 · 20

20 / 26 講義 · CH 3

3.6 防過擬合三策略 + 正則化兩種

L1 像斷捨離，L2 像節食

防過擬合三大策略

正則化

給模型加規矩，不准變太複雜

L1 / L2

Early Stop

看到驗證表現開始下降就停下來

時機

Augmentation

用旋轉 / 翻轉 / 加噪音擴增資料

資料

L1 vs L2 副作用對比

L1 Lasso

加總絕對值，把不重要權重壓成 0。自動做特徵選擇

斷捨離

L2 Ridge

加總平方值，把所有權重壓小但不為 0。所有特徵都保留

節食

Dropout

訓練時隨機關掉部分神經元，避免依賴單一路徑

DL 專用

S1-Q3：防過擬合最直接的方法 → (D) 增加正則化項。增加複雜度反向、學習率不直接相關。

考試遇兩個都對時（如 A 增加資料量也對），選最直接的那個

3.6 防過擬合 + L1/L2

S1-Q3

CH 3 · 3.7 · 21

21 / 26 講義 · CH 3

3.7 模型評估 · 速查

混淆矩陣 + 指標四兄弟

混淆矩陣（以「會不會離職」為例）

TP · 真陽

實際會離職，模型也預測會 — 抓對了

命中

FN · 偽陰

實際會離職，模型卻說不會 — 漏報，縱放壞人

漏

FP · 偽陽

實際不會，模型卻說會 — 誤報，冤枉好人

誤

TN · 真陰

實際不會，模型也說不會 — 安全通過

正確排除

指標四兄弟

Accuracy

(TP+TN)/全部 — 預測對的比例。類別不均衡時會騙人

準確

Precision

TP/(TP+FP) — 說會的有多少真的會。怕誤報用

精確

Recall

TP/(TP+FN) — 真的會的有多少被抓到。怕漏報用

召回

F1

精確 + 召回的調和平均 — 兩者都重要時

綜合

3.7 評估指標

S1-Q23 · Q24

CH 3 · 3.7 · 22

22 / 26 講義 · CH 3

3.7 何時用哪個指標

怕誤報看 Precision ／怕漏報看 Recall

Precision · 怕誤報

不能冤枉好人

分母：模型說會的所有人（TP + FP）
高表示：模型開口通常是對的，誤報少

場景：醫療核可、信用評分、垃圾信過濾（不想把正常信丟掉）

Recall · 怕漏報

一個都不能漏

分母：真的會的所有人（TP + FN）
高表示：真正有問題的大多被抓到，漏報少

場景：疾病篩檢、設備異常停機、詐騙偵測（漏掉就慘）

S1-Q24 智慧工廠「漏報率」 → 答 (B) Recall。
陷阱例：100 人 1 病人，全猜「沒病」accuracy 99% 但 precision = 0%（不平衡資料 + 少數類重點 → 一定看 P / R）

S1-Q23 交叉驗證目的 → (C) 減少過擬合風險（多次切分平均評估泛化能力）

P vs R 抉擇

S1-Q23 · Q24

CH 3 · 3.8 · 23

23 / 26 講義 · CH 3

3.8 全章最容易答錯的題目

S1-Q22 — 答案是 C（迴歸分析），不是 D

很多學員誤選 D（隨機森林）。但隨機森林透過特徵重要度可以輔助特徵選取，是常見方法 — 不能選。

Pearson 相關

看特徵跟目標的線性相關度，低的丟 — Filter Methods 經典

是

PCA

找最大變異方向組合新特徵 — 廣義特徵工程

是

隨機森林重要度

用樹模型在訓練時順便算每個特徵的重要度 — Embedded Methods

是

L1 Lasso

訓練時自動把不重要的特徵權重壓 0 — Embedded Methods

是

迴歸分析

用來「預測一個數字」（房價、銷售額） — 是預測模型

不是

一句話記法：「迴歸是預測，不是選特徵」

千萬不要記成「隨機森林不是特徵選取技術」— 那是錯的

3.8 必背陷阱

S1-Q22

Recap · 24

24 / 26

End of Stage Two

資料整理好了
模型也學會了 —
該收網了

到這裡你已經吃下全試卷三分之一的分數。
剩下 35 題在 CH4 鑑別/生成、CH5 NC/LC、CH6 應用、CH7 導入規劃。

Stage 2 done·Stage 3 next·3 more to cert

CH 2 + CH 3 完成 — 累計 12 / 30 hr

40% complete

Stage Map · 25

25 / 26

What's next · Stage 3 預告

下一站 — 鑑別式與生成式

Stage 3 是 4 小時的 CH 4 — 從你已經會的「分類」走到「能生新東西」的世界

CH 4.1

鑑別式 AI · P(y|x) — 「給我一張圖，告訴我是貓是狗」

60 min

CH 4.2

生成式 AI · P(x,y) — 「我能生出一張新的貓的圖」

60 min

CH 4.3

深度學習三大模型 — CNN / RNN-LSTM-GRU / GAN

60 min

CH 4.4

整合應用 — 數據增強協同、多模態、即時分析

45 min

章末練習

樣題 7、26、28-30、32-33（共 7 題）

15 min

Stage 3 · CH 4 鑑別式 + 生成式

Coming up

End · 26

26 / 26

Stage 2 of 5 · CH 2 + CH 3

To Be
Continued

下一份簡報：Stage 3 · CH 4 鑑別式 + 生成式 AI
講義持續更新於 GitHub Pages

iPAS AI 應用規劃師初級研習·30 hours·5 stages

經濟部產業發展署·弄一下工作室·sky8697@gmail.com

Stage 2 / 5 — 12 hr / 30 hr 完成

Press End to restart

請橫向觀看

資料與學習

這 6 小時你將拿到的三件事

整理倉庫

結構化、半、非結構化

把髒資料變乾淨 — 五種問題

冗餘 vs 重複 — 一字之差，全選項都會出

把資料從 A 倉，搬到 B 倉

正規化 vs 正則化 — 差一個字，題目兩個都會出

「在哪裡」與「散多開」 — 兩件事

Z-score — 量化「離平均幾步遠」

5 個 V — 描述「我們倉庫到底有多大」

AI 不是拿到資料就能用

讓機器
自己找規律

教小孩認水果 — 三種教法

監督 / 非監督 / 強化 — 完整對比

看到「預測一個數字」想線性迴歸；看到「預測類別」想分類

K-means 的五個限制

過擬合 vs 欠擬合 — 看訓練 / 測試表現對比

L1 像斷捨離，L2 像節食

混淆矩陣 + 指標四兄弟

怕誤報看 Precision ／怕漏報看 Recall

S1-Q22 — 答案是 C（迴歸分析），不是 D

資料整理好了
模型也學會了 —
該收網了

下一站 — 鑑別式與生成式

To Be
Continued

這份簡報為現場投影設計，
手機建議閱讀講義

資料 與 學習

這 6 小時你將拿到的三件事

整理倉庫

結構化、半、非結構化

把髒資料變乾淨 — 五種問題

冗餘 vs 重複 — 一字之差，全選項都會出

把資料從 A 倉，搬到 B 倉

正規化 vs 正則化 — 差一個字，題目兩個都會出

「在哪裡」與「散多開」 — 兩件事

Z-score — 量化「離平均幾步遠」

5 個 V — 描述「我們倉庫到底有多大」

AI 不是拿到資料就能用

讓機器自己找規律

教小孩認水果 — 三種教法

監督 / 非監督 / 強化 — 完整對比

看到「預測一個數字」想線性迴歸；看到「預測類別」想分類

K-means 的五個限制

過擬合 vs 欠擬合 — 看訓練 / 測試表現對比

L1 像斷捨離，L2 像節食

混淆矩陣 + 指標四兄弟

怕誤報看 Precision ／ 怕漏報看 Recall

S1-Q22 — 答案是 C（迴歸分析），不是 D

資料整理好了模型也學會了 —該收網了

下一站 — 鑑別式 與 生成式

To BeContinued

資料與學習

讓機器
自己找規律

怕誤報看 Precision ／怕漏報看 Recall

資料整理好了
模型也學會了 —
該收網了

下一站 — 鑑別式與生成式

To Be
Continued