← → 翻页 · ESC 索引
Vol.02 · Stage Two
01 / 26
iPAS AI 應用規劃師初級研習

資料 與 學習

把雜亂倉庫整理乾淨 — 再讓機器自己找規律
CH 2·資料處理·CH 3·機器學習
Vol.02·Stage Two / Five·Duration · 6 小時授課 · 2 章
經濟部產業發展署 × 弄一下工作室
30 hours · 5 stages · 1 cert
Opening · 02
02 / 26
金句 — 這 6 小時的核心命題
資料沒整理乾淨,
再強的 模型 也會學歪。
考試 70 題裡有 25 題出在 CH2 + CH3。
把資料側與模型側搞懂,過半的分就到手。
Stage 2 · CH 2 + CH 3
iPAS · Beginner
Stage Map · 03
03 / 26
Learning Outcomes

這 6 小時你將拿到的三件事

不是把所有名詞都背完,而是看到題目能選出對的選項
Data Side
07小節
資料分類 / 清洗 / ETL / 統計量 / 異常檢測 / 5V / 隱私 — 看題目就能對上工具
Model Side
09小節
三大學習類型 / 監督式演算法 / 過擬合 / 評估指標 / 特徵選取陷阱 — 一眼判題型
Exam Coverage
25/ 70 題
兩章合計約三分之一試卷分數,是全課程權重最高的兩章
學員背景:0 基礎、非技術職場人員
Stage 2 / 5
Act I · 04
04 / 26
Chapter Two · Data Processing

整理倉庫

CH 2 · 資料處理與分析概念
認識資料 → 清洗 → 搬運 → 量度 → 找異常 → 護隱私
把資料側 7 件事走一遍
2.5 hours·9 sections·13 quiz items
CH 2 — 資料處理與分析概念
Act I of II
CH 2 · 2.1 · 05
05 / 26 講義 · CH 2
2.1 資料的種類與來源

結構化、半、非結構化

口訣:Excel 就結構,JSON 半結構,影音就非結構
01
結構化
像 Excel 一樣有清楚的行與列。員工年齡 / 銷售量 / 客戶 ID。儲存:MySQL、PostgreSQL。
02
半結構化
有標籤、有層次,但欄位不一定每筆都一樣。API 回傳、網頁、設定檔。儲存:JSON / XML / CSV。
03
非結構化
沒有固定欄位,就是一坨原始內容。X 光片、錄音、PDF、郵件內文。儲存:檔案系統、S3。
關係型資料庫的記錄屬於「結構化」 — 不是非結構化(S1-Q11 必考)
資料結構分類 ≠ 資料型態(數值/文字/日期/布林)
2.1 資料種類
S1-Q11 · S1-Q12
CH 2 · 2.2 · 06
06 / 26 講義 · CH 2
2.2 資料清洗

把髒資料變乾淨 — 五種問題

遺缺值
該有資料的格子是空的 — 用平均 / 中位 / 眾數填補,或直接刪除
Missing
重複值
同一紀錄出現兩次以上 — 透過主鍵識別後刪除
Duplicate
錯誤值
年齡寫負數、地址有亂碼 — 用規則檢查並修正
Error
離群值
數值與其他差很遠 — 視情境,可能是錯誤,也可能是高價值案例
Outlier
冗餘資料
同一資訊在多個欄位重複(score1/score2/score3)— 合併欄位、重新設計
Redundant
S1-Q15 高價值客戶情境:「明顯高於其他人」的離群值不能丟 — 業務目標決定處理方式
看到「離群值 + 高價值」幾乎都是「保留並標註」
2.2 資料清洗
S1-Q15
CH 2 · 2.2 · 07
07 / 26 講義 · CH 2
必辨對比 · S1-Q34 必考

冗餘 vs 重複 — 一字之差,全選項都會出

重複資料 · Duplicate
列重複
整筆紀錄出現兩次(同一客戶、同一日期、同一金額)
處理:找到重複的列,刪掉其中一筆
冗餘資料 · Redundant
欄重複
同一資訊存在多個欄位(score1 / score2 / score3 都在存「成績」)
處理:合併欄位、重新設計資料表
看到「多個欄位儲存相同資訊」 → 選 Redundant,不是 Duplicate
2.2 必辨
S1-Q34
CH 2 · 2.3 · 08
08 / 26 講義 · CH 2
2.3 ETL 流程 · S1-Q18 必考

把資料從 A 倉,搬到 B 倉

記法 — 「同一個東西兩種寫法」這類問題,永遠在 T。
Press Space / → 逐步揭露
01
Extract · 萃取
從 CRM / ERP / Excel / API 把原始資料抓下來。比喻:從各分店倉庫把貨運出來。
02
Transform · 轉換
統一格式、清洗、去重、欄位對應、單位換算。「陳大文 vs 陳大文先生」就在這步處理。
03
Load · 載入
把整理好的資料寫入目標資料庫 / 資料倉儲。比喻:上架到中央倉。
S1-Q18:客戶姓名拼寫不一致 → 答 (A) Transform 轉換
擷取只搬資料 / 載入是最後一步 / 型態轉換不是 ETL 標準步驟名
2.3 ETL
S1-Q18
CH 2 · 必背對比 · 09
09 / 26 講義 · CH 2
全章最危險的混淆點

正規化 vs 正則化 — 差一個字,題目兩個都會出

Normalization · 正規化
處理「資料」
階段:資料前處理(CH 2)
目的:把不同尺度的特徵縮到同尺度
方法:Min-Max、Z-score、Batch Norm
時機:訓練之
「先把所有選手重新量身高,公平比賽」
Regularization · 正則化
處理「模型」
階段:模型訓練(CH 3)
目的:防止模型過擬合 Overfitting
方法:L1 Lasso、L2 Ridge、Dropout
時機:訓練之
「給模型加上規矩,不要學太細」
一句話辨識法:正規化處理資料、正則化處理模型
必背對比 · CH 2 / CH 3 跨章橋接
反覆看三次
CH 2 · 2.4 · 10
10 / 26 講義 · CH 2
2.4 集中趨勢與分散程度

「在哪裡」與「散多開」 — 兩件事

集中趨勢 · Center
Mean
全部加起來除以個數 — 對稱分布用
平均數
Median
排好之後最中間那個 — 有極端值用
中位數
Mode
出現最多次的那個 — 類別資料用
眾數
分散程度 · Spread
Range
最大 - 最小 — 太粗
全距
IQR
Q3 - Q1 — 抗極端值,找離群值
四分位距
SD
「平均偏離平均數多遠」— 品管核心
標準差
勘誤要記 — 平均差正確定義 = 觀察值與平均的「絕對差值」的平均
S1-Q14 品管:標準差大 → 製程波動大、不穩定 / S1-Q16:標準差不是集中趨勢
2.4 統計量
S1-Q14 · S1-Q16
CH 2 · 2.5 · 11
11 / 26 講義 · CH 2
2.5 異常檢測 · 速查

Z-score — 量化「離平均幾步遠」

不用記公式 — Z = (數值 - 平均) / 標準差。記住用途就好。
|Z| ≤ 2
正常
約 95% 資料落在這個範圍 — 視為「正常範圍」
|Z| > 2
輕微
出現機率 < 5% — 視為輕微離群值
|Z| > 3
極端
出現機率 < 0.3% — 視為極端離群值
S1-Q10:100 萬支出是否異常 → 答 (A) Z-score。眾數適合類別、PCA 是降維、直接替換是顛倒順序。
補充:IQR 法(小於 Q1-1.5×IQR 或大於 Q3+1.5×IQR)— 不假設常態,適用更廣
2.5 異常檢測
S1-Q10
CH 2 · 2.6 · 12
12 / 26 講義 · CH 2
2.6 大數據 5V 特性 + PCA

5 個 V — 描述「我們倉庫到底有多大」

Volume
資料量超大 — 每天 PB 級
Velocity
變化速度快 — 股票 tick / IoT 感測
Variety
多樣 — 結構/半/非結構化都有
多樣
Veracity
真實性 — 社群留言有真有假
Value
從雜訊中提煉商業價值
PCA · 主成分分析
降維 + 保留資訊
原本 100 個欄位描述一個人,PCA 找出最能區分人差異的 3–5 個綜合指標,保留 90% 資訊,剩下 95 個欄位可丟。屬於非監督式學習。
S1-Q27:「降維 + 保留最大資訊量」 → 直接選 PCA
S1-Q8:「儲存位置固定」反而違反 5V — 大數據通常分散在雲端 / 地端
2.6 大數據 + PCA
S1-Q8 · S1-Q27
CH 2 · 2.8 · 13
13 / 26 講義 · CH 2
2.8 資料隱私與安全

AI 不是拿到資料就能用

用資料前先問三件事:能不能識別到人 / 能不能合法用 / 能不能降低還原風險
A
去識別化
把姓名、電話、身分證拿掉或遮蔽。
記法:「砍掉個資欄位」
解決:資料長什麼樣
B
差分隱私
在統計結果中加入雜訊。ε 越小保護越強,但可用性下降。
記法:「加雜訊讓統計模糊」
解決:統計會不會反推個人
C
聯邦學習
資料留在本地,只交換模型更新。多家醫院共訓練但不共享病歷。
解決:資料要不要集中
本節影響 4 題迂迴考點 — S2-Q9 個資跨境 / Q18 Zero-Retention / Q26 權限合規 / Q31 Zero Trust
中小企業導入 AI 客服 3 大雷:直接丟客戶名單到 LLM API、統計報告無差分隱私、多店資料集中違反跨境
2.8 資料隱私 — Act I 收
S2-Q9 · Q18 · Q26 · Q31
Act II · 14
14 / 26
Chapter Three · Machine Learning

讓機器
自己找規律

CH 3 · 機器學習概念
CH 2 把資料整理乾淨之後 — 餵給模型,讓它自己學
本章 13 題覆蓋全試卷最大比例
3 hours·9 sections·13 quiz items
CH 3 — 機器學習概念
Act II of II
CH 3 · 3.1 · 15
15 / 26 講義 · CH 3
3.1 機器學習基本原理

教小孩認水果 — 三種教法

傳統程式:工程師寫好規則。機器學習:工程師給範例,電腦自己找規則。
01
監督式
「這是蘋果,那是香蕉」— 一個個告訴他。每張圖都標好答案。
02
非監督式
「自己分組玩玩看」— 給他一籃水果不告訴名字。他會自己依顏色 / 形狀分群。
03
強化學習
「猜對給糖、猜錯不給」— 用獎懲讓他學。多次嘗試後找到最佳策略。
AI ⊃ ML ⊃ DL — 深度學習一定是機器學習,機器學習不一定是深度學習
這三組比喻會貫穿整章,遇到題目情境就對回來
3.1 ML 起手式
三層同心圓
CH 3 · 3.2 · 16
16 / 26 講義 · CH 3
3.2 三大學習類型 · 每年至少出 2-3 題

監督 / 非監督 / 強化 — 完整對比

維度
監督式
非監督式
強化學習
標籤
標籤
標籤
獎懲訊號
任務
分類 / 迴歸
分群 / 降維
序列決策 / 控制
演算法
線性 / 邏輯迴歸 / SVM / KNN
K-means / PCA / t-SNE
Q-Learning / PPO / DQN
應用
垃圾郵件 / 房價 / 影像分類
客戶分群 / 市場區隔
圍棋 AlphaGo / 自駕
S1-Q2「動態 + 重複 + 互動」→ 強化 / S1-Q5 垃圾郵件 → 監督 / S1-Q35 輸入是特徵,輸出是標籤
3.2 三類型對比
S1-Q2 · Q5 · Q13 · Q35
CH 3 · 3.3 · 17
17 / 26 講義 · CH 3
3.3 監督式演算法 · 速查

看到「預測一個數字」想線性迴歸;看到「預測類別」想分類

迴歸
線性迴歸
找一條最貼合的直線,預測連續數值(房價、銷售額)
分類
邏輯迴歸
名字有「迴歸」但其實是分類。輸出 0–1 機率再判類別
分類
決策樹
用一連串是非題畫成樹。可解釋性高,醫療研究最愛
集成
隨機森林
種一片樹,多數決。可透過特徵重要度輔助特徵選取
分類
SVM
在兩類間畫最公平的分隔線,適合高維資料
分類
KNN
物以類聚 — 看周圍 K 個鄰居誰多就分到哪一類
S1-Q20 銷售額預測 → 線性迴歸 / S1-Q17 醫療成因(年齡 + 血壓 + 血型混合)→ 決策樹
記法:「醫療研究 + 可解釋」就想決策樹
3.3 演算法速查
S1-Q17 · Q20
CH 3 · 必考陷阱 · 18
18 / 26 講義 · CH 3
S1-Q9 必考陷阱

K-means 的五個限制

最常被誤選的考點:「K-means 不能處理類別型資料」
不適合類別資料
要算距離,類別(顏色、性別)沒有距離概念
★ 必考
K 要事先指定
不知道要分幾群時很麻煩
參數
對離群值敏感
一個離群值會把中心拉歪
穩定性
不適合非球形群集
環狀、長條狀的群會被切錯
幾何
起始點影響結果
隨機性影響穩定性
隨機
S1-Q9 問「正確」的選項 → 答 (D) 可以處理類別型 = 錯的
看清題目要選的方向:問「不正確」就是要找錯的那個
K-means 限制
S1-Q9
CH 3 · 3.6 · 19
19 / 26 講義 · CH 3
3.6 模型的兩種失敗

過擬合 vs 欠擬合 — 看訓練 / 測試表現對比

Overfitting · 過擬合
死讀書
訓練集:好(甚至 99%+)
測試集:差(大幅落差)
比喻:學生背題庫考 100 分,遇新題就掛
解法:正則化、Early Stopping、增加資料量、Data Augmentation
Underfitting · 欠擬合
沒讀書
訓練集:差
測試集:差
比喻:學生連考古題都看不懂,根本沒學進去
解法:加複雜度、加更多特徵、訓練更久
訓練好測試差」= 過擬合 /「訓練都差」= 欠擬合
3.6 過 vs 欠擬合
S1-Q3
CH 3 · 3.6 · 20
20 / 26 講義 · CH 3
3.6 防過擬合三策略 + 正則化兩種

L1 像斷捨離,L2 像節食

防過擬合三大策略
正則化
給模型加規矩,不准變太複雜
L1 / L2
Early Stop
看到驗證表現開始下降就停下來
時機
Augmentation
用旋轉 / 翻轉 / 加噪音擴增資料
資料
L1 vs L2 副作用對比
L1 Lasso
加總絕對值,把不重要權重壓成 0。自動做特徵選擇
斷捨離
L2 Ridge
加總平方值,把所有權重壓小但不為 0。所有特徵都保留
節食
Dropout
訓練時隨機關掉部分神經元,避免依賴單一路徑
DL 專用
S1-Q3:防過擬合最直接的方法 → (D) 增加正則化項。增加複雜度反向、學習率不直接相關。
考試遇兩個都對時(如 A 增加資料量也對),選最直接的那個
3.6 防過擬合 + L1/L2
S1-Q3
CH 3 · 3.7 · 21
21 / 26 講義 · CH 3
3.7 模型評估 · 速查

混淆矩陣 + 指標四兄弟

混淆矩陣(以「會不會離職」為例)
TP · 真陽
實際會離職,模型也預測會 — 抓對了
命中
FN · 偽陰
實際會離職,模型卻說不會 — 漏報,縱放壞人
FP · 偽陽
實際不會,模型卻說會 — 誤報,冤枉好人
TN · 真陰
實際不會,模型也說不會 — 安全通過
正確排除
指標四兄弟
Accuracy
(TP+TN)/全部 — 預測對的比例。類別不均衡時會騙人
準確
Precision
TP/(TP+FP) — 說會的有多少真的會。怕誤報
精確
Recall
TP/(TP+FN) — 真的會的有多少被抓到。怕漏報
召回
F1
精確 + 召回的調和平均 — 兩者都重要時
綜合
3.7 評估指標
S1-Q23 · Q24
CH 3 · 3.7 · 22
22 / 26 講義 · CH 3
3.7 何時用哪個指標

誤報看 Precision / 怕漏報看 Recall

Precision · 怕誤報
不能冤枉好人
分母:模型說會的所有人(TP + FP)
高表示:模型開口通常是對的,誤報少
場景:醫療核可、信用評分、垃圾信過濾(不想把正常信丟掉)
Recall · 怕漏報
一個都不能漏
分母:真的會的所有人(TP + FN)
高表示:真正有問題的大多被抓到,漏報少
場景:疾病篩檢、設備異常停機、詐騙偵測(漏掉就慘)
S1-Q24 智慧工廠「漏報率」 → 答 (B) Recall
陷阱例:100 人 1 病人,全猜「沒病」accuracy 99% 但 precision = 0%(不平衡資料 + 少數類重點 → 一定看 P / R)
S1-Q23 交叉驗證目的 → (C) 減少過擬合風險(多次切分平均評估泛化能力)
P vs R 抉擇
S1-Q23 · Q24
CH 3 · 3.8 · 23
23 / 26 講義 · CH 3
3.8 全章最容易答錯的題目

S1-Q22 — 答案是 C(迴歸分析),不是 D

很多學員誤選 D(隨機森林)。但隨機森林透過特徵重要度可以輔助特徵選取,是常見方法 — 不能選。
Pearson 相關
看特徵跟目標的線性相關度,低的丟 — Filter Methods 經典
PCA
找最大變異方向組合新特徵 — 廣義特徵工程
隨機森林重要度
用樹模型在訓練時順便算每個特徵的重要度 — Embedded Methods
L1 Lasso
訓練時自動把不重要的特徵權重壓 0 — Embedded Methods
迴歸分析
用來「預測一個數字」(房價、銷售額) — 是預測模型
不是
一句話記法:「迴歸是預測,不是選特徵」
千萬不要記成「隨機森林不是特徵選取技術」— 那是錯的
3.8 必背陷阱
S1-Q22
Recap · 24
24 / 26
End of Stage Two

資料整理好了
模型也學會了 —
該收網了

到這裡你已經吃下全試卷三分之一的分數。
剩下 35 題在 CH4 鑑別/生成、CH5 NC/LC、CH6 應用、CH7 導入規劃。
Stage 2 done·Stage 3 next·3 more to cert
CH 2 + CH 3 完成 — 累計 12 / 30 hr
40% complete
Stage Map · 25
25 / 26
What's next · Stage 3 預告

下一站 — 鑑別式生成式

Stage 3 是 4 小時的 CH 4 — 從你已經會的「分類」走到「能生新東西」的世界
CH 4.1
鑑別式 AI · P(y|x) — 「給我一張圖,告訴我是貓是狗」
60 min
CH 4.2
生成式 AI · P(x,y) — 「我能生出一張新的貓的圖」
60 min
CH 4.3
深度學習三大模型 — CNN / RNN-LSTM-GRU / GAN
60 min
CH 4.4
整合應用 — 數據增強協同、多模態、即時分析
45 min
章末練習
樣題 7、26、28-30、32-33(共 7 題)
15 min
Stage 3 · CH 4 鑑別式 + 生成式
Coming up
End · 26
26 / 26
Stage 2 of 5 · CH 2 + CH 3

To Be
Continued

下一份簡報:Stage 3 · CH 4 鑑別式 + 生成式 AI
講義持續更新於 GitHub Pages
iPAS AI 應用規劃師初級研習·30 hours·5 stages
經濟部產業發展署·弄一下工作室·sky8697@gmail.com
Stage 2 / 5 — 12 hr / 30 hr 完成
Press End to restart