▭
請橫向觀看
本簡報以 16:9 橫向為主
請旋轉手機
或改用平板 / 桌機觀看
弄一下工作室 · Lecturer Decks
← → 翻页 · ESC 索引
Vol.02 · Stage Two
01 / 26
iPAS AI 應用規劃師初級研習
資料 與
學習
把雜亂倉庫整理乾淨 — 再讓機器自己找規律
CH 2
·
資料處理
·
CH 3
·
機器學習
Vol.02
·
Stage Two / Five
·
Duration · 6 小時授課 · 2 章
Contact
·
sky8697@gmail.com
經濟部產業發展署 × 弄一下工作室
30 hours · 5 stages · 1 cert
Opening · 02
02 / 26
金句 — 這 6 小時的核心命題
資料沒整理乾淨,
再強的
模型
也會學歪。
考試 70 題裡有 25 題出在 CH2 + CH3。
把資料側與模型側搞懂,過半的分就到手。
Stage 2 · CH 2 + CH 3
iPAS · Beginner
Stage Map · 03
03 / 26
Learning Outcomes
這 6 小時你將拿到的三件事
不是把所有名詞都背完,而是看到題目能
選出對的選項
。
Data Side
07
小節
資料分類 / 清洗 / ETL / 統計量 / 異常檢測 / 5V / 隱私 — 看題目就能對上工具
Model Side
09
小節
三大學習類型 / 監督式演算法 / 過擬合 / 評估指標 / 特徵選取陷阱 — 一眼判題型
Exam Coverage
25
/ 70 題
兩章合計約三分之一試卷分數,是全課程權重最高的兩章
學員背景:0 基礎、非技術職場人員
Stage 2 / 5
Act I · 04
04 / 26
Chapter Two · Data Processing
整理倉庫
CH 2 · 資料處理與分析概念
認識資料 → 清洗 → 搬運 → 量度 → 找異常 → 護隱私
把資料側 7 件事走一遍
2.5 hours
·
9 sections
·
13 quiz items
CH 2 — 資料處理與分析概念
Act I of II
CH 2 · 2.1 · 05
05 / 26
講義 · CH 2
2.1 資料的種類與來源
結構化、半、非結構化
口訣:
Excel 就結構,JSON 半結構,影音就非結構
。
01
結構化
像 Excel 一樣有清楚的行與列。員工年齡 / 銷售量 / 客戶 ID。儲存:MySQL、PostgreSQL。
02
半結構化
有標籤、有層次,但欄位不一定每筆都一樣。API 回傳、網頁、設定檔。儲存:JSON / XML / CSV。
03
非結構化
沒有固定欄位,就是一坨原始內容。X 光片、錄音、PDF、郵件內文。儲存:檔案系統、S3。
關係型資料庫的記錄屬於「結構化」 — 不是非結構化(S1-Q11 必考)
資料結構分類 ≠ 資料型態(數值/文字/日期/布林)
2.1 資料種類
S1-Q11 · S1-Q12
CH 2 · 2.2 · 06
06 / 26
講義 · CH 2
2.2 資料清洗
把髒資料變乾淨 — 五種問題
遺缺值
該有資料的格子是空的 — 用平均 / 中位 / 眾數填補,或直接刪除
Missing
重複值
同一
列
紀錄出現兩次以上 — 透過主鍵識別後刪除
Duplicate
錯誤值
年齡寫負數、地址有亂碼 — 用規則檢查並修正
Error
離群值
數值與其他差很遠 — 視情境,可能是錯誤,也可能是高價值案例
Outlier
冗餘資料
同一資訊在多個
欄位
重複(score1/score2/score3)— 合併欄位、重新設計
Redundant
S1-Q15 高價值客戶情境:「明顯高於其他人」的離群值
不能丟
— 業務目標決定處理方式
看到「離群值 + 高價值」幾乎都是「保留並標註」
2.2 資料清洗
S1-Q15
CH 2 · 2.2 · 07
07 / 26
講義 · CH 2
必辨對比 · S1-Q34 必考
冗餘 vs 重複 — 一字之差,全選項都會出
重複資料 · Duplicate
列重複
整筆紀錄出現兩次(同一客戶、同一日期、同一金額)
處理:找到重複的列,刪掉其中一筆
冗餘資料 · Redundant
欄重複
同一資訊存在多個欄位(score1 / score2 / score3 都在存「成績」)
處理:合併欄位、重新設計資料表
看到「
多個欄位儲存相同資訊
」 → 選
Redundant
,不是 Duplicate
2.2 必辨
S1-Q34
CH 2 · 2.3 · 08
08 / 26
講義 · CH 2
2.3 ETL 流程 · S1-Q18 必考
把資料從 A 倉,搬到 B 倉
記法 — 「同一個東西兩種寫法」這類問題,
永遠
在 T。
Press Space / → 逐步揭露
01
Extract · 萃取
從 CRM / ERP / Excel / API 把原始資料抓下來。比喻:從各分店倉庫把貨運出來。
02
Transform · 轉換
統一格式、清洗、去重、欄位對應、單位換算。
「陳大文 vs 陳大文先生」
就在這步處理。
03
Load · 載入
把整理好的資料寫入目標資料庫 / 資料倉儲。比喻:上架到中央倉。
S1-Q18:客戶姓名拼寫不一致 → 答
(A) Transform 轉換
擷取只搬資料 / 載入是最後一步 / 型態轉換不是 ETL 標準步驟名
2.3 ETL
S1-Q18
CH 2 · 必背對比 · 09
09 / 26
講義 · CH 2
全章最危險的混淆點
正規化
vs
正則化
— 差一個字,題目兩個都會出
Normalization · 正規化
處理「資料」
階段
:資料前處理(CH 2)
目的
:把不同尺度的特徵縮到同尺度
方法
:Min-Max、Z-score、Batch Norm
時機
:訓練之
前
「先把所有選手重新量身高,公平比賽」
Regularization · 正則化
處理「模型」
階段
:模型訓練(CH 3)
目的
:防止模型過擬合 Overfitting
方法
:L1 Lasso、L2 Ridge、Dropout
時機
:訓練之
中
「給模型加上規矩,不要學太細」
一句話辨識法:
正規化處理資料、正則化處理模型
必背對比 · CH 2 / CH 3 跨章橋接
反覆看三次
CH 2 · 2.4 · 10
10 / 26
講義 · CH 2
2.4 集中趨勢與分散程度
「在哪裡」與「散多開」 — 兩件事
集中趨勢 · Center
Mean
全部加起來除以個數 — 對稱分布用
平均數
Median
排好之後最中間那個 — 有極端值用
中位數
Mode
出現最多次的那個 — 類別資料用
眾數
分散程度 · Spread
Range
最大 - 最小 — 太粗
全距
IQR
Q3 - Q1 — 抗極端值,找離群值
四分位距
SD
「平均偏離平均數多遠」— 品管核心
標準差
勘誤要記 — 平均差正確定義 = 觀察值與平均的「
絕對差值
」的平均
S1-Q14 品管:標準差大 → 製程波動大、不穩定 / S1-Q16:標準差不是集中趨勢
2.4 統計量
S1-Q14 · S1-Q16
CH 2 · 2.5 · 11
11 / 26
講義 · CH 2
2.5 異常檢測 · 速查
Z-score — 量化「離平均幾步遠」
不用記公式 — Z = (數值 - 平均) / 標準差。記住
用途
就好。
|Z| ≤ 2
正常
約 95% 資料落在這個範圍 — 視為「正常範圍」
|Z| > 2
輕微
出現機率 < 5% — 視為輕微離群值
|Z| > 3
極端
出現機率 < 0.3% — 視為極端離群值
S1-Q10:100 萬支出是否異常 → 答
(A) Z-score
。眾數適合類別、PCA 是降維、直接替換是顛倒順序。
補充:IQR 法(小於 Q1-1.5×IQR 或大於 Q3+1.5×IQR)— 不假設常態,適用更廣
2.5 異常檢測
S1-Q10
CH 2 · 2.6 · 12
12 / 26
講義 · CH 2
2.6 大數據 5V 特性 + PCA
5 個 V — 描述「我們倉庫到底有多大」
Volume
資料量超大 — 每天 PB 級
量
Velocity
變化速度快 — 股票 tick / IoT 感測
速
Variety
多樣 — 結構/半/非結構化都有
多樣
Veracity
真實性 — 社群留言有真有假
真
Value
從雜訊中提煉商業價值
價
PCA · 主成分分析
降維 +
保留資訊
原本 100 個欄位描述一個人,PCA 找出最能區分人差異的 3–5 個綜合指標,保留 90% 資訊,剩下 95 個欄位可丟。屬於非監督式學習。
S1-Q27:「降維 + 保留最大資訊量」 → 直接選 PCA
S1-Q8:「儲存位置固定」反而違反 5V — 大數據通常分散在雲端 / 地端
2.6 大數據 + PCA
S1-Q8 · S1-Q27
CH 2 · 2.8 · 13
13 / 26
講義 · CH 2
2.8 資料隱私與安全
AI 不是
拿到資料
就能用
用資料前先問三件事:能不能識別到人 / 能不能合法用 / 能不能降低還原風險
A
去識別化
把姓名、電話、身分證拿掉或遮蔽。
記法
:「砍掉個資欄位」
解決:資料長什麼樣
B
差分隱私
在統計結果中加入雜訊。ε 越小保護越強,但可用性下降。
記法
:「加雜訊讓統計模糊」
解決:統計會不會反推個人
C
聯邦學習
資料留在本地,只交換模型更新。多家醫院共訓練但不共享病歷。
解決:資料要不要集中
本節影響 4 題迂迴考點 — S2-Q9 個資跨境 / Q18 Zero-Retention / Q26 權限合規 / Q31 Zero Trust
中小企業導入 AI 客服 3 大雷:直接丟客戶名單到 LLM API、統計報告無差分隱私、多店資料集中違反跨境
2.8 資料隱私 — Act I 收
S2-Q9 · Q18 · Q26 · Q31
Act II · 14
14 / 26
Chapter Three · Machine Learning
讓機器
自己找規律
CH 3 · 機器學習概念
CH 2 把資料整理乾淨之後 — 餵給模型,讓它自己學
本章 13 題覆蓋全試卷最大比例
3 hours
·
9 sections
·
13 quiz items
CH 3 — 機器學習概念
Act II of II
CH 3 · 3.1 · 15
15 / 26
講義 · CH 3
3.1 機器學習基本原理
教小孩認水果 — 三種教法
傳統程式:工程師寫好
規則
。機器學習:工程師給
範例
,電腦自己找規則。
01
監督式
「這是蘋果,那是香蕉」— 一個個告訴他。每張圖都標好答案。
02
非監督式
「自己分組玩玩看」— 給他一籃水果不告訴名字。他會自己依顏色 / 形狀分群。
03
強化學習
「猜對給糖、猜錯不給」— 用獎懲讓他學。多次嘗試後找到最佳策略。
AI ⊃ ML ⊃ DL — 深度學習一定是機器學習,機器學習不一定是深度學習
這三組比喻會貫穿整章,遇到題目情境就對回來
3.1 ML 起手式
三層同心圓
CH 3 · 3.2 · 16
16 / 26
講義 · CH 3
3.2 三大學習類型 · 每年至少出 2-3 題
監督 / 非監督 / 強化 — 完整對比
維度
監督式
非監督式
強化學習
標籤
有
標籤
無
標籤
獎懲訊號
任務
分類 / 迴歸
分群 / 降維
序列決策 / 控制
演算法
線性 / 邏輯迴歸 / SVM / KNN
K-means / PCA / t-SNE
Q-Learning / PPO / DQN
應用
垃圾郵件 / 房價 / 影像分類
客戶分群 / 市場區隔
圍棋 AlphaGo / 自駕
S1-Q2「動態 + 重複 + 互動」→ 強化 / S1-Q5 垃圾郵件 → 監督 / S1-Q35 輸入是
特徵
,輸出是
標籤
3.2 三類型對比
S1-Q2 · Q5 · Q13 · Q35
CH 3 · 3.3 · 17
17 / 26
講義 · CH 3
3.3 監督式演算法 · 速查
看到「預測一個數字」想線性迴歸;看到「預測類別」想分類
迴歸
線性迴歸
找一條最貼合的直線,預測連續數值(房價、銷售額)
分類
邏輯迴歸
名字有「迴歸」但其實是
分類
。輸出 0–1 機率再判類別
分類
決策樹
用一連串是非題畫成樹。
可解釋性高
,醫療研究最愛
集成
隨機森林
種一片樹,多數決。可透過特徵重要度
輔助
特徵選取
分類
SVM
在兩類間畫最公平的分隔線,適合高維資料
分類
KNN
物以類聚 — 看周圍 K 個鄰居誰多就分到哪一類
S1-Q20 銷售額預測 → 線性迴歸 / S1-Q17 醫療成因(年齡 + 血壓 + 血型混合)→ 決策樹
記法:「醫療研究 + 可解釋」就想決策樹
3.3 演算法速查
S1-Q17 · Q20
CH 3 · 必考陷阱 · 18
18 / 26
講義 · CH 3
S1-Q9 必考陷阱
K-means 的
五個限制
最常被誤選的考點:「K-means 不能處理
類別型
資料」
不適合類別資料
要算
距離
,類別(顏色、性別)沒有距離概念
★ 必考
K 要事先指定
不知道要分幾群時很麻煩
參數
對離群值敏感
一個離群值會把中心拉歪
穩定性
不適合非球形群集
環狀、長條狀的群會被切錯
幾何
起始點影響結果
隨機性影響穩定性
隨機
S1-Q9 問「
不
正確」的選項 → 答 (D) 可以處理類別型 = 錯的
看清題目要選的方向:問「不正確」就是要找錯的那個
K-means 限制
S1-Q9
CH 3 · 3.6 · 19
19 / 26
講義 · CH 3
3.6 模型的兩種失敗
過擬合 vs 欠擬合 — 看訓練 / 測試表現對比
Overfitting · 過擬合
死讀書
訓練集
:好(甚至 99%+)
測試集
:差(大幅落差)
比喻
:學生背題庫考 100 分,遇新題就掛
解法:正則化、Early Stopping、增加資料量、Data Augmentation
Underfitting · 欠擬合
沒讀書
訓練集
:差
測試集
:差
比喻
:學生連考古題都看不懂,根本沒學進去
解法:加複雜度、加更多特徵、訓練更久
「
訓練好測試差
」= 過擬合 /「
訓練都差
」= 欠擬合
3.6 過 vs 欠擬合
S1-Q3
CH 3 · 3.6 · 20
20 / 26
講義 · CH 3
3.6 防過擬合三策略 + 正則化兩種
L1 像
斷捨離
,L2 像
節食
防過擬合三大策略
正則化
給模型加規矩,不准變太複雜
L1 / L2
Early Stop
看到驗證表現開始下降就停下來
時機
Augmentation
用旋轉 / 翻轉 / 加噪音擴增資料
資料
L1 vs L2 副作用對比
L1 Lasso
加總絕對值,把不重要權重壓
成 0
。自動做特徵選擇
斷捨離
L2 Ridge
加總平方值,把所有權重壓小但
不為 0
。所有特徵都保留
節食
Dropout
訓練時隨機關掉部分神經元,避免依賴單一路徑
DL 專用
S1-Q3:防過擬合最直接的方法 →
(D) 增加正則化項
。增加複雜度反向、學習率不直接相關。
考試遇兩個都對時(如 A 增加資料量也對),選最直接的那個
3.6 防過擬合 + L1/L2
S1-Q3
CH 3 · 3.7 · 21
21 / 26
講義 · CH 3
3.7 模型評估 · 速查
混淆矩陣 + 指標四兄弟
混淆矩陣(以「會不會離職」為例)
TP · 真陽
實際會離職,模型也預測會 — 抓對了
命中
FN · 偽陰
實際會離職,模型卻說不會 —
漏報
,縱放壞人
漏
FP · 偽陽
實際不會,模型卻說會 —
誤報
,冤枉好人
誤
TN · 真陰
實際不會,模型也說不會 — 安全通過
正確排除
指標四兄弟
Accuracy
(TP+TN)/全部 — 預測對的比例。
類別不均衡時會騙人
準確
Precision
TP/(TP+FP) — 說會的有多少真的會。怕
誤報
用
精確
Recall
TP/(TP+FN) — 真的會的有多少被抓到。怕
漏報
用
召回
F1
精確 + 召回的調和平均 — 兩者都重要時
綜合
3.7 評估指標
S1-Q23 · Q24
CH 3 · 3.7 · 22
22 / 26
講義 · CH 3
3.7 何時用哪個指標
怕
誤報
看 Precision / 怕
漏報
看 Recall
Precision · 怕誤報
不能冤枉好人
分母
:模型說會的所有人(TP + FP)
高表示
:模型開口通常是對的,誤報少
場景:醫療核可、信用評分、垃圾信過濾(不想把正常信丟掉)
Recall · 怕漏報
一個都不能漏
分母
:真的會的所有人(TP + FN)
高表示
:真正有問題的大多被抓到,漏報少
場景:疾病篩檢、設備異常停機、詐騙偵測(漏掉就慘)
S1-Q24 智慧工廠「漏報率」 → 答
(B) Recall
。
陷阱例:100 人 1 病人,全猜「沒病」accuracy 99% 但 precision = 0%(不平衡資料 + 少數類重點 → 一定看 P / R)
S1-Q23 交叉驗證目的 → (C) 減少過擬合風險(多次切分平均評估泛化能力)
P vs R 抉擇
S1-Q23 · Q24
CH 3 · 3.8 · 23
23 / 26
講義 · CH 3
3.8 全章最容易答錯的題目
S1-Q22 — 答案是 C(迴歸分析),
不是 D
很多學員誤選 D(隨機森林)。但隨機森林透過特徵重要度
可以輔助
特徵選取,是常見方法 — 不能選。
Pearson 相關
看特徵跟目標的線性相關度,低的丟 — Filter Methods 經典
是
PCA
找最大變異方向組合新特徵 — 廣義特徵工程
是
隨機森林重要度
用樹模型在訓練時順便算每個特徵的重要度 — Embedded Methods
是
L1 Lasso
訓練時自動把不重要的特徵權重壓 0 — Embedded Methods
是
迴歸分析
用來「
預測
一個數字」(房價、銷售額) — 是預測模型
不是
一句話記法:
「迴歸是預測,不是選特徵」
千萬不要記成「隨機森林不是特徵選取技術」— 那是錯的
3.8 必背陷阱
S1-Q22
Recap · 24
24 / 26
End of Stage Two
資料整理好了
模型也學會了 —
該收網了
到這裡你已經吃下全試卷三分之一的分數。
剩下 35 題在 CH4 鑑別/生成、CH5 NC/LC、CH6 應用、CH7 導入規劃。
Stage 2 done
·
Stage 3 next
·
3 more to cert
CH 2 + CH 3 完成 — 累計 12 / 30 hr
40% complete
Stage Map · 25
25 / 26
What's next · Stage 3 預告
下一站 —
鑑別式
與
生成式
Stage 3 是 4 小時的 CH 4 — 從你已經會的「分類」走到「能生新東西」的世界
CH 4.1
鑑別式 AI · P(y|x) — 「給我一張圖,告訴我是貓是狗」
60 min
CH 4.2
生成式 AI · P(x,y) — 「我能生出一張新的貓的圖」
60 min
CH 4.3
深度學習三大模型 — CNN / RNN-LSTM-GRU / GAN
60 min
CH 4.4
整合應用 — 數據增強協同、多模態、即時分析
45 min
章末練習
樣題 7、26、28-30、32-33(共 7 題)
15 min
Stage 3 · CH 4 鑑別式 + 生成式
Coming up
End · 26
26 / 26
Stage 2 of 5 · CH 2 + CH 3
To Be
Con
tinued
下一份簡報:Stage 3 · CH 4 鑑別式 + 生成式 AI
講義持續更新於 GitHub Pages
iPAS AI 應用規劃師初級研習
·
30 hours
·
5 stages
經濟部產業發展署
·
弄一下工作室
·
sky8697@gmail.com
Stage 2 / 5 — 12 hr / 30 hr 完成
Press End to restart
手機提醒 · A NOTE FOR MOBILE
這份簡報為
現場投影
設計,
手機建議閱讀講義
講師簡報集是給投影/桌機觀看的形式。手機觀看時排版會被壓縮、互動受限。建議改開講義頁取得最佳閱讀體驗。
📖 開啟講義
仍要看簡報摘要
弄一下工作室 · Lecturer Decks