Vol.06 · D06

01 / 36

Generative AI · 140hr · Day 06 / 20

把髒資料
清成可交付的表

Part 3 開場：D06 用 8 小時，把 CSV / Excel / 客戶意見三種混亂資料源，從手動修一週變成 AI 跑半小時、人覆核 15 分鐘的標準流程。

8 小時授課·D06 / 20·Part 3 開場

CH3-1+PRAC3-1+PRAC3-2

Contact·sky8697@gmail.com

弄一下工作室 · Studio Knock生成式 AI 職訓實務應用班

Opening · Quote

02 / 36

Why Data Cleaning

髒資料是現代工作的隱形稅— 看不到金額，但每月吃掉三成產出。

—— 資料清理的第一步不是打開 AI，而是先決定你要什麼結構。欄位怎麼命名、每列代表什麼，這些問題 AI 不會幫你問，但你不問它就亂答。

D06 · Vol.06CH3-1 · 開場金句

Part 3 · Map

03 / 36

Part 3 全景 · D06 → D09

把資料變成流程—Part 3 的四站地圖

D06 · Today

資料清理

CSV / Excel / 客戶意見
從髒到乾淨

D07

工作流

單次任務
變每週自動跑

D08

Webhook

表單 → AI
→ 通知

D09

SOP 化

寫成可交接的
部門資產

Part 3 · MapD06 是 Part 3 的第一站

Act I · Concept

04 / 36

Act I · CH3-1

表格資料清理
CSV / Excel不再手動修

13 頁概念 — 為什麼要清、五大欄位問題、三要素 Prompt、AI 四大風險、Eric CRM 求救實戰。

04 / 36 · Act I 開幕CH3-1 表格資料清理

CH3-1 · Concept

05 / 36 講義 · CH3-1

(02) · Foundations

結構化 vs 非結構化—你的資料現在在哪一側？

結構化 · Structured

已經有欄位

CSV、Excel、資料庫表 — 每一格都知道自己代表什麼。AI 可以直接清。

→ 直接寫清理規格 Prompt

非結構化 · Unstructured

只有一團文字

客戶意見、評論、DM、訪談逐字稿 — 沒有欄位，得先「貼標籤」才能分析。

→ 先設計分類框架，再貼標

05 / 36先決定要什麼結構，AI 才不亂答

CH3-1 · Five Issues

06 / 36 講義 · CH3-1

(02) · Five Symptoms

五大欄位問題—你的表格中了幾個？

01 · 格式不統一

「2024/1/1」「Jan 1 2024」「20240101」混雜

請統一為 YYYY-MM-DD

02 · 空值未標記

空格、N/A、-、無同時存在

請統一標為 null

03 · 命名混亂

「手機」「電話」「mobile」同為聯絡方式

給規則統一欄位名

04 · 標籤不一致

「行銷」「Marketing」「mrk」代表同一分類

建標準清單後重貼

05 · 複合欄位

「台北市信義區忠孝東路 100 號」塞同一欄

拆成縣市/區/街道

06 / 3690% 工作表格都會出現至少一種

CH3-1 · Sample CSV

07 / 36 講義 · CH3-1

Mini-prac 1 · 真實素材

活動報名表的五病齊發

姓名,Email,手機號碼,公司,職稱,場次,金額,時間
王小明,ming@…,0912-345-678,A 公司,PM,2026/3/15 下午場,1200元,2026/2/28
Lisa Chen,lisa@…,0922333444,A公司,產品經理,3/15 下午,NT$1200,2026-03-01
張大華,DAHUA@…,912-345-999,B 有限公司,經理,3月15日下午場,1,200,03/02/2026
陳美玲,meiling@…,-,B 有限公司,行銷,2026-03-15 PM,1200,N/A
Kevin Lin,kevin@…,886-912-555-000,C Co.,marketing,15 Mar 2026 afternoon,$1200,…

最髒欄位 TOP 1

手機號碼

三種分隔符 + 國碼不一 + 空值未標記。
每一筆髒一點，加起來就無法做客戶名單合併。

→ 第 09 頁示範如何用 Prompt 一次清乾淨

07 / 36Mini-prac 1 · 直接抄這份跑診斷

CH3-1 · Prompt Recipe

08 / 36 講義 · CH3-1

(03) · Three Required Parts

清理指令的三個必填要素—結構比創意更重要

01

輸入格式說明

欄位名稱 + 範例值。讓 AI 知道你的 CSV 長什麼樣，每欄可能有哪幾種髒法。

02

輸出格式規範

每欄要長什麼樣 + 例外怎麼標（如 ERROR:原始值 / null）。不留白給 AI。

03

輸出 CSV 或 JSON

明確要求結構化輸出，不要讓它輸出自然語言說明 — 否則貼回 Excel 還要再剪一次。

08 / 36好的清理指令長得像規格書，不像聊天

CH3-1 · Prompt v1

09 / 36 講義 · CH3-1

Mini-prac 2 · 寫一份可貼的規格

手機號碼清理規格 v1—三要素一次到位

你是資料清理助手。
## 輸入
phone：台灣手機，可能格式：0912-345-678 / 0922333444 / 912-345-999 / +886912999888 / -、N/A、空白
## 規則
→ 統一輸出 09XXXXXXXX（10 碼無分隔）
→ 缺 0 但首碼為 9 → 補 0
→ 含國碼 +886 / 886 → 去掉補 0
→ 缺值 → null
→ 市話 02-08 開頭 → ERROR:市話非手機:原始值
## 輸出
CSV，欄位保留 row_id, phone，不輸出解釋文字

為什麼這個 Prompt 能用

→ 列出所有可能型態（不只給乾淨範例）
→ 例外規則寫死（市話、缺值都有對應）
→ 輸出格式封死（純 CSV，沒有自由發揮空間）
★ 跑完 12 列樣本後再加 v2 補丁

09 / 36 · ★ 講師可開講義對照這份 Prompt 可直接帶回辦公室

CH3-1 · Risks

10 / 36 講義 · CH3-1

(04) · Where AI Fails Silently

AI 不會說「我不確定」—四種靜默風險

風險 01

數量異常

AI 輸出列數和輸入不一致。清理前後必須對比列數。

風險 02

類別模糊

相似但不同的標籤被合併，AI 猜錯分類而你沒發現。

風險 03

格式錯誤

少數資料不符合輸出規格，例如日期仍有例外沒被處理到。

風險 04

靜默填補

AI 自行補了空值，但你沒察覺，導致資料被污染。

10 / 36 · ★ 講師可開講義對照AI 會選一個看起來合理的答案

CH3-1 · Verify

11 / 36 講義 · CH3-1

Verification · Three Quick Checks

最快驗證三招—三分鐘抓出 AI 的破綻

01

列數對比

輸入 200 列、輸出也要 200 列。少一列代表 AI 靜默刪除，立即拒收。

02

空值統計

用 Excel 的 COUNTIF / COUNTBLANK 確認清理前後空值數量是否合理 — 不應該突然變多或變少。

03

抽 10 筆人工比對

隨機抽 10 列，逐欄對照原始 vs 清理後。比看 AI 報告快 5 倍。

11 / 36 · ★ 講師可開講義對照不抽樣等於信仰，信仰會出包

CH3-1 · Assignment

12 / 36

Slack 訊息 · 1545

「兄弟救命—
下午五點要交給老闆」

前同事 Eric 接手 30 人金融科技公司 CRM，匯出 200 筆客戶資料，欄位一團亂、有些值明顯錯、有些不確定能不能清掉。他不太敢 100% 信 AI。

→ 下三頁示範如何在 25 分鐘內，給他一份「AI 清理 + 人工覆核」SOP。

12 / 36課堂作業 · 25 分鐘核心 + 15 分鐘進階

CH3-1 · SOP

13 / 36 講義 · CH3-1

Solution · 25 min Core

給 Eric 的三段 SOP—診斷 → Prompt → 覆核

8 min

01 · 診斷表

12 列 × 5 類問題打勾，標出每列病灶與最髒欄位 TOP 1。

10 min

02 · 清理 Prompt

含 self-check 三條：列數對比、需人工確認列出、變更摘要對應。

7 min

03 · 覆核檢查單

分流：「必須人工」vs「可信 AI」，5–8 個檢查項。

13 / 3625 分鐘交付完整 SOP

CH3-1 · Diagnosis

14 / 36 講義 · CH3-1

Eric's CSV · 12 rows × 5 issue types

五類問題診斷統計—12 列裡藏了 20 個病灶

大小寫不一

3

email LISA / lisi 等

全形 / 半形混雜

3

name 含全形空格

格式不統一

9

phone / date / amount 多版本

typo / 格式錯誤

3

email 拼錯、缺 .com、缺網域

邏輯錯誤

2

amount = -500、重複客戶 C001/C012

14 / 36「最容易漏的是邏輯錯誤」

CH3-1 · Review Routing

15 / 36 講義 · CH3-1

Routing Principle

覆核分流—必須人工vs可信 AI

必須人工

判斷類

→ 重複客戶判斷（C001 vs C012 是同人？）
→ 負數金額（-500 是退款還是錯誤？）
→ typo 修正範圍（exmaple 真的是 typo？）
→ 抽樣 5% 列做完整檢查

可信 AI

機械式轉換

→ email 大小寫統一
→ phone 格式統一
→ 全形 → 半形空白
→ 列數一致驗證（規則明確的）

15 / 36全部人工 = 沒省到時間 / 全信 AI = 失控

Act I · End

16 / 36

End of Act I · Time to Build

概念講完—
該去動手了

下半天把 CH3-1 學的三要素 Prompt、五大欄位、四大風險、人工覆核，套到兩個真實工坊：混亂資料清理器（PRAC3-1）+ 客戶意見分類板（PRAC3-2）。

16 / 36 · 中場休息 10 分鐘 → PRAC3-1

Act II · Practice

17 / 36

Act II · PRAC 3-1

混亂資料
清理器

2.5 小時課堂 + 2 小時自學。把一份格式混亂的資料，用精確的 AI 清理指令變成可交付的乾淨表格。三組情境實戰：CRM 去重 / 銷售統一 / 問卷開放題。

17 / 36 · Act II 開幕PRAC3-1 混亂資料清理器

PRAC3-1 · Steps

18 / 36 講義 · PRAC3-1

Mission · 4 Steps

依序完成—四個步驟

01

準備混亂資料

從工作中抓真實 CSV，越亂越好練。

02

診斷資料問題

對照五大問題，把欄位病灶列出來。

03

設計清理指令

三要素套用，工具會幫你組 Prompt。

04

驗收 + 寫規格表

比對前後 + 列欄位規格給未來維護用。

18 / 36先用工具暖身，再用情境實戰

PRAC3-1 · Drill A

19 / 36 講義 · PRAC3-1

Drill A · CRM Dedup

情境 A · 客戶名單去重

同一個人因為姓名空白、大小寫、email 大小寫不同，被當成三個人塞進 CRM。300 筆裡有 15–25% 是這類「假重複」。

王小明, wang.ming@gmail.com ,0912-345-678,官網表單
王小明,WANG.MING@gmail.com,0912345678,展場名片
王小明,wang.ming@Gmail.com,(09)1234-5678,官網表單
→ 12 筆節選 → 5 位獨立客戶

關鍵 Prompt 規則

→ 三欄任一相同且不衝突 = 同人
→ 中英姓名靠 email 當橋，不靠相似度
→ 來源欄合併以「/」串接
→ 拼寫差異大的標「疑似重複待確認」不直接合併

19 / 36前後空白與大小寫是去重第一殺手

PRAC3-1 · Drill B

20 / 36 講義 · PRAC3-1

Drill B · Sales Format Unify

情境 B · 銷售紀錄格式統一

三家門店銷售明細：日期有民國 / 西元 / 純月份三套，金額有 NT$ / 元 / w 三種寫法 — 貼進 Excel 樞紐會爆。

日期統一規則

→ 統一 YYYY-MM-DD
→ 民國年加 1911（不是 1912）
→「2026/1」「1/12」缺日 → 標模糊不要猜

金額統一規則

→ 1.2w = 12000（台灣口語，非 k=1000）
→ 5.98k = 5980（不四捨五入）
→「(含稅)」另存欄位，不丟掉

20 / 36 · ★ 講師可開講義對照w / k 是台灣口語，跨國工具會錯

PRAC3-1 · Drill C

21 / 36 講義 · PRAC3-1

Drill C · Open-end Survey

情境 C · 問卷開放題清理

150 題開放題，注音文、錯字、無意義回應混雜。重點不是把「沒意見」刪掉，是分類它。

substantive

實質內容

可做情緒/主題分析。注音文「ㄌ→了」要留清理備註。

vague

模糊表態

「還可以」「NO」— 是明確態度但無內容。不能跟純標點同類。

invalid

無意義

「.」「?」「........」— 保留原文當資料品質指標。

21 / 36invalid 超過 20% 是題目設計問題

PRAC3-1 · Quiz

22 / 36 講義 · PRAC3-1

Quiz · 5 Questions · 10 min

清理器五題自我檢核

Q1

拿到髒資料第一步—備份原檔成 _raw，再在副本動手。

Q2

寫清理 Prompt 必含—輸出格式 + 例外處理。

Q3

驗證 AI 輸出—列數對比 + 抽 10 筆人工比對。

Q4

遇到無法清的列—標 ERROR:原始值 不要丟掉。

Q5

每週都要清的固定格式—寫成可重用 Prompt + 排程跑。

22 / 36每題 1–2 分鐘，全對才放行 PRAC3-2

PRAC3-1 · End

23 / 36

Pivot

清完結構化—
該非結構化了

下一個工坊不再是「整理欄位」，是「給一團文字貼標籤」— 客戶意見、評論、DM、工單。同樣的三要素，但要先設計分類框架。

23 / 36 · 中場休息 5 分鐘 → PRAC3-2

Act III · Practice

24 / 36

Act III · PRAC 3-2

客戶意見
分類板

2.5 小時課堂 + 2 小時自學。把一批非結構化的回饋文字，用 AI 自動分主題與情緒，輸出可分析的結構化資料。四種真實戰場：電商評論 / SaaS 工單 / 餐廳評論 / 品牌 DM。

24 / 36 · Act III 開幕PRAC3-2 客戶意見分類板

PRAC3-2 · Pivot

25 / 36 講義 · PRAC3-2

Why Tagging Matters

從一團文字到可分析資料集

原始 · Raw Text

「服務人員親切、問題都有耐心回答，很滿意這次的體驗」
「費用真的太貴，跟其他家比差太多」
「等待時間有點長，等了快一個小時」

標籤後 · Structured

→ 服務品質 + 正面（可做樞紐）
→ 費用 + 負面（要看趨勢）
→ 服務品質 + 負面（同主題不同情緒）
→ 200 筆變一張可篩可排序的表

25 / 36標籤是把文字變資料的橋

PRAC3-2 · Three Axes

26 / 36 講義 · PRAC3-2

Tagging Framework

分類三維度—主題 × 情緒 × 操作

Axis 01

主題

這則回饋關於什麼—商品、客服、價格、物流。先給標準清單，不讓 AI 自創。

Axis 02

情緒

說話者什麼感受—正面、負面、中立、無意義。「+1」是 invalid 不是正面。

Axis 03

可操作性

高（具體投訴要處理）／中（回應即可）／低（純心得）。決定誰要看到。

26 / 36三維度分清楚，分析才有意義

PRAC3-2 · Drill A

27 / 36 講義 · PRAC3-2

Drill A · E-commerce Reviews · 25 entries

情境 A · 電商評論分類

25 則商品頁留言，抱怨/讚美/中立混雜，還有一堆「好」「+1」「讚」。預期分布：正面 10 / 負面 8 / 中立 4 / 無意義 3。

高可操作性 TOP 5（要立刻處理）

→ #12 一週就壞 + 客服推諉
→ #19 客訴沒回已申訴
→ #24 賣家誘導刪負評（疑違規）
→ #22 電池沒電疑問
→ #15 尺寸誤標

易漏點

→「好」「+1」「5 顆星」是無意義，不是正面
→ #24 違規行為要單獨標，不能稀釋進負面
→ 無意義留言歸對應類別，不是丟掉

27 / 36 · ★ 講師可開講義對照情境 A 完整 25 則 + Prompt 在講義

PRAC3-2 · Drill B

28 / 36 講義 · PRAC3-2

Drill B · SaaS Ticket Routing

情境 B · SaaS 工單路由—路由錯等於做白工

bug

產品異常 + 重現步驟 → RD

feature_request

新功能 / 整合請求 → PM

how_to

使用教學 → CS

billing

金流、發票 → Sales/CS

account

密碼、驗證 → CS

other

模糊或跨類 → 分流主管

→ 易漏點：「請問怎麼設定」是 how_to 不是 bug，丟 RD = 工程師做白工；T03「付了錢卡免費版」表面像 account，本質是金流 P0。

28 / 36分類錯一個，整週工程時數蒸發

PRAC3-2 · Drill C

29 / 36 講義 · PRAC3-2

Drill C · Google Map · 4-axis Sentiment

情境 C · 餐廳四維度情緒矩陣

40 則 Google Map 評論。一則可能同時提食物、服務、環境、價格 2–3 個面向 — 不能只標整體情緒。

隱性改善清單（高星 + 單一負面）

→ ★★★★ 份量太小（食物 0、環境 +1）
→ ★★★★ 廁所臭（服務 +1、環境 −1）
→ ★★★★ 甜點太甜（食物部分 −1）

反向亮點（低星 + 單一正面）

→ ★★ 冷氣很強（食物 −1、環境 +1）
→ ★★ 點心還不錯（咖啡 −1、食物 +1）
→「米其林推薦」要標價格 −1 + 服務 −1（限用餐時間）兩維度

29 / 36CP 值高 ≠ 便宜，要讀語境

PRAC3-2 · Drill D

30 / 36 講義 · PRAC3-2

Drill D · Brand DM · 8 categories

情境 D · 小編DM—回錯的代價是公關災難

biz_collab

行銷主管

kol_request

公關（先要作品集）

complaint

客服 SLA

inquiry

小編可答

billing

財務

recruit

HR / 制式回

troll

不餵食（存證）

fan

心心 / 輕量回

→ 「公司 50 人團購」走 biz_collab 不是 inquiry；「超爛」沒具體內容是 troll 不是 complaint，不要當客訴進 SLA。

30 / 36分流就是不讓主管時間被浪費

PRAC3-2 · Pitfalls

31 / 36 講義 · PRAC3-2

Three Pitfalls

分類三大坑—新手最常踩

坑 01

把無意義丟掉

「+1」「.」「無」要保留原文當資料品質指標。invalid 超過 20% 是題目設計問題，不是清理不夠。

坑 02

讓 AI 自創標籤

不給標準清單，AI 會自己想出 20 種主題分類，下次跑又變另外 20 種。分析師看不出趨勢。

坑 03

只標整體情緒

一則評論可能是「服務 +1 但價格 −1」。只標 +1 會錯失改善訊號 — 隱性改善清單跑不出來。

31 / 36這三坑是分類器跑出來沒用的主因

PRAC3-2 · End

32 / 36

End of Act III

結構化 + 非結構化—
今天都動到手了

八小時走完 D06：CSV 清理三要素、AI 四大風險、五類診斷、四種分類戰場。下一頁回頭看今天的節奏。

32 / 36回顧 → D07 預告

D06 · Recap

33 / 36

D06 · 8-hour Rhythm

D06 八小時節奏回顧

0900–0930

開場

Part 3 全景 + D06 任務說明

0930–1230

CH3-1

五大欄位 + 三要素 Prompt + 四大風險 + Eric SOP

1330–1530

PRAC3-1

CRM 去重 / 銷售統一 / 問卷開放題

1545–1745

PRAC3-2

電商 / SaaS / 餐廳 / 小編 DM

1745–1800

收束

交付確認 + D07 預告

33 / 36三段時長 = 概念 1.5h + PRAC1 2h + PRAC2 2h

D06 · Deliverables

34 / 36

Take Home · 4 Artifacts

今天帶回去四份東西

交付 01

CSV 清理規格 v2

針對你工作中那份髒表，含五大問題對應規則 + 例外處理。

交付 02

人工覆核檢查單

分流「必須人工」vs「可信 AI」，5–8 個檢查項。

交付 03

分類標籤體系

主題清單 + 情緒清單 + 可操作性等級，給未來分類器用。

交付 04

分類失敗模式表

把今天遇到的「跨類別」「無意義」「troll」案例整理成偵測規則。

34 / 36四份都進你的 my-portfolio

Next · D07 Preview

35 / 36

Tomorrow · D07

D07 預告—把任務變工作流

Today · D06

單次任務

手動跑一次清理 / 分類 — 給一份髒資料，貼進 ChatGPT，貼回 Excel。每次 10 分鐘。