← → 翻页 · ESC 索引
Vol.06 · D06
01 / 36
Generative AI · 140hr · Day 06 / 20

髒資料
清成可交付的表

Part 3 開場:D06 用 8 小時,把 CSV / Excel / 客戶意見三種混亂資料源,從手動修一週變成 AI 跑半小時、人覆核 15 分鐘的標準流程。

8 小時授課·D06 / 20·Part 3 開場
CH3-1+PRAC3-1+PRAC3-2
弄一下工作室 · Studio Knock生成式 AI 職訓實務應用班
Opening · Quote
02 / 36
Why Data Cleaning

髒資料是現代工作的隱形稅 看不到金額,但每月吃掉三成產出。

—— 資料清理的第一步不是打開 AI,而是先決定你要什麼結構。欄位怎麼命名、每列代表什麼,這些問題 AI 不會幫你問,但你不問它就亂答。

D06 · Vol.06CH3-1 · 開場金句
Part 3 · Map
03 / 36
Part 3 全景 · D06 → D09

把資料變成流程—Part 3 的四站地圖

D06 · Today
資料清理

CSV / Excel / 客戶意見
從髒到乾淨

D07
工作流

單次任務
變每週自動跑

D08
Webhook

表單 → AI
→ 通知

D09
SOP 化

寫成可交接的
部門資產

Part 3 · MapD06 是 Part 3 的第一站
Act I · Concept
04 / 36
Act I · CH3-1

表格資料清理
CSV / Excel不再手動修

13 頁概念 — 為什麼要清、五大欄位問題、三要素 Prompt、AI 四大風險、Eric CRM 求救實戰。

04 / 36 · Act I 開幕CH3-1 表格資料清理
CH3-1 · Concept
05 / 36 講義 · CH3-1
(02) · Foundations

結構化 vs 非結構化—你的資料現在在哪一側?

結構化 · Structured

已經有欄位

CSV、Excel、資料庫表 — 每一格都知道自己代表什麼。AI 可以直接清。

→ 直接寫清理規格 Prompt

非結構化 · Unstructured

只有一團文字

客戶意見、評論、DM、訪談逐字稿 — 沒有欄位,得先「貼標籤」才能分析。

→ 先設計分類框架,再貼標

05 / 36先決定要什麼結構,AI 才不亂答
CH3-1 · Five Issues
06 / 36 講義 · CH3-1
(02) · Five Symptoms

五大欄位問題—你的表格中了幾個?

01 · 格式不統一

「2024/1/1」「Jan 1 2024」「20240101」混雜

請統一為 YYYY-MM-DD

02 · 空值未標記

空格、N/A、-、無 同時存在

請統一標為 null

03 · 命名混亂

「手機」「電話」「mobile」同為聯絡方式

給規則統一欄位名

04 · 標籤不一致

「行銷」「Marketing」「mrk」代表同一分類

建標準清單後重貼

05 · 複合欄位

「台北市信義區忠孝東路 100 號」塞同一欄

拆成縣市/區/街道

06 / 3690% 工作表格都會出現至少一種
CH3-1 · Sample CSV
07 / 36 講義 · CH3-1
Mini-prac 1 · 真實素材

活動報名表的五病齊發

姓名,Email,手機號碼,公司,職稱,場次,金額,時間
王小明,ming@…,0912-345-678,A 公司,PM,2026/3/15 下午場,1200元,2026/2/28
Lisa Chen,lisa@…,0922333444,A公司,產品經理,3/15 下午,NT$1200,2026-03-01
張大華,DAHUA@…,912-345-999,B 有限公司,經理,3月15日下午場,1,200,03/02/2026
陳美玲,meiling@…,-,B 有限公司,行銷,2026-03-15 PM,1200,N/A
Kevin Lin,kevin@…,886-912-555-000,C Co.,marketing,15 Mar 2026 afternoon,$1200,…
最髒欄位 TOP 1

手機號碼

三種分隔符 + 國碼不一 + 空值未標記。
每一筆髒一點,加起來就無法做客戶名單合併。

→ 第 09 頁示範如何用 Prompt 一次清乾淨

07 / 36Mini-prac 1 · 直接抄這份跑診斷
CH3-1 · Prompt Recipe
08 / 36 講義 · CH3-1
(03) · Three Required Parts

清理指令的三個必填要素—結構比創意更重要

01
輸入格式說明

欄位名稱 + 範例值。讓 AI 知道你的 CSV 長什麼樣,每欄可能有哪幾種髒法。

02
輸出格式規範

每欄要長什麼樣 + 例外怎麼標(如 ERROR:原始值 / null)。不留白給 AI。

03
輸出 CSV 或 JSON

明確要求結構化輸出,不要讓它輸出自然語言說明 — 否則貼回 Excel 還要再剪一次。

08 / 36好的清理指令長得像規格書,不像聊天
CH3-1 · Prompt v1
09 / 36 講義 · CH3-1
Mini-prac 2 · 寫一份可貼的規格

手機號碼清理規格 v1—三要素一次到位

你是資料清理助手。
## 輸入
phone:台灣手機,可能格式:0912-345-678 / 0922333444 / 912-345-999 / +886912999888 / -、N/A、空白
## 規則
→ 統一輸出 09XXXXXXXX(10 碼無分隔)
→ 缺 0 但首碼為 9 → 補 0
→ 含國碼 +886 / 886 → 去掉補 0
→ 缺值 → null
→ 市話 02-08 開頭 → ERROR:市話非手機:原始值
## 輸出
CSV,欄位保留 row_id, phone,不輸出解釋文字
為什麼這個 Prompt 能用
  • 列出所有可能型態(不只給乾淨範例)
  • 例外規則寫死(市話、缺值都有對應)
  • 輸出格式封死(純 CSV,沒有自由發揮空間)
  • ★ 跑完 12 列樣本後再加 v2 補丁
09 / 36 · ★ 講師可開講義對照這份 Prompt 可直接帶回辦公室
CH3-1 · Risks
10 / 36 講義 · CH3-1
(04) · Where AI Fails Silently

AI 不會說「我不確定」—四種靜默風險

風險 01

數量異常

AI 輸出列數和輸入不一致。清理前後必須對比列數。

風險 02

類別模糊

相似但不同的標籤被合併,AI 猜錯分類而你沒發現。

風險 03

格式錯誤

少數資料不符合輸出規格,例如日期仍有例外沒被處理到。

風險 04

靜默填補

AI 自行補了空值,但你沒察覺,導致資料被污染。

10 / 36 · ★ 講師可開講義對照AI 會選一個看起來合理的答案
CH3-1 · Verify
11 / 36 講義 · CH3-1
Verification · Three Quick Checks

最快驗證三招—三分鐘抓出 AI 的破綻

01
列數對比

輸入 200 列、輸出也要 200 列。少一列代表 AI 靜默刪除,立即拒收。

02
空值統計

用 Excel 的 COUNTIF / COUNTBLANK 確認清理前後空值數量是否合理 — 不應該突然變多或變少。

03
抽 10 筆人工比對

隨機抽 10 列,逐欄對照原始 vs 清理後。比看 AI 報告快 5 倍。

11 / 36 · ★ 講師可開講義對照不抽樣等於信仰,信仰會出包
CH3-1 · Assignment
12 / 36
Slack 訊息 · 1545

「兄弟救命—
下午五點要交給老闆」

前同事 Eric 接手 30 人金融科技公司 CRM,匯出 200 筆客戶資料,欄位一團亂、有些值明顯錯、有些不確定能不能清掉。他不太敢 100% 信 AI

→ 下三頁示範如何在 25 分鐘內,給他一份「AI 清理 + 人工覆核」SOP。

12 / 36課堂作業 · 25 分鐘核心 + 15 分鐘進階
CH3-1 · SOP
13 / 36 講義 · CH3-1
Solution · 25 min Core

給 Eric 的三段 SOP—診斷 → Prompt → 覆核

8 min

01 · 診斷表

12 列 × 5 類問題打勾,標出每列病灶與最髒欄位 TOP 1。

10 min

02 · 清理 Prompt

含 self-check 三條:列數對比、需人工確認列出、變更摘要對應。

7 min

03 · 覆核檢查單

分流:「必須人工」vs「可信 AI」,5–8 個檢查項。

13 / 3625 分鐘交付完整 SOP
CH3-1 · Diagnosis
14 / 36 講義 · CH3-1
Eric's CSV · 12 rows × 5 issue types

五類問題診斷統計—12 列裡藏了 20 個病灶

大小寫不一
3

email LISA / lisi 等

全形 / 半形混雜
3

name 含全形空格

格式不統一
9

phone / date / amount 多版本

typo / 格式錯誤
3

email 拼錯、缺 .com、缺網域

邏輯錯誤
2

amount = -500、重複客戶 C001/C012

14 / 36「最容易漏的是邏輯錯誤」
CH3-1 · Review Routing
15 / 36 講義 · CH3-1
Routing Principle

覆核分流—必須人工vs可信 AI

必須人工

判斷類

  • → 重複客戶判斷(C001 vs C012 是同人?)
  • → 負數金額(-500 是退款還是錯誤?)
  • → typo 修正範圍(exmaple 真的是 typo?)
  • → 抽樣 5% 列做完整檢查
可信 AI

機械式轉換

  • → email 大小寫統一
  • → phone 格式統一
  • → 全形 → 半形空白
  • → 列數一致驗證(規則明確的)
15 / 36全部人工 = 沒省到時間 / 全信 AI = 失控
Act I · End
16 / 36
End of Act I · Time to Build

概念講完—
該去動手了

下半天把 CH3-1 學的三要素 Prompt、五大欄位、四大風險、人工覆核,套到兩個真實工坊:混亂資料清理器(PRAC3-1)+ 客戶意見分類板(PRAC3-2)。

16 / 36 · 中場休息 10 分鐘 → PRAC3-1
Act II · Practice
17 / 36
Act II · PRAC 3-1

混亂資料
清理器

2.5 小時課堂 + 2 小時自學。把一份格式混亂的資料,用精確的 AI 清理指令變成可交付的乾淨表格。三組情境實戰:CRM 去重 / 銷售統一 / 問卷開放題。

17 / 36 · Act II 開幕PRAC3-1 混亂資料清理器
PRAC3-1 · Steps
18 / 36 講義 · PRAC3-1
Mission · 4 Steps

依序完成—四個步驟

01
準備混亂資料

從工作中抓真實 CSV,越亂越好練。

02
診斷資料問題

對照五大問題,把欄位病灶列出來。

03
設計清理指令

三要素套用,工具會幫你組 Prompt。

04
驗收 + 寫規格表

比對前後 + 列欄位規格給未來維護用。

18 / 36先用工具暖身,再用情境實戰
PRAC3-1 · Drill A
19 / 36 講義 · PRAC3-1
Drill A · CRM Dedup

情境 A · 客戶名單去重

同一個人因為姓名空白、大小寫、email 大小寫不同,被當成三個人塞進 CRM。300 筆裡有 15–25% 是這類「假重複」。

王小明, wang.ming@gmail.com ,0912-345-678,官網表單
王小明,WANG.MING@gmail.com,0912345678,展場名片
王 小明,wang.ming@Gmail.com,(09)1234-5678,官網表單
→ 12 筆節選 → 5 位獨立客戶
關鍵 Prompt 規則
  • → 三欄任一相同且不衝突 = 同人
  • → 中英姓名靠 email 當橋,不靠相似度
  • → 來源欄合併以「/」串接
  • → 拼寫差異大的標「疑似重複 待確認」不直接合併
19 / 36前後空白與大小寫是去重第一殺手
PRAC3-1 · Drill B
20 / 36 講義 · PRAC3-1
Drill B · Sales Format Unify

情境 B · 銷售紀錄格式統一

三家門店銷售明細:日期有民國 / 西元 / 純月份三套,金額有 NT$ / 元 / w 三種寫法 — 貼進 Excel 樞紐會爆。

日期統一規則
  • → 統一 YYYY-MM-DD
  • → 民國年加 1911(不是 1912)
  • →「2026/1」「1/12」缺日 → 標模糊不要猜
金額統一規則
  • → 1.2w = 12000(台灣口語,非 k=1000)
  • → 5.98k = 5980(不四捨五入)
  • →「(含稅)」另存欄位,不丟掉
20 / 36 · ★ 講師可開講義對照w / k 是台灣口語,跨國工具會錯
PRAC3-1 · Drill C
21 / 36 講義 · PRAC3-1
Drill C · Open-end Survey

情境 C · 問卷開放題清理

150 題開放題,注音文、錯字、無意義回應混雜。重點不是把「沒意見」刪掉,是分類它。

substantive

實質內容

可做情緒/主題分析。注音文「ㄌ→了」要留清理備註

vague

模糊表態

「還可以」「NO」— 是明確態度但無內容。不能跟純標點同類

invalid

無意義

「.」「?」「........」— 保留原文當資料品質指標。

21 / 36invalid 超過 20% 是題目設計問題
PRAC3-1 · Quiz
22 / 36 講義 · PRAC3-1
Quiz · 5 Questions · 10 min

清理器五題自我檢核

Q1

拿到髒資料第一步—備份原檔成 _raw,再在副本動手。

Q2

寫清理 Prompt 必含—輸出格式 + 例外處理

Q3

驗證 AI 輸出—列數對比 + 抽 10 筆人工比對

Q4

遇到無法清的列—標 ERROR:原始值 不要丟掉。

Q5

每週都要清的固定格式—寫成可重用 Prompt + 排程跑。

22 / 36每題 1–2 分鐘,全對才放行 PRAC3-2
PRAC3-1 · End
23 / 36
Pivot

清完結構化
非結構化

下一個工坊不再是「整理欄位」,是「給一團文字貼標籤」— 客戶意見、評論、DM、工單。同樣的三要素,但要先設計分類框架。

23 / 36 · 中場休息 5 分鐘 → PRAC3-2
Act III · Practice
24 / 36
Act III · PRAC 3-2

客戶意見
分類板

2.5 小時課堂 + 2 小時自學。把一批非結構化的回饋文字,用 AI 自動分主題與情緒,輸出可分析的結構化資料。四種真實戰場:電商評論 / SaaS 工單 / 餐廳評論 / 品牌 DM。

24 / 36 · Act III 開幕PRAC3-2 客戶意見分類板
PRAC3-2 · Pivot
25 / 36 講義 · PRAC3-2
Why Tagging Matters

一團文字可分析資料集

原始 · Raw Text

「服務人員親切、問題都有耐心回答,很滿意這次的體驗」
「費用真的太貴,跟其他家比差太多」
「等待時間有點長,等了快一個小時」

標籤後 · Structured
  • 服務品質 + 正面(可做樞紐)
  • 費用 + 負面(要看趨勢)
  • 服務品質 + 負面(同主題不同情緒)
  • → 200 筆變一張可篩可排序的表
25 / 36標籤是把文字變資料的橋
PRAC3-2 · Three Axes
26 / 36 講義 · PRAC3-2
Tagging Framework

分類三維度—主題 × 情緒 × 操作

Axis 01

主題

這則回饋關於什麼—商品、客服、價格、物流。先給標準清單,不讓 AI 自創。

Axis 02

情緒

說話者什麼感受—正面、負面、中立、無意義。「+1」是 invalid 不是正面。

Axis 03

可操作性

高(具體投訴要處理)/中(回應即可)/低(純心得)。決定誰要看到

26 / 36三維度分清楚,分析才有意義
PRAC3-2 · Drill A
27 / 36 講義 · PRAC3-2
Drill A · E-commerce Reviews · 25 entries

情境 A · 電商評論分類

25 則商品頁留言,抱怨/讚美/中立混雜,還有一堆「好」「+1」「讚」。預期分布:正面 10 / 負面 8 / 中立 4 / 無意義 3

高可操作性 TOP 5(要立刻處理)
  • → #12 一週就壞 + 客服推諉
  • → #19 客訴沒回 已申訴
  • #24 賣家誘導刪負評(疑違規)
  • → #22 電池沒電疑問
  • → #15 尺寸誤標
易漏點
  • →「好」「+1」「5 顆星」是無意義,不是正面
  • → #24 違規行為要單獨標,不能稀釋進負面
  • → 無意義留言歸對應類別,不是丟掉
27 / 36 · ★ 講師可開講義對照情境 A 完整 25 則 + Prompt 在講義
PRAC3-2 · Drill B
28 / 36 講義 · PRAC3-2
Drill B · SaaS Ticket Routing

情境 B · SaaS 工單路由—路由錯等於做白工

bug

產品異常 + 重現步驟 → RD

feature_request

新功能 / 整合請求 → PM

how_to

使用教學 → CS

billing

金流、發票 → Sales/CS

account

密碼、驗證 → CS

other

模糊或跨類 → 分流主管

→ 易漏點:「請問怎麼設定」是 how_to 不是 bug,丟 RD = 工程師做白工;T03「付了錢卡免費版」表面像 account,本質是金流 P0

28 / 36分類錯一個,整週工程時數蒸發
PRAC3-2 · Drill C
29 / 36 講義 · PRAC3-2
Drill C · Google Map · 4-axis Sentiment

情境 C · 餐廳四維度情緒矩陣

40 則 Google Map 評論。一則可能同時提食物、服務、環境、價格 2–3 個面向 — 不能只標整體情緒。

隱性改善清單(高星 + 單一負面)
  • → ★★★★ 份量太小(食物 0、環境 +1)
  • → ★★★★ 廁所臭(服務 +1、環境 −1)
  • → ★★★★ 甜點太甜(食物部分 −1)
反向亮點(低星 + 單一正面)
  • → ★★ 冷氣很強(食物 −1、環境 +1)
  • → ★★ 點心還不錯(咖啡 −1、食物 +1)
  • →「米其林推薦」要標價格 −1 + 服務 −1(限用餐時間)兩維度
29 / 36CP 值高 ≠ 便宜,要讀語境
PRAC3-2 · Drill D
30 / 36 講義 · PRAC3-2
Drill D · Brand DM · 8 categories

情境 D · 小編DM—回錯的代價是公關災難

biz_collab

行銷主管

kol_request

公關(先要作品集)

complaint

客服 SLA

inquiry

小編可答

billing

財務

recruit

HR / 制式回

troll

不餵食(存證)

fan

心心 / 輕量回

「公司 50 人團購」走 biz_collab 不是 inquiry「超爛」沒具體內容是 troll 不是 complaint,不要當客訴進 SLA。

30 / 36分流就是不讓主管時間被浪費
PRAC3-2 · Pitfalls
31 / 36 講義 · PRAC3-2
Three Pitfalls

分類三大坑—新手最常踩

坑 01
把無意義丟掉

「+1」「.」「無」要保留原文當資料品質指標。invalid 超過 20% 是題目設計問題,不是清理不夠。

坑 02
讓 AI 自創標籤

不給標準清單,AI 會自己想出 20 種主題分類,下次跑又變另外 20 種。分析師看不出趨勢

坑 03
只標整體情緒

一則評論可能是「服務 +1 但價格 −1」。只標 +1 會錯失改善訊號 — 隱性改善清單跑不出來。

31 / 36這三坑是分類器跑出來沒用的主因
PRAC3-2 · End
32 / 36
End of Act III

結構化 + 非結構化—
今天都動到手

八小時走完 D06:CSV 清理三要素、AI 四大風險、五類診斷、四種分類戰場。下一頁回頭看今天的節奏。

32 / 36回顧 → D07 預告
D06 · Recap
33 / 36
D06 · 8-hour Rhythm

D06 八小時節奏回顧

0900–0930
開場

Part 3 全景 + D06 任務說明

0930–1230
CH3-1

五大欄位 + 三要素 Prompt + 四大風險 + Eric SOP

1330–1530
PRAC3-1

CRM 去重 / 銷售統一 / 問卷開放題

1545–1745
PRAC3-2

電商 / SaaS / 餐廳 / 小編 DM

1745–1800
收束

交付確認 + D07 預告

33 / 36三段時長 = 概念 1.5h + PRAC1 2h + PRAC2 2h
D06 · Deliverables
34 / 36
Take Home · 4 Artifacts

今天帶回去四份東西

交付 01

CSV 清理規格 v2

針對你工作中那份髒表,含五大問題對應規則 + 例外處理。

交付 02

人工覆核檢查單

分流「必須人工」vs「可信 AI」,5–8 個檢查項。

交付 03

分類標籤體系

主題清單 + 情緒清單 + 可操作性等級,給未來分類器用。

交付 04

分類失敗模式表

把今天遇到的「跨類別」「無意義」「troll」案例整理成偵測規則。

34 / 36四份都進你的 my-portfolio
Next · D07 Preview
35 / 36
Tomorrow · D07

D07 預告—把任務變工作流

Today · D06

單次任務

手動跑一次清理 / 分類 — 給一份髒資料,貼進 ChatGPT,貼回 Excel。每次 10 分鐘。

Tomorrow · D07

每週自動跑

CH3-2 + CH3-3:把今天的 Prompt 包成 webhook + 排程 + 通知。每週 100 個檔案自動清完,只回報 3–5 筆需人工。

35 / 36CH3-2 工作流 + CH3-3 Webhook + PRAC3-3/4
D06 · End
36 / 36
End of D06 · See You Tomorrow

To Be
Continued

D07 — 把資料清理變成工作流自動化。同一份 Prompt 從手動跑變每週排程跑,從個人技能變團隊資產。

Vol.06 · D06·Contact·sky8697@gmail.com
弄一下工作室 · Studio Knock生成式 AI 職訓實務應用班 · Day 06 / 20