本簡報以 16:9 橫向為主
請旋轉手機
或改用平板 / 桌機觀看
Part 6 進階開發到了收尾——從 API、Function、Agent、RAG、Streaming 一路寫下來,今天回答三個你不能逃避的問題:怎麼知道它會穩?怎麼擋住爆炸?怎麼別把錢燒光?
沒有 Evals 的 LLM 應用, 是蒙著眼睛在改 prompt。
Demo 跑得起來不算數。能重複測、能擋越獄、能算清成本,
才叫「上線」。今天把這三件事一次做掉。
不是「概念聽懂」,而是「離開教室能直接套自己的產品」。
四種應用:客服 / 摘要 / 分類 / RAG,
各自寫一份 golden set + 評分規則 + JSON 報告。
改完 prompt 跑兩個 case 看起來好像不錯,上線後使用者在另一批 case 上爆炸——
因為你根本不知道改完之後 30 個 case 裡有幾個變差。
Eval Set 給你三件事:
沒這三件事,每次改動都是賭運氣。
10–20 題涵蓋常見 + 邊界 + 錯誤情境,
每題附 expected / metadata。
這是「真理的版本」。
結構化任務:exact / regex / schema match。
開放式任務:rubric + LLM-as-judge。
回 {pass, score, reason}。
總分 / 通過率 / 每題明細 / 退步題列表。
可 diff 兩個版本,
可上 CI 自動跑。
// Eval Report · pass/fail JSON schema { "eval_set": "hr-bot-v3", "prompt_version": "2026-05-09", "model": "claude-3.7-sonnet", "summary": { "total": 20, "pass": 17, "fail": 3, "pass_rate": 0.85 }, "items": [ { "id": "q-007", "question": "客戶酒後騎車出事,理賠嗎?", "expected": { "intent": "reject", "cite": "§3.2" }, "actual": { "intent": "reject", "cite": "§3.2" }, "pass": true, "score": 1.0 } ] }
PII 洩漏 / 越獄注入 / 倫理紅線 / 出範圍——
四種你不擋會上新聞的風險,今天通通寫成可重複測的 middleware。
system prompt 是「請求」不是「強制」。
越獄者一句「忽略前面所有指令」就破了,
PII 用戶不小心貼了,模型就照單全收一起學去了。
所有請求必須過兩道:
兩道缺一不可——只擋輸入會被 LLM 自己腦補違規,只擋輸出會白燒一堆 token。
身分證 / 信用卡 / 手機正則 +
越獄五模式偵測器。
擋下 / 軟擋 / 放行三段判決。
原本的 system prompt + tools。
這層假設「進來的已經乾淨」——
所以 Gate 01 一定要先擋好。
倫理紅線(醫療 / 投資 / 自傷)+
out-of-scope(非業務話題)。
再判一次:擋下 / 改寫 / 放行。
跑得起來不算贏,付得起、追得上、警得到才算贏。
今天把 token / 費用 / 延遲三條線通通接上 dashboard。
因為昨天上線的 agent-tool 進了無限迴圈、
因為向量檢索沒加 cache 每秒打 200 次、
因為某個 power user 用 10 萬 token / req 在玩——你都不知道。
最少要追三軸:
三軸缺一,月底就會看不懂帳單。
// usage_log · 每次 LLM 呼叫寫一筆 { "request_id": "req_2026050900142", "ts": "2026-05-09T14:23:01Z", "user_id": "u_4823", "feature": "agent-tool", "model": "claude-3.7-sonnet", "prompt_version": "v3.1", "input_tokens": 2840, "output_tokens": 612, "cost_usd": 0.0212, "latency_ms": { "client": 18, "edge": 42, "ttft": 410, "stream": 1820 }, "middleware_trace": ["jailbreak:pass", "pii:mask", "output:rewrite"], "tier": "pro" }
D13 API + 後端 → D14 Function + Agent → D15 Streaming + RAG → D16 Evals + Guardrails + Cost。
Part 6 結束,你寫得出能上線、能驗收、能算清的 LLM 應用。
你今天從「會寫 Agent」升級成「能驗收、能擋、能算的 LLM 工程師」。
明天我們把這四天學的,全部用在你自己的專題上。