當老闆一句「資料不能出門」成為 AI 導入起點,卻也是失敗源頭。未來巢董事長許旭安揭露企業導入地端 LLM 最常踩的六顆雷,從資安、效能到應用錯置,幫資訊長少走冤枉路,讓 AI 不只進機房,更走進現場。
在台灣企業中,導入地端 LLM(大型語言模型)的劇本常是這樣開始的:老闆聽完產業論壇或打完一場高爾夫球,回頭告訴團隊:「我們要自己的 GPT;資料不能出門;最好三個月內上線。」
乍聽之下並不荒謬:研發配方、客戶名單、合約、製程參數都屬於高度敏感資料,確實該保存在自家機房,但等到硬體進倉、模型部署完畢、Demo 成功跑起來後,真正的麻煩才慢慢浮現:員工抱怨不好用,主管開始計算成本,資安與法遵還未核可,資料到底能不能讓模型讀也沒有答案。
很多PoC專案談很久還是無法啟動,或是啟動後往往失敗收場,導入LLM專案就卡在「大家先等等」的階段。
硬體、模型、資料、維運、應用場景、跨部門治理,任何一個環節若低估,都可能讓一個好意變成沉重負擔。
根據我們在政府、金融、製造、顧問業等導入經驗中累積的實例,以下是最常見的六顆地雷,資訊長若能先看見,就能少走彎路。
許多人以為「地端=安全」,但事實上,安全挑戰才正要開始。
系統是否需要連網更新?開源元件來源能否追溯?弱點掃描能不能過關?
最棘手的是內部存取權限:不同部門是否有可能透過模型查詢機密文件?查詢紀錄該由誰保存、保存多久、能否稽核?
如果缺乏治理機制與資安流程,「資料沒出門」就只剩機房象徵意義,而非實質保障。
外部用 ChatGPT、Gemini、Claude,使用體驗自然流暢、反應快、語意精準,回到公司,面對較小型的開源或授權模型,馬上被嫌棄:聽不懂專業術語、中文奇怪、偶爾亂掰。這並非工程師能力不足,而是模型大小、訓練語料等皆有差異,更何況企業內部語言和文件格式本就複雜。
若沒有調整使用情境與預期,很快就會失去使用者意願,也蒐集不到改善模型所需的互動資料。
根據我們經驗,真正的解法不是換模型,而是:
· 設定合理的應用場域
· 搭配高強度的 RAG 技術
· 並強化資料清理與整合能力
企業常以為只要把內部文件向量化,套用開源 RAG 架構就能「讓模型懂公司知識」,結果實作後發現,準確率低到無法使用。
RAG 本質是一整條資料索引與檢索流程,其中 embedding、chunking、reranking等等不同環節都有大量調教細節,並非隨插即用。即便文件齊全,若沒有好的資料切割邏輯與語義關聯設計,模型回答仍會偏離重點。
我們協助客戶建立高準確率應用時,往往也踩過很多坑,開源不等於成熟,更不等於適用。
LLM 最擅長的是乾淨的純文字,當資料是掃描 PDF、嵌圖表格、跨欄資料或是系統截圖,準確性馬上打折,若希望「讀得準」,就需要大量前處理與轉換。
更複雜的是,有些企業希望整合 ERP、MES、PLM 等結構化系統,並期待模型能跨表關聯、不寫程式就能做計算分析。
問題是:
· 模型可能還不夠成熟
· 資料格式也不夠乾淨
· 缺乏轉為 LLM 可讀格式
導入前的資料盤點與格式評估,比你想得還關鍵。
有公司花大錢買高階 GPU,結果只能支撐少量測試;另一家公司配備相近,卻能提供全員輕量查詢。原因在於:
· 模型大小與壓縮策略
· 請求併發量
· 重複查詢的緩存機制
· 推論與微調是否分流
· 儲存與網路效能
· 機房散熱與環境穩定度。
這些聽來像工程細節,最後都會影響「幾個人能用」、「回應要等多久」,所以買硬體之前,需要的是通盤的計劃,才會花的錢有最大的回報。
很多企業希望把所有自動化流程都靠 LLM 解決,結果專案快速膨脹。其實像單據比對、欄位檢核這類規則清楚的流程,用 RPA 或傳統分類模型更穩定也更省成本。而 LLM 的強項在於:語意模糊、文件分散、場景多變、需要對話引導或彙整的任務。
若場景分類不清,平台會被「其實更適合別的系統」的需求拖垮,導致算力分散、預算吃緊、團隊疲乏,真正該解決的任務反而無法落地。
對於半導體、醫療、金融、政府等高度敏感產業來說,導入地端 LLM 是合情合理、甚至勢在必行的選項。
但也必須承認:這不是一場只靠模型或硬體就能打贏的仗。
真正重要的是:找對經驗夥伴。
願意揭露踩過哪些坑、能陪你一起避雷的人,往往能讓企業少燒一輪預算、少跑一次無效 PoC,也能更清楚地向董事會交代清楚方向。
下一篇,我們將深入討論部署與成本結構,協助你用正確的視角看懂這場企業轉型戰役。
讓「資料不能出門」變成「知識在企業內部真正活起來」。