你在研討會上看到的那場 RAG demo,回答得又快又準。但有件事沒人告訴你:它用的是一份乾淨、整理過的樣本資料。而你公司真正要餵進去的,是另一回事。
掃描影像 PDF、東一份西一份的 Excel、十個版本的「最終版_v3_真的最後」、五年沒人更新的共用磁碟。把這種資料直接接上 AI,得到的往往不是智慧,是一本正經的胡說。問題是,在你簽下預算、立下 KPI 之前,幾乎沒有人先量過:你的資料到底有多糟?
這就是我們開源 DataReady 的原因。
為什麼企業 AI 專案,大多失敗在「資料」這一關
過去兩年,我們在台灣與日本中小企業落地 AI 的現場,看到同一個劇本重複上演:團隊把預算押在模型、押在工具、押在 prompt,卻很少有人回頭檢查最上游的那一塊。等到 RAG 開始給出錯誤答案、檢索抓不到關鍵文件、客服機器人答非所問,才發現問題不在模型,在資料。
原因很實際:模型的能力是公開、可比較的,但你的資料品質是私有、不透明的。沒有一個客觀的數字,就只能憑感覺,而感覺通常太樂觀。
什麼是「資料準備度」?六個你該量的維度
「資料能不能餵 AI」不是一個是非題,而是六個面向的綜合分數:
- 可讀取性:文字能不能被機器抽出來,還是卡在掃描影像、加密、損毀檔。
- 結構化程度:有沒有標題層級、表格規不規整、版面一不一致。
- 切塊友善度:文件長度與語意邊界,利不利於檢索切塊(chunking)。
- 重複與一致性:重複與近似重複檔的比例、版本混不混亂。
- 新鮮度:內容夠不夠新、過期檔佔多少。
- 元資料與可追溯:檔名有沒有語意、目錄有沒有組織。
這六項,任何一項拖後腿,都會直接反映在你的 AI 成果上。
DataReady:30 秒,一份可以放進董事會的分數
DataReady 做的事很單純:掃描你的文件資料夾,30 秒內給你一份 0 到 100 的客觀分數、一個紅綠燈、一張最該注意的紅旗清單,以及上面六大維度的計分卡。打開產生的 report.html,你就有一份可以直接拿去對內溝通、放進預算會議的報告。
我們在三個設計上特別下了功夫,讓你敢直接在公司資料上跑:
- 零相依:只用 Python 標準函式庫,沒有 PyTorch、沒有 C 擴充、不用 GPU。乾淨、好過資安審查、跑得動舊環境。
- 本機執行、零外送:絕不上傳任何檔案或內容,所有分析都在你自己的機器上完成,遙測預設關閉。
- 唯讀:只讀取、評分、產報告,絕不碰你的檔案。
跑法也不複雜:用 pipx 或 uvx 直接執行,把它指向你的文件資料夾,30 秒後打開 report.html 就好。完整安裝與指令、以及一份範例報告,都在 GitHub 上:github.com/peakstargroup/dataready-checker(MIT 授權,可自由使用)。
它刻意不做的事(這條線是故意畫的)
DataReady 會量化你的資料準備度、找出最弱的環節、偵測掃描影像 PDF 與加密損毀檔、重複檔、過期檔、無語意檔名,然後給你一份客觀報告。
但它刻意不做這些:不幫你清洗資料、不做 OCR、不轉檔、不接 ERP;不給你產業專屬的切塊與 metadata 策略;也不告訴你分數對比同業落在哪。
為什麼要把功能畫一條線?因為診斷可以自動化,治療不行。把又髒又散的真實資料變成可用的 AI 資產,高度依賴你所在產業的脈絡與判斷。一支零相依的小工具能誠實地量出問題,但解決問題需要人。
如果你的報告是黃燈或紅燈
那不是壞消息。那是在你投入預算、立下 KPI 之前,先看見問題的機會。比起花了三個月、燒了一筆錢才發現 AI 不準,一份 30 秒的健檢便宜太多了。
針對金融、醫療、公共關係、政府等產業的進階客製規則與深度診斷,以及把資料真正整理到可以落地 AI 的那一段,我們在合作專案中提供。這也正是 Peakstar 在台灣與日本中小企業每天在做的事:把卡在「資料」這一關的問題解開。
先跑一次 DataReady 看看你的分數:在 GitHub 上查看,或了解我們其他的開源工具。如果你的報告需要有人接手,預約一次諮詢,我們從你的分數開始談。
