AI 工具實戰

在花錢做 AI 之前,先花 30 秒量你的資料:我們開源了 DataReady

大多數企業 AI 專案不是輸在模型,是輸在資料。DataReady 是一支開源健檢工具,30 秒給你一份 0 到 100 的資料準備度分數,讓你在投入預算前先看見問題。

你在研討會上看到的那場 RAG demo,回答得又快又準。但有件事沒人告訴你:它用的是一份乾淨、整理過的樣本資料。而你公司真正要餵進去的,是另一回事。

掃描影像 PDF、東一份西一份的 Excel、十個版本的「最終版_v3_真的最後」、五年沒人更新的共用磁碟。把這種資料直接接上 AI,得到的往往不是智慧,是一本正經的胡說。問題是,在你簽下預算、立下 KPI 之前,幾乎沒有人先量過:你的資料到底有多糟?

這就是我們開源 DataReady 的原因。

為什麼企業 AI 專案,大多失敗在「資料」這一關

過去兩年,我們在台灣與日本中小企業落地 AI 的現場,看到同一個劇本重複上演:團隊把預算押在模型、押在工具、押在 prompt,卻很少有人回頭檢查最上游的那一塊。等到 RAG 開始給出錯誤答案、檢索抓不到關鍵文件、客服機器人答非所問,才發現問題不在模型,在資料。

原因很實際:模型的能力是公開、可比較的,但你的資料品質是私有、不透明的。沒有一個客觀的數字,就只能憑感覺,而感覺通常太樂觀。

什麼是「資料準備度」?六個你該量的維度

「資料能不能餵 AI」不是一個是非題,而是六個面向的綜合分數:

這六項,任何一項拖後腿,都會直接反映在你的 AI 成果上。

DataReady:30 秒,一份可以放進董事會的分數

DataReady 做的事很單純:掃描你的文件資料夾,30 秒內給你一份 0 到 100 的客觀分數、一個紅綠燈、一張最該注意的紅旗清單,以及上面六大維度的計分卡。打開產生的 report.html,你就有一份可以直接拿去對內溝通、放進預算會議的報告。

我們在三個設計上特別下了功夫,讓你敢直接在公司資料上跑:

跑法也不複雜:用 pipx 或 uvx 直接執行,把它指向你的文件資料夾,30 秒後打開 report.html 就好。完整安裝與指令、以及一份範例報告,都在 GitHub 上:github.com/peakstargroup/dataready-checker(MIT 授權,可自由使用)。

它刻意不做的事(這條線是故意畫的)

DataReady 會量化你的資料準備度、找出最弱的環節、偵測掃描影像 PDF 與加密損毀檔、重複檔、過期檔、無語意檔名,然後給你一份客觀報告。

但它刻意不做這些:不幫你清洗資料、不做 OCR、不轉檔、不接 ERP;不給你產業專屬的切塊與 metadata 策略;也不告訴你分數對比同業落在哪。

為什麼要把功能畫一條線?因為診斷可以自動化,治療不行。把又髒又散的真實資料變成可用的 AI 資產,高度依賴你所在產業的脈絡與判斷。一支零相依的小工具能誠實地量出問題,但解決問題需要人。

如果你的報告是黃燈或紅燈

那不是壞消息。那是在你投入預算、立下 KPI 之前,先看見問題的機會。比起花了三個月、燒了一筆錢才發現 AI 不準,一份 30 秒的健檢便宜太多了。

針對金融、醫療、公共關係、政府等產業的進階客製規則與深度診斷,以及把資料真正整理到可以落地 AI 的那一段,我們在合作專案中提供。這也正是 Peakstar 在台灣與日本中小企業每天在做的事:把卡在「資料」這一關的問題解開。

先跑一次 DataReady 看看你的分數:在 GitHub 上查看,或了解我們其他的開源工具。如果你的報告需要有人接手,預約一次諮詢,我們從你的分數開始談。