在花錢做 AI 之前，先花 30 秒量你的資料：我們開源了 DataReady

你在研討會上看到的那場 RAG demo，回答得又快又準。但有件事沒人告訴你：它用的是一份乾淨、整理過的樣本資料。而你公司真正要餵進去的，是另一回事。

掃描影像 PDF、東一份西一份的 Excel、十個版本的「最終版_v3_真的最後」、五年沒人更新的共用磁碟。把這種資料直接接上 AI，得到的往往不是智慧，是一本正經的胡說。問題是，在你簽下預算、立下 KPI 之前，幾乎沒有人先量過：你的資料到底有多糟？

這就是我們開源 DataReady 的原因。

為什麼企業 AI 專案，大多失敗在「資料」這一關

過去兩年，我們在台灣與日本中小企業落地 AI 的現場，看到同一個劇本重複上演：團隊把預算押在模型、押在工具、押在 prompt，卻很少有人回頭檢查最上游的那一塊。等到 RAG 開始給出錯誤答案、檢索抓不到關鍵文件、客服機器人答非所問，才發現問題不在模型，在資料。

原因很實際：模型的能力是公開、可比較的，但你的資料品質是私有、不透明的。沒有一個客觀的數字，就只能憑感覺，而感覺通常太樂觀。

「資料能不能餵 AI」不是一個是非題，而是六個面向的綜合分數：

這六項，任何一項拖後腿，都會直接反映在你的 AI 成果上。

DataReady 做的事很單純：掃描你的文件資料夾，30 秒內給你一份 0 到 100 的客觀分數、一個紅綠燈、一張最該注意的紅旗清單，以及上面六大維度的計分卡。打開產生的 report.html，你就有一份可以直接拿去對內溝通、放進預算會議的報告。

我們在三個設計上特別下了功夫，讓你敢直接在公司資料上跑：

跑法也不複雜：用 pipx 或 uvx 直接執行，把它指向你的文件資料夾，30 秒後打開 report.html 就好。完整安裝與指令、以及一份範例報告，都在 GitHub 上：github.com/peakstargroup/dataready-checker（MIT 授權，可自由使用）。

DataReady 會量化你的資料準備度、找出最弱的環節、偵測掃描影像 PDF 與加密損毀檔、重複檔、過期檔、無語意檔名，然後給你一份客觀報告。

但它刻意不做這些：不幫你清洗資料、不做 OCR、不轉檔、不接 ERP；不給你產業專屬的切塊與 metadata 策略；也不告訴你分數對比同業落在哪。

為什麼要把功能畫一條線？因為診斷可以自動化，治療不行。把又髒又散的真實資料變成可用的 AI 資產，高度依賴你所在產業的脈絡與判斷。一支零相依的小工具能誠實地量出問題，但解決問題需要人。

那不是壞消息。那是在你投入預算、立下 KPI 之前，先看見問題的機會。比起花了三個月、燒了一筆錢才發現 AI 不準，一份 30 秒的健檢便宜太多了。

針對金融、醫療、公共關係、政府等產業的進階客製規則與深度診斷，以及把資料真正整理到可以落地 AI 的那一段，我們在合作專案中提供。這也正是 Peakstar 在台灣與日本中小企業每天在做的事：把卡在「資料」這一關的問題解開。

先跑一次 DataReady 看看你的分數：在 GitHub 上查看，或了解我們其他的開源工具。如果你的報告需要有人接手，預約一次諮詢，我們從你的分數開始談。