● MIT 開源

DataReady

在你花一塊錢做 AI 之前,先花 30 秒看你的資料夠不夠格餵 AI

DataReady 是一支資料準備度健檢工具。掃描你的文件資料夾,30 秒內給你一份 0 到 100 的客觀分數與紅綠燈,告訴你「以現在的資料直接做 AI / RAG,會卡在哪裡」。

Python 3.11+
執行環境
零相依
依賴
本機執行
隱私 · 零外送
MIT
授權

大多數企業 AI 專案失敗,不是輸在模型,是輸在資料

你看到的是一場很厲害的 RAG demo,用的是乾淨樣本。你看不到的是公司真正的資料:掃描影像 PDF、東一份西一份的 Excel、十個版本的「最終版」、五年沒人更新的共用磁碟。把這種資料接上 AI,得到的不是智慧,是一本正經的胡說。問題是,在你簽下預算、立下 KPI 之前,沒有人先量過你的資料到底有多糟。DataReady 就是來做這件量測的。

六個維度,一頁可以放進董事會的報告

打開 report.html,你會拿到一個總分、紅綠燈、最該注意的紅旗清單,以及六大維度的計分卡。

01

可讀取性

文字能否被機器抽出,還是卡在掃描影像、加密、損毀檔。

02

結構化程度

有無標題層級、表格是否規整、版面是否一致。

03

切塊友善度

文件長度與語意邊界是否利於檢索切塊。

04

重複與一致性

重複與近似重複檔比例、版本是否混亂。

05

新鮮度

內容是否夠新、過期檔比例。

06

元資料與可追溯

檔名是否有語意、目錄是否有組織。

看一份範例報告 ↗

三個設計,讓你敢直接在公司資料上跑

零相依

只用 Python 標準函式庫,沒有 PyTorch、沒有 C 擴充、不用 GPU。乾淨、好過資安審查、跑得動舊環境。

本機執行、零外送

絕不上傳任何檔案或內容,所有分析都在你的機器上完成。遙測預設關閉。

唯讀

只讀取、評分、產報告,絕不碰你的檔案。

我們把話說清楚:它做什麼,刻意不做什麼

DataReady 會做

  • 量化你的資料準備度,找出最弱的環節
  • 偵測掃描影像 PDF、加密 / 損毀檔、重複檔、過期檔、無語意檔名
  • 給你一份可以對內溝通的客觀報告

它刻意不做(因為這些需要脈絡與判斷)

  • 不幫你清洗資料、不做 OCR、不轉檔、不接 ERP
  • 不給你產業專屬的切塊與 metadata 策略
  • 不告訴你分數對比同業落在哪

這條線是故意畫的。診斷可以自動化,治療不行。把又髒又散的真實資料變成可用的 AI 資產,高度依賴你所在產業的脈絡。針對金融、醫療、公共關係、政府等產業的進階客製規則與深度診斷,由 Peakstar 於合作專案中提供。

從一份分數,到真正落地的 AI

如果你的報告是黃燈或紅燈,那不是壞消息,而是在投入預算前先看見問題的機會。Peakstar 在台灣與日本中小企業每天在做的,就是把卡在「資料」這一關的問題解開。