本工具是一套基於 FastAPI 與 pandas 的網頁應用,支援上傳 CSV 或 Excel 檔案,進行資料預覽、重複資料檢查、標點符號比對、分類正確率樞紐分析,並可將檢查結果或標註後的原始檔案匯出。
-
檔案上傳與預覽
- 支援 CSV、Excel(可選擇工作表)上傳。
- 可自訂標題行。
- 上傳後預覽前 5 筆資料與所有欄位。
-
動態欄位選擇
- 可勾選任意欄位進行重複檢查或標點比對。
- 可自訂顯示哪些欄位於檢查結果表格。
-
重複資料檢查
- 多欄位組合檢查重複。
- 可選擇分類欄位,檢查同資料但分類不同的情形。
- 結果以表格顯示,可排序、可匯出。
-
標點符號/格式檢查
- 任選兩欄比對標點符號,列出差異(多、少、缺漏)。
- 結果以表格顯示,可排序、可匯出。
-
樞紐分析
- 依子類別與分類正確欄位,計算正確/錯誤數量與正確率。
- 結果以表格顯示,可排序、可匯出。
-
匯出功能
- 可匯出檢查結果表格。
- 可匯出標註後的原始檔案(自動於「修正後」欄位填 ai )。
-
介面特色
- 支援 loading 指示、表格排序、欄位顯示切換。
- 支援 Docker 快速部署。
- 安裝 Python 3.8 以上。
- 安裝相依套件:
pip install -r requirements.txt
- 啟動服務:
python app.py
- 瀏覽器開啟 http://127.0.0.1:5000
- 安裝 Docker。
- 建立映像檔並啟動:
docker build -t csv_checker . docker run -p 5000:5000 csv_checker - 瀏覽器開啟 http://127.0.0.1:5000
app.py:主程式(FastAPI)find_duplicates_web/templates/index.html:前端頁面find_duplicates_web/static/:靜態資源logger_services.py:日誌fill_category_ids.py、find_duplicates.py:進階批次工具storage/:匯出結果、日誌
POST /upload:上傳檔案,回傳預覽、欄位、總筆數POST /check_duplicates:檢查重複資料POST /generate_pivot:產生樞紐分析表
- 請確認上傳檔案格式正確(UTF-8 編碼最佳)。
- Excel 請選擇正確工作表。
- 若「修正後」欄位為空,匯出時會自動填入 ai。
- 匯出檔案為 UTF-8 編碼 CSV。
- 上傳 CSV 或 Excel 檔案,選擇標題行與(如為 Excel)工作表。
- 預覽資料,勾選要檢查的欄位。
- 點擊「檢查重複資料」或「檢查格式標點符號」。
- 檢查結果可排序、切換顯示欄位、匯出。
- 點擊「匯出更新檔案」可取得標註後的原始資料。
- 使用樞紐分析工具可計算分類正確率。
- fastapi
- pandas
- numpy
- jinja2
- uvicorn
- openpyxl
- colorlog