Skip to content

lekliu/Liudup

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

10 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

🚀 Liudup v3.0 - 一体化 AI 数据工厂

Liudup 是一个专为广告素材管理、YOLO 模型训练设计的全链路数据闭环系统。在 v3.0 版本中,我们实现了从“智能去重”到“交互标注”,再到“本地/云端多场景算力调度”的工业级生产力飞跃。


🌟 一、 核心功能模块

1. 📂 智能去重 (Cleaner)

  • 双引擎识别:集成 MobileNetV2 (CNN) 高速去重与 DINOv2 (ViT) 深度语义理解,准确率 >97%。
  • 强一致性分组:基于视觉指纹自动识别相似素材,支持多维质量对比(分辨率、文件大小)。
  • 安全清理机制:自动保留组内最佳质量原图,重复素材一键归档至 _backup 目录,确保原始数据万无一失。

2. ✏️ 交互标注 (Labeller)

  • 实时审计清单:新增右侧数据表格,所有标注坐标(X,Y,W,H)实时可见,彻底杜绝“幽灵框”与重复标。
  • 双向联动交互:点击列表即刻定位画布物体,拖拽缩放画布即刻更新列表数值,实现“所见即所得”。
  • 反馈式清理:标注过程中发现劣质素材可执行“🔥 物理删除”,同步清理原图、标注及数据库记录。
  • AI 辅助标注:一键加载 best.pt 模型进行预识别,标注效率提升 500%。

3. 🚀 训练工厂 (Trainer)

  • 多指标监控:集成 pyqtgraph 实时绘制 Loss 曲线与 mAP 精度图,支持 EMA 指数平滑算法。
  • 多类别明细表:实时监控每个细分标签的 mAP50 表现,辅助精准调优。
  • 自动化流水线:一键完成数据集随机划分、镜像目录组织与 data.yaml 自动生成。

4. ☁️ 云端工厂 (Cloud Factory) - V3.0 重磅更新

针对不同算力场景提供三种协同方案:

  • ⚡ 算力摆渡 (Minio 全自动):利用 Minio 作为中继,实现物理隔离环境下的“本地推送-远程训练-结果回传”全自动闭环。
  • ⚡ 局域网协同 (SSH 直连):基于 SSH 隧道与 SFTP 增量同步算法,秒级传输数据集,实时劫持远程 GPU 输出。
  • ☁️ 云端协作 (Notebook 模式):专为 Colab/Kaggle 设计,提供 1-2-3 向导式操作,自动生成集成 Minio 凭据的训练脚本。

🏗 二、 技术架构特性

  1. 物理路径隔离 (Data Isolation)
    • 采用隔离目录策略(_auto, _ssh, _nb),支持本地与多种云端模式并行操作,互不干扰。
  2. 镜像目录支持 (Recursive Structure)
    • 支持素材按多级子目录存放,训练集构建时自动镜像目录结构,彻底解决同名文件冲突。
  3. 非阻塞异步执行 (Async Pattern)
    • 打包、上传、SSH 通讯及训练任务全部托管于独立 QThread,UI 界面实时响应,日志流秒级渲染。
  4. 工业级视觉反馈 (UX Design)
    • 全量按钮支持 Hover/Pressed 动态状态反馈;应用“去框化”纯净 UI 风格,显著降低长时间工作的视觉疲劳。

📅 三、 研发里程碑 (Roadmap)

  • 架构重构 - 实现侧边栏导航与多页面解耦架构。
  • 标注审计 - 实现列表-画布双向联动与物理删除反馈。
  • 云端闭环 - 落地 Minio 摆渡、SSH 直连与 Notebook 三大算力方案。
  • 安全加固 - 实现目录黑名单过滤与相对路径镜像拷贝。
  • 数据增强插件 - 计划引入离线数据增强(翻转、噪点、亮度调节)。

👨‍💻 四、 开发者指南

环境依赖

pip install torch torchvision ultralytics PyQt5 boto3 paramiko pandas pyqtgraph python-dotenv

快速启动

  1. 配置环境:在 config.json 中配置 Minio 连接信息与类别标签。
  2. 智能去重:导入素材目录,执行 AI 判重,保留高质量 Master。
  3. 交互标注:对素材进行精准标注,利用“审计清单”核销数据。
  4. 算力调度
    • 有本地 GPU:直接在“模型训练”页启动。
    • 有局域网 GPU:在“云端工厂”使用 SSH 模式直连。
    • 白嫖算力:使用 Notebook 模式对接 Colab。

Liudup - 重新定义 AI 数据生产力。

About

一个专为AI素材管理、YOLO 模型训练设计的全链路数据闭环系统,实现了从“智能去重”到“交互标注”,再到“本地/云端多场景算力调度”的生产力飞跃

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors