Liudup 是一个专为广告素材管理、YOLO 模型训练设计的全链路数据闭环系统。在 v3.0 版本中,我们实现了从“智能去重”到“交互标注”,再到“本地/云端多场景算力调度”的工业级生产力飞跃。
- 双引擎识别:集成 MobileNetV2 (CNN) 高速去重与 DINOv2 (ViT) 深度语义理解,准确率 >97%。
- 强一致性分组:基于视觉指纹自动识别相似素材,支持多维质量对比(分辨率、文件大小)。
- 安全清理机制:自动保留组内最佳质量原图,重复素材一键归档至
_backup目录,确保原始数据万无一失。
- 实时审计清单:新增右侧数据表格,所有标注坐标(X,Y,W,H)实时可见,彻底杜绝“幽灵框”与重复标。
- 双向联动交互:点击列表即刻定位画布物体,拖拽缩放画布即刻更新列表数值,实现“所见即所得”。
- 反馈式清理:标注过程中发现劣质素材可执行“🔥 物理删除”,同步清理原图、标注及数据库记录。
- AI 辅助标注:一键加载
best.pt模型进行预识别,标注效率提升 500%。
- 多指标监控:集成
pyqtgraph实时绘制 Loss 曲线与 mAP 精度图,支持 EMA 指数平滑算法。 - 多类别明细表:实时监控每个细分标签的 mAP50 表现,辅助精准调优。
- 自动化流水线:一键完成数据集随机划分、镜像目录组织与
data.yaml自动生成。
针对不同算力场景提供三种协同方案:
- ⚡ 算力摆渡 (Minio 全自动):利用 Minio 作为中继,实现物理隔离环境下的“本地推送-远程训练-结果回传”全自动闭环。
- ⚡ 局域网协同 (SSH 直连):基于 SSH 隧道与 SFTP 增量同步算法,秒级传输数据集,实时劫持远程 GPU 输出。
- ☁️ 云端协作 (Notebook 模式):专为 Colab/Kaggle 设计,提供 1-2-3 向导式操作,自动生成集成 Minio 凭据的训练脚本。
- 物理路径隔离 (Data Isolation):
- 采用隔离目录策略(
_auto,_ssh,_nb),支持本地与多种云端模式并行操作,互不干扰。
- 采用隔离目录策略(
- 镜像目录支持 (Recursive Structure):
- 支持素材按多级子目录存放,训练集构建时自动镜像目录结构,彻底解决同名文件冲突。
- 非阻塞异步执行 (Async Pattern):
- 打包、上传、SSH 通讯及训练任务全部托管于独立
QThread,UI 界面实时响应,日志流秒级渲染。
- 打包、上传、SSH 通讯及训练任务全部托管于独立
- 工业级视觉反馈 (UX Design):
- 全量按钮支持 Hover/Pressed 动态状态反馈;应用“去框化”纯净 UI 风格,显著降低长时间工作的视觉疲劳。
- 架构重构 - 实现侧边栏导航与多页面解耦架构。
- 标注审计 - 实现列表-画布双向联动与物理删除反馈。
- 云端闭环 - 落地 Minio 摆渡、SSH 直连与 Notebook 三大算力方案。
- 安全加固 - 实现目录黑名单过滤与相对路径镜像拷贝。
- 数据增强插件 - 计划引入离线数据增强(翻转、噪点、亮度调节)。
pip install torch torchvision ultralytics PyQt5 boto3 paramiko pandas pyqtgraph python-dotenv- 配置环境:在
config.json中配置 Minio 连接信息与类别标签。 - 智能去重:导入素材目录,执行 AI 判重,保留高质量 Master。
- 交互标注:对素材进行精准标注,利用“审计清单”核销数据。
- 算力调度:
- 有本地 GPU:直接在“模型训练”页启动。
- 有局域网 GPU:在“云端工厂”使用 SSH 模式直连。
- 白嫖算力:使用 Notebook 模式对接 Colab。
Liudup - 重新定义 AI 数据生产力。