GitHub - xiaohuangpin/WeKnora-pro: WeKnora‑pro是基于原始 WeKnora 的二次开发版本，核心在于提升文档解析能力。主要改进：1. 支持扫描件通过（CPU/GPU 自动优化）进行 OCR 与表格提取；且兼容WeKnora多模态增加 2. 文档大小上限提升至 300 MB

WeKnora‑pro 是基于原始 WeKnora 的二次开发版本，核心在于提升文档解析能力。
主要改进：

支持扫描件通过 Mineru‑API（CPU/GPU 自动优化）进行 OCR 与表格提取；且兼容WeKnora多模态增加

文档大小上限提升至 300 MB

📌 项目简介

解析增强：新增mineru后端的pdf解析器
大文件支持：最大单文件 300 MB
微信生态兼容：可无缝集成到公众号、小程序等微信场景。

🚀 快速开始

所有步骤均基于 Linux/ macOS（Windows 亦可），请先确保已安装以下工具：

工具	官网
Docker	https://www.docker.com/
Docker‑Compose	https://docs.docker.com/compose/
Git	https://git-scm.com/

1️⃣ 克隆仓库

git clone https://github.com/xiaohuangpin/WeKnora-pro
cd WeKnora-pro

2️⃣ 配置环境变量

cp .env.example .env      # 拷贝示例文件
# 使用编辑器修改 .env，填写数据库、Redis、OpenAI 等配置信息
# 注意文件存储类型最好为minio,local选项无法启动多模型增强

所有变量说明已在 .env.example 注释中提供。

3️⃣ 构建镜像并启动服务

# ① 构建镜像（含 Ollama 与后端容器）
./scripts/build_images.sh

# ② 启动所有服务（默认不拉取最新镜像，若需可去掉 --no-pull）
./scripts/start_all.sh --no-pull

⏰ 第一次启动可能需要 5‑10 min 进行镜像下载与初始化。

4️⃣ 启动 Mineru 服务（一个强大的文档解析）

# 创建 Python 虚拟环境
conda create -n mineru python=3.10
conda activate mineru

# 安装依赖
pip install uv -i https://pypi.tuna.tsinghua.edu.cn/simple   # 若无网络，直接 pip
uv pip install -U "mineru[core]"  # 启动 API（若占用显存 > 16 GB，可根据需要改为 mineru[all]）会有更快解析速度

cd wed_api
python web_api.py

🛑 文档解析完成后按 Ctrl+C 停止服务，释放显存。此操作不会影响问答功能。

5️⃣ 停止所有服务

./scripts/start_all.sh --stop   # 或者
make stop-all

🌐 服务访问地址

类型	URL
Web UI	`http://localhost`
后端 API	`http://localhost:8080`
链路追踪（Jaeger）	`http://localhost:16686`

若部署在远程服务器，请将 localhost 替换为对应主机 IP。

🔧 贡献指南

Fork 本仓库。

克隆到本地：

git clone [email protected]:<你的用户名>/WeKnora‑pro.git
cd WeKnora‑pro

创建并切换分支：
```
git checkout -b feature/<描述>
```
提交前请确保：
- 代码遵循 PEP8（Python） / prettier（JS）规范。
- 添加/更新单元测试，覆盖率 ≥ 80%。
- 更新文档、说明文件。
推送并提交 PR：
```
git push origin feature/<描述>
```
等待项目维护者审阅。

🙏 鸣谢

本项目基于以下开源组件：

📜 许可证 & 使用限制

AGPL‑v3：
- 所有衍生代码必须同样遵循 AGPL‑v3。
- 若通过网络服务提供软件，用户可下载对应源码（第13条）。
商用说明
- 允许商业使用，包括 SaaS 与企业内部部署。
- 若不修改原始代码，仍需公开完整源代码并满足 AGPL‑v3 条件。
- 要进行闭源商用，请取得所有版权方书面授权。
免责声明
本项目提供“按现状”服务，无任何担保。使用者须自行评估合规风险，必要时请咨询专业律师。

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
client		client
cmd/server		cmd/server
config		config
dataset		dataset
docker		docker
docs		docs
frontend		frontend
internal		internal
mcp-server		mcp-server
migrations		migrations
packages		packages
scripts		scripts
services/docreader		services/docreader
web_api		web_api
.dockerignore		.dockerignore
.env.example		.env.example
.gitattributes		.gitattributes
.gitignore		.gitignore
CHANGELOG.md		CHANGELOG.md
LICENSE		LICENSE
Makefile		Makefile
README.md		README.md
VERSION		VERSION
docker-compose.yml		docker-compose.yml
go.mod		go.mod
go.sum		go.sum
rerank_server_demo.py		rerank_server_demo.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

📌 项目简介

🚀 快速开始

1️⃣ 克隆仓库

2️⃣ 配置环境变量

3️⃣ 构建镜像并启动服务

4️⃣ 启动 Mineru 服务（一个强大的文档解析）

5️⃣ 停止所有服务

🌐 服务访问地址

🔧 贡献指南

🙏 鸣谢

📜 许可证 & 使用限制

About

Uh oh!

Releases

Packages

Languages

License

xiaohuangpin/WeKnora-pro

Folders and files

Latest commit

History

Repository files navigation

📌 项目简介

🚀 快速开始

1️⃣ 克隆仓库

2️⃣ 配置环境变量

3️⃣ 构建镜像并启动服务

4️⃣ 启动 Mineru 服务（一个强大的文档解析）

5️⃣ 停止所有服务

🌐 服务访问地址

🔧 贡献指南

🙏 鸣谢

📜 许可证 & 使用限制

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages