
GOT-OCR2.0:通用 OCR 理论的正式代码实现
GOT-OCR2.0 是通用 OCR 理论的正式代码实现,旨在通过统一的端到端模型实现 OCR-2.0。

介绍
嘿,大家好!今天我想和大家聊聊一个超级酷的项目——GOT-OCR2.0。你知道吗,这可是通用 OCR 理论的正式代码实现哦!它的目标是通过一个统一的端到端模型来实现 OCR-2.0,听起来是不是很厉害?
GOT-OCR2.0 是什么?
简单来说,GOT-OCR2.0 是一个开源项目,专注于光学字符识别(OCR)技术的革新。它由一群聪明的研究人员开发,旨在提供一个更高效、更准确的 OCR 解决方案。这个项目的代码已经在 GitHub 上发布,任何人都可以查看和使用。
如何安装 GOT-OCR2.0?
首先,你需要确保你的环境是 cuda11.8 和 torch2.0.1。然后,克隆这个项目的仓库并进入 GOT 文件夹:
bash
git clone https://github.com/Ucas-HaoranWei/GOT-OCR2.0.git
cd 'the GOT folder'
接下来,创建并激活一个新的 Conda 环境,然后安装必要的包:
bash
conda create -n got python=3.10 -y
conda activate got
pip install -e .
最后,安装 Flash-Attention:
bash
pip install ninja
pip install flash-attn --no-build-isolation
GOT-OCR2.0 的功能
GOT-OCR2.0 提供了多种 OCR 模式,包括:
- 普通文本 OCR:适用于简单的文本识别。
- 格式化文本 OCR:用于识别带有格式的文本。
- 细粒度 OCR:可以识别特定区域或颜色的文本。
- 多裁剪 OCR:处理多区域的图像。
- 多页 OCR:处理包含多个图像文件的路径。
你可以通过以下命令运行 OCR:
bash
python3 GOT/demo/run_ocr_2.0.py --model-name /GOT_weights/ --image-file /an/image/file.png --type ocr
如何训练和微调 GOT-OCR2.0?
如果你想训练或微调这个模型,可以参考项目中的训练和微调指南。需要注意的是,这个代码库只支持在 GOT 权重的基础上进行后训练。如果你想从头开始训练,需要使用其他的资源。
评价和测试
GOT-OCR2.0 提供了多种基准测试方法,比如 Fox 和 OneChart。你可以使用 evaluate_GOT.py 脚本来运行评估。
社区和支持
如果你对这个项目感兴趣或者有任何问题,可以通过微信或者邮件联系开发者。项目的社区非常活跃,欢迎大家贡献自己的力量。
最后嘛,我觉得 GOT-OCR2.0 是一个非常有潜力的项目,它不仅为研究人员提供了一个强大的工具,也为开发者带来了更多的可能性。如果你对 OCR 技术感兴趣,不妨去 GitHub 上看看这个项目,试试看它能为你带来什么惊喜!