GOT-OCR2.0:通用 OCR 理论的正式代码实现

GOT-OCR2.0 是通用 OCR 理论的正式代码实现,旨在通过统一的端到端模型实现 OCR-2.0。
clickgpt_line.png_noView
介绍

嘿,大家好!今天我想和大家聊聊一个超级酷的项目——GOT-OCR2.0。你知道吗,这可是通用 OCR 理论的正式代码实现哦!它的目标是通过一个统一的端到端模型来实现 OCR-2.0,听起来是不是很厉害?

GOT-OCR2.0 是什么?

简单来说,GOT-OCR2.0 是一个开源项目,专注于光学字符识别(OCR)技术的革新。它由一群聪明的研究人员开发,旨在提供一个更高效、更准确的 OCR 解决方案。这个项目的代码已经在 GitHub 上发布,任何人都可以查看和使用。

如何安装 GOT-OCR2.0?

首先,你需要确保你的环境是 cuda11.8 和 torch2.0.1。然后,克隆这个项目的仓库并进入 GOT 文件夹:

    
bash
git clone https://github.com/Ucas-HaoranWei/GOT-OCR2.0.git
cd 'the GOT folder'

接下来,创建并激活一个新的 Conda 环境,然后安装必要的包:

    
bash
conda create -n got python=3.10 -y
conda activate got
pip install -e .

最后,安装 Flash-Attention:

    
bash
pip install ninja
pip install flash-attn --no-build-isolation

GOT-OCR2.0 的功能

GOT-OCR2.0 提供了多种 OCR 模式,包括:

  • 普通文本 OCR:适用于简单的文本识别。
  • 格式化文本 OCR:用于识别带有格式的文本。
  • 细粒度 OCR:可以识别特定区域或颜色的文本。
  • 多裁剪 OCR:处理多区域的图像。
  • 多页 OCR:处理包含多个图像文件的路径。

你可以通过以下命令运行 OCR:

    
bash
python3 GOT/demo/run_ocr_2.0.py --model-name /GOT_weights/ --image-file /an/image/file.png --type ocr

如何训练和微调 GOT-OCR2.0?

如果你想训练或微调这个模型,可以参考项目中的训练和微调指南。需要注意的是,这个代码库只支持在 GOT 权重的基础上进行后训练。如果你想从头开始训练,需要使用其他的资源。

评价和测试

GOT-OCR2.0 提供了多种基准测试方法,比如 Fox 和 OneChart。你可以使用 evaluate_GOT.py 脚本来运行评估。

社区和支持

如果你对这个项目感兴趣或者有任何问题,可以通过微信或者邮件联系开发者。项目的社区非常活跃,欢迎大家贡献自己的力量。

最后嘛,我觉得 GOT-OCR2.0 是一个非常有潜力的项目,它不仅为研究人员提供了一个强大的工具,也为开发者带来了更多的可能性。如果你对 OCR 技术感兴趣,不妨去 GitHub 上看看这个项目,试试看它能为你带来什么惊喜!

RPA
八爪鱼RPA
支持一键抓取公众号/小红书/抖音/淘宝数据
立即查看
流程自动化
付费
AI爆文训练营
图文变现友好赛道,低门槛、高上限,教你从0到1做个赚钱的公众号!
立即查看
躺着赚钱
¥149/年
何老师陪你做副业
这里聚焦AI副业、个人IP、自媒体运营、写作、赚钱案例。不哔哔,只分享有价值的副业项目。
立即查看
AI赚钱案例
限免
DeepSeek进阶教程
带你全面掌握DeepSeek应用技巧。提升工作、学习效率
立即查看
100万人学过
付费
网盘拉新实战教程
每周花费一小时,手把手教你赚网盘平台佣金
立即查看
500人学过
限时优惠
AiPPT
结合最新AI技术,为用户提供一键生成高质量PPT的解决方案。
立即查看
一键生成 PPT
免费
豆包MarsCode
一款免费的AI编程助手,全新支持DeepSeek R1/V3、豆包大模型1.5自由切换,免部署、更准确、更强大!
立即查看
AI编程助手
免费
Monica AI
Monica AI满血复活DeepSeek【免费】,提升您的聊天、搜索、写作和编程体验。
立即查看
一站式 AI 助手
云服务
腾讯云
综合性的云计算服务平台,现已接入DeepSeek,提供多样化的云解决方案
立即查看
高效可靠
云服务
阿里云
全球领先的云计算与数据服务平台,提供云服务器、存储、数据库、安全等多种服务
立即查看
多样化
编程学习
免费领取编程学习资料