Umi-OCR – 免费开源的离线 OCR 文字识别利器

未分类 2025-06-23 0:47

Umi-OCR 是什么

Umi-OCR 是一款免费开源、支持离线使用的光学字符识别（OCR）工具，基于 PaddleOCR 和 Tesseract-OCR 开发，能够高效识别图片中的文字，尤其适用于批量截图文字提取、PDF 文字识别、手写体识别等场景，具备轻量级、易用、支持多种格式等诸多优点，可为用户提供更便捷、高效的文字识别解决方案。

核心功能

截图 OCR ：支持通过快捷键唤起截图，快速识别截图中的文字，并可自动复制到剪贴板，还能自定义截图识别的快捷键，方便用户在各种场景下随时提取文字信息。
批量 OCR ：可批量导入本地图片进行识别，支持多种图片格式，如 jpg、png、bmp 等，极大地提高了大批量数据处理的效率，满足了用户对大量图片文字提取的需求。
PDF 文档识别 ：内置 PDF 解析功能，能够直接从 PDF 扫描件中提取文本，还可以将 PDF 转换为双层可搜索 PDF，让纸质文档的电子化处理更加便捷，便于后续的编辑和查找。
忽略区域设置 ：在批量识别时，可以排除图片中指定区域的文字，如水印、页眉页脚等，有效提高了识别的准确性和针对性，避免了无关信息的干扰。
二维码识别与生成 ：支持读取图片中的二维码、条形码，并能生成二维码图片，拓展了其在信息识别和生成方面的应用场景。
多语言支持 ：不仅界面支持简体中文、英文、日文、韩文等多种语言切换，还通过插件扩展支持多种语言文字的混合识别，准确率高达 95% 以上，满足了不同语言用户的需求。
公式识别 ：具备数学公式识别功能，可帮助用户快速提取和编辑公式内容，为科研、教育等领域的用户提供了极大的便利。
命令行调用与 HTTP 接口 ：支持通过命令行或 HTTP 接口进行外部调用，方便与其他软件或工具集成，为开发者提供了更灵活的使用方式。

技术原理

图像预处理 ：对输入的图片进行灰度化、二值化、去噪、角度矫正等操作，以提升文字的清晰度，减少背景干扰，为后续的文字检测和识别提供更清晰的图像。
文字区域检测 ：使用 EAST 或 DBNet 算法定位图片中的文字区域，准确地将文字部分从图像中分割出来，为后续的文字识别做好准备。
字符识别 ：通过 PaddleOCR 或 Tesseract-OCR 等深度学习模型对检测到的文字区域进行特征提取和分类识别，将文字图像转换为计算机可读的文本信息，实现文字的准确识别。
后处理 ：对识别结果进行校正、排版等操作，如纠正识别错误、去除干扰字符、合并同一自然段的文字、处理竖排文本等，优化最终的输出格式，使识别结果更加符合用户的阅读和使用习惯。

支持平台

Umi-OCR 支持 Windows 7 x64、Windows 10 x64、Windows 11 x64 以及 Linux x64 等多种操作系统，具有良好的跨平台适配性，能够满足不同用户在不同操作系统上的使用需求。

团队介绍

Umi-OCR 是开发者 hiroi-sora 在业余时间主导开发的项目，其核心目标是为用户提供一个无需依赖网络、高性价比的文字识别解决方案。项目代码完全公开在 GitHub 仓库，形成了开源社区，吸引了众多开发者的关注和贡献，共同推动 Umi-OCR 的不断发展和完善。

项目资源

官网：https://github.com/hiroi-sora/Umi-OCR
源码：https://github.com/hiroi-sora/Umi-OCR