怎么识别图片中的文字字体?

图片文字识别 OCR-通用类

使用通用类OCR(General OCR),该产品支持表格识别、文档识别、网络图片识别、手写文字识别、智能分类识别、健康码识别、核酸检测记录识别等任意格式图片上文字信息的自动化识别,自适应分析各种版面和表格,快速实现各种文档电子化。

计费方式:按次计费,提供多种规格的预付费套餐包。


图转文字有哪些应用场景

图转文字-纸质文件电子化

图转文字-纸质文件电子化

将企业历史文件与报表电子化归档,识别文件与报表中的文字信息,建立电子化档案,有助快速检索


优势

  • - 识别精度高
  • 支持不同版面的自适应分析,对数值、符号等关键字段特殊优化,文字识别结果准确

  • - 表格识别支持完善
  • 支持不同大小、跨行跨列等复杂格式表格的文字块识别

图转文字 - 快递单自动填写

图转文字 - 快递单自动填写

自动填写快递收寄件人信息,识别图片中联系人信息并自动填写快递单,减少人工输入


优势

  • - 联系人信息识别精准
  • 可以准确提取姓名、地址、电话等关键信息,并通过地址校验等方法提高文字识别精度


图转文字 - 合同录入与审核

图转文字 - 合同录入与审核

合同处理效率提升,自动识别结构化信息与提取签名盖章区域,有助快速审核


优势

  • - 合同一体化识别
  • 自动识别合同文本,并检测签名和盖章区域,完成合同自动审核

识别图片中的文字字体OCR产品列表

识别图片中的文字字体OCR产品列表

  • 核酸检测记录识别

    支持对全国各地不同版式的核酸检测记录中的关键字段进行结构化识别,包括姓名、核酸检测采样时间、检测检测结果更新时间、核酸检测结果

  • 防疫健康码识别

    支持对全国各地区不同版式的防疫健康码中的姓名、健康码更新时间、健康码颜色,并将识别的结构化结果返回给用户。支持识别4种健康码颜色,包括绿码、黄码、红码、灰码;支持返回各个关键字段的置信度,以便提高人工校验效率。

  • 通用表格识别

    识别表格图片中的文字内容,并将识别的结果以JSON格式返回给用户。返回结果将图片区域(words_region)划分为两类:纯文本区(text)和表格区(table),并返回表格结构(row, column)和文本信息。

  • 通用文字识别

    识别图片上的文字信息,以JSON格式返回识别的文字和坐标。支持扫描文件、电子文档、书籍、票据和表单等多种场景的文字识别。

    支持中英文以及部分繁体字。

  • 网络图片识别

    识别网络图片中的文字内容,并以JSON格式返回识别的结构化结果。对于相同板式的图片,可以使用ModelArts Pro服务提供的文字识别套件,零代码搭建出专属的API。

  • 智能分类识别

    检测定位图片上指定要识别的票证(票据、证件或其他文字载体),并以JSON格式返回识别的结构化结果。接口以列表形式返回图片上要识别票证的位置坐标、结构化识别的内容以及对应的类别。

  • 手写文字识别

    识别文档中的手写文字、印刷文字信息,并将识别的结构化结果以JSON格式返回给用户。

展开内容
收起内容

识别图片中的文字字体的常见问题解答

识别图片中的文字字体的常见问题解答

  • 如何选购合适的API

    文字识别服务(OCR)提供四种类型的API:通用类、证件类、票据类、智能分类。除此之外,您也可以使用ModelArts Pro服务提供的“文字识别套件”零代码搭建出专属的文字识别系统。

  • Token消息体中user name,domain name和project name分别指的是什么?

    user name指用户名称,domain name指用户所属的账号名称。如果使用账号获取token,账号的user name和domain name相同。如果使用IAM用户获取token(账号可以创建多个IAM用户),user name和domain name不相同,user name为实际的用户名称。project name指项目名称,如“cn-north-4”。获取方法参见获取用户名、用户ID、项目名称、项目ID

  • 如何解读识别结果

    调用网络图片API成功后,在“JSON返回结果”中,可见result字段,该字段包含了图片中的文字块数目、文字块排列顺序、具体文本内容、所在位置、置信度等信息。具体可见帮助文档

  • 图转文字或在线招聘识别支持批量识别吗?

    OCR服务只支持调用一次接口识别一张图片,批量识别需要进行二次开发,编码循环调用API,实现批量调用服务识别图片。

  • OCR文字识别提供哪些版本的SDK

    目前OCR提供的SDK有Java、Python、Node.js、PHP、C++、Go、.NET版本。具体请参考文字识别服务《SDK参考》手册,该手册详细介绍了SDK支持的版本及使用方法。

    如果想用其他编程语言调用OCR API服务,可以使用Token鉴权方式,实现接口调用。具体请参考文字识别服务接口《API参考》手册,该手册详细介绍了如何调用API及各个API接口的详细参数信息。

  • 图片质量类报错处理办法

    问题现象

    调用文字识别API时,产生以下图片质量类报错。错误码AIS.0102:图片格式不支持。错误码AIS.0103:图片尺寸不满足要求。错误码AIS.0104:非支持的图片类型或图片质量差。

    解决方法

    请参考使用限制检查图片的格式、像素是否符合规范。请检查图片的base64编码是否完整。请检查图片质量,图片中文字是否清晰,肉眼可识别。请检查API功能是否和输入的图片匹配。

  • 使用OCR服务需要的权限

    使用OCR服务时,如果您需要使用华为云对象存储服务(OBS)中的数据,请开通对象存储服务OBS授权,可在控制台进行开通。OCR服务支持IAM细粒度划分策略。可以为子用户设置OCR服务的使用权限。

  • 使用OCR服务,是否会保存用户数据?
    1. OCR服务坚持“华为云始终把可信作为产品质量的第一要素”的理念,我们基于安全、合规、隐私、韧性、透明,为您提供有技术、有未来、值得信赖的云服务。
    2. OCR服务承诺用户识别的图片与识别结果全部不作任何形式留存,识别返回后立即释放。
    3. 具体的声明请参考隐私政策声明法律声明,可信资源请参见白皮书资源。关于文字识别的相关声明请参见文字识别服务声明
  • 如何选择区域与可用区?

    我们用区域和可用区来描述数据中心的位置,您可以在特定的区域、可用区创建资源。当您通过API使用资源时,您必须指定其区域终端节点。有关区域和终端节点的更多信息,请参阅文字识别服务的地区和终端节点

  • 使用OCR图转文字是否必须使用华为云存储图片

    文字识别服务支持输入图片的base64编码或图片的url路径。

    如果您使用图片的url路径,可以将图片上传至华为云对象存储服务(OBS)中,使用OBS提供的图片url。同时,您也可以不使用华为云存储,使用公网http/https url传入图片。