怎样从图片中提取文字

怎样从图片中提取文字?

通用类OCR(General OCR),支持表格识别、文档识别、网络图片识别、手写文字识别、智能分类识别、健康码识别、核酸检测记录识别等任意格式图片上文字信息的自动化识别,自适应分析各种版面和表格,快速实现各种文档电子化。


有哪些应用场景?

纸质文件电子化

自动识别结构化信息与提取签名盖章区域,有助快速审核。

快递单自动填写

识别图片中联系人信息并自动填写快递单,减少人工输入。

合同录入与审核

自动识别结构化信息与提取签名盖章区域,有助快速审核。

图片中提取文字指南

  • 图片提取文字使用简介

    服务以开放API(Application Programming Interface,应用程序编程接口)的方式提供文字识别能力,用户调用API接口需要具备一定的编程开发基础,文字识别后返回的结果为JSON格式,用户需要通过编程来处理识别结果。

    服务以开放API(Application Programming Interface,应用程序编程接口)的方式提供文字识别能力,用户调用API接口需要具备一定的编程开发基础,文字识别后返回的结果为JSON格式,用户需要通过编程来处理识别结果。

  • 图片提取文字功能体验

    在开通文字识别 OCR 前,请先使用 OCR体验馆 体验服务功能。该方式无需编程,只需在网页端上传图片,即可体验识别效果。开通OCR后,默认按API调用次数进行收费。说明:使用OCR体验馆前,请先注册华为云帐号,并实名认证。

    在开通文字识别 OCR 前,请先使用 OCR体验馆 体验服务功能。该方式无需编程,只需在网页端上传图片,即可体验识别效果。开通OCR后,默认按API调用次数进行收费。

  • 图片提取文字使用流程

    使用文字识别服务前需注册华为云账号,并实名认证。第一步:开通文字识别OCR服务;第二步,准备数据;第三步,调用API或SDK;最后,获取识别结果。用户需要具备编程能力,熟悉Java、Python、iOS、Android、Node.js编程语言。

    使用文字识别服务前需注册华为云账号,并实名认证。第一步:开通文字识别OCR服务;第二步,准备数据;第三步,调用API或SDK;最后,获取识别结果。用户需要具备编程能力,熟悉Java、Python、iOS、Android、Node.js编程语言。

  • 图片提取文字服务开通

    在“总览”页面,选择需要使用的服务,在操作列单击“开通服务”。服务开通成功后,开通状态将显示为“已开通”。如果您需要使用存储在对象存储服务(OBS)上的数据,请在开通服务页面进行服务授权。

    在“总览”页面,选择需要使用的服务,在操作列单击“开通服务”。服务开通成功后,开通状态将显示为“已开通”。如果您需要使用存储在对象存储服务(OBS)上的数据,请在开通服务页面进行服务授权。

  • 图片提取文字准备数据

    受技术与成本多种因素制约,文字识别服务存在一些约束限制。只支持识别PNG、JPG、JPEG、BMP、TIFF格式的图片;支持图像任意角度的水平旋转;图像各边的像素大小在15px到8192px之间等。

    受技术与成本多种因素制约,文字识别服务存在一些约束限制。只支持识别PNG、JPG、JPEG、BMP、TIFF格式的图片;支持图像任意角度的水平旋转;图像各边的像素大小在15px到8192px之间等。

  • 图片提取文字在线调试

    文字识别 API Explorer 在线调试工具提供API的检索、调试、代码示例生成功能。同时,集成开发环境CloudIDE,可完成代码的构建、调试、运行。前提:已注册帐号,并实名认证,帐号不能处于异常状态。

    文字识别 API Explorer 在线调试工具提供API的检索、调试、代码示例生成功能。同时,集成开发环境CloudIDE,可完成代码的构建、调试、运行。前提:已注册帐号,并实名认证,帐号不能处于异常状态。

  • 图片提取文字本地调用

    该接口可以识别表格图片中的文字内容,并将识别结果以JSON格式返回给用户。返回结果包含两类:纯文本区(text)和表格区(table),并返回表格结构(row, column)和文本信息。

    该接口可以识别表格图片中的文字内容,并将识别结果以JSON格式返回给用户。返回结果包含两类:纯文本区(text)和表格区(table),并返回表格结构(row, column)和文本信息。

  • 图片提取文字解读识别结果

    本章节通过网络图片识别API介绍如何解读调API返回的JSON格式识别结果。调用成功后,在“JSON返回结果”中,可见result字段,包含了图片中的文字块数目、文字块排列顺序、具体文本内容、所在位置等信息。

    本章节通过网络图片识别API介绍如何解读调API返回的JSON格式识别结果。调用成功后,在“JSON返回结果”中,可见result字段,包含了图片中的文字块数目、文字块排列顺序、具体文本内容、所在位置等信息。

  • 图片提取文字识别结果后处理

    提取特定字段导入Excle需开通身份证识别,安装OCR Python SDK。并执行pip install xlsxwriter命令安装依赖包,登录访问秘钥页面,获取AK、SK。可以新增访问秘钥,或使用已有的访问秘钥。

    提取特定字段导入Excle需开通身份证识别,安装OCR Python SDK。并执行pip install xlsxwriter命令安装依赖包,登录访问秘钥页面,获取AK、SK。可以新增访问秘钥,或使用已有的访问秘钥。

图片中提取文字常见的问题

活动规则

活动对象:华为云电销客户及渠道伙伴客户可参与消费满送活动,其他客户参与前请咨询客户经理

活动时间: 2020年8月12日-2020年9月11日

您是否有这些问题?

  • 从图片中提取文字时,如何提高识别精度?

    1、尽量使用文字清晰度高、无反光的图片。进行图片采集时,尽量提高待识别文字区域占比,减少无关背景占比,保持图片内文字清晰人眼可辨认。

    2、若图片有旋转角度,算法支持自动修正,建议图片不要过度倾斜。

    3、图片尺寸方面,建议最长边不超过8192像素,最短边不小于15像素,图像长宽比例维持常见水平 5:1 内(具体请以各个服务API文档为准)。

  • 从图片中提取文字时,如何提高识别速度?

    识别速度与图片大小有关,图片大小会影响网络传输、图片base64解码等处理过程的时间,因此建议在图片文字清晰的情况下,适当压缩图片的大小,以便降低图片识别时间。推荐上传JPG图片格式。

    根据实践经验,一般建议证件类的小图(文字少)在1M以下,A4纸大小的密集文档大图在2M以下。

    关于如何压缩图片,请参考代码

  • 提取时如何获取图片base64编码?

    1、将需转码的图片拖拽至Chrome浏览器中,浏览器上显示该图片。

    2、按下“F12”,在弹出窗口中选择“Sources”,在左侧导航树中选择需要编码的图片所在路径,单击“{ } Pretty print”按钮。

    3、图片的base64编码显示在右侧界面中,如下图箭头中内容,选中图片的base64编码信息,Ctrl+A全选base64编码,Ctrl+C复制,注意不可使用鼠标右键方式进行复制,以免拷贝不全。

  • 从图片中提取文字时,OCR服务支持批量识别吗?

    OCR服务只支持调用一次接口识别一张图片,批量识别需要进行二次开发,编码循环调用API,实现批量调用服务识别图片。

  • OCR服务识别结果可以转化为Word、TXT、pdf吗?

    OCR提取之后返回的结果是JSON格式,需要用户通过编程,将结果保存为Word、TXT、pdf格式。

  • 使用图片提取文字服务需要的权限有哪些?

    1、使用OCR服务时,如果您需要使用华为云对象存储服务(OBS)中的数据,请开通对象存储服务OBS授权,可在控制台进行开通。

    2、OCR服务支持IAM细粒度划分策略。可以为子用户设置OCR服务的使用权限。

  • 使用OCR服务是否必须使用华为云存储图片?

    文字识别服务支持输入图片的base64编码或图片的url路径。

    如果您使用图片的url路径,可以将图片上传至华为云对象存储服务(OBS)中,使用OBS提供的图片url。

    同时,您也可以不使用华为云存储,使用公网http/https url传入图片。

  • OCR服务支持上传图片后直接导出结果吗?

    目前OCR服务不支持上传图片后直接导出结果,需要通过调用API的方式使用。具体操作请参考《文字识别服务快速入门》。

  • 通用表格识别是否支持导出为excel格式?

    通用表格识别支持将表格内容转换成可编辑的Excel格式,传入参数return_excel为true时,将返回的表格转换为Microsoft Excel对应的base64编码,可用Python函数 base64.b64decode解码后保存为.xlsx文件。

  • 使用文字识别 OCR 服务,是否会保存用户数据?

    1、文字识别 OCR 服务坚持“华为云始终把可信作为产品质量的第一要素”的理念,我们基于安全、合规、隐私、韧性、透明,为您提供有技术、有未来、值得信赖的云服务。

    2、文字识别 OCR 服务承诺用户识别的图片与识别结果全部不作任何形式留存,识别返回后立即释放。