图片文字识别转换指南
文字识别使用简介
服务以开放API(Application Programming Interface,应用程序编程接口)的方式提供文字识别能力,用户调用API接口需要具备一定的编程开发基础,文字识别后返回的结果为JSON格式,用户需要通过编程来处理识别结果。
服务以开放API(Application Programming Interface,应用程序编程接口)的方式提供文字识别能力,用户调用API接口需要具备一定的编程开发基础,文字识别后返回的结果为JSON格式,用户需要通过编程来处理识别结果。
文字识别使用流程
使用文字识别服务前需注册华为云账号,并实名认证。第一步:开通文字识别OCR服务;第二步,准备数据;第三步,调用API或SDK;最后,获取识别结果。用户需要具备编程能力,熟悉Java、Python、iOS、Android、Node.js编程语言。
使用文字识别服务前需注册华为云账号,并实名认证。第一步:开通文字识别OCR服务;第二步,准备数据;第三步,调用API或SDK;最后,获取识别结果。用户需要具备编程能力,熟悉Java、Python、iOS、Android、Node.js编程语言。
文字识别 开通服务
在“总览”页面,选择需要使用的服务,在操作列单击“开通服务”。服务开通成功后,开通状态将显示为“已开通”。如果您需要使用存储在对象存储服务(OBS)上的数据,请在开通服务页面进行服务授权。
在“总览”页面,选择需要使用的服务,在操作列单击“开通服务”。服务开通成功后,开通状态将显示为“已开通”。如果您需要使用存储在对象存储服务(OBS)上的数据,请在开通服务页面进行服务授权。
文字识别 准备数据
受技术与成本多种因素制约,文字识别服务存在一些约束限制。只支持识别PNG、JPG、JPEG、BMP、TIFF格式的图片;支持图像任意角度的水平旋转;图像各边的像素大小在15px到8192px之间等。
受技术与成本多种因素制约,文字识别服务存在一些约束限制。只支持识别PNG、JPG、JPEG、BMP、TIFF格式的图片;支持图像任意角度的水平旋转;图像各边的像素大小在15px到8192px之间等。
文字识别 在线调试
文字识别 API Explorer 在线调试工具提供API的检索、调试、代码示例生成功能。同时,集成开发环境CloudIDE,可完成代码的构建、调试、运行。前提:已注册帐号,并实名认证,帐号不能处于异常状态。
文字识别 API Explorer 在线调试工具提供API的检索、调试、代码示例生成功能。同时,集成开发环境CloudIDE,可完成代码的构建、调试、运行。前提:已注册帐号,并实名认证,帐号不能处于异常状态。
文字识别 本地调用
该接口可以识别表格图片中的文字内容,并将识别结果以JSON格式返回给用户。返回结果包含两类:纯文本区(text)和表格区(table),并返回表格结构(row, column)和文本信息。
该接口可以识别表格图片中的文字内容,并将识别结果以JSON格式返回给用户。返回结果包含两类:纯文本区(text)和表格区(table),并返回表格结构(row, column)和文本信息。
文字识别 解读识别结果
本章节通过网络图片识别API介绍如何解读调API返回的JSON格式识别结果。调用成功后,在“JSON返回结果”中,可见result字段,包含了图片中的文字块数目、文字块排列顺序、具体文本内容、所在位置等信息。
本章节通过网络图片识别API介绍如何解读调API返回的JSON格式识别结果。调用成功后,在“JSON返回结果”中,可见result字段,包含了图片中的文字块数目、文字块排列顺序、具体文本内容、所在位置等信息。
文字识别视频指导
文字识别 OCR SDK使用指导
06:38
文字识别 OCR API使用指导
03:04
文字识别 OCR SDK使用指导
06:38
文字识别 OCR API使用指导
03:04
您是否有这些问题?
- 文字识别服务支持上传图片后直接导出结果吗?
目前文字识别 OCR 服务不支持上传图片后直接导出结果,需要通过调用API的方式使用。具体操作请参考《文字识别服务快速入门》。
- 文字识别服务能否实时处理视频流中的文字?
文字识别 OCR 不支持读取视频流数据,您可将视频流进行提取帧图片操作,提取出图片后进行识别,或者使用 视频内容分析VCR 提取视频中的文字信息。
- 文字识别中通用表格识别是否支持导出为excel格式?
通用表格识别支持将表格内容转换成可编辑的Excel格式,传入参数return_excel为true时,将返回的表格转换为Microsoft Excel对应的base64编码,可用Python函数 base64.b64decode 解码后保存为.xlsx文件。
- 使用文字识别服务是否必须使用华为云存储图片?
文字识别服务支持输入图片的base64编码或图片的url路径。
如果您使用图片的url路径,可以将图片上传至华为云对象存储服务(OBS)中,使用OBS提供的图片url。
同时,您也可以不使用华为云存储,使用公网http/https url传入图片。
- 文字识别服务可以识别文本格式文件吗?
增值税发票识别API支持使用pdf、ofd文件进行识别。其他API不能直接识别word、pdf、excel等文件,可将此类文件转换为图片进行识别。pdf转图片识别示例请参见 识别结果后处理。
- 文字识别服务是否支持离线使用?
不支持离线使用,调用SDK必须能够访问公网才可以的,因为文字识别 OCR 接口部署在华为云云端,所以需要您的网络可以访问公网才可以调用服务接口。
- 文字识别中的身份证识别可以判断身份证真假么?
不支持判断身份证的真假,该服务可以识别身份证图片中的文字内容,并将识别的结果以json格式返回给用户。
- 文字识别中增值税发票识别支持哪些发票?
目前已经支持增值税专用发票和增值税普通发票(含电子普通发票)。卷式发票和通行费发票即将上线,并且支持发票备注、监制章、专用章、发票联次等字段。具体请参见 增值税发票识别 章节。
- 使用文字识别 OCR 服务需要的权限有哪些?
使用文字识别 OCR 服务时,如果您需要使用华为云对象存储服务(OBS)中的数据,请开通对象存储服务OBS授权,可在控制台进行开通。
文字识别 OCR 服务支持IAM细粒度划分策略。可以为子用户设置文字识别 OCR 服务的使用权限。
- 使用文字识别 OCR 服务,是否会保存用户数据?
1、文字识别 OCR 服务坚持“华为云始终把可信作为产品质量的第一要素”的理念,我们基于安全、合规、隐私、韧性、透明,为您提供有技术、有未来、值得信赖的云服务。
2、文字识别 OCR 服务承诺用户识别的图片与识别结果全部不作任何形式留存,识别返回后立即释放。

