怎样提取图片中的文字


提取图片中的文字指将图片、扫描件或PDF、OFD文档中的打印字符进行检测识别成可编辑的文本格式。

华为云文字识别以开放API的方式提供给用户,用户使用Python、Java等编程语言调用OCR服务API提取图片中的文字,帮助用户自动采集关键数据,打造智能化业务系统,提升业务效率


服务开通后,您可以根据以下介绍选择合适的使用方式提取图片中的文字

●通过OCR体验馆在线调用OCR服务API。

●通过华为云API Explorer在线调用OCR服务API。

●通过可视化工具(如curl、Postman)发送请求调用OCR服务API。

●通过软件开发工具包(SDK)调用OCR服务API。

怎样提取图片中的文字步骤

怎样提取图片中的文字步骤

  • 提取图片中的文字开通文字识别服务:

    OCR服务提供的开通方式有以下两种,用户可以任选其一进行开通服务。

    ●按需计费开通服务

    ●购买套餐包开通服务

  • 提取图片中的文字准备数据:

    ●数据要求

    受技术与成本多种因素制约,文字识别服务存在一些约束限制。

    以通用文字识别API为例,输入数据存在以下约束。其他API的的使用约束请参见约束与限制。

    只支持识别PNG、JPG、JPEG、BMP、TIFF格式的图片。

    图像各边的像素大小在15px到8192px之间。

    图像中识别区域有效占比超过80%,保证所有文字及其边缘包含在图像内。

    支持图像任意角度的水平旋转。

    目前不支持复杂背景(如户外自然场景、防伪水印等)和文字扭曲图像的文字识别。

  • 提取图片中的文字调用API或SDK:

    ●在线调试

    API Explorer在线调试工具提供API的检索、调试、代码示例生成功能。同时,集成开发环境CloudIDE,可完成代码的构建、调试、运行。

    ●本地调用

    本章节以通用表格识别为例,介绍如何使用OCR Python SDK在本地进行开发。


    该接口可以识别表格图片中的文字内容,并将识别结果以JSON格式返回给用户。返回结果包含两类:纯文本区(text)和表格区(table),并返回表格结构(row, column)和文本信息。查看详情

  • 解读识别结果:

    ●本章节通过网络图片识别API介绍如何解读调API返回的JSON格式识别结果。请参照API参考“响应参数”章节比对查看。查看详情

  • 识别结果后处理:

    ●提取特定字段导入Excel

    本示例调用身份证识别API,并从获取到的JSON结果中,提取所需的字段,填入至Excel。


    前提条件

    开通身份证识别。

    参考本地调用,安装OCR Python SDK。并执行pip install xlsxwriter命令安装依赖包。

    登录访问秘钥页面,获取AK、SK。可以新增访问秘钥,或使用已有的访问秘钥。访问秘钥为credentials.csv文件,包含AK/SK信息。查看详情

  • 统计API使用量:

    ●文字识别控制台 > 服务监控支持查看API的总调用量、调用成功量、调用失败量。


    如果您购买了套餐包,可在“套餐包管理”页面,查看已有的套餐包及使用详情。套餐包费用扣减规则请参见“产品介绍 > 计费说明”。

展开内容
收起内容

怎样提取图片中的文字OCR常见问题

怎样提取图片中的文字OCR常见问题

  • 提取图片中的文字如何选购合适的API

    文字识别服务(OCR)提供四种类型的API:通用类、证件类、票据类、智能分类。

    除此之外,您也可以使用ModelArts Pro服务提供的“文字识别套件”零代码搭建出专属的文字识别系统。

  • 购买提取图片中的文字套餐包后,为什么会出现额外的计费或欠费?

    ▶套餐包额度已使用完

    套餐包额度用完后,默认会转为按需计费,当账户中余额不足时,无法对当前产生费用进行扣费,就会导致欠费。

    ▶套餐包额度未使用完

    请登录费用中心检查套餐包的购买区域,与调用api的区域是否一致,套餐包不支持跨区调用。同时检查开通套餐包的API与实际调用的API是否一致。

  • 提取图片中的文字可以批量识别吗

    ▶OCR服务只支持调用一次接口识别一张图片,批量识别需要进行二次开发,编码循环调用API,实现批量调用服务识别图片。

  • 提取图片中的文字如何提高识别精度?

    ▶尽量使用文字清晰度高、无反光的图片。进行图片采集时,尽量提高待识别文字区域占比,减少无关背景占比,保持图片内文字清晰人眼可辨认。

    ▶若图片有旋转角度,算法支持自动修正,建议图片不要过度倾斜。

    ▶图片尺寸方面,建议最长边不超过8192像素,最短边不小于15像素,图像长宽比例维持常见水平 5:1 内(具体请以各个服务API文档为准)。

  • 提取图片中的文字如何提高识别速度?

    ▶ 识别速度与图片大小有关,图片大小会影响网络传输、图片base64解码等处理过程的时间,因此建议在图片文字清晰的情况下,适当压缩图片的大小,以便降低图片识别时间。推荐上传JPG图片格式。


    根据实践经验,一般建议证件类的小图(文字少)在1M以下,A4纸大小的密集文档大图在2M以下。

  • 提取图片中的文字提供哪些版本的SDK

    目前OCR提供的SDK有Java、Python、Node.js、PHP、C++、Go、.NET版本。具体请参考文字识别服务《SDK参考》手册,该手册详细介绍了SDK支持的版本及使用方法。


    如果想用其他编程语言调用OCR API服务,可以使用Token鉴权方式,实现接口调用。具体请参考文字识别服务接口《API参考》手册,该手册详细介绍了如何调用API及各个API接口的详细参数信息。

  • OCR服务的SDK需要付费购买吗?

    OCR服务SDK供用户免费下载,并依据API调用次数进行收费。

  • 提取图片中的文字需要哪些权限?

    ▶使用OCR服务时,如果您需要使用华为云对象存储服务(OBS)中的数据,请开通对象存储服务OBS授权,可在控制台进行开通。

    ▶OCR服务支持IAM细粒度划分策略。可以为子用户设置OCR服务的使用权限。

  • 通用表格识别是否支持导出为excel格式?

    通用表格识别支持将表格内容转换成可编辑的Excel格式,传入参数return_excel为true时,将返回的表格转换为Microsoft Excel对应的base64编码,可用Python函数 base64.b64decode解码后保存为.xlsx文件。

  • 提取图片中的文字API是否可以跨区域调用?

    ▶ 不同区域的API服务不互通。套餐包也不支持跨区使用,例如上海一区域的套餐包不支持在北京四区域使用。

提取图片中的文字必看文档

  • 提取图片中文字调用说明

    文字识别提供了REST(Representational State Transfer)风格的API,支持您通过HTTPS请求调用,调用方法请参见如何调用API。同时文字识别还提供多种编程语言的SDK供您使用

    文字识别提供了REST(Representational State Transfer)风格的API,支持您通过HTTPS请求调用,调用方法请参见如何调用API。同时文字识别还提供多种编程语言的SDK供您使用

  • 通用类提取图片文字功能介绍

    通用表格识别:提取表格内的文字和所在行列位置信息,适应不同格式的表格。同时也识别表格外部的文字区域。用于各种单据和报表的电子化,恢复结构化信息。

    通用表格识别:提取表格内的文字和所在行列位置信息,适应不同格式的表格。同时也识别表格外部的文字区域。用于各种单据和报表的电子化,恢复结构化信息。

  • 提取图片中文字的使用约束

    受技术与成本多种因素制约,文字识别服务存在一些约束限制。其中系统级约束限制,是所有子服务的约束。除系统级约束限制外,各子服务还有独立的约束条件。

    受技术与成本多种因素制约,文字识别服务存在一些约束限制。其中系统级约束限制,是所有子服务的约束。除系统级约束限制外,各子服务还有独立的约束条件。

  • 提取图片文字服务价格和购买方式

    OCR提供两种计费方式下不同区域、不同应用场景的文字识别服务,含功能场景包括不仅限于以下类别:通用文字识别、机动车销售发票识别、发票验真等数十种文字识别服务

    OCR提供两种计费方式下不同区域、不同应用场景的文字识别服务,含功能场景包括不仅限于以下类别:通用文字识别、机动车销售发票识别、发票验真等数十种文字识别服务

  • 什么是文字识别的并发量

    OCR以公有云服务为主,线上用户资源共享,并发量会根据线上用户的调用情况动态调整。如遇到突发高峰导致的并发量不够用的情况,您可以尝试以下两种解决方法:

    OCR以公有云服务为主,线上用户资源共享,并发量会根据线上用户的调用情况动态调整。如遇到突发高峰导致的并发量不够用的情况,您可以尝试以下两种解决方法:

  • 提取图片中文字剩余量及预警

    进入控制台费用中心“资源包”页面,即可直接查看套餐包的剩余使用量。相同规格资源包会汇总展示,仅支持查询当前有效的资源包和失效时间不超过18个月的资源包。

    进入控制台费用中心“资源包”页面,即可直接查看套餐包的剩余使用量。相同规格资源包会汇总展示,仅支持查询当前有效的资源包和失效时间不超过18个月的资源包。

  • 提取图片中文字使用简介

    服务以开放API的方式提供文字识别能力,用户调用API接口需要具备一定的编程开发基础,文字识别后返回的结果为JSON格式,用户需要通过编程来处理识别结果。

    服务以开放API的方式提供文字识别能力,用户调用API接口需要具备一定的编程开发基础,文字识别后返回的结果为JSON格式,用户需要通过编程来处理识别结果。

  • 开通文字识别服务

    进入文字识别官网主页,单击“立即使用”,进入文字识别控制台。在“总览”页面,选择需要使用的服务,在操作列单击“开通服务”。服务开通成功后,开通状态将显示为“已开通”。

    进入文字识别官网主页,单击“立即使用”,进入文字识别控制台。在“总览”页面,选择需要使用的服务,在操作列单击“开通服务”。服务开通成功后,开通状态将显示为“已开通”。

  • 提取图片中文字在线调试

    API Explorer在线调试工具提供API的检索、调试、代码示例生成功能。同时,集成开发环境CloudIDE,可完成代码的构建、调试、运行。本章节介绍如何使用API Explorer调试API。

    API Explorer在线调试工具提供API的检索、调试、代码示例生成功能。同时,集成开发环境CloudIDE,可完成代码的构建、调试、运行。本章节介绍如何使用API Explorer调试API。

怎样提取图片中的文字视频指导教程

文字识别OCR使用SDK

06:38

文字识别OCR使用SDK

文字识别 OCR使用API

03:04

文字识别 OCR使用API