图片读取文字、文字识别图片选华为云文字识别服务


图片读取文字指将图片、扫描件或PDF、OFD文档中的打印字符进行检测识别成可编辑的文本格式。

华为云文字识别以开放API的方式提供给用户,用户使用Python、Java等编程语言调用OCR服务API提取图片中的文字,帮助用户自动采集关键数据,打造智能化业务系统,提升业务效率

华为云图片读取文字能力展示:

通用类图片读取文字支持表格、文档、网络图片等任意格式图片上文字信息的自动化识别,自适应分析各种版面和表格,快速实现各种文档电子化。

证件类图片读取文字支持身份证、驾驶证、行驶证、护照等证件图片上有效信息的自动识别和关键字段结构化提取。

●票据类图片读取文字支持增值税发票、机动车销售发票、医疗发票等各种发票和表单图片上有效信息的自动识别和结构化提取

●行业类图片读取文字支持物流面单、医疗化验单据等多种行业特定类型图片的结构化信息提取和识别,助力行业自动化效率提升。

●定制模板图片读取文字支持用户自定义识别模板,指定需要识别的关键字段,实现用户特定格式图片的自动识别和结构化提取。

图片读取文字功能介绍

图片读取文字功能介绍

  • 通用类图片读取文字:

    ●通用表格识别,提取表格内的文字和所在行列位置信息,适应不同格式的表格。同时也识别表格外部的文字区域。用于各种单据和报表的电子化,恢复结构化信息。

    ●通用文字识别,提取图片内的文字及其对应位置信息,并能够根据文字在图片中的位置进行结构化整理工作。

    ●手写文字识别,识别文档中的手写文字信息,并将识别的结构化结果返回给用户。

    ●网络图片识别自,动识别网络图片内的所有文字及其对应位置信息,并能根据识别出来的结果进行联系人信息的提取,同时可供进一步的数据挖掘后处理操作。

    ●智能分类识别自,动检测定位图片上指定要识别的票证,一次扫描即可识别票证的位置坐标、结构化识别的内容以及对应的类别。

  • 智能分类图片读取文字:

    ●智能分类识别服务可以一次性对同张图片中的多个卡证、票据进行检测和识别,并返回每个卡证、票据的类别及结构化数据。

  • 证件类图片读取文字功能:

    ●身份证图片读取文字,自动识别身份证上的全部信息,支持身份证正反面识别,一次扫描即可识别身份证号码、姓名、地址等全部信息,在暗光、倾斜、过曝光、阴影等异常条件下均可准确识别身份证信息。


    ●驾驶证图片读取文字,自动识别驾驶证正页与副页上的全部信息,自动提取出姓名、性别、领证日期、准驾车型、有效期限、档案编号等结构化信息,在暗光、倾斜、过曝光、防伪标志干扰、阴影等异常条件下均可准确识别驾驶证信息。


    ●行驶证图片读取文字,自动识别行驶证正页与副页上的全部信息,自动提取出号牌号码、车辆类型、所有人、使用性质、品牌型号、车辆识别代号、发动机号码、注册日期、档案编码、核定载人数、总质量、整备质量、核定载质量、外廓尺寸、准牵引总质量、备注、检验记录、条码号等结构化信息,在暗光、倾斜、过曝光、防伪标志干扰、阴影等异常条件下均可准确识别行驶证信息。


    ●护照图片读取文字,针对中国护照,可识别护照上的全部信息;针对其他国家护照,可根据两行国际标准化的机读码识别出6-7个关键字段信息,包括姓名、性别、出生日期、护照号码、签发国国家码、护照有效期等。在暗光、倾斜、过曝光、阴影等异常条件下均可准确识别护照信息。


    ●营业执照图片读取文字,识别营业执照中的公司名称、注册号、法人代表、地址、注册资本、营业期限、经营范围等字段。 在暗光,倾斜、水印等异常条件下均可正常识别执照信息。


    ●银行卡图片读取文字,自动识别银行卡正面的信息,识别信息包括卡片类型(借记卡或信用卡)、银行卡卡号、有效日期、发卡行、持卡人姓名(限信用卡)。省去手动录入过程。


    ●道路运输证图片读取文字,自动识别道路运输证的全部信息,一次扫描即可识别业户名称、道路运输证号、车辆号牌、车辆类型等全部信息。


    ●车牌图片读取文字,自动识别图片中的车牌信息。


    ●名片图片读取文字,自动识别名片中的信息,识别信息包括姓名、职位头衔、公司、部门、联系方式、地址、邮箱、传真、邮编、公司网址等信息,并将识别结果返回给用户。


    ●VIN码图片读取文字,自动识别图片上的车架号信息。

  • 票据类图片读取文字

    ●增值税发票图片读取文字

    通过对增值税发票图片预处理、表格提取、文字提取、文字识别、结构化信息输出等一系列技术化手段,快速将增值税发票上的文字信息识别出来,用于后续的进一步处理,节省大量的人工录入成本。

    ●机动车销售发票图片读取文字

    自动识别机动车销售发票图片内的文本内容,并返回结构化字段信息,用于后续的进一步处理,节省大量的人工录入成本。

    ●飞机行程单图片读取文字

    自动识别飞机行程单的全部信息,一次扫描即可识别旅客姓名、有效身份证件号码、订单号、票价等全部信息。

    ●定额发票图片读取文字

    自动识别定额发票的全部信息,一次扫描即可识别发票号码、发票代码、地址、发票金额等全部信息。

    ●火车票图片读取文字

    自动识别火车票的全部信息,一次扫描即可识别一张车票的ID、检票口信息、车次等全部信息。

    ●出租车发票图片读取文字

    自动识别出租车发票的全部信息,一次扫描即可识别归属地区、发票代码、发票号码、电话(包括电话、监督电话)等全部信息。

    ●车辆通行费发票图片读取文字

    自动识别车辆通行费发票的全部信息,一次扫描即可识别发票代码、发票号码、入口、出口、收费金额、收费员、车辆类型、日期、时间等主要信息。

  • 定制模板图片读取文字

展开内容
收起内容

图片读取文字常见问题

图片读取文字常见问题

  • 什么是图片读取文字识别

    文字识别(Optical Character Recognition,简称OCR)是指将图片、扫描件或PDF、OFD文档中的打印字符进行检测识别成可编辑的文本格式,以JSON格式返回识别结果。


    OCR以开放API(Application Programming Interface,应用程序编程接口)的方式提供给用户,用户使用Python、Java等编程语言调用OCR服务API将图片识别成文字,帮助用户自动采集关键数据,打造智能化业务系统,提升业务效率,API获取详情请参考《API参考》。


    OCR还提供多种编程语言的SDK供您使用,SDK使用方法请参考《SDK参考》。

  • 图片读取文字如何选择OCR套餐包的区域

    ▶查看PDF分享

    不同的地域之间资源包不互通,每个地域需分别购买,请根据您的实际需求慎重选择。各服务所部署区域请参见终端节点


    请先确定使用的服务与区域之后再购买相应区域的套餐包。

  • 图片读取文字可以批量识别吗

    ▶OCR服务只支持调用一次接口识别一张图片,批量识别需要进行二次开发,编码循环调用API,实现批量调用服务识别图片。

  • 图片读取文字多个套餐包扣减顺序

    ▶如果您购买了多个套餐包,则套餐包的扣减规则如下。

    按照套餐包来源类型扣费,扣减优先级由高到低为:免费权益 -> 促销 -> 订购

    按套餐包创建、生效、失效时间扣费。

    多个套餐包,创建时间相同时,优先抵扣先生效的。

    多个套餐包,生效时间相同时,优先抵扣先失效的。

    多个套餐包,失效时间相同时,优先抵扣先创建的。

    闲时流量套餐包优先抵扣。

    话单中包含了企业项目时,指定企业项目的套餐包优先抵扣,如果指定项目的套餐包不够扣减,继续扣减适用所有企业项目的套餐包。

  • 图片读取文字如何提高识别速度?

    ▶ 识别速度与图片大小有关,图片大小会影响网络传输、图片base64解码等处理过程的时间,因此建议在图片文字清晰的情况下,适当压缩图片的大小,以便降低图片识别时间。推荐上传JPG图片格式。


    根据实践经验,一般建议证件类的小图(文字少)在1M以下,A4纸大小的密集文档大图在2M以下。

  • 图片读取文字API是否可以混用?

    不建议混用,例如有专门的身份证识别,就不建议使用“通用文字识别”识别身份证图片,不同接口底层算法不同,混用会导致识别效果差。

  • 图片读取文字结果可以转化为Word、TXT、pdf吗

    OCR提取之后返回的结果是JSON格式,需要用户通过编程,将结果保存为Word、TXT、pdf格式。

  • 图片读取文字需要哪些权限?

    ▶使用OCR服务时,如果您需要使用华为云对象存储服务(OBS)中的数据,请开通对象存储服务OBS授权,可在控制台进行开通。

    ▶OCR服务支持IAM细粒度划分策略。可以为子用户设置OCR服务的使用权限。

  • 图片读取文字服务提供哪些版本的SDK

    目前OCR提供的SDK有Java、Python、Node.js、PHP、C++、Go、.NET版本。具体请参考文字识别服务《SDK参考》手册,该手册详细介绍了SDK支持的版本及使用方法。


    如果想用其他编程语言调用OCR API服务,可以使用Token鉴权方式,实现接口调用。具体请参考文字识别服务接口《API参考》手册,该手册详细介绍了如何调用API及各个API接口的详细参数信息。

  • 图片读取文字API是否可以跨区域调用?

    ▶ 不同区域的API服务不互通。套餐包也不支持跨区使用,例如上海一区域的套餐包不支持在北京四区域使用。

表格文字识别必看文档

  • 图片读取文字功能体验与试用

    在开通OCR前,请先使用OCR体验馆体验服务功能。该方式无需编程,只需在网页端上传图片,即可体验识别效果。开通OCR后,默认按API调用次数进行收费。

    在开通OCR前,请先使用OCR体验馆体验服务功能。该方式无需编程,只需在网页端上传图片,即可体验识别效果。开通OCR后,默认按API调用次数进行收费。

  • 通用类提取图片文字功能介绍

    通用表格识别:提取表格内的文字和所在行列位置信息,适应不同格式的表格。同时也识别表格外部的文字区域。用于各种单据和报表的电子化,恢复结构化信息。

    通用表格识别:提取表格内的文字和所在行列位置信息,适应不同格式的表格。同时也识别表格外部的文字区域。用于各种单据和报表的电子化,恢复结构化信息。

  • 图片读取文字使用流程简介

    文字识别是指对图像中的打印字符进行检测识别,通过调用API,识别图片中的文字,并返回JSON格式的识别结果。本文介绍图片读取文字使用流程简介

    文字识别是指对图像中的打印字符进行检测识别,通过调用API,识别图片中的文字,并返回JSON格式的识别结果。本文介绍图片读取文字使用流程简介

  • 提取图片文字服务价格和购买方式

    OCR提供两种计费方式下不同区域、不同应用场景的文字识别服务,含功能场景包括不仅限于以下类别:通用文字识别、机动车销售发票识别、发票验真等数十种文字识别服务

    OCR提供两种计费方式下不同区域、不同应用场景的文字识别服务,含功能场景包括不仅限于以下类别:通用文字识别、机动车销售发票识别、发票验真等数十种文字识别服务

  • 图片读取文字解读识别结果

    本章节通过网络图片识别API介绍如何解读调API返回的JSON格式识别结果。请参照API参考“响应参数”章节比对查看。本章讲解图片内容如何与API的返回字段对应。

    本章节通过网络图片识别API介绍如何解读调API返回的JSON格式识别结果。请参照API参考“响应参数”章节比对查看。本章讲解图片内容如何与API的返回字段对应。

  • 提取图片中文字剩余量及预警

    进入控制台费用中心“资源包”页面,即可直接查看套餐包的剩余使用量。相同规格资源包会汇总展示,仅支持查询当前有效的资源包和失效时间不超过18个月的资源包。

    进入控制台费用中心“资源包”页面,即可直接查看套餐包的剩余使用量。相同规格资源包会汇总展示,仅支持查询当前有效的资源包和失效时间不超过18个月的资源包。

  • 图片读取文字并发量

    OCR以公有云服务为主,线上用户资源共享,并发量会根据线上用户的调用情况动态调整。如遇到突发高峰导致的并发量不够用的情况,您可以尝试以下两种解决方法

    OCR以公有云服务为主,线上用户资源共享,并发量会根据线上用户的调用情况动态调整。如遇到突发高峰导致的并发量不够用的情况,您可以尝试以下两种解决方法

  • 开通文字识别服务

    进入文字识别官网主页,单击“立即使用”,进入文字识别控制台。在“总览”页面,选择需要使用的服务,在操作列单击“开通服务”。服务开通成功后,开通状态将显示为“已开通”。

    进入文字识别官网主页,单击“立即使用”,进入文字识别控制台。在“总览”页面,选择需要使用的服务,在操作列单击“开通服务”。服务开通成功后,开通状态将显示为“已开通”。

  • 图片读取文字计费项和计费模式

    计费项:按API调用次数计费,计费价格请参见价格计算器。只有调用成功才会计算调用次数,其中返回的2xx状态码表示调用成功,调用失败不计费。


    计费项:按API调用次数计费,计费价格请参见价格计算器。只有调用成功才会计算调用次数,其中返回的2xx状态码表示调用成功,调用失败不计费。