什么是OCR识别

什么是OCR识别

文字识别(Optical Character Recognition,简称OCR)是指将图片、扫描件或PDF、OFD文档中的打印字符进行检测识别成可编辑的文本格式,以JSON格式返回识别结果。


OCR以开放API(Application Programming Interface,应用程序编程接口)的方式提供给用户,用户使用Python、Java等编程语言调用OCR服务API将图片识别成文字,帮助用户采集关键数据,打造智能化业务系统,提升业务效率。

OCR识别功能介绍

  • 通用表格识别

    提取表格内的文字和所在行列位置信息,适应不同格式的表格。同时也识别表格外部的文字区域。用于各种单据和报表的电子化,恢复结构化信息。

    提取表格内的文字和所在行列位置信息,适应不同格式的表格。同时也识别表格外部的文字区域。用于各种单据和报表的电子化,恢复结构化信息。

  • 网络图片识别

    自动识别网络图片内的所有文字及其对应位置信息,并能根据识别出来的结果进行联系人信息的提取,同时可供进一步的数据挖掘后处理操作。

    自动识别网络图片内的所有文字及其对应位置信息,并能根据识别出来的结果进行联系人信息的提取,同时可供进一步的数据挖掘后处理操作。

  • 智能分类识别

    自动检测定位图片上指定要识别的票证,一次扫描即可识别票证的位置坐标、结构化识别的内容以及对应的类别。

    自动检测定位图片上指定要识别的票证,一次扫描即可识别票证的位置坐标、结构化识别的内容以及对应的类别。

  • 身份证识别

    自动识别身份证上的全部信息,支持身份证正反面识别,一次扫描即可识别身份证号码、姓名、地址等全部信息,在暗光、倾斜、过曝光、阴影等异常条件下均可准确识别身份证信息。

    自动识别身份证上的全部信息,支持身份证正反面识别,一次扫描即可识别身份证号码、姓名、地址等全部信息,在暗光、倾斜、过曝光、阴影等异常条件下均可准确识别身份证信息。

  • 驾驶证识别

    自动识别驾驶证正页与副页上的全部信息,自动提取出姓名、性别、领证日期、准驾车型、有效期限、档案编号等结构化信息,在暗光、倾斜、过曝光、防伪标志干扰、阴影等异常条件下均可准确识别驾驶证信息。

    自动识别驾驶证正页与副页上的全部信息,自动提取出姓名、性别、领证日期、准驾车型、有效期限、档案编号等结构化信息,在暗光、倾斜、过曝光、防伪标志干扰、阴影等异常条件下均可准确识别驾驶证信息。

  • 行驶证识别

    自动识别行驶证正页与副页上的全部信息,自动提取出号牌号码、车辆类型、所有人、使用性质、品牌型号等结构化信息,在暗光、倾斜、过曝光、防伪标志干扰、阴影等异常条件下均可准确识别行驶证信息。

    自动识别行驶证正页与副页上的全部信息,自动提取出号牌号码、车辆类型、所有人、使用性质、品牌型号等结构化信息,在暗光、倾斜、过曝光、防伪标志干扰、阴影等异常条件下均可准确识别行驶证信息。

  • 营业执照识别

    识别营业执照中的公司名称、注册号、法人代表、地址、注册资本、营业期限、经营范围等字段。 在暗光,倾斜、水印等异常条件下均可正常识别执照信息。

    识别营业执照中的公司名称、注册号、法人代表、地址、注册资本、营业期限、经营范围等字段。 在暗光,倾斜、水印等异常条件下均可正常识别执照信息。

  • 银行卡识别

    自动识别银行卡正面的信息,识别信息包括卡片类型(借记卡或信用卡)、银行卡卡号、有效日期、发卡行、持卡人姓名(限信用卡)。省去手动录入过程。

    自动识别银行卡正面的信息,识别信息包括卡片类型(借记卡或信用卡)、银行卡卡号、有效日期、发卡行、持卡人姓名(限信用卡)。省去手动录入过程。

  • 名片识别

    自动识别名片中的信息,识别信息包括姓名、职位头衔、公司、部门、联系方式、地址、邮箱、传真、邮编、公司网址等信息,并将识别结果返回给用户。

    自动识别名片中的信息,识别信息包括姓名、职位头衔、公司、部门、联系方式、地址、邮箱、传真、邮编、公司网址等信息,并将识别结果返回给用户。

  • 飞机行程单识别

    自动识别飞机行程单全部信息,一次扫描即可识别旅客姓名、身份证件号码、订单号、票价等全部信息。

    自动识别飞机行程单全部信息,一次扫描即可识别旅客姓名、身份证件号码、订单号、票价等全部信息。

  • 定额发票识别

    自动识别定额发票的全部信息,一次扫描即可识别发票号码、发票代码、地址、发票金额等全部信息。

    自动识别定额发票的全部信息,一次扫描即可识别发票号码、发票代码、地址、发票金额等全部信息。

  • 火车票识别

    自动识别火车票的全部信息,一次扫描即可识别一张车票的ID、检票口信息、车次等全部信息。

    自动识别火车票的全部信息,一次扫描即可识别一张车票的ID、检票口信息、车次等全部信息。

  • 增值税发票识别

    通过对增值税发票图片预处理、表格提取、文字提取、文字识别、结构化信息输出等一系列技术化手段,快速将增值税发票上的文字信息识别出来,用于后续的进一步处理,节省大量的人工录入成本。

    通过对增值税发票图片预处理、表格提取、文字提取、文字识别、结构化信息输出等一系列技术化手段,快速将增值税发票上的文字信息识别出来,用于后续的进一步处理,节省大量的人工录入成本。

  • 出租车发票识别

    自动识别出租车发票的全部信息,一次扫描即可识别归属地区、发票代码、发票号码、电话(包括电话、监督电话)等全部信息。

    自动识别出租车发票的全部信息,一次扫描即可识别归属地区、发票代码、发票号码、电话(包括电话、监督电话)等全部信息。

  • 车辆通行费发票识别

    自动识别车辆通行费发票的全部信息,一次扫描即可识别发票代码、发票号码、入口、出口、收费金额、收费员、车辆类型、日期、时间等主要信息。

    自动识别车辆通行费发票的全部信息,一次扫描即可识别发票代码、发票号码、入口、出口、收费金额、收费员、车辆类型、日期、时间等主要信息。

OCR识别的计费模式

OCR识别的计费模式

  • 按需计费:

    默认计费方式,指按照API调用次数收费,按次进行结算。

  • 套餐包计费:

    • 相比“按需计费”具有更大折扣。

    • 套餐包有效期为1年,到期不会自动顺延,请在有效期内使用完。

    • 套餐包到期后或套餐包使用完后,如果没有及时续费或购买新的套餐包,系统将自动转为按需计费方式。

    • 套餐包费用为一次性支付,即刻生效,暂不支持指定日期生效。

    • 套餐包可叠加使用,如果您购买了多个套餐包,则套餐包的扣减规则如下:

    1)按照套餐包来源类型扣费,扣减优先级由高到低为:免费额度->套餐包计费->按需计费。

    2)按套餐包创建、生效、失效时间扣费。

    多个套餐包,创建时间相同时,优先抵扣先生效的。

    多个套餐包,生效时间相同时,优先抵扣先失效的。

    多个套餐包,失效时间相同时,优先抵扣先创建的。


    说明:

    1)按需计费时,调用区域(Region)需和开通时的区域保持一致,否则会提示”ModelArts.4204服务未开通”。例如,开通华北-北京四区域的身份证识别服务,调用该服务接口时应对应开通时的华北-北京四区域。

    2)套餐包计费时,调用区域(Region)需和购买时的区域保持一致, 套餐包不支持跨区调用,否则会出现额外的计费或欠费。

    3)可就近选择靠近您业务的区域,以便减少网络延迟,提高访问速度。不过,中国大陆各个区域间访问速度区别不大,如果您或者您的目标用户在中国大陆,可以不用考虑不同区域造成的网络时延问题。

    4)OCR默认使用按需计费。您也可以根据您的实际情况购买套餐包,购买后对应区域的套餐将自动转为包年包月计费方式。如果超出当前已购买套餐包的额度,超出部分将自动转为按需计费。

展开内容
收起内容

OCR识别常见问题

OCR识别常见问题

  • 如何选择OCR套餐包的区域?

    不同的地域之间资源包不互通,每个地域需分别购买,请根据您的实际需求慎重选择。各服务所部署区域请参见终端节点。

    请先确定使用的服务与区域之后再购买相应区域的套餐包。

  • 购买套餐包后,为什么会出现额外的计费或欠费?

    套餐包额度已使用完:

    套餐包额度用完后,默认会转为按需计费,当账户中余额不足时,无法对当前产生费用进行扣费,就会导致欠费。


    套餐包额度未使用完:

    请登录费用中心检查套餐包的购买区域,与调用api的区域是否一致,套餐包不支持跨区调用。同时检查开通套餐包的API与实际调用的API是否一致。

  • OCR识别中,哪些算有效计费?

    1、OCR服务通过RestFul API调用,计费以Https请求返回的状态码为准,当返回状态码为2xx(如200/201)时,表示调用成功并进行扣费。

    2、OCR服务通过套餐包计费方式,来降低调用成本,从绝大部分客户的使用来看,客户上传错误样本导致计费的占比非常非常小,几乎可忽略不计。

    3、在客户使用OCR能力,进行二次开发时,可以尽可能的通过页面可视化提醒等方式,引导使用者尽量拍摄符合人眼易于识别的图片,以保障数据质量提升同时识别准确率。

    4、由于图片的输入非常开放,因此为了避免恶意攻击,在公有云上对有效识别的信息(即便部分不准)也会计费,类似于在通话质量不佳时通常也是要求计费。


  • OCR服务支持批量识别吗?

    OCR服务只支持调用一次接口识别一张图片,批量识别需要进行二次开发,编码循环调用API,实现批量调用服务识别图片。

  • OCR服务识别结果可以转化为Word、TXT、pdf吗?

    OCR提取之后返回的结果是JSON格式,需要用户通过编程,将结果保存为Word、TXT、pdf格式。

  • 调用OCR服务的区域可以与OBS资源的区域不一致吗?

    不支持跨区域OBS,OBS的区域需要和调用服务区域保持一致。

    对于开启公共读授权的OBS资源公网可访问,可支持跨区域调用,虽然使用比较方便,但若对于敏感的信息,例如个人的私有数据,存在泄露风险。建议您调用的文字识别服务和OBS服务是在同一个区域。

  • OCR识别服务提供哪些版本的SDK?

    目前OCR提供的SDK有Java、Python、Node.js、PHP、C++、Go、.NET版本。具体请参考文字识别服务《SDK参考》手册,该手册详细介绍了SDK支持的版本及使用方法。

    如果想用其他编程语言调用OCR API服务,可以使用Token鉴权方式,实现接口调用。具体请参考文字识别服务接口《API参考》手册,该手册详细介绍了如何调用API及各个API接口的详细参数信息。

  • 使用OCR识别服务需要的权限有哪些?

    1、使用OCR服务时,如果您需要使用华为云对象存储服务(OBS)中的数据,请开通对象存储服务OBS授权,可在控制台进行开通。

    2、OCR服务支持IAM细粒度划分策略。可以为子用户设置OCR服务的使用权限。

  • 使用OCR识别服务,是否会保存用户数据?

    1、OCR服务坚持“华为云始终把可信作为产品质量的第一要素”的理念,我们基于安全、合规、隐私、韧性、透明,为您提供有技术、有未来、值得信赖的云服务。

    2、OCR服务承诺用户识别的图片与识别结果全部不作任何形式留存,识别返回后立即释放。

    3、具体的声明请参考隐私政策声明法律声明,可信资源请参见白皮书资源。关于文字识别的相关声明请参见文字识别服务声明

  • 使用OCR识别服务是否必须使用华为云存储图片?

    文字识别服务支持输入图片的base64编码或图片的url路径。

    如果您使用图片的url路径,可以将图片上传至华为云对象存储服务(OBS)中,使用OBS提供的图片url。

    同时,您也可以不使用华为云存储,使用公网http/https url传入图片。

OCR识别相关文档下载

活动规则

活动对象:华为云电销客户及渠道伙伴客户可参与消费满送活动,其他客户参与前请咨询客户经理

活动时间: 2020年8月12日-2020年9月11日

活动期间,华为云用户通过活动页面购买云服务,或使用上云礼包优惠券在华为云官网新购云服务,累计新购实付付费金额达到一定额度,可兑换相应的实物礼品。活动优惠券可在本活动页面中“上云礼包”等方式获取,在华为云官网直接购买(未使用年中云钜惠活动优惠券)或参与其他活动的订单付费金额不计入统计范围内;

OCR识别操作指导视频教程

OCR识别使用SDK

06:38

OCR识别使用SDK

OCR识别使用API

03:04

OCR识别使用API