文字识别 OCR-华为云

文字识别 OCR-准备数据:数据要求

数据要求受技术与成本多种因素制约，文字识别服务存在一些约束限制。以通用文字识别 API为例，输入数据存在以下约束。其他API的的使用约束请参见约束与限制。只支持识别PNG、JPG、JPEG、BMP、TIFF格式的图片。图像各边的像素大小在15px到8192px之间。图像中识别区域有效占比超过80%，保证所有文字及其边缘包含在图像内。支持图像任意角度的水平旋转。目前不支持复杂背景（如户外自然场景、防伪水印等）和文字扭曲图像的文字识别。

文字识别 OCR

文字识别 OCR-准备数据:数据传入方式

数据传入方式使用OCR API或SDK时，数据主要通过以下两种方法传入。 image 传入图片的base64编码。您可以通过在线转码工具，浏览器，使用Python中的base64.b64encode函数等方法，获取图片的base64编码。 url 传入图片的url路径。使用公网http/https url，例如https://support.huaweicloud.com/api-ocr/zh-cn_image_0288038400.png 将图片上传至华为云对象存储服务（OBS）中，使用OBS提供的url。使用OBS数据需要进行授权。包括对服务授权、临时授权、匿名公开授权，详情参见配置OBS访问权限。

文字识别 OCR

文字识别 OCR-解读识别结果

解读识别结果本章节通过网络图片识别API介绍如何解读调API返回的JSON格式识别结果。请参照API参考“响应参数”章节比对查看。以下图识别结果为例，讲解图片内容如何与API的返回字段对应。调用网络图片API成功后，在“JSON返回结果”中，可见result字段，该字段包含了图片中的文字块数目、文字块排列顺序、具体文本内容、所在位置、置信度等信息。 result字段仅在API调用成功后返回。 words_block_count表示文字块识别结果，本示例中，识别出2个文字块，分别代表图片中的2行文字。 words_block_list表示文字块列表，按照图片文字从上到下、从左到右排列。 words为识别出来的文本内容，confidence表示该字段的置信度。 location表示文字块的区域位置信息，采用图像坐标系，第一个文字块左上角顶点为[140,45]。 extracted_data表示图片中包含的联系人信息，仅在设置了入参extract_type，且图片中有联系人信息时支持提取。 { "result": { "words_block_count": 2, "words_block_list": [ { "words": "真材实料/舒柔养足", "confidence": 0.9491, "location": [ [ 140, 45 ], [ 380, 45 ], [ 380, 75 ], [ 140, 75 ] ] }, { "words": "选自优质头层牛皮，皮质柔软富弹性，耐折抗拉伸，穿着不变形", "confidence": 0.9897, "location": [ [ 58, 84 ], [ 462, 84 ], [ 462, 102 ], [ 58, 102 ] ] } ], "extracted_data": {} } } 父主题：获取识别结果

文字识别 OCR 获取识别结果

文字识别 OCR-票据类:功能介绍

功能介绍增值税发票识别通过对增值税发票图片预处理、表格提取、文字提取、文字识别、结构化信息输出等一系列技术化手段，快速将增值税发票上的文字信息识别出来，用于后续的进一步处理，节省大量的人工录入成本。机动车销售发票识别自动识别机动车销售发票图片内的文本内容，并返回结构化字段信息，用于后续的进一步处理，节省大量的人工录入成本。飞机行程单识别自动识别飞机行程单的全部信息，一次扫描即可识别旅客姓名、有效身份证件号码、订单号、票价等全部信息。定额发票识别自动识别定额发票的全部信息，一次扫描即可识别发票号码、发票代码、地址、发票金额等全部信息。火车票识别自动识别火车票的全部信息，一次扫描即可识别一张车票的ID、检票口信息、车次等全部信息。出租车发票识别自动识别出租车发票的全部信息，一次扫描即可识别归属地区、发票代码、发票号码、电话（包括电话、监督电话）等全部信息。车辆通行费发票识别自动识别车辆通行费发票的全部信息，一次扫描即可识别发票代码、发票号码、入口、出口、收费金额、收费员、车辆类型、日期、时间等主要信息。

文字识别 OCR 功能介绍

文字识别 OCR-约束与限制:出租车发票识别

出租车发票识别只支持识别PNG、JPG、JPEG、BMP、TIFF格式的图片。图像各边的像素大小在15到4096px之间。单个图片对应的Base64编码不超过10MB。图像中发票区域有效占比超过25%，保证整张发票内容及其边缘包含在图像内。支持少量扭曲，扭曲后图像中的发票长宽比与实际发票相差不超过10%。支持图像中出租车发票任意角度的水平旋转。文字识别服务属于公有云服务，线上用户资源共享，如果需要多并发请求，请提前联系我们。

文字识别 OCR

文字识别 OCR-约束与限制:泰文身份证识别

泰文身份证识别只支持泰国身份证的识别。只支持识别PNG、JPG、JPEG、BMP、TIFF格式的图片。泰国身份证识别图像各边的像素大小在15到8192px之间。单个图片对应的Base64编码不超过10MB。图像中身份证区域有效占比超过25%，保证整张身份证内容及其边缘包含在图像内。支持图像中身份证任意角度的水平旋转。支持少量扭曲，扭曲后图像中的身份证长宽比与实际身份证相差不超过10%。能处理反光、暗光等干扰的图片但影响识别精度。目前只支持识别单张身份证的正面或者反面。文字识别服务属于公有云服务，线上用户资源共享，如果需要多并发请求，请提前。

文字识别 OCR

文字识别 OCR-约束与限制:火车票识别

火车票识别只支持识别PNG、JPG、JPEG、BMP、TIFF格式的图片。图像各边的像素大小在15到8192px之间。单个图片对应的Base64编码不超过10MB。图像中火车票区域有效占比超过25%。支持图像中火车票任意角度的水平旋转。支持少量扭曲，扭曲后图像中的火车票长宽比与实际火车票相差不超过10%。支持识别铁路电子客票（含OFD格式）。铁路电子客票识别当前仅支持2024.11.01正式发行前的试行版式。文字识别服务属于公有云服务，线上用户资源共享，如果需要多并发请求，请提前联系我们。

文字识别 OCR

文字识别 OCR-约束与限制:保险单识别

保险单识别只支持识别PNG、JPG、JPEG、BMP、TIFF格式的图片。图像各边的像素在15到8192px之间。单个图片对应的Base64编码不超过10MB。图像中保险单区域有效占比超过70%，保证整张保险单及其边缘包含在图像内。支持图像中保险单旋转、支持少量扭曲。能处理暗光等干扰的图片但影响识别精度。覆盖常见保险公司的常见保单版式，由于即使是同一家保险公司，保险种类也繁多而且都在动态变化，实际支持情况请以实际测试效果为准。文字识别服务属于公有云服务，线上用户资源共享，如果需要多并发请求，请提前联系我们。

文字识别 OCR

文字识别 OCR-约束与限制:财务报表识别

财务报表识别只支持识别PNG、JPG、JPEG、BMP、TIFF格式的图片。图像各边的像素大小在15px到8192px之间。单个图片对应的Base64编码不超过10MB。图像中识别区域有效占比超过80%，保证整张表格及其边缘包含在图像内。支持图像任意角度的水平旋转。目前不支持复杂背景（如户外自然场景、防伪水印等）和表格线扭曲图像的文字识别。文字识别服务属于公有云服务，线上用户资源共享，如果需要多并发请求，请提前联系我们。

文字识别 OCR

文字识别 OCR-约束与限制:承兑汇票

承兑汇票只支持中英文。只支持识别PNG、JPG、JPEG、BMP、GIF、TIFF、WEBP、PCX、ICO、PSD格式的图片。图像各边的像素大小在15px到8192px之间。单个图片对应的Base64编码不超过10MB。图像中识别区域有效占比超过80%，保证所有文字及其边缘包含在图像内。不支持角度旋转的图片识别。支持电子承兑汇票，对于拍照场景、复杂背景支持欠佳。文字识别服务属于公有云服务，线上用户资源共享，如果需要多并发请求，请提前联系我们。

文字识别 OCR

文字识别 OCR-约束与限制:银行回单识别

银行回单识别支持JPEG、JPG、PNG、BMP、TIFF、PDF格式，多页PDF默认识别第一页。图像各边的像素大小在15px到8192px之间。单个图片、PDF文件其对应的Base64编码不超过10MB。支持同时返回单张图像中存在的多张回单识别结果。图像中key值对应的value值为空时，不会返回对应的键值对。目前不支持复杂背景（如户外自然场景、防伪水印等）和文字扭曲图像的文字识别。文字识别服务属于公有云服务，线上用户资源共享，如果需要多并发请求，请提前联系我们。

文字识别 OCR

文字识别 OCR-约束与限制:手写文字识别

手写文字识别只支持识别PNG、JPG、JPEG、BMP、TIFF格式的图片。图像各边的像素大小在15到8192px之间。单个图片对应的Base64编码不超过10MB。图像中识别区域有效占比超过80%，保证所有文字及其边缘包含在图像内。支持图像任意角度的水平旋转（需开启方向检测）。目前不支持复杂背景（如户外自然场景、防伪水印等）和表格线扭曲图像的文字识别。文字识别服务属于公有云服务，线上用户资源共享，如果需要多并发请求，请提前联系我们。

文字识别 OCR

文字识别 OCR-约束与限制:车辆合格证

车辆合格证只支持中国大陆车辆合格证的识别。只支持识别PNG、JPG、JPEG、BMP、TIFF格式的图片。图像各边的像素大小在15到8192px之间。单个图片对应的Base64编码不超过10MB。图像中识别区域有效占比超过80%，保证整张车辆合格证内容及其边缘包含在图像内。支持图像中车辆合格证任意角度的水平旋转。支持少量扭曲，扭曲后图像中的车辆合格证长宽比与实际驾驶证相差不超过10%。能处理暗光等干扰的图片但影响识别精度。文字识别服务属于公有云服务，线上用户资源共享，如果需要多并发请求，请提前联系我们。

文字识别 OCR

文字识别 OCR-约束与限制:机动车销售发票识别

机动车销售发票识别支持识别PNG、JPG、JPEG、BMP、TIFF、PDF格式。图像各边的像素大小在100到8000px之间。单个图片、PDF文件其对应的Base64编码不超过10MB。图像中识别区域有效占比超过80%，保证整张发票及其边缘包含在图像内。支持图像中发票任意角度的水平旋转。支持少量扭曲，扭曲后图像中的发票长宽比与实际发票相差不超过10%。文字识别服务属于公有云服务，线上用户资源共享，如果需要多并发请求，请提前联系我们。

文字识别 OCR

文字识别 OCR-约束与限制:通用文字识别

通用文字识别只支持识别PNG、JPG、JPEG、BMP、GIF、TIFF、WEBP、PCX、ICO、PSD、PDF格式的图片。图像各边的像素大小在15px到30000px之间。单个图片、PDF文件其对应的Base64编码不超过10MB。图像中识别区域有效占比超过80%，保证所有文字及其边缘包含在图像内。支持图像任意角度的水平旋转。支持自动过滤浅色文字水印。目前不支持复杂背景（如户外自然场景等）和文字扭曲图像的文字识别。支持中英文以及部分繁体字、马来语、乌克兰语、印地语、俄语、越南语、印尼语、泰语、阿拉伯语、德语、拉丁语、法语、意大利语、西班牙语、葡萄牙语、罗马尼亚语、波兰语、阿姆哈拉语、日语、韩语、土耳其语、挪威语、丹麦语、瑞典语、柬埔寨语、希伯来语识别。文字识别服务属于公有云服务，线上用户资源共享，如果需要多并发请求，请提前联系我们。

文字识别 OCR

云服务器内容精选

文字识别 OCR