盘古大模型 PANGULARGEMODELS-图片类加工算子介绍:图文文本语言过滤
图文文本语言过滤
- 适用的文件格式:
tar+jsonl:所有图片保存为tar包。图片支持:jpg、jpeg、png、bmp图片类型。
图片文本保存为一份jsonl文件,jsonl文件中图片名称必须要与tar包中的图片名称一致。
- 各参数说明:
待过滤内容类型:提取图文压缩包中的JSON文本和图片,并对图片进行结构化解析(BASE64编码),方便图文加工算子使用。
- 参数配置样例:

- 去重样例:
加工前:
参数配置:
加工后:
support.huaweicloud.com/usermanual-pangulm/pangulm_04_0028.html