盘古大模型 PANGULARGEMODELS-图片类加工算子介绍:图文文本长度过滤
图文文本长度过滤
- 适用的文件格式:
tar+jsonl:所有图片保存为tar包。图片支持:jpg、jpeg、png、bmp图片类型
图片文本保存为一份jsonl文件,jsonl文件中图片名称必须要与tar包中的图片名称一致
- 各参数说明:
待过滤内容类型:过滤文本长度不在”文本长度范围”内的图文对。一个中文汉字或一个英文字母,文本长度统计为1。
- 参数配置样例:

- 过滤样例:
图3 加工前
图4 参数配置
图5 加工后
support.huaweicloud.com/usermanual-pangulm/pangulm_04_0031.html