AI开发平台MODELARTS-读CSV文件:参数说明

时间:2024-04-30 17:04:13

参数说明

参数名称

是否必选

参数说明

默认值

schema_str

非空字符串

schema:配置每一列对应的数据类型,格式为colname0 coltype0[, colname1 coltype1[, ...]]。例如:f0 string,f1 bigint,f2 double。

注意:配置的数据类型需要与CSV文件每一列的数据类型保持一致,否则该列内容会读取失败。

local_file_path

本地文件路径

非必须,可通过文件夹选取;仅当file_source为LOCAL时,该路径有效。

file_path

读取CSV文件的路径

  1. 当文件来源选择OBS时,支持输入OBS文件路径,此时路径必须以OBS://开头。
  2. 当文件来源选择OTHERS时,支持输入HDFS文件路径。

file_source

支持LOCAL、OBS和OTHERS。范围:['LOCAL','OBS','OTHERS']

LOCAL

field_delimiter

字段分隔符;若输入则必须为字符

,

handle_invalid_method

处理无效值的方法(无效值表示schema_str中设置的数据类型和csv中的不符),取值如下:

1.ERROR:抛出异常

2.SKIP:使用csv中的格式替换

ERROR

ignore_first_line

是否忽略第一行的数据。

若原表中已有表头,则需要开启此开关,否则会报错。

FALSE

quote_string

引号字符,设置用于转义引号值的单个字符。

"

row_delimiter

行分隔符。

\n

skip_blank_line

是否忽略空行。

若为True,该行数据全空时忽略;否则不忽略。

TRUE

1. schema_str这个参数,相当于增加列名(若csv没有列名,则增加列名,ignore_first_line需置为False) 或 重命名列名(若csv有列名,可以改列名,ignore_first_line需置为True)。

2. 只支持string,bigint,double类型,之后若是想改变数据类型,需使用新算子做类型转换;其中tinyint、smallint、int均为bigint类型,char、varchar、date等其他类型均为string类型。

3. 该算子默认以"\n"作为行分隔符,如果某一字段内部存在"\n",需要提前处理;例如;将"\n"提前替换为空格,防止读取失败。示例如下:

import pandas as pd
df = pd.read_csv("test.csv",index_col=0)
df = df.replace(to_replace=r'[\n\r]', value=' ', regex=True, inplace=True)
df.to_csv("output.csv")
support.huaweicloud.com/devtool-modelarts/devtool-modelarts_0261.html