AI开发平台MODELARTS-读CSV文件:参数说明

时间：2024-04-30 17:04:13

AI开发平台MODELARTS 输入

参数说明

参数名称	是否必选	参数说明	默认值
schema_str	是	非空字符串 schema：配置每一列对应的数据类型，格式为colname0 coltype0[, colname1 coltype1[, ...]]。例如：f0 string,f1 bigint,f2 double。注意：配置的数据类型需要与CSV文件每一列的数据类型保持一致，否则该列内容会读取失败。	无
local_file_path	否	本地文件路径非必须，可通过文件夹选取；仅当file_source为LOCAL时，该路径有效。	无
file_path	否	读取CSV文件的路径当文件来源选择OBS时，支持输入OBS文件路径,此时路径必须以OBS://开头。当文件来源选择OTHERS时，支持输入HDFS文件路径。	无
file_source	否	支持LOCAL、OBS和OTHERS。范围：['LOCAL','OBS','OTHERS']	LOCAL
field_delimiter	否	字段分隔符；若输入则必须为字符	,
handle_invalid_method	否	处理无效值的方法(无效值表示schema_str中设置的数据类型和csv中的不符)，取值如下： 1.ERROR：抛出异常 2.SKIP：使用csv中的格式替换	ERROR
ignore_first_line	否	是否忽略第一行的数据。若原表中已有表头，则需要开启此开关，否则会报错。	FALSE
quote_string	否	引号字符，设置用于转义引号值的单个字符。	"
row_delimiter	否	行分隔符。	\n
skip_blank_line	否	是否忽略空行。若为True，该行数据全空时忽略；否则不忽略。	TRUE

1. schema_str这个参数，相当于增加列名（若csv没有列名，则增加列名，ignore_first_line需置为False）或重命名列名（若csv有列名，可以改列名，ignore_first_line需置为True）。

2. 只支持string，bigint，double类型，之后若是想改变数据类型，需使用新算子做类型转换；其中tinyint、smallint、int均为bigint类型，char、varchar、date等其他类型均为string类型。

3. 该算子默认以"\n"作为行分隔符，如果某一字段内部存在"\n",需要提前处理；例如；将"\n"提前替换为空格，防止读取失败。示例如下：

import pandas as pd
df = pd.read_csv("test.csv",index_col=0)
df = df.replace(to_replace=r'[\n\r]', value=' ', regex=True, inplace=True)
df.to_csv("output.csv")

上一篇：AI开发平台MODELARTS-读CSV文件:样例

下一篇：AI开发平台MODELARTS-使用Notebook开发Ascend算子:在VS Code中调试matmul算子