数据转换:UDF可用于数据清洗和转换,如格式化日期、转换字符串或编码数据。 业务逻辑封装:UDF可将业务逻辑封装在函数中,使得数据处理更加模块化和可重用。 性能优化:在某些情况下,通过UDF将复杂的计算逻辑移到数据库服务器上执行,可以减少数据传输和提高性能。
功能丰富:支持数据清洗、转换、聚合、合并等操作,是数据分析和科学计算的常用工具。 父主题: DataArtsFabric DataFrame
带Scalar UDF的DF示例 场景描述 在AI数据工程中,数据预处理是一个关键步骤,通常需要对存储在数据库中的数据进行复杂的清洗、转换和特征工程操作。
Inner Join, Left Outer Join, Semi Join, Anti Join 适用于被连接的数据子集较小的查询。
使用限制: JOIN类型仅限于INNER JOIN、SEMI JOIN、RIGHT JOIN、RIGHT SEMI JOIN、RIGHT ANTI JOIN、RIGHT ANTI FULL JOIN。
指定Join方式的Hint,仅支持除semi/anti join,unique plan之外的常用hint。 指定结果集行数的Hint。 指定Stream方式的Hint。
数据工程 高效处理大规模数据,通过并行计算加速数据处理过程,例如数据清洗、转换和聚合。 分布式机器学习 Ray支持分布式训练和调优,可以用于处理大规模数据集和模型,使得模型训练更加高效。 大模型 使用大模型实现智能对话、自动摘要、机器翻译、文本分类、图像生成等任务。