云服务器内容精选

  • 场景介绍 影响餐厅销售的因素多种多样,如果只是单纯地靠人为推算餐厅销售量,容易出现偏差。 现在,可以使用ModelArts服务中的ML Studio提供的销售预测模板,省时省力地得到餐厅未来3个月内的销售预测结果。 作为餐厅经营人员,可根据预测结果更好地判断在新地段开设哪种类型餐厅,并把预测出来的销售量较高时间段(例如每年5~7月是餐厅旺季)作为餐厅核心经营周期,从而缩短资金投入周期,提高餐厅纯利润收入。
  • 准备数据 本章所用示例的数据已预置在/home/ma-user/work/.ml-workspace/built-in-workflow/sales_forecast数据文件夹中,无须上传即可直接使用。如果需要在算链中使用其它数据,则需要在华为云OBS中创建桶并上传数据。 本示例使用数据集基本信息可参见表1和表2。更多详细信息可见网址:https://www.kaggle.com/c/restaurant-revenue-prediction/data 表1 数据源的具体字段 字段名 含义 类型 描述 Id 餐厅id IntegerType 餐厅标识 OpenDate 开业时间 DateType 餐厅开业时间 City 城市名 StringType 餐厅所在城市 CityGroup 城市类型 StringType 餐厅所在城市类型(大型、其他) Type 类型 StringType 餐厅类型(FC、IL、DT、MB) FC:Food Court IL:Inline DT:Drive Thru MB:Mobile P1,P2 ~ P37 其他信息 NumericType 人口、房地产、商业数据等(1~5评分) revenue 金额 NumericType 餐厅营业额 表2 数据集的部分样本数据 Id OpenDate City CityGroup Type P1 P2 … P36 P37 revenue 0 07/17/1999 istanbul Big Cities IL 4 5 … 3 4 5653753 1 02/14/2008 Ankara Big Cities FC 4 5 … 0 0 6923131 2 03/09/2013 Diyarbakir Other IL 2 4 … 0 0 2055379 3 02/02/2012 Tokat Other IL 6 4.5 … 12 6 2675511 4 05/09/2009 Gaziantep Other IL 3 4 … 3 3 4316715 5 02/12/2010 Ankara Big Cities FC 6 6 … 0 0 5017319
  • Step3 使用ML Studio预测 新建一个预测算链。 拖拽读取模型算子至画布,设置“input_model_path”,为预测算链中保存模型路径,例如“./output/SalesForecast”。 拉取读取数据算子,设置“input_file_path”,为测试数据的文件路径,如“/home/ma-user/work/.ml-workspace/built-in-workflow/sales_forecast/sales_predict.csv”。 拉取模型应用算子,分别连接读取模型算子和读取数据算子,端口选择分别如图15和如图16所示。 图15 从读取模型算子连接模型应用算子 图16 从读取数据算子连接模型应用算子 最终预测算链如图17所示。单击运行,得到并查看预测运行结果。 图17 运行预测算链
  • Step2 使用ML Studio建模 从左侧资产浏览界面拖拽预置算子或自定义算子至右侧算链编辑界面,如图2所示,则创建算子成功。 图2 拖拽创建结点 在画布中,鼠标移至算子结点,从右侧输出端口,如图3所示,拖动连线至下一个算子结点,鼠标尽量放置至如图4 连线结束位置所示红框位置。 图3 从输出端口移动至下一结点 图4 连线结束位置 进行算子连线。 算子之间具有数据的流入流出关系,若源算子与目标算子的输出输入端口数量都为1,则直接连线,如图4所示。 鼠标右键单击读取数据算子,选择“设置参数”,如图5所示在右侧滑出的参数设置窗口填写输入路径, 例如“/home/ma-user/work/.ml-workspace/built-in-workflow/sales_forecast/sales_train.csv”,表示读取文件为该路径下的“sales_train.csv”。 图5 读取数据参数设置 若源算子和目标算子其中一个及以上具有多个输出输入端口,连线时需选择输入输出端口,如图6所示。 数据集分割算子连线随机森林回归算子,数据集分割算子具有输出端口datafram_1和dataframe_2,点击下拉框选择dataframe1为输出端口,随机森林回归算子只有输入端口dataframe,该步操作将数据dataframe1传入随机森林回归算子作为训练数据。 图6 数据集分割连线随机森林回归 右键单击随机森林回归算子,选择“设置参数”,在滑出的参数设置窗口填写标签列为“revenue”,如图7所示。 图7 随机森立回归参数设置 如图8所示,随机森林回归连线模型应用,随机森林回归算子输出pipeline_model传入模型应用算子, 作为模型应用算子的输入模型。 图8 随机森林回归连线模型应用 模型应用算子的dataframe由数据集分割算子的dataframe_2输入,如图9所示。 图9 数据集分割连线模型应用 添加回归评估算子作为评估算子,将其与模型应用连线,右键选择设置参数,填写标签列为“revenue”,如图10所示。 图10 回归评估参数设置 最后添加保存模型算子,将其与随机森林回归算子连线,右键该算子选择参数设置,如图11所示。填写模型保存路径(文件夹级)"./output/SalesForecast",表示输出模型保存到根目录下output/SalesForecast文件下。 图11 保存模型参数设置 算链创建完成,单击运行,耐心等待几分钟,运行成功,如图12所示。 图12 算链运行成功 若运行失败,双击失败算子或者右键该算子选择编辑代码,如图13所示。在编辑算子代码界面可修改代码进行调试,如图14所示 。 图13 右键选择编辑代码 图14 编辑代码