云服务器内容精选

  • 使用限制 支持对所有目录设置配额,但只支持空目录删除配额。 设置配额后,如果SFS Turbo文件系统使用量超过限制会导致创建文件或目录、追加写入等操作失败。 设置配额时,支持添加多个目录路径,单次的批量添加最多可新增100个目录路径,一个SFS Turbo文件系统最多可新增5000个目录路径。 支持设置配额的最大目录深度为16层,不允许对根目录使用此功能。(注:根目录为第一层目录) 修改目录配额时,配额只能高于或等于已使用配额,不允许子目录配额高于父目录配额。 建议设置配额目录深度不超过3层,否则会出现修改类操作性能下降,性能下降幅度与配额目录深度有关。 不允许跨配额目录创建硬链接、rename操作。 图1 跨配额目录 跨配额目录操作为图1 跨配额目录红线所示,会穿过黑色虚线。 配额目录: D1,D2_0。 目录深度:根目录/往下到当前目录的层数,例如,目录/D1/D2_0/D3_1深度为4。 配额目录深度:当前目录不断往上找,穿过黑色矩形虚线的层数。例如,目录/D1/D2_0/D3_1配额目录深度为2。 红线与绿线:mv或者link操作,绿色表示允许操作,红色表示不允许操作。 虚线矩形:配额目录区域。 由于配置配额属于限制类风险操作,建议您对业务进行谨慎评估并充分测试验证后再进行配置。
  • FAQ 为什么添加目录配额失败? 是否使用了操作系统绝对路径而不是文件系统绝对路径,是否对同一目录重复设置,父级目录是否存在配额目录的配额低于配额设置值。 为什么在配额目录下新增了一个文件,查询配额时该目录容量没有变化? 目录配额容量的单位为MiB,当文件大小低于1MiB时,容量可能不会变化,但是文件数量会增加。 为什么修改配额失败? 该目录是否为配额目录,修改后的配额是否比已使用配额高,父级目录是否存在配额目录的配额低于配额设置值。 为什么文件新增到配额目录失败? 剩余配额是否充足,是否跨配额目录创建硬链接、rename操作。 为什么会出现实际目录使用空间超出配额的情况? 限制型配额的生效和失效都有延迟(正常情况下延迟时间约为1分钟)。当文件使用量超过限制时,限制型配额延迟生效,从而出现上述情况。
  • 约束与限制 该约束仅针对本地挂载路径(即挂载点),不影响其他文件或目录。 NFS协议的SFS Turbo文件系统暂不支持挂载至Windows系统的云服务器。 使用 域名 (DNS)挂载SFS Turbo文件系统时,不支持跨区域(Region)挂载,但可以通过指定IP的方式跨区域(Region)挂载,网络互通方式具体参考云连接CC“跨区域VPC互通”。 本地挂载路径(即挂载点根目录)的atime、ctime和mtime属性是当前时间,每次查询根目录属性返回的都是服务端当时时间的值。 暂不支持修改本地挂载路径(即挂载点)的元数据,即不支持对挂载点的元数据做如下操作: - touch:更新文件的访问时间和修改时间 - rm:删除文件或目录 - cp:复制文件或目录 - mv:移动文件或目录 - rename:重命名文件或目录 - chmod:修改文件或目录的权限 - chown:修改文件或目录的所有者 - chgrp:修改文件或目录的所属组 - ln:创建硬链接 - link:创建硬链接 - unlink:删除硬链接
  • 使用限制 仅支持NFS协议类型的SFS Turbo文件系统配置LDAP域。 在SFS Turbo对接LDAP服务器后,单个用户最多支持加入512个用户组。 在SFS Turbo对接LDAP服务器后,任何未存在于该LDAP服务器中的用户,其访问请求均会被系统拒绝。 在SFS Turbo对接LDAP服务器后,SFS Turbo将完全依据LDAP服务器中的配置信息来确定用户的组成员身份。本地的用户组信息将不再有效。 在SFS Turbo对接LDAP服务器之前,确保所有需要通过SFS Turbo访问资源的用户已存在于LDAP服务器中,且已分配至正确的用户组。
  • 概述 轻量级目录访问协议(Lightweight Directory Access Protocol,LDAP),是对目录服务器(Directory Server)进行访问、控制的一种标准协议。LDAP服务器可以集中式地管理用户和群组的归属关系,通过绑定LDAP服务器,当一个用户访问您的文件系统的文件时,SFS Turbo将会访问您的LDAP服务器以进行用户身份验证,并且获取用户和群组的归属关系,从而进行Linux标准的文件UGO权限的检查。要使用此功能,首先您需要搭建好LDAP服务器(当前SFS Turbo仅支持LDAP v3协议),常见提供LDAP协议访问的目录服务器实现有OpenLdap(Linux),Active Directory(Windows)等,不同目录服务器的实现细节有所差别,绑定时需要指定对应的Schema(Schema配置错误将会导致SFS Turbo无法正确获取用户以及群组信息,可能导致无权限访问文件系统内文件),当前SFS Turbo支持的Schema有: RFC2307(Openldap通常选择此Schema) MS-AD-BIS(Active Directory通常选择此Schema,支持RFC2307bis,支持嵌套的群组) SFS Turbo还支持配置主备LDAP服务器,当您的一台LDAP服务器故障无法访问后,SFS Turbo将会自动切换到备LDAP服务器访问,以免影响您的业务。如果所有配置的LDAP服务器都不可连通,则所有用户都会失去访问权限。 如果系统已对接 LDAP 服务器,SFS Turbo将不会对未在LDAP中配置的用户授予任何权限。
  • FAQ 为什么添加目录配额失败? 是否使用了操作系统绝对路径而不是文件系统绝对路径,是否对同一目录重复设置,父级目录是否存在配额目录的配额低于配额设置值。 为什么在配额目录下新增了一个文件,查询配额时该目录容量没有变化? 目录配额容量的单位为MiB,当文件大小低于1MiB时,容量可能不会变化,但是文件数量会增加。 为什么修改配额失败? 该目录是否为配额目录,修改后的配额是否比已使用配额高,父级目录是否存在配额目录的配额低于配额设置值。 为什么文件新增到配额目录失败? 剩余配额是否充足,是否跨配额目录创建硬链接、rename操作。 为什么会出现实际目录使用空间超出配额的情况? 限制型配额的生效和失效都有延迟(正常情况下延迟时间约为1分钟)。当文件使用量超过限制时,限制型配额延迟生效,从而出现上述情况。
  • 使用限制 设置配额后,如果SFS Turbo文件系统使用量超过限制会导致创建文件或目录、追加写入等操作失败。 设置配额时,支持添加多个目录路径,单次的批量添加最多可新增100个目录路径,一个SFS Turbo文件系统最多可新增5000个目录路径。 支持设置配额的最大目录深度为16层,不允许对根目录使用此功能。(注:根目录为第一层目录) 修改目录配额时,配额只能高于或等于已使用配额,不允许子目录配额高于父目录配额。 建议设置配额目录深度不超过3层,否则会出现修改类操作性能下降,性能下降幅度与配额目录深度有关。 不允许跨配额目录创建硬链接、rename操作。 图1 跨配额目录 跨配额目录操作为图1 跨配额目录红线所示,会穿过黑色虚线。 配额目录: D1,D2_0。 目录深度:根目录/往下到当前目录的层数,例如,目录/D1/D2_0/D3_1深度为4。 配额目录深度:当前目录不断往上找,穿过黑色矩形虚线的层数。例如,目录/D1/D2_0/D3_1配额目录深度为2。 红线与绿线:mv或者link操作,绿色表示允许操作,红色表示不允许操作。 虚线矩形:配额目录区域。 由于配置配额属于限制类风险操作,建议您对业务进行谨慎评估并充分测试验证后再进行配置。
  • 请求示例 配置hpc缓存型后端信息,冷数据淘汰时间是100小时,后端校验时间是60秒。配置Nas后端信息,nas 配置 ip是“192.168.xx.xx:/”,nas 配置协议类型是“NFS”。 { "update_hpc_cache" : { "action" : "initialize_overlay", "data" : { "gc_time" : 100, "ck_time" : 60, "nas" : [ { "name" : "abc", "type" : "NFS", "url" : "192.168.xx.xx:/" } ] } } }
  • 请求参数 表2 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token 是 String 账号的token Content-Type 是 String MIME类型 表3 请求Body参数 参数 是否必选 参数类型 描述 update_hpc_cache 是 ReqUpdateHpcCacheInfo object 后端挂载信息 表4 ReqUpdateHpcCacheInfo 参数 是否必选 参数类型 描述 action 是 String 配置hpc缓存型的动作,如initialize_overlay data 是 ReqUpdateHpcCacheData object hpc 缓存型后端配置信息 表5 ReqUpdateHpcCacheData 参数 是否必选 参数类型 描述 gc_time 是 Long 冷数据淘汰时间。单位:小时。指定时间内线上缓存的数据如果没有被访问则会自动从缓存中删除。0表示数据不会因为时间原因自动从缓存中删除。 ck_time 是 Long 后端校验时间。单位:秒。指定时间间隔进行线上缓存文件与后端存储文件比较,存在变化则自动更新。0表示文件进行实时校验。 nas 否 Array of ConfigNasTarget objects 配置 nas 后端的信息 表6 ConfigNasTarget 参数 是否必选 参数类型 描述 name 是 String nas 配置名 type 是 String nas 配置协议类型 url 是 String nas 配置 ip
  • 响应参数 状态码:200 表7 响应Header参数 参数 参数类型 描述 X-request-id String 请求ID 状态码:400 表8 响应Header参数 参数 参数类型 描述 X-request-id String 请求ID 表9 响应Body参数 参数 参数类型 描述 errCode String 错误码 errMsg String 错误描述 状态码:500 表10 响应Header参数 参数 参数类型 描述 X-request-id String 请求ID 表11 响应Body参数 参数 参数类型 描述 errCode String 错误码 errMsg String 错误描述
  • 监控指标 表1 高性能弹性文件服务支持的监控指标 指标ID 指标名称 指标含义 取值范围 单位 进制 测量对象(维度) 监控周期(原始指标) client_connections 客户端连接数 该指标用于统计测量客户端连接数。 说明: 连接数统计的是活跃的客户端链接。 如果客户端长时间无IO,网络链接会自动断开,当有IO时客户端会自动重新建立网络链接。 ≥0 Count 不涉及 弹性文件服务Turbo 1分钟 data_read_io_bytes 读带宽 该指标用于测量读I/O负载。 ≥0 bytes/s 1024(IEC) 弹性文件服务Turbo 1分钟 data_write_io_bytes 写带宽 该指标用于测量写I/O负载。 ≥0 byte/s 1024(IEC) 弹性文件服务Turbo 1分钟 metadata_io_bytes 元数据读写带宽 该指标用于测量元数据读写I/O负载。 ≥0 byte/s 1024(IEC) 弹性文件服务Turbo 1分钟 total_io_bytes 总带宽 该指标用于测量总I/O负载。 ≥0 byte/s 1024(IEC) 弹性文件服务Turbo 1分钟 iops IOPS 该指标用于测量单位时间内处理的I/O数。 ≥0 Count 不涉及 弹性文件服务Turbo 1分钟 used_capacity 已用容量 该指标用于统计文件系统已用容量。 ≥0 byte 1024(IEC) 弹性文件服务Turbo 1分钟 used_capacity_percent 容量使用率 该指标用于统计文件系统已用容量占总容量的比例。 0-100 % 不涉及 弹性文件服务Turbo 1分钟 used_inode 已用inode数 该指标用于统计文件系统已用inode数 ≥1 Count 不涉及 弹性文件服务Turbo 1分钟 used_inode_percent inode使用率 该指标用于统计文件系统已用inode数占总inode数的比率。 0-100 % 不涉及 弹性文件服务Turbo 1分钟
  • 约束与限制 约束项 说明 文件系统功能 SMB协议文件系统不支持OBS联动、NAS联动功能。 同一文件系统不能同时支持NFS协议和SMB协议。 SMB与NFS类型文件系统不支持相互使用备份进行恢复,只支持恢复出相同类型的文件系统。 SMB协议文件系统不支持多VPC功能。 SMB协议功能 不支持文件扩展属性(Extended attributes)。 不支持稀疏文件(Sparse Files)、文件压缩、网卡状态查询、重解析点(Reparse Points)等IOCTL或FSCTL操作。 不支持交换数据流(Alternate Data Streams)。 不支持LDAP身份认证功能。 不支持SMB文件传输协议的Direct、SMB Multichannel、SMB Directory Leasing功能。 不支持Change notify。 不支持软、硬链接。 不支持锁(OpLock/OpenLock/BRL/Lease)功能和Persistent File Handle功能。 SMB协议版本 支持SMB 2.0、SMB 2.1、SMB 3.0版本。 SMB客户端 在所有挂载文件系统的计算节点上和所有共享访问文件系统的用户中,任何一个特定文件或目录最多可以同时被打开10000次,即10000个活跃文件句柄。
  • 操作步骤 登录SFS Turbo管理控制台。 在SFS Turbo文件系统列表中,找到待添加标签的SFS Turbo文件系统并单击目标SFS Turbo文件系统名称,进入SFS Turbo文件系统详情界面。 图1 SFS Turbo文件系统标签信息 选择“标签”页签。 在“标签”页签下,单击“编辑标签”按钮。弹出“编辑标签”对话框。 单击“添加新标签”,添加标签的“键”和“值”,并单击“确定”。 键:该项为必选参数。 值:该项为可选参数。 返回标签列表,即可看到新添加的标签,添加完毕。同时也可以对已添加的标签进行编辑和删除操作。
  • 加速加载checkpoint 在加载checkpoint的时候,利用内存快恢、checkpoint广播等技术,大大减少后端存储的带宽压力,提升加载效率。具体地,对于训练中进程级故障、硬件仍然健康的故障场景,主机侧客户端内存缓存仍会保留,本机缓存中的checkpoint仍可正常访问,此时可从主机侧客户端内存中直接加载checkpoint进行原地秒级快速恢复;为避免所有GPU/NPU卡同时从存储中加载checkpoint致使存储带宽成为拥塞瓶颈,在具有相同checkpoint的冗余组内,采用部分代表节点先从远端存储加载checkpoint并将checkpoint广播到剩余其他节点的恢复机制,这种策略显著降低大规模训练集群故障恢复过程对远端存储带宽的需求,加速大规模训练集群checkpoint快速恢复。 图2 加载checkpoint流程
  • 背景 当前,大模型训练往往使用成百上千加速卡训练几周到几个月不等。在训练过程中,故障导致训练中断经常发生。训练程序一般采用周期checkpoint方案来将训练状态持久化到存储,当发生故障时,训练程序能恢复到故障之前的模型和优化器的状态继续训练。原生Pytorch系框架在保存checkpoint时均直接持久化到存储系统,耗时与模型大小、存储的IO性能等密切相关,往往需要几分钟到几十分钟不等,为了保证训练状态的一致性,保存checkpoint时训练必须暂停,保存时间影响了训练过程的整体效率。当发生故障,训练程序从已有checkpoint恢复时,每张卡都需要从持久化存储中加载,在训练集群规模较大,存储带宽较低的场景下,加载耗时可能会达到小时级,严重影响训练恢复。因此,我们在AITurbo SDK中提供了快速保存和加载checkpoint的功能,当前流行的两种大模型训练框架Megatron进行简单适配便可使用。