华为云用户手册

  • Dockerfile基本语法 FROM 指定待扩展的父级镜像(基础镜像)。除了注释以外,在文件的开头必须是一个FROM指令,后面的指令便在这个父级镜像的环境中运行,直到遇到下一个FROM指令。通过添加多个FROM命令,可以在同一个Dockerefile文件中创建多个镜像。 MAINTAINER 声明创建镜像的作者信息:用户名、邮箱,非必须参数。 RUN 用来修改镜像的命令,常用来安装库、程序以及配置程序。一条RUN指令执行完毕后,会在当前镜像上创建一个新的镜像层,接下来的指令会在新的镜像上继续执行。 RUN 语句具有以下形式。 RUN yum update:在/bin/sh路径中执行的指令命令。 RUN ["yum", "update"]:直接使用系统调用exec来执行。 RUN yum update && yum install nginx:使用&&符号将多条命令连接在同一条RUN语句中。 EXPOSE 用来指明容器内进程对外开放的端口,多个端口之间使用空格隔开。运行容器时,通过参数-P(大写)即可将EXPOSE里所指定的端口映射到主机上另外的随机端口,其他容器或主机就可以通过映射后的端口与此容器通信。您也可以通过-p(小写)参数将Dockerfile中EXPOSE中没有列出的端口设置成公开的。 COPY 将本地的文件或目录复制到镜像中。 ADD 向新镜像中添加文件,这个文件可以是主机文件、网络文件或文件夹。 第一个参数:源文件(夹)。 如果是相对路径,必须是相对于Dockerfile所在目录的相对路径。 如果是URL,会将文件先下载下来,然后再添加到镜像里。 第二个参数:目标路径。 如果源文件是主机上的zip或者tar形式的压缩文件,Docker会先解压缩,然后将文件添加到镜像的指定位置。 如果源文件是一个通过URL指定的网络压缩文件,则不会解压。 VOLUME 在镜像里创建一个指定路径(文件或文件夹)的挂载点,这个容器可以来自主机或者其它容器。多个容器可以通过同一个挂载点共享数据,即便其中一个容器已经停止,挂载点也仍然可以访问。 WORKDIR 为接下来执行的指令指定一个新的工作目录,这个目录可以是绝对目录,也可以是相对目录。根据需要,WORKDIR可以被多次指定。当启动一个容器时,最后一条WORKDIR指令所指的目录将作为容器运行的当前工作目录。 ENV 设置容器运行的环境变量。在运行容器的时候,通过设置-e参数可以修改这个环境变量值,也可以添加新的环境变量。 例如: docker run -e WEBAPP_PORT=8000 -e WEBAPP_HOST=www.example.com ... CMD 用来设置启动容器时默认运行的命令。 ENTRYPOINT 用来指定容器启动时的默认运行的命令,与CMD类似。区别在于:运行容器时添加在镜像之后的参数,对ENTRYPOINT是拼接,CMD是覆盖。 若在DockerFile中指定了容器启动时的默认运行命令为ls -l,则运行容器时默认启动命令为ls -l。 ENTRYPOINT [ "ls", "-l"]:指定容器启动时的程序及参数为ls -l。 docker run centos:当运行centos容器时,默认执行的命令是docker run centos ls -l。 docker run centos -a:当运行centos容器时拼接了-a参数,则默认运行的命令是docker run centos ls -l -a。 若在DockerFile中指定了容器启动时的默认运行命令为--entrypoint,则在运行容器时若需要替换默认运行命令,可以通过添加--entrypoint参数来替换Dockerfile中的指定。 docker run gutianlangyu/test --entrypoint echo "hello world" USER 为容器的运行及RUN、CMD、ENTRYPOINT等指令的运行指定用户或UID。 ONBUILD 触发器指令。构建镜像时,Docker的镜像构建器会将所有的ONBUILD指令指定的命令保存到镜像的元数据中,这些命令在当前镜像的构建过程中并不会执行。只有新的镜像使用FROM指令指定父镜像为当前镜像时,才会触发执行。 使用FROM以这个Dockerfile构建出的镜像为父镜像,构建子镜像时: ONBUILD ADD . /app/src:自动执行ADD . /app/src
  • 应用 EIHealth 平台的每一个分析作业都依托于应用运行。应用是生物信息学软件和运行该软件所依赖的运行环境的镜像封装,应用可以独立使用,也可以将多个应用编排入流程串联使用。 您可以在项目的应用列表中,查看隶属于该项目的应用,也可以通过搜索应用名称快速查找所需应用。应用列表展示了应用的名称、版本、创建者、修改时间、创建时间和可执行的操作。 详细的应用创建和使用请参见工具管理。 创建应用 应用是生物信息学软件的镜像封装,您可以制作软件镜像并上传至平台,并通过“新建应用”引入相关软件。 导入应用 应用按项目进行划分,隶属于不同项目的应用,可以通过“导入应用”的方法,导入至自己的项目中使用。
  • 流程 EIHealth中的分析流程包含分析过程中所需应用的执行信息和数据的输入、输出等参数定义。 分析流程至少由一个应用组成,在多个应用构成的流程中,一个应用的输出作为另一个应用的输入,流程中的各个应用由其前后顺序形成完整的计算工作流。 分析流程通过流程设计器创建,创建好的流程将存储于项目中。同时,您也可以通过“导入流程”的方法,将隶属于其他项目的流程导入至自己的项目中。 创建好的流程显示在流程列表中,您可以基于这些流程创建分析作业。 详细的流程创建和运行请参见新建流程。
  • 工具管理简介 EIHealth中的每一个分析作业都依托于应用运行。应用可以组合形成分析流程。 应用是生物信息学软件的镜像封装。您可以将软件制作成镜像,并将镜像上传至EIHealth平台,通过应用引入镜像。制作好的应用可以单独使用,也可以将多个应用编排入流程串联使用。在“项目管理”页面“工具”页签中,以列表形式展示了项目中的应用。您可以新建应用、导入应用或上传应用,并查看应用详情、版本、创建者、修改和创建时间,可以对名称、创建者、修改时间、创建时间、源项目进行排序。并可执行查询、修改和删除应用的操作。 图1 应用列表 流程包含分析过程中所需应用的执行信息和数据的输入、输出等参数定义。流程通过流程设计器创建,创建好的流程将存储于“项目管理”页面“工具”页签中。在该页签中,以列表形式展示了项目中的流程。您可以新建流程、导入流程或上传流程,并查看流程详情、版本、创建者、修改和创建时间,可以对名称、创建者、修改时间、创建时间、源项目进行排序。并可执行查询、编辑修改流程、删除操作和基于该流程创建分析作业。 图2 流程列表 父主题: 工具管理
  • 快照方式制作镜像 如果后续镜像没有变化,可通过快照方式制作镜像。 快照方式制作镜像示例: 本示例中使用华为云弹性云服务器服务(E CS )创建一台云服务器,并使用快照方式制作bwa镜像。 购买弹性云服务器。 云服务器创建成功后,在云服务器列表页,选中待登录的弹性云服务器。单击“远程登录”,输入ECS初始账号,登录ECS。 图1 云服务器列表 安装容器引擎。 启动一个空白的基础容器,并进入容器。 例如,启动一个CentOS容器。 docker run -it centos 安装依赖包。 yum -y install https://dl.fedoraproject.org/pub/epel/epel-release-latest-8.noarch.rpmyum -y install gityum -y install gcc automake autoconf libtool makeyum install -y zlib zlib-devel 安装bwa软件,在github上下载bwa的源代码,并使用make编译。 yum install bwagit clone https://github.com/lh3/bwa.gitcd bwa;make 请预先安装好Git,并检查本机是否有ssh key设置。 输入exit退出容器。 查询容器id。 docker ps -a 制作快照。 docker commit -m "xx" -a "tsj" container-id tsj/image:tag 例如:docker commit -m "test" -a "username" adb1127979a1 bwa:v0.7 -a:提交的镜像作者,例如tsj。 container-id:容器id。 -m:提交时的说明文字,例如xx。 tsj/image:tag:仓库名/镜像名:TAG名,名称可自定义。 执行docker images命令查看制作完成的Docker镜像。
  • 镜像 运行生物信息学软件,往往由于不同的操作系统(Windows、Linux、Mac等)原因,无法实现统一的运维管理。同时,这些软件具有不同的版本和软件包,安装、使用过程复杂。将生物信息学软件封装成Docker镜像,可以使程序在不同的环境中运行,并通过EIHealth平台的镜像管理,实现高效的调用,极大方便了软件的安装和运行。 Docker镜像是一个模板,是容器应用打包的标准格式,在部署容器化应用时可以指定镜像。例如一个Docker镜像可以包含一个完整的Ubuntu操作系统环境,里面仅安装了用户需要的应用程序及其依赖文件。EIHealth平台使用 容器镜像服务 (Software Repository for Container,简称SWR)进行简单易用、安全可靠的镜像管理。
  • 获取创建分析应用的镜像 创建分析应用时,您可以通过Docker Hub等镜像仓库,搜索引擎,自己制作等途径获取所需的镜像。 例如,可在Docker Hub获取bwa软件(用于将基因序列比对到参考基因组上)。 以下类型镜像,建议您通过Docker Hub获取,不建议自己制作。 基础操作系统类镜像,如Ubuntu、Suse、Centos等。 基础编程语言类镜像,如Java、Python、R语言等。 基础通用类软件镜像,如Tomcat、Mysql、Ngnix等。
  • 获取创建Notebook的镜像 创建Notebook时,平台为您提供了系统镜像和自定义镜像。 系统镜像 工作环境选择PY3版本。 自定义镜像 创建Notebook时所需的自定义镜像,依赖于 医疗智能体 平台自研的基础镜像,您需要基于获取的基础镜像制作自定义镜像。 先连接容器 镜像服务 ,参考步骤1.连接容器镜像服务操作,然后使用如下的镜像地址拉取基础镜像。 # 基础镜像docker pull swr.cn-north-4.myhuaweicloud.com/eihealth-notebook/eihealth-notebook:cuda11.0-custom-v1.0.8 在基础镜像中,为您内置了CUDA11.0环境。使用CUDA11.0环境前,需要执行以下命令导入环境变量。 export PATH=$PATH:/usr/local/nvidia/binexport LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/nvidia/lib64
  • 添加项目成员 前提条件 平台管理员首先通过“用户管理”功能添加平台用户,才能将该用户添加至项目中。 创建用户的详细方法请参见创建平台用户。 存在一个创建好的项目。 操作步骤 添加项目成员有两种不同的方法,请任选其中一种方法操作。 方法一 单击项目名称,进入项目“设置”页。 单击“添加”,添加成员。 图1 添加成员 输入已添加至平台的用户的全称。 图2 输入用户名全称 单击“添加”,设置用户角色。详细成员角色介绍请参见表1。 图3 设置成员角色 单击“确认”,将用户添加至项目中。 方法二 在项目列表中,单击“操作”列“分享”。 图4 分享项目 输入已添加至平台的用户的全称。 图5 输入用户名全称 单击“添加”,设置用户角色。详细成员角色介绍请参见表1。 图6 设置成员角色 单击“确认”,将用户添加至项目中。
  • 导入应用 导入应用是将隶属于其他项目的应用导入至本项目中,一次至多导入50个应用。 使用“导入应用”功能,用户需是其他项目中的成员,且为其他项目的“所有者”或“管理员”。 单击“导入应用”,进入导入应用页面。 图1 导入应用 选择需要引用的项目以及项目中的应用,选择应用的版本。“导入应用名称”是选填项,可以使用原有名称,或自定义。 图2 导入应用 单击“确定”,导入应用,导入过程中可以查看每个应用的导入状态。 父主题: 工具管理
  • 导入用户 盘古辅助制药平台支持把 IAM 子用户导入至平台子用户。通过导入已有子用户,增加用户使用的便捷度,方便用户维护账号。 使用管理员账户登录盘古辅助制药平台。 在右上角用户名中选择“用户管理”。 在用户管理页面,单击“导入用户”,进入“导入用户”页面。 在导入用户页面,可以选择“用户”或者“用户组”进行导入。 图1 导入用户 导入的IAM子用户需要具有管理控制台访问方式。 导入用户时不能超出配额。如果超出配额,进行配额调整后,5分钟后生效。 以用户组的方式导入时,若超出配额的部分会导入失败。 以用户组的方式导入时,用户组里已经导入到平台的用户,不算统计个数。例如,用户组A里50个用户,10个已经导入平台, 那么统计时,只会显示已选择40个用户。 IAM平台限制一个IAM用户不能加入超过10个用户组,而导入时还会再加入医疗用户组。如果IAM用户在导入平台之前就已经加入了10个用户组,则导入的时候会失败。 用户数统计时会去重。例如,用户组A有50个用户, 用户组B里有50个用,两者之间有10个用户重复,那么同时选择用户组A和B,统计时显示已选择90个用户。 如果导入后用户状态显示异常,需联系技术支持处理。 单击“下一步”,设置角色。设置是否为“系统管理员”。 配置完成后,单击“确定”。 等待导入成功后,单击“关闭”。可以在用户管理页面查看导入成功的用户信息。 导入的用户,不支持删除,只支持移除,移除后不影响该用户操作其他服务。 图2 查看导入用户 医疗平台用户会在IAM中赋予以下细粒度权限,若该用户加入的其他IAM用户组有对应的deny权限,则会影响平台部分功能使用。 { "Version": "1.1", "Statement": [ { "Effect": "Allow", "Action": [ "obs:bucket:GetBucketLocation", "obs:bucket:ListBucketMultipartUploads", "obs:object:GetObjectVersion", "obs:object:GetObject", "obs:object:GetObjectVersionAcl", "obs:object:DeleteObject", "obs:object:ListMultipartUploadParts", "obs:bucket:HeadBucket", "obs:object:AbortMultipartUpload", "obs:object:DeleteObjectVersion", "obs:object:GetObjectAcl", "obs:bucket:ListAllMyBuckets", "obs:bucket:ListBucket", "obs:object:PutObject" ] } ]} 父主题: 用户管理
  • 分子搜索 可自定义数据库,以用户输入的参考化合物结构为起点,可以按照相似度或者骨架从小分子数据库中搜索到相似结构和排序,可实现百亿级小分子的秒级搜索。 单击“分子搜索”功能卡片,进入分子搜索页面。 在配置页面,进行分子搜索配置,包括输入小分子、选择搜索算法、选择输出个数。 图1 分子搜索页面 输入小分子:可以通过输入SMILES、上传文件或者直接绘制输入小分子。最终以SMILES为准。 选择算法:可以选择ECFP4 Tanimoto相似度或者骨架搜索。ECFP4 Tanimoto相似度是通过ECFP4指纹计算Tanimoto相似度来搜索相似度比较高的小分子。骨架搜索是通过设置分子骨架搜索具有相同骨架的分子。 选择数据库:最多可选择10个数据库。 选择属性模型:选择AI模型。如果需要创建模型,可参考AI模型。此参数只有专业版支持。一次最多可以选10个模型属性。 输出个数:输出个数越多,任务时间越长。 作业名称:设置作业名称。长度为5~64个字符,仅可以使用字母、数字、下划线“_”、中划线“-”和空格,首位只能以数字或字母开头。 标签:设置任务标签。 单击“提交”。可在作业中心查看该作业的运行情况。 运行完成后,可在作业中心单击该作业查看输出结果。 单击按钮,可以收藏分子搜索结果,收藏后的结果可直接在收藏夹页查看。 图2 作业中心 图3 输出结果(1) 图4 输出结果(2) 图5 查看分子详情 图6 分子下游分析 图7 作业信息页面 父主题: 苗头化合物发现
  • 查看模型列表 在AI模型页签下支持查看创建的所有模型。包括模型的名称、模型类型、基模型来源、创建时间、完成时间、创建者、状态、组织共享、操作等信息。 图2 查看属性模型列表 查看模型指标 查看loss值:loss代表模型训练的损失变化。 单击相应模型操作列的“查看loss”即可查看相应的训练集Loss。 删除模型:单击相应模型操作列的“删除”,在弹窗中单击“确定”,即可删除掉对应的模型。 查看评价指标:在模型列表页,单击某个模型名称左侧的按钮,可展示当前模型的相关指标,包括模型的数据量、描述、区间范围、评价指标、模型数据。 其中,评价指标的值代表了训练完成的模型在测试集上的好坏。
  • 导入用户 EIHealth平台支持把华为云的IAM子用户导入至平台子用户。通过导入已有子用户,增加用户使用的便捷度,方便用户维护账号。 IAM用户导入只支持使用Domain用户导入。 使用管理员账户登录医疗智能体平台。 在右上角用户名中选择“用户管理”。 图1 用户管理 在用户管理页面,单击“导入用户”,进入“导入用户”页面。 在导入用户页面,可以选择“用户”或者“用户组”进行导入。 图2 导入用户 导入的IAM子用户需要具有管理控制台访问方式。 导入用户时不能超出配额。如果超出配额,进行配额调整后,5分钟后生效。 以用户组的方式导入时,若超出配额的部分会导入失败。 以用户组的方式导入时,用户组里已经导入到平台的用户,不算统计个数。例如,用户组A里50个用户,10个已经导入平台, 那么统计时,只会显示已选择40个用户。 IAM平台限制一个IAM用户不能加入超过10个用户组,而导入时还会再加入医疗用户组。如果IAM用户在导入平台之前就已经加入了10个用户组,则导入的时候会失败。 用户数统计时会去重。例如,用户组A有50个用户, 用户组B里有50个用,两者之间有10个用户重复,那么同时选择用户组A和B,统计时显示已选择90个用户。 如果导入后用户状态显示异常,需联系技术支持处理。 单击“下一步”,设置角色。 角色:支持管理员和操作员两种角色,默认为操作员。权限描述可以参考表2。 用户资源配额:设置用户的个人资源配额。详细请参考个人资源配额。 配置完成后,单击“确定”。 等待导入成功后,单击“关闭”。可以在用户管理页面查看导入成功的用户信息。 导入的用户,不支持删除,只支持移除,移除后不影响该用户操作其他服务。 图3 查看导入用户 医疗平台用户会在IAM中赋予以下细粒度权限,若该用户加入的其他IAM用户组有对应的deny权限,则会影响平台部分功能使用。 { "Version": "1.1", "Statement": [ { "Effect": "Allow", "Action": [ "obs:bucket:GetBucketLocation", "obs:bucket:ListBucketMultipartUploads", "obs:object:GetObjectVersion", "obs:object:GetObject", "obs:object:GetObjectVersionAcl", "obs:object:DeleteObject", "obs:object:ListMultipartUploadParts", "obs:bucket:HeadBucket", "obs:object:AbortMultipartUpload", "obs:object:DeleteObjectVersion", "obs:object:GetObjectAcl", "obs:bucket:ListAllMyBuckets", "obs:bucket:ListBucket", "obs:object:PutObject" ] } ]} 父主题: 用户管理
  • 用户管理介绍 EIHealth平台支持两种类型的用户管理,可以帮助您安全地控制平台的访问和使用权限。 表1 用户管理类型 类型 说明 系统级别用户管理 系统级的角色配置,可创建平台的子用户,并为其分配权限。 项目级别用户管理 资源级的角色配置,以项目为粒度对数据、分析作业、开发环境和镜像进行分组,以便用户通过项目进行资源的访问、共享和协作。详细介绍请参见项目管理,项目级用户不同角色对应的权限请参考成员角色和权限。 图1 系统级别用户管理 图2 项目级别用户管理 购买平台的账号是资源的归属以及使用计费的主体,对其所拥有的资源具有完全控制权限。 在您购买了平台后,所属账户即为平台的管理员账户。可以使用“用户管理”功能,创建子用户,并给子用户分配管理员或操作员权限。不同用户权限如表 用户权限所示。 表2 用户权限 用户角色 权限说明 管理员 拥有平台所有的权限,并进行用户管理,在平台添加子用户,以及对资源管理权限,包含有存储计算资源的购买和删除,自动扩缩容的策略配置权限。 操作员 拥有除用户管理、系统设置、设置商标、购买系统资源之外的所有权限。 购买平台的账户为管理员账户,该账户不可被删除。 管理员可以创建子用户,并将子用户授权为管理员。子管理员同样具备“用户管理”功能。 对于系统级别的管理员用户(购买平台的账户),可以在平台右上角用户名中选择“用户管理”,在“操作”列中选择“安全设置”,重置其他用户的邮箱、手机和密码信息。 单击“重置邮箱”后,可以选择清除邮箱或绑定新邮箱。 单击“重置手机号”后,可以选择清除手机号或绑定新手机号。 单击“重置密码”后,输入新密码和确认密码。用户密码重置成功后,首次登录成功需要再次修改密码。 父主题: 用户管理
  • SPONGE 分子模拟是指利用计算机以原子水平的分子模型来模拟分子结构与行为,进而模拟分子体系的各种物理、化学性质的方法。它是在实验基础上,通过基本原理,构筑起一套模型和算法,从而计算出合理的分子结构与分子行为。SPONGE(Simulation Package tOward Next GEneration)是由北京大学高毅勤教授课题组与华为团队联合开发的新一代分子动力学模拟程序,具有高性能、模块化等特性,是一个完全自主研发的分子模拟软件库。基于高毅勤教授课题组和华为团队的技术支持,已经实现自由能微扰加速10倍以上。测试
  • 查看项目信息 项目信息中提供了项目设置,成员管理,数据审计,您可以通过如下方式查看。 在平台左上角选择项目名称,单击,进入项目设置页面。 图2 查看项目信息 项目设置 在项目设置页面,可以查看项目名称,该项目的数据存储OBS桶名称。所有者可以修改项目描述,转移项目,删除项目。管理员可以修改项目描述,退出项目。操作员可以退出项目。 删除项目后数据、作业会同步删除,删除项目不可逆,请谨慎操作。 成员管理 在成员管理页面可以添加或者移除访问该项目的成员。 图3 成员管理 数据审计 平台通过 云审计 服务( CTS )提供操作记录的收集、存储和查询,审计操作可以设置导出用户的读操作和写操作(默认)和仅写操作(可选),保存周期可以设置需要保存的审计日志的保存周期,下载按钮可以下载最近7天内最新的1万条数据审计日志,查看按钮可以查看及下载保存的审计日志。 通过审计日志可用于支撑安全分析、合规审计、资源跟踪和问题定位等常见应用场景。您可以在项目的“数据审计”页面下载最近7天的数据审计日志,其他操作的审计日志请登录云审计服务控制台查看。 图4 数据审计
  • 引用数据 将其他项目或OBS桶中的数据,引用到本项目,不可在本项目中操作该数据。 单击数据中心右上角“引用”。 选择需要引用的项目以及项目中的数据,或者选择待引用的OBS桶路径,先选择OBS桶所在区域,再选择OBS桶名称,支持选择不在同一区域的OBS桶。 图3 引用数据 单击“确定”,引用其他项目中的数据至本项目。 引用的数据和项目将显示在左侧的数据列表中。 图4 引用的数据 引用OBS类型数据时,如果数据在OBS中的存储类型为“归档存储”,则将该数据引用过来后,该数据不能用于创建作业,并不可下载。 平台系统管理员在自己的所有者、管理员、操作者项目可以引用OBS类型数据。平台系统管理员在自己的所有者、管理员、操作者项目可以解除引用OBS类型数据。其他角色的用户仅能使用引用进来的OBS类型数据。
  • 创建数据库 数据库支持使用.csv、.txt、.vcf文件生成数据库。创建的数据库需要保证数据文件与模板对应。创建数据库时,可以不选择导入的数据文件,建立空的数据库,后期可以新增数据行或者导入数据。如果使用自动作业的数据表创建数据库,在导入数据,需要参照数据库模板格式进行导入。 您可以导入本项目或使用其他项目中的数据生成数据库。 选择好文件后,通过设置数据的分隔符、跳过的行数来设置有效数据的起始位置。 常见的分隔符有“;”、“,”、“\t”,除此之外您也可以使用其他分隔符。以图1为例,分隔符为制表符,创建数据库时,分隔符填写为“\t”,有效数据从第2行开始,跳过文件行数填写为1。 在本地编写.csv、.txt、.vcf文件时,文件编码格式使用UTF-8。 为保证查询性能,建议数据库行数小于500万行,若超过该量级,建议拆分数据库。 导入数据文件大小建议小于1GB。 新增的double类型数据,double的取值范围是-2^1024 ~ +2^1024,也即-1.79E+308 ~ +1.79E+308。超出精度返回会保留小数点后16位的精度。 图1 测试数据 图2 创建数据库
  • 新建文件并打开Console Console的本质为Python终端,输入一条语句就会给出相应的输出,类似于Python原生的IDE。 进入JupyterLab主页后,可在“Notebook”区域下,选择适用的AI引擎,单击后将新建一个对应框架的Notebook文件。 由于每个Notebook实例选择的工作环境不同,其支持的AI框架也不同,下图仅为示例,请根据实际显示界面选择AI框架。 图5 选择AI引擎并新建一个Console 文件创建成功后,将直接呈现Console页面。 图6 新建文件(Console)
  • 创建药物虚拟筛选任务 虚拟药物筛选支持使用资产市场中预置的“Docking Summary”流程对小分子化合物配体和蛋白受体进行对接。该流程可以实现以下功能。 整合分子对接结果,生成结合能矩阵。 整合受体与分子对接产生的配体构象,用于可视化展示。 对配体分子进行注释,包括DrugBank编号、分类、化学式、X LOG P3、TPSA、靶点、Csp3比例、分子量、可旋转键数目。 使用步骤如下所示。 在“资产市场”中订阅版本为1.0.0“Docking Summary”流程至所需的项目中。 进入“专题”页签,单击“新建研究”。 填写任务的基本信息,包括选择任务所属项目,研究的名称和描述。 图1 基本信息 选择配体分子和受体蛋白。 作业名称:自定义名称。 类型:选择小分子化合物。 流程:选择从资产市场中订阅的“Docking Summary”流程。 配体分子:配体分子文件,支持SMILES、3D SDF、PDB、MOL2格式。 受体蛋白:受体蛋白文件,支持PDB格式。 图2 选择配体分子和受体蛋白 设置数据库。 数据库功能可以将任务运行过程中产生的数据文件按照模板生成数据库。 数据库名称:数据库的名称。 输出文件格式:可以将流程生成的分子对接结果,保存为.txt、.csv或.vcf格式。使用“Docking Summary”流程时,保存格式为.txt。 相对路径:流程运行完成后,会按照流程子任务的名称生成数据文件,相对路径指按照哪个数据路径中的结果文件生成数据库。 对于“Docking Summary”流程,包含5个子任务,默认在task-5-docking summary中保存有汇总的数据文件。 task-1-ligand 3dsdf to pdbqt:将配体的sdf文件转换为pdbqt文件。 task-2-ligand smiles to 3dsdf:将配体的smiles文件转换为3dsdf文件。 task-3-receptor pdb to pdbqt:将受体的pdb文件转换为pdbqt文件。 task-4-qvina-w:分子对接。 task-5-docking summary:汇总分子对接结果。 图3 数据路径和流程图 图4 设置数据库 设置完成后,单击“提交”,执行药物虚拟筛选任务。 对于“运行中”的任务,单击图标,允许取消、强制停止或删除。 对于“已取消”、“运行失败”的任务,单击图标,允许修改任务参数,再次提交任务。 图5 运行状态
  • 打开JupyterLab 选择状态为“运行中”的Notebook实例,单击“操作”列的“打开”访问Notebook。 单击右上角的“Open JupyterLab”,可直接打开此Notebook实例对应的JupyterLab页面。 图1 进入JupyterLab 进入JupyterLab页面后,自动打开Launcher页面,如下图所示。您可以使用开源支持的所有功能,详细操作指导可参见JupyterLab官网文档。 图2 JupyterLab主页
  • 查看执行状态 您可以通过单击作业名称,进入详情页面,查看详细的运行信息。包括运行状态、标签、描述、创建时间、完成时间、运行时间、计算节点标签、加速类型、优先级等。单击“概述”列按钮,在展开的信息栏中查看作业的输入&输出、节点参数、应用;在作业的子任务中可以查看日志、事件;在事件页签,可以查看实例的事件详情、下载YAML文件、查看监控。如果并发执行了多个作业,则会产生多个子任务。 对于执行失败的作业,鼠标指向作业状态,在弹出的提示框中可以查看“失败信息”和“失败原因”。同时,使用不同颜色提示执行状态,特别是对于由多个应用构成的分析作业,通过颜色方便地区分应用的执行状态。 绿色:运行成功。 红色:运行失败。 蓝色:等待运行。 灰色:被取消运行。 蓝色圆圈:运行中。 作业运行的时间,可以通过“概述”列的进度条进行查看。进度条中的颜色与应用状态颜色对应。单击进度条中的颜色块,可以展开并查看应用的运行日志,最多可以显示5000条日志。 分析作业创建后,可以通过“事件”查看容器执行该作业时的动作和状态,单击图标,展开“事件”。 图1 作业详情 如果作业显示运行正常,但实际作业中的某一个应用运行失败,请检查输入数据是否正常,并修改算法程序入口的main函数,保证运行结果有显式的返回值。 故障说明 作业运行时,每个应用称之为一个任务(Task)。部分场景下,任务输入数据异常,实际作业运行失败,但界面显示运行正常。 作业中子任务没有返回正确的值,但是容器仍正常退出return 0,此时判定为子任务已正确执行。 实际上作业的子任务对应的就是K8S中的一个Pod,其返回状态就是Pod的phase映射,即容器以非0状态退出或者被系统终止会算作失败;容器return 0并且不再重启即算成功。详细内容介绍请参见Pod的生命周期。 处理建议 所有的算法程序的入口main函数都显式的给出返回值,即正确执行则return 0。其他异常场景return其他数值或者抛出异常,并输出相关日志。 # python def funcA(): try: doSomething(); except: log.print("An exception occurred, xxxxx"); raise 自定义异常; def funcB(): result = doSomething(); return result; if __name__ == '__main__': funcA(); result = funcB(); if result: sys.exit(1); else: sys.exit(0); # c++ int main(){ int result = doSomething(); if(result != 0){ return -1; } else{ return 0; } }
  • OBS存储类型的Notebook Notebook列表中所有文件的读写操作是基于所选择的OBS路径下的内容操作,即Notebook中的数据和被挂载的OBS路径中的数据是同步的。在OBS路径中创建文件夹、上传数据,会同步到Notebook中,Notebook中的操作也会同步到OBS中,如图 通过OBS同步数据所示。 图2 通过OBS同步数据 “Upload”上传数据大小受限时,您可以通过以下多种方式将文件上传到OBS中,通过OBS与Notebook进行数据同步。 表1 上传数据方法 上传方法 说明 “数据”页面上传 通过“数据”页面上传数据,支持上传最大为1GB的单个文件。 数据上传方法请参见“数据”页面上传。 使用命令行工具上传 命令行工具(eihealth-toolkit)配套EIHealth平台,提供数据、应用、流程和作业资源的管理和使用,支持上传最大为48.8TB的单个文件。 数据上传方法请参见命令行工具概述。 对于非挂载目录以外的目录下的文件,重启Notebook后会消失。例如,上传文件至Notebook的根目录下,该文件并不在被挂载的obs路径中,重启Notebook,该文件会消失。
  • 设置邮箱接收消息范围 在平台右上角用户名中选择“个人设置”,进入邮箱 消息通知 设置页面。设置邮箱消息的接收范围和接收类型。 接收范围 仅自己接收操作:自己所执行的操作。如果选择此项,接收类型默认全选。 全部接收:自己有权限访问的项目中产生的操作,包含自己和其他项目成员所执行的操作。默认为全部接收。 不接收:不接收操作通知。 接收类型 数据操作:数据的复制、删除、导入等异步操作通知。 作业进度:分析作业开始执行、执行成功通知。 系统消息:项目删除、内存使用量告警、消息清理通知。 图3 消息通知 邮箱中接收到的消息通知如图4所示。 图4 邮箱消息通知
  • 设置消息发送邮箱 通过设置邮箱,发送平台的通知。设置邮箱功能只有管理员用户可进行操作。 在平台右上角用户名中选择“系统设置”,设置邮件配置。 服务器地址:邮箱开通SMTP功能时的服务器地址,不同邮箱开通SMTP方式不同,请使用搜索引擎查找邮箱开通SMTP方式。 邮箱地址:填写邮箱地址,用于发送EIHealth平台的消息通知。 用户名:邮箱的用户名,如果未修改过,默认为邮箱地址。 密码:邮箱开通SMTP功能时生成的一段随机字符。 消息头:发送邮件时,邮件标题。 语言:选择中文或英文。 删除邮箱后,将不再发送邮件通知。 图1 邮件配置 邮箱配置完成后,单击“测试”,验证配置是否有误。配置成功后将在邮箱中收到测试通知。 图2 邮箱测试通知 收到邮箱测试通知后,单击“更新”,完成邮箱设置。
  • 步骤3:预览AutoGenome案例 打开创建的Notebook。 在Notebook的根目录下的“AutoGenome-Examples”文件夹中,包含使用AutoGenome进行分析的示例,可供参考。 图1 AutoGenome-Examples 表2 AutoGenome示例 示例名称 说明 single_cell_rfcn_densenet.ipynb 基于RFCN-DenseNet和表达谱对单细胞发育时期进行分类。 pbmc_res_vae.ipynb 基于Res-VAE和表达谱对单细胞数据降维。
  • 步骤4:使用AutoGenome Notebook包含了端到端使用AutoGenome的代码,您可以使用Notebook案例复现AutoGenome示例的结果。 以“pbmc_res_vae.ipynb”为例,用户可以打开相应的代码集,直接运行该Notebook,也可以调整代码集中的代码,进行二次开发。 图2 基于Res-VAE和表达谱对单细胞数据降维 使用该Notebook时需要运行相应的代码模块,运行步骤如下所示。 环境配置:加载AutoGenome以及辅助绘图的软件包。 读取配置文件:通过json文件配置输入和输出路径。 模型训练:针对提供的数据和模型参数,AutoGenome会搜索得到最优的神经网络结构。训练过程经过模型搜索阶段和模型训练阶段,在模型搜索阶段,根据json文件中的配置参数,对于选定的模型参数会训练一定步数,搜索得到较好结果的参数进行后续训练。训练过程中可选择在验证数据集上进行评估,评估结果更好的模型参数将会保留。 提取降维之后数据:完成模型训练后,生成降维后的结果数据。 当您在运行AutoGenome示例出现“Warning:restart the kernel and run the notebook again!”时,请单击Notebook工具栏中的按钮,重启Notebook环境,并重新执行出现告警的代码。 您可以在Notebook工作目录中上传数据,使用AutoGenome工具。数据上传下载请参见数据的上传和下载。 对于非挂载目录以外的目录下的文件,重启Notebook后会消失。例如,上传文件至Notebook的根目录下,该文件并不在被挂载的obs路径中,重启Notebook,该文件会消失。 图3 Upload上传数据
  • 预置数据库和模板 平台内置“神农项目”药物虚拟筛选数据库和药物配体注释信息数据库,并提供对应的数据库模板。您可以在“数据库”页签单击“shennongProject-database”和“ligandAnnotation-database”数据库查看数据库详情,在“模板”页签单击“shennongProject”和“ligandAnnotation”查看模板详情。 “神农项目”药物虚拟筛选数据库 数据库呈现了新冠病毒靶点蛋白和药物的结合能信息。“神农项目”是抗疫期间医疗智能体团队联合多家科研单位,从新冠病毒蛋白序列开始,针对所有21个靶点蛋白进行同源建模、分子动力学模拟优化,获取了靶点蛋白的3D结构。并对超过8500个已上市、进入临床的小分子药物进行了约18万种药物-靶点配对情况的计算评估,获取的结合能信息均公开在“神农项目”中。 图1 “神农项目”药物虚拟筛选数据库 图2 数据库模板 药物配体注释信息数据库 数据库呈现了“神农项目”中8500多种药物的注释信息。包含了药物在DrugBank数据库中的ID、药物通用名称、分类、化学式、SMILES结构式、标签和成药性相关的信息。 图3 药物配体注释信息数据库 图4 数据库模板
  • 购买数据库 使用数据库功能前,需要先购买数据库,数据库只能购买一个。 在“数据库”页面,单击“购买数据库”。 选择“数据库规格”、“性能规格”、“磁盘加密”、“计费模式”、“购买时长”、“购买数量”。 图13 购买数据库 数据库规格:选择“标准版”。 性能规格:根据您的需求选择规格。 磁盘加密:选择加密后会提高数据安全性,但对数据库读写性能有少量影响,请按照您的使用策略进行选择。 计费模式:选择“包年包月”或“按需”计费。 购买时长:如果选择的“包年包月”计费,根据实际需求选择购买时长;如果选择的“按需”计费,无需选择购买时长。 勾选自动续费后,系统将在产品到期前自动续费,续费周期为一个月,无需用户再手动操作。 购买数量:1个,不可修改。 单击“立即购买”。 在确认购买弹窗中单击“确认”。
共100000条