-
聚类分析 目前分子对接返回的结果小分子数较多,无法进行批量分析,通过一些聚类的 辅助方式能更好地选择分子。从每个类里挑选出一两个分子进行后续分析和验证,提高分析的效率和分析质量。也可以通过聚类找出一些关键的骨架,来进行下游的分子优化、分子属性预测、合成路径规划等。 在输出结果页面左上角单击“聚类分析”后,系统开始进行分析,同时显示“聚类分析中”。 待聚类分析完成后,单击“查看聚类结果”。进入聚类结果页。 在聚类结果页面,可以查看每个聚类的分子数量等信息。 图15 查看聚类结果 单击某个聚类的操作列的“查看详情”,即可进入聚类详情页面,聚类详情页支持以卡片、列表以及3D的形式查看。默认展示卡片页面,用户可自行进行切换。 图16 查看聚类详情 每个结果页面只用进行一次聚类分析操作。 聚类结果是存成文件,如果文件被删或者获取不到的话会有警告, 聚类结果不存在。此时可以单击“重新聚类分析”。 如果聚类失败,根据提示失败原因解决问题后,可单击“重新聚类分析”。
-
环境毒性(Environmental Toxicity) Bioconcentration Factors: 生物浓缩系数(BFC)。生物体内某种化合物的浓度同水中该物质的浓度比值,单位为log10(L/kg)。 IGC50: 48 hour Tetrahymena pyriformis IGC50(50% Inhibition Growth Concentration),导致50% Tetrahymena pyriformis生长抑制,在48小时后的化学物质浓度。单位为−log10[(mg/L)/(1000*MW)]。 LC50FM: 96 hour fathead minnow LC50,导致50% fathead minnow死亡,在96小时后的化学物质浓度。单位为−log10[(mg/L)/(1000*MW)]。 LC50DM: 48 hour Daphnia magna LC50,导致50% Daphnia magna死亡,在48小时后的化学物质浓度。单位为−log10[(mg/L)/(1000*MW)]。
-
分布(Distribution) PPB: Plasma protein binding,血浆蛋白结合度。结合度的多少会影响药物的渗透情况。 结果解释:结合度小于90%比较合适。 VD: Volume Distribution,体积分布,单位为L/kg。 结果解释:VD值在0.04~20L/kg之间较好。 BBB Penetration: blood–brain barrier Penetration,血脑屏障。作用于中枢神经系统的药物需要穿过血脑屏障 (BBB) 才能达到其分子靶点。相反,对于具有外围靶点的药物,不需要BBB渗透以避免中枢神经系统副作用,单位为cm/s。logBB 大于-1为(BBB+), logBB小于等于-1为(BBB-),数值在0~1之间。 结果解释:预测值的范围在0~1之间。 Fu: The fraction unbound in plasms,未结合血清蛋白的比例。药物与血清蛋白的结合程度越高,渗透性越差。 结果解释:未结合比例大于等于5%效果较好。
-
吸收(Absorption) Caco-2 Permeability: 人体结肠腺癌细胞系(Caco-2)用来估计药物渗透性。单位为Log cm/s。 结果解释:大于-5.15 log cm/s代表具有较好的渗透性。 MDCK Permeability: MDCK细胞的表观渗透系数Papp用来估计药物进入人体的吸收效率。单位为cm/s。 结果解释:大于20 x 10-6cm/s代表具有较好的渗透性,2~20 x 10-6cm/s具有一般渗透性,小于2 x 10-6cm/s具有较差的渗透性。 Pgp-inhibitor: Pgp-inhibitor,Pgp抑制。0为非Pgp抑制,1为Pgp抑制。 结果解释:预测值的范围在0~1之间。 Pgp-substrate: Pgp-substrate,Pgp基质。0为非Pgp基质,1为Pgp基质。 结果解释:预测值的范围在0~1之间。 HIA: Human intestinal absorption,人体肠道吸收指标。HIA大于30%代表具有较好的吸收性(HIA+),小于30%为(HIA-)。 结果解释:预测值的范围在0~1之间。 F20%: The human oral bioavailability 20%,人体口服生物利用度。大于20%为(F20%+),小于20%为(F20%-)。 结果解释:预测值的范围在0~1之间。 F30%: The human oral bioavailability 30%,人体口服生物利用度。大于30%为(F30%+),小于30%为(F30%-)。 结果解释:预测值的范围在0~1之间。
-
代谢(Metabolism) Metabolism 药物代谢反应过程可以分为两大类:第一阶段(氧化反应),第二阶段(共轭反应),人类细胞色素P450家族与第一阶段的氧化反应有关,其中1A2、3A4、2C9同工酶尤为重要,大部分集中在肝脏。0为非抑制剂/非基质,1为抑制剂/基质,数值范围在0~1之间。 结果解释:预测值的范围在0~1之间。 CYP1A2 inhibitor 细胞色素P450 1A2亚型抑制剂,0为非抑制剂,1为抑制剂。 结果解释:预测值的范围在0~1之间。 CYP2C9 inhibitor 细胞色素P450 2C9亚型抑制剂,0为非抑制剂,1为抑制剂。 结果解释:预测值的范围在0~1之间. CYP3A4 inhibitor 细胞色素P450 3A4亚型抑制剂,0为非抑制剂,1为抑制剂。 结果解释:预测值的范围在0~1之间。 CYP2C19 inhibitor 细胞色素P450 2C19亚型抑制剂,0为非抑制剂,1为抑制剂。 结果解释:预测值的范围在0~1之间。
-
Tox21通路(Tox21 Pathway) NR-AR: Androgen receptor,雄激素受体。在AR依赖性前列腺癌和其他相关雄激素相关疾病中起关键作用,内分泌干扰物与AR的相互作用,会破坏正常的内分泌功能,因此需要了解化学物质对ER信号通路的影响。0为AR无活性,1为AR有活性。数值在0~1之间。 结果解释:预测值的范围在0~1之间。 NR-AR-LBD: 雄激素受体配体结合区。0为AR-LBD无活性,1为AR-LBD有活性。数值在0~1之间。 结果解释:预测值的范围在0~1之间。 NR-AhR: The Aryl hydrocarbon Receptor,芳香烃受体。AhR是一种配体激活性转录因子。当与多环芳烃、卤代芳烃等配体结合后,可调控一系列基因的表达。0为AhR无活性,1为AhR有活性。数值在0~1之间。 结果解释:预测值的范围在0~1之间。 NR-Aromatase: Aromatase,芳香化酶,是雌激素生物合成的关键酶。0为Aromatase无活性,1为Aromatase有活性。数值在0~1之间。 结果解释:预测值的范围在0~1之间。 NR-ER: Estrogen receptor,雌激素受体。在发育和新城代谢中起重要作用,内分泌干扰物与ER的相互作用,会破坏正常的内分泌功能,因此需要了解化学物质对ER信号通路的影响,0为Estrogen receptor无活性,1为Estrogen receptor有活性。数值在0~1之间。 结果解释:预测值的范围在0~1之间。 NR-ER-LBD: 雌激素受体配体结合区。0为ER-LBD无活性,1为ER-LBD有活性。数值在0~1之间。 结果解释:预测值的范围在0~1之间。 NR-PPAR-gamma: peroxisome proliferator-activated receptors PPAR,过氧化物酶体增殖物激活受体。PPAR是一类由配体激活的核转录因子,PPAR超家族有3个亚型:即PPAR-α、 PPAR-δ(又称PPAR-β或NUC-1)和PPAR-γ,分别由不同的基因编码,PPAR-γ受体(格列酮受体)。参与调节糖脂代谢。0为PPAR-gamma无活性,1为PPAR-gamma有活性。数值在0~1之间。 结果解释:预测值的范围在0~1之间。 SR-ARE: antioxidant response element ARE,抗氧化反应元件。ARE与Nrf2结合,启动下游大量的抗氧化酶基因的转录。0为ARE无活性,1为ARE有活性。数值在0~1之间。 结果解释:预测值的范围在0~1之间。 SR-ATAD5: ATPase family AAA domain-containing protein 5,三磷酸腺苷酶家族蛋白5。ATAD5会随着各种类型的DNA损伤而在蛋白质水平上增长。0为ATAD5无活性,1为ATAD5有活性,数值在0~1之间。 结果解释:预测值的范围在0~1之间。 SR-HSE: Heat shock factor,热激蛋白。HSE是一类功能性相关蛋白质,当细胞受到升高温度或其他胁迫时它们的表达就会增长。0为HSE无活性,1为HSE有活性,数值在0~1之间。 结果解释:预测值的范围在0~1之间。 SR-MMP: Mitochondrial membrane potential,线粒体膜电位。线粒体是动植物细胞生成ATP的主要地点,是促进细胞能量转换、参与细胞凋亡的重要细胞器。 线粒体在产生能量时会将电化学势能储存于线粒体内膜,在内膜两侧,若质子及其他离子浓度的不对称分布就会形成线粒体膜电位,即MMP,测量活细胞中的MMP通常用于评估化学物质对线粒体功能的影响。0为MMP无活性,1为MMP有活性,数值在0~1之间。 结果解释:预测值的范围在0~1之间。 SR-p53: p53,一种肿瘤抑制因子,控制细胞周期的启动。在所有恶性肿瘤中,50%以上会出现该基因的突变。0为p53无活性,1为p53有活性,数值在0~1之间。 结果解释:预测值的范围在0~1之间。
-
毒效团(Toxicophore Rules) Acute Toxicity Rule: 有20个子结构,含有该子结构可能在口服给药期间引起急性毒性。 结果解释:数值代表有多少个子结构匹配此数据库,可以通过DETAIL查看所匹配的子结构特征。 Genotoxic Carcinogenicity Rule: 117个子结构,含有该子结构可能通过遗传毒性引起致癌性或者致突变性。 结果解释:数值代表有多少个子结构匹配此数据库,可以通过DETAIL查看所匹配的子结构特征。 NonGenotoxic Carcinogenicity Rule: 23个子结构,含有该子结构可能通过非遗传毒性引起致癌性或者致突变性。 结果解释:数值代表有多少个子结构匹配此数据库,可以通过DETAIL查看所匹配的子结构特征。 Skin Sensitization Rule: 155个子结构,含有该子结构可能会导致皮肤损伤。 结果解释:数值代表有多少个子结构匹配此数据库,可以通过DETAIL查看所匹配的子结构特征。 Aquatic Toxicity Rule: 99个子结构,含有该子结构可能会对液体(包括水)造成毒性。 结果解释:数值代表有多少个子结构匹配此数据库,可以通过DETAIL查看所匹配的子结构特征。 NonBiodegradable Rule: 19个子结构,含有该子结构可能会不可生物降解。 结果解释:数值代表有多少个子结构匹配此数据库,可以通过DETAIL查看所匹配的子结构特征。 SureChEMBL Rule: 164个子结构,含有该子结构可能会具有不好的药物化学结构。 结果解释:数值代表有多少个子结构匹配此数据库,可以通过DETAIL查看所匹配的子结构特征。 FAF-Drugs4 Rule: 154个子结构,含有该子结构可能会有毒性。 结果解释:数值代表有多少个子结构匹配此数据库,可以通过DETAIL查看所匹配的子结构特征。
-
合成路径规划 合成路径规划基于盘古药物分子大模型,根据给定的目标分子,可以设计出完整且合理的合成路径。 单击“合成路径规划”功能卡片,进入配置页面。 在配置页面,可以在左侧绘制分子,也可以通过上传分子文件方式上传分子或者在白框内输入小分子SMILES表达式。 上传分子文件:支持SDF、MOL2、PDB、SMI格式文件。 最大搜索路径个数:合成路径规划的路径数量。路径数量增加,将展示更多的合理合成路径;路径数量减少,可能会有部分合理路径未展示。默认值50,取值范围1-50。 最大搜索深度:深度增加,每一个路径可进行搜索的深度限制增加,作业运行时间可能延长;深度减少,部分路径可能在还未搜索完成时被终止。默认值5,取值范围3-12。 最大搜索时间:合成路径规划的搜索时间限制,到达限制时间会返回已经搜索完成的路径。搜索时间增加,作业运行时间延长;搜索时间减少,可能会有部分合理路径未能开始搜索。默认值30min,取值范围5-60。 每个产物最大反应数量:合成路径中每一个中间产物最多有多少种可能的反应,按照反应置信度从高到低排序。最大反应数量增加,每个中间产物的可搜索反应范围数量增加,作业运行时间延长;最大反应数量减少,可能会有部分合理反应未能纳入搜索。默认20,取值范围2-20。 作业名称:可修改,修改后左上角也同步修改。长度为5~64个字符;仅可以使用字母、数字、下划线“_”、中划线“-”和空格;首位只能以数字或字母开头。 标签:设置作业标签。 功能调用次数:合成路径规划目前是一个运行成功的作业消耗一次功能调用次数。 图1 分子合成路径 引用外部桶时,需要确保所引用的数据不超过45层级的目录。 单击“提交”。可在作业中心查看该作业的运行情况。 运行完成后,可在作业中心单击该作业查看输出结果,输出结果缩略图。 图2 查看运行结果(1) 单击查看路径,查看输出结果详情。 可以单击左上角“下载”,下载当前的输出结果。 下载操作将会产生流量费用,具体可参考《
医疗智能体 -产品介绍》的计费说明章节。 图3 查看运行结果(2) 父主题: 先导化合物优化
-
公共资产列表 表1 资产列表 分类 资产名称 说明 镜像 image-stitching 针对TB级3D鼠脑稀疏标记成像数据的全自动拼接软件,减少数据分析50%的错误率,节省20%的时间,助力脑科学研究的效率提升。 AutoGenome AutoGenome为Notebook镜像,是一个利用AutoML等技术帮助科研工作者在基因组学数据上端到端实现深度学习网络搜索,训练,评估,预测和解释的工具包。 数据 人基因组数据 GRch38-reference数据集为人类基因参考基因组,广泛用于人类基因组分析中,如WGS、callvariants 等。数据集总大小约 13GB。 NGS大数据集 NA24385-raw数据集为NGS流程测试数据集,作为该流程的原始输入。数据集总大小约 186.2GB。 NGS小数据集 NA12878-small数据集为NGS流程测试数据集,作为该流程的原始输入。数据集总大小约 216MB。 docking summary测试数据 配体文件:小分子化合物SMILES结构式文件。 受体文件:蛋白3D结构PDB文件。 RNA-Seq测试数据及参考基因组数据集 RNA-Seq-Dataset数据集包含RNA-Seq分析流程的测试数据(fastq)和流程包含软件STAR依赖的参考基因组。 流程 Variant Calling Based On NGS 二代基因组测序即Next Generation Sequencing (NGS)是一种基于边合成边测序的方式。NGS在保持了测序高准确度的同时,大幅地提高了测序速度。目前NGS已经普遍的应用于全基因组测序、全外显子测序、转录组测序、表观遗传学等领域。 该流程以NGS得到的fastq作为输入,通过质控,比对,得到比对后的bam文件,及对fastq和bam文件的质控报告。 Docking Summary 对一组小分子化合物配体和一组蛋白受体进行分子对接,汇总分子对接结果,用于可视化展示。 该流程主要完成的功能包括:整合分子对接结果,生成结合能矩阵、整合受体与分子对接产生的配体构象,进行可视化展示、对配体分子进行注释,包括:DrugBank编号、分类、化学式、X
LOG P3、TPSA、靶点、Csp3比例、分子量、可旋转键数目。 RNA-Seq Analysis Based on STAR 二代基因组测序即Next Generation Sequencing (NGS)是一种基于边合成边测序的方式。NGS在保持了测序高准确度的同时,大幅地提高了测序速度。目前NGS已经普遍的应用于全基因组测序、全外显子测序、转录组测序和表观遗传学等领域。 该流程以NGS得到的fastq作为输入,通过质控,比对等步骤,输出针对fastq的qc报告,输出STAR比对得到的bam文件。 MetaGenome Kraken2 pipeline 宏基因组 ( Metagenome)(也称微生物环境基因组Microbial Environmental Genome,或元基因组)是由 Handelsman 等1998年提出的新名词,其定义为“the genomes of the total microbiota found in nature”,即环境中全部微小生物遗传物质的总和。它包含了可培养的和未可培养的微生物的基因,目前主要指环境样品中的细菌和真菌的基因组总和。宏基因组学(或元基因组学,metagenomics)是一种以环境样品中的微生物群体基因组为研究对象,以功能基因筛选和/或测序分析为研究手段,以微生物多样性、种群结构、进化关系、功能活性、相互协作关系及与环境之间的关系为研究目的的新的微生物研究方法。一般包括从环境样品中提取基因组DNA, 进行高通量测序分析,或克隆DNA到合适的载体,导入宿主菌体,筛选目的转化子等工作。 该流程主要基于Kraken2构建,跟进数据库进行物种注释。 RNA Cufflinks transcriptome analysis process 二代基因组测序即Next Generation Sequencing (NGS)是一种基于边合成边测序的方式。NGS在保持了测序高准确度的同时,大幅地提高了测序速度。目前NGS已经普遍的应用于全基因组测序、全外显子测序、转录组测序和表观遗传学等领域。 该流程以NGS得到的SRA文件作为输入,通过拆分reads、fastqc质控、tophat2比对,然后 Cufflinks 利用Tophat比对的结果(alignments)来组装转录本,估计这些转录本的丰度,并且检测样本间的差异表达及可变剪接。 RNA Hisat2-Stringtie analysis process 二代基因组测序即Next Generation Sequencing (NGS)是一种基于边合成边测序的方式。NGS在保持了测序高准确度的同时,大幅地提高了测序速度。目前NGS已经普遍的应用于全基因组测序、全外显子测序、转录组测序和表观遗传学等领域。 该流程以NGS得到的fast.gz文件作为输入,流程去接头、比对、转录组表达定量等步骤。 Human NGS data CNV detection 部分癌症患者会出现基因的大片段增删突变,甚至染色体水平上的缺失或扩增性突变,因此Copy Number Variation(CNV)可以作为检测是否患癌的指标。本流程使用患者的NGS测序数据,进行CNV变异筛查,进而判断取样者是否有患癌风险。 该流程以CNVkit为核心,基于输入的fastq,以hg38人基因组数据生成的参考基因拷贝数分布为参考基线,能够自动的完成输入数据的比对排序,以及拷贝数分布计算,并输出可视化图表以供查看。
-
安装容器引擎 容器引擎是一个开源的引擎,可以轻松地为任何应用创建一个轻量级的、可移植的、自给自足的容器。 容器引擎几乎支持在所有操作系统上安装,用户可以根据需要选择要安装的容器引擎版本。请使用自己的电脑搭建Docker环境,或者使用华为云弹性
云服务器ECS 搭建Docker环境。 例如,在Linux操作系统下,可以使用如下命令快速安装容器引擎。 curl -fsSL get.docker.com -o get-docker.sh
sh get-docker.sh
容器镜像服务 支持使用容器引擎1.11.2及以上版本上传镜像。 父主题: 镜像管理
-
操作记录 在操作记录页签,您可以按照“操作类型”、“资源类型”、“操作用户”、“项目名称”和“状态”对消息进行筛查。 例如,删除数据时,消息中心会显示数据所属的项目、资源的类型、删除操作的状态、操作人等信息。消息中心中呈现的内容请参见表 消息类型、表 执行状态说明。 图6 操作记录 表2 操作类型 操作类型 说明 PROJECT_DELETE 项目删除。某个项目开始删除、删除失败、删除成功时给予消息提示。 DELETE_DATA 数据删除。删除数据时给予消息提示,删除结果给予消息提示。 CLONE_DATA 数据复制。数据拷贝时给予消息提示,拷贝结果给予消息提示。 IMPORT_DATA 数据导入。数据导入时给予消息提示,导入结果给予消息提示。 ARCHIVE_DATA 归档数据。归档数据时给予消息提示,归档结果给予消息提示。 RESTORE_DATA 恢复数据。恢复数据时给予消息提示,恢复结果给予消息提示。 ARCHIVE_DATA_DELETE 删除归档数据。删除归档数据时给予消息提示,删除结果给予消息提示。 IMPORT_NETWORK_DATA 导入网络数据。导入网络数据时给予消息提示,导入结果给予消息提示。 SUBSCRIBE_DATA 订阅数据。订阅数据时给予消息提示,订阅结果给予消息提示。 DATABASE_IMPORT 导入数据库。导入数据时给予消息提示,导入结果给予消息提示。 JOB_STATUS 作业状态。作业的状态发生跳变时给予消息提示。 MESSAGE_CLEAN 消息清理。消息中心的消息总和超过设置值时,进行消息清理。 表3 执行状态说明 执行状态 说明 SUCCEED 执行成功。 FAILED 执行失败。 PRO
CES SING 数据删除、导入等操作正在处理中。 START 项目删除操作开始执行。 RUNNING 分析作业运行中。 PENDING 分析作业等待处理中。 CANCELLED 取消作业。 对于“JOB_STATUS”类型的消息,可单击图标,跳转至对应的分析作业详情页面。您可以在该页面查看详细的运行信息。
消息通知 按照用户权限进行划分,只可以查看有权限访问的项目中的消息通知。
-
场景2 作业投递后处于运行中,但是无日志打印,也没有任何符合预期的输出文件生成。 排查思路 首先需要用户自行确认一下投递的作业是否会在控制台打印日志,如果是有重定向日志输出到具体文件的话,此处无日志为正常现象。 子任务的事件中,确认作业子任务的实例是否有正常创建。 图2 子任务的事件 查看实例的事件,查看实例是否有正常创建。 图3 实例的事件 解决方法 若子任务未正常创建,请联系服务技术支持解决。 若子任务正常创建,但是实例未正常创建,可以通过事件信息分析,常见有以下问题场景和对应解决方案。 0/4 nodes are available: XXX Insufficient cpu 或者 XXX Insufficient memory。该场景表示当前集群中无充足的计算资源,可以根据实际需要提前结束掉其他作业或notebook来释放资源,也可以进入系统资源页面购买新节点。 0/4 nodes are available: XXX node(s) didn't match node selector。该场景表示当前集群中无计算资源满足标签要求,用户可以进入系统资源页面,选择节点,通过标签管理给节点添加标签。 其他场景可以联系服务技术支持解决。
-
场景6 作业投递后运行失败,日志显示File name too long。 图12 运行出错的应用日志 排查思路 检查输入文件的路径单级名称长度是否超过255个字符。若单级名称长度未超过255个字符请联系技术支持。 解决方案 单级目录名称长度超过255个字符。 不使用SFS或者EVS加速。 若必须进行IO加速,则更改输入文件的路径为单级目录名称不超过255字符的路径。 若单级名称长度未超过255个字符请联系技术支持。
-
场景7 同时复制多个文件,日志中显示cp: will not create hard link相关错误信息 图13 输入输出参数信息 图14 应用信息 图15 失败日志信息 排查思路 检查作业是否存在文件或目录类型的输入参数,并且未开启并发,同时该输入参数还填入了多个值,并且路径存在包含关系,如上图所示。 假定镜像命令为cp -rf ${input} ${output},变量替换后实际执行命令为cp -rf /test/sub /test /output,此时会触发cp: will not create hard link的错误。若不符合上述场景,请联系技术支持。 解决方案 首先排查业务场景是否需要涉及并发,若涉及,请前往应用详情页面开启并发选项即可,则不会出现本问题场景。 图16 开启并发 若不涉及并发,则优先排查镜像启动命令设置是否合理、是否确实需要复制路径存在包含关系的多个文件或目录。若不存在相关场景,根据实际业务需求,修改镜像启动命令即可。 若确实存在路径需要包含多个文件或目录,可参考如下方案解决。 以下图为例,首先调整应用的输入参数为input-a和input-b,分别表示两个路径存在包含关系的目录(/test/sub和/test )。 然后修改应用的镜像启动命令如下即可。 cp -rf ${input-a} ${output};
cp -rf ${input-b} ${output};
# 变量替换后实际执行命令会是
cp -rf /test/sub /output;
cp -rf /test /output;
-
场景5 并发投递多个作业后,部分作业运行失败,日志中显示IO读写相关错误。 图8 运行出错的应用日志 排查思路 检查同一时刻投递作业的输出路径是否存在重复。若存在重复,则很有可能是并发写入同一个文件导致的异常,若不存在请联系服务技术支持解决。 解决方案 平台提供了作业级输出路径,流程级输出路径,子任务级输出路径用于做不同层级的文件隔离。如下图所示,如果三者填写的路径相同,请修改输出路径后重试,如果填写的不同,请联系服务技术支持解决。当三者均不填写时,平台会自动生成随机路径。 图9 作业级输出路径 图10 流程级输出路径 图11 子任务级输出路径