研究领域

  • 大模型训练配置优化

    通过模型信息和训练资源信息,充分考虑训练设备在算力、显存、带宽的异构性质,结合数据并行、流水线并行、张量并行、专家并行等多种并行策略,智能决策训练配置,适配训练、硬件的资源调度,优化大模型训练的端到端时间。

  • 大模型弹性推理与算子优化

    弹性推理是在动态环境中进行推理计算,能够适应资源的变化和故障,保证推理服务的稳定性和可靠性。弹性推理研究聚焦于:动态成员管理,允许推理节点加入或离开,保证推理服务的连续性。状态一致性,保证所有节点共享一致状态,即使发生节点故障/加入。通信算子优化,通过拓扑感知、内建可观测能力,充分利用网络带宽,提高通信效率。计算算子优化,通过Tilling策略优化,zero-copy等技术提高计算效率。利用多流、异步下发机制实现计算与通信重叠,提高推理效率。

  • 大模型云网络可靠性研究

    聚焦大模型分布式训练中的参数通信网络可靠性问题,重点解决CloudMatrix384超平面网络架构因光模块引入导致的故障率激增挑战。研究内容包括:1)基于软硬件协同设计的网络故障容错机制;2)总线网络特殊性问题(如传输层重传缺失、信用证机制等)的故障解决方案;3)系统容错后亚健康状态的检测与优化,研发降低业务影响的动态快恢技术。

  • 大模型推理业务快速恢复研究

    针对大模型推理服务的连续性保障需求,构建多层次的容错恢复体系:1)基于故障类型分级处理的容错架构,优先实现租户无感知的故障恢复;2)面向必须进程重启的严重故障场景,研发进程快照、资源动态调配等快速恢复技术,显著缩短推理服务中断时长。

  • 大模型推理极致性价比

    大模型推理的巨大计算成本是其落地应用的瓶颈。研究聚焦于模型结构(Attention量化、MA分离、transformerless等)、高效推理引擎优化(算子融合、内存管理、硬件适配)、专家并行负载均衡等,力求在保持最小化精度损失的前提下,显著提升推理速度、降低资源消耗,让强大的推理能力能在更多设备和场景中实时运行。

  • 云网络系统架构优化

    围绕业务重点需求与核心痛点,对云网络系统中的局部组件或整体架构进行优化重构,涵盖云网关,虚拟交换机,虚拟网络控制器等各云网络组件。当前正在投入云网关平台化架构的研究探索。

  • 网络云服务创新孵化

    设计孵化新网络服务或原有网络服务的新特性,以满足客户提出或自主识别的大颗粒关键功能诉求。

  • 网络测量

    研究广域网QoS的探测、表征以及故障定位和定界;研究方向包括通过主动测量、被动测量以及主动和被动相结合的方式。

  • 流量调度和优化

    通过动态感知网络故障,主动绕过拥塞链路,降低用户服务中断时间;通过感知网络质量变化,主动优化用户公网访问路径,解决错综复杂的运营商互联带来的网络路由不优和质量恶化问题。

  • 网络异常检测

    对海量的网络运维KPI、日志等原始数据,通过大数据平台结合AI算法,实现网络故障的及时发现,对资源类的指标通过算法预测,做到故障预警,保障网路高可用的达成。

  • 网络决策

    通过故障大盘,收集网络的拓扑、服务关系、告警、事件以及设备状态信息,智能的决策故障的影响有多大,根因组件在哪,并根据历史知识学习,推荐解决方案,迈出网络自动驾驶的重要一步。

  • 网络数字孪生

    通过模型和图数据库,将网络的拓扑、配置信息、版本信息、服务、指标依赖关系管理起来,并提供多种查询和知识挖掘的能力,支撑网络异常判断、根因分析、自动化变更的实现。

  • Regionless

    采用Regionless架构,我们可以让应用自动地运行在多个地区数据中心中,并利用不同地区基础设施的优势来提高应用程序的运行效率。其中,Regionless编程框架支持应用程序的SLA分发;Regionless数据服务支持应用状态的跨地区流动;全球网络基础设施支持分发基础设施的高可靠/高性价比。

  • 可编程网络

    围绕网络操作系统、接口、协议、芯片等领域,研究测量、虚拟化、在网加速等分布式网络系统,软硬协同,打造业务定义的可编程网络,重构云网络,加速计算与网络创新,提升网络性能与性价比。

  • 资源智能画像与应用

    对海量云上资源监控数据进行ML建模分析,通过离线训练建立云上负载特征模型,提供线上系统基于这些资源使用趋势和特征做出合理的决策。根据不同应用场景,对算法进行优化,并与业务方基于智能画像分析技术进行联合创新。

  • 资源管理调度系统

    针对云上实例多样、集群庞大、资源共享等特点,构建新一代集群资源管理调度系统。除了关注资源统一、性能问题,更关注资源利用率、实例间干扰、业务特征等深层次影响资源使用效率的问题,对此进行关键技术突破,实现闭环、高效的资源管理调度系统。

  • 软硬协同

    结合智能网卡、SDI卡等硬件实现性能提升和管理成本节约,并在此基础上对OS、虚拟化层在资源开销、性能、安全等方面的优化点。并且考虑异构计算芯片在微架构层面的不同特征,研究其对云上业务的最佳配置和匹配,最大限度优化资源使用。