通信行业点评：算力调度：未来算力网络的重要拼图

算力 2023-07-11 16:25

算力资源有限，调度优化问题紧迫。OpenAI 此前在技术博客《Scaling Kubernetes to2,500 nodes》中提到，OpenAI k8s 集群从500 nodes 扩展到2500 nodes 时遇到诸多存储、网络和资源初始化问题，通过可视化监控工具Datadog 发现ETCD（一种Key-Value 存储服务）写数据存在几百毫秒延迟，list API 被频繁调用、Fluentd 和DataDog 频繁侵占资源等问题。

什么是算力调度？在云计算中，资源调度是一个非确定性多项式优化问题，往往会出现“拆东墙补西墙”这样的情况，因此云计算的算力调度必须考虑每个算力资源请求的需求边界，比如OpenAI 团队使用“balloons”占位策略解决资源排队问题：

用一个低优先级pod 占着整个节点，要用节点的时候被自动驱逐掉；使用污点策略手动分配每个训练请求能使用的节点。

GPU 超算集群中，暴露出的不只是算力调度问题。在此前对英伟达AI 超算的研究中，我们的结论是：通信网络是制约数据中心算力高低的关键因素。在多线程并行计算下，通信成为制约算力的短板，只要有一条交换链路出现网络阻塞或丢包，就会产生I/O 延迟；又如GH200 新增显存互联功能，我们认为，相对于无显存互联的超算，GH200 对API server 的并发访问量是指数级增长，将对硬件资源调度提出更高挑战。

多点硬件部署监控效率更高。我们注意到，OpenAI 在针对网络监控进行优化时发现Prometheus 这类监控系统时常会导致OOM（Out of Memory，内存溢出），从而不得不削减查询频率；每次初始化pod，Prometheus 都要重写WAL（Write-aheadlogging，预写式日志）拉长启动时间。我们认为，以上问题都可以通过嵌入式的多点硬件层监控系统避免上述问题。我们认为，在传统的计算式和I/O 式云计算中，外部串接监控服务器即可满足监控需求，而GPU 集群时代，需要并接部署“联邦集群”并进行不同监控服务器的功能划分，最后进行北向汇聚，有望提升监控采集效率、降低超算本身的资源侵占。

网络可视化技术在国内外均处于探索迭代过程中，国内相关厂商的潜在机会巨大。

在北美，目前主流的监控工具是Netscout、Prometheus、Datadog 等，都是基于在超算本地化部署；但在多点硬件部署的AI 超算中，软硬件结合的厂商成长性有望更为充分，经过多年经验积累的相关国内DPI 厂商，形成了高容量下的数据监控能力，有望成为全球算力调优的上游关键角色。

投资建议：

1）重视GPU 超算集群中交换网络性能的重要性，而光通信是现有技术下几乎无法替代的交换网络方案，关注光通信：中际旭创、新易盛、天孚通信、太辰光、腾景科技、德科立、联特科技、华工科技、源杰科技、剑桥科技；算力设备：中兴通讯、紫光股份、锐捷网络、菲菱科思、恒为科技、工业富联、寒武纪、震有科技。

2）重视网络可视化及算力资源调优策略的软硬件厂商，该品种目前存在较大预期差，关注恒为科技、浩瀚深度、中新赛克。

风险提示：AI 发展不及预期，算力需求不及预期。

知前沿，问智研。智研咨询是中国一流产业咨询机构，十数年持续深耕产业研究领域，提供深度产业研究报告、商业计划书、可行性研究报告及定制服务等一站式产业咨询服务。专业的角度、品质化的服务、敏锐的市场洞察力，专注于提供完善的产业解决方案，为您的投资决策赋能。

转自国盛证券有限责任公司研究员：宋嘉吉/黄瀚/赵丕业/邵帅