QFX5240 交换机 4 个 QSFP-DD 800GbE 端口。可使用分支端口连接 128 个 400GbE 或 256 个 100GbE AI 数据中心结

产品概述

QFX5240 交换机满足大型集群的高级AI 数据中心网络要求。QFX5240 交换机与Juniper Apstra中的自动化配合使用，可确保 AI 和 ML 工作负载训练和访问的日常运行。

QFX5240 交换机：

— 通过软件以固定外形尺寸提供高密度800GbE端口，以提供针对 AI/ML 工作负载特定需求的高级网络服务

— 是 AI 网络的基础，确保快速作业完成时间 (JCT)，通过高 GPU 利用率加速训练

— 帮助管理 AI/ML 环境的团队实现经济效益的提升

产品描述

AI/ML 技术以及新应用的不断发展正在推动数据中心结构中带宽需求的下一次重大转变。瞻博网络^® QFX5240 800GbE 交换机（64 端口 800GbE）是专为主干、叶子和边界交换机角色设计的下一代固定配置平台。该交换机提供灵活、经济高效、高密度 800GbE、400GbE、100GbE 和 50GbE 接口，用于 IP 结构内连接，以及更高密度 200/400GbE NIC 连接，用于 AI/ML 使用案例。其 51.2Tbps 的单向吞吐量可满足 AI/ML 工作负载和存储系统的带宽要求，延迟范围为 700-750ns。远程直接内存访问 (RDMA) 是 AI/ML 工作负载中使用的实际数据传输技术，它使用融合以太网 v2 上的远程直接内存访问 (ROCEv2) 在网络层进行传输。QFX5240 支持 ROCEv2 以及拥塞管理功能，例如 PFC、显式拥塞通知 (ECN) 和数据中心量化拥塞通知 (DCQCN)。

QFX5240 有助于减少部署的网络节点数量，从而降低数据中心结构的总功耗并改善数据中心的碳足迹。这些改进可以通过不同的分支选项（如 128x400GbE 和 256x200GbE/100GbE）来实现。

表 1：QFX5240 产品亮点


人工智能数据中心	AI/ML 集群中的叶子/主干适用于 AI/ML 工作负载的 ROCEv2 DCQCN-PFC、ECN用于拥塞管理支持 PFC 看门狗以避免风暴动态负载平衡 (DLB)，实现更好的负载平衡可配置哈希桶大小以适应不同的流量规模
云就绪数据中心	IP 结构中的叶子/主干 EVPN-VXLAN 结构中的叶子/主干/超级主干支持 EVPN-VXLAN 136K MAC 规模 860K IPv4 路由规模
端口选项	64 个 800GbE 端口 128 个 400GbE 端口（通过分支电缆实现） 256 个 100GbE 端口（通过分支电缆实现） 256 个 50GbE 端口（QFX5240-64OD）（通过分支电缆实现）
平台参数	吞吐量：单向 51.2Tbps 缓冲区：165MB 免工具机架安装套件热插拔电源和风扇托架电源冗余远程电源循环功能

特点和优点

人工智能/机器学习设计

人工智能对计算、网络和存储解决方案提出了新的挑战，因为大型模型需要在多个 GPU 上并行运行以进行训练。这些模型需要快速的作业完成时间 (JCT)，并且最后一个 GPU 完成计算的延迟最小，即低尾部延迟。架构师通过轨道优化设计来优化集群性能（阅读此瞻博白皮书，了解有关 AI/ML 集群设计的更多信息）。随着模型大小和数据集的不断增长，设计必须容纳集群中的更多 GPU，要求网络无缝扩展，而不会影响性能或引入通信瓶颈。

QFX5240 满足这些大规模 AI 网络的需求。该交换机提供：

2 U 交换机上有 64 个 800GbE 端口，可降低空间和总电力利用率的成本
可选择使用 800GbE 的 OSFP 和 QSFP-DD 变体进行连接，以实现叶脊连接
每个 800GbE 端口提供 2x400GbE，以增强与 GPU 的连接
先进的遥测功能可支持 ECN/PFC 计数器
细粒度的负载平衡能力，可处理减少的流熵
通过 Apstra 实现铁路优化设计的自动化

自动化

自动化工具（例如 Apstra）可确保可靠地建立广泛的网络，并持续验证部署情况以及监控运营情况。Apstra基于意图的网络为 IP/EVPN 结构提供从第 0 天到第 2 天及以后的完整功能，并在数据中心提供闭环保证。Apstra 提供了广泛的运营功能，具有多个内置的基于意图的分析探测器、流量可视性和分析功能，以确保 AI 网络按设计运行。Apstra 提供了一个简单的 UI 工作流来创建自定义的基于意图的分析，以捕获、丰富和可视化来自 AI 网络的数据。

监控

QFX5240 支持Junos ^®遥测接口，这是一种现代遥测流式传输工具，可在复杂、动态的数据中心提供性能监控。将数据流式传输到性能管理系统可让网络管理员测量链路和节点利用率的趋势，并实时排除网络拥塞等问题。

Junos 遥测接口提供：

通过配置传感器来收集和传输数据并分析通过网络的应用程序和工作负载流路径，实现应用程序可见性和性能管理
通过主动检测热点并监控延迟和微突发来进行容量规划和优化
通过高频监控和关联覆盖网络和底层网络进行故障排除和根本原因分析

此外，Junos Evolved 操作系统支持强大的 API 集，以通过 Terraform、Ansible、零接触配置 (ZTP)、操作和事件脚本、自动回滚和 Python 脚本支持自动化。

规格

硬件规格

表 2：QFX5240 系统容量

范围	QFX5240-64OD	QFX5240-64QD
系统吞吐量	51.2/102.4 Tbps 单向/双向	51.2/102.4 Tbps 单向/双向
最大转发速率	21.2Bpps 单向	21.2Bpps 单向
端口密度	64 个 OSFP 800GbE 端口	64 个 QSFP-DD 800GbE 端口
带分线的最大端口数	64 × 800GbE、128 × 400GbE、256 × 100GbE （未来选项支持最多 320 个接口）	64×800GbE、128×400GbE、256×100GbE、256×50GbE
尺寸（宽 x 高 x 深）	17.26 x 3.46 x 25.52 英寸（43.8 x 8.8 x 64.8 厘米）	17.26 x 3.46 x 25.52 英寸（43.8 x 8.8 x 64.8 厘米）
机架单元	2U	2U
重量	满载时重量为 22 公斤（48.50 磅），不含光学元件	满载时重量为 22 公斤（48.50 磅），不含光学元件
操作系统	Junos OS 的演进	Junos OS 的演进
中央处理器	英特尔 Ice Lake（4 核）	英特尔 Ice Lake（4 核）
记忆	32GB (16GBx2) DDR4	32GB (16GBx2) DDR4
贮存	2x480GB	2x480GB
力量	冗余 (1+1) 热插拔 3000W AC（200 至 240V）电源	冗余 (1+1) 热插拔 3000W AC（200 至 240V）电源
冷却	端口到 FRU (AFO) 4 个热插拔风扇模块	端口到 FRU (AFO) 4 个热插拔风扇模块
总数据包缓冲区	165 兆	165 兆
保修单	Juniper 标准一年保修	Juniper 标准一年保修