趋近智
当您在云中配置虚拟机时,它并非孤立存在。它位于您定义和管理的网络中,这为任何重要的AI工作负载提供了隔离和安全层。云的这个私人部分在AWS和Google Cloud Platform(GCP)上被称为虚拟私有云(VPC),在Azure上则被称为虚拟网络(VNet)。您可以把它看作是您自己的虚拟数据中心网络,让您全面管理其IP地址空间、子网、路由和安全。
正确配置您的云网络是根本所在。设计不当的网络可能导致敏感数据和模型泄露,产生性能瓶颈,让您昂贵的GPU缺乏数据,或导致意料之外的数据传输费用。
云网络主要包括一些协同运行以路由和保护流量的组件。弄清它们的作用是构建具有恢复力基础架构的第一步。
VPC是一种逻辑隔离的网络。创建VPC时,您会使用CIDR(无类别域间路由)表示法为其分配一个私有IP地址范围,例如10.0.0.0/16。此范围提供超过65,000个私有IP地址,您的资源可以使用这些地址相互通信,而无需将其暴露给公共互联网。
在您的VPC中,您会创建子网,这些是VPC IP地址范围的更小分区。子网允许您根据功能和安全要求对资源进行分组。它们通常被指定为公共子网或私有子网。
0.0.0.0/0)定向到IGW。每个子网都关联一个路由表,其中包含确定网络流量去向的规则。这些表是VPC的流量控制器。例如:
10.0.0.0/16的流量发送到VPC内部,以及另一条路由,将所有其他流量(0.0.0.0/0)发送到互联网网关。0.0.0.0/0流量将被定向到NAT网关。隔离只是安全措施的一部分。您还需要精确控制允许流入和流出实例的流量。
安全组充当您实例的虚拟防火墙,在实例级别控制入站和出站流量。安全组是有状态的,这意味着如果您允许入站连接,相应的出站流量会自动被允许,无论出站规则如何。
对于典型的GPU训练实例,您可能配置安全组,包含以下入站规则:
默认情况下,所有入站流量都被拒绝,所有出站流量都被允许。一种良好做法是也严格限制出站规则,仅允许连接到您需要的特定服务。
NACL是额外的安全层,在子网级别充当防火墙。与安全组不同,NACL是无状态的。这意味着您必须明确定义入站和出站流量的规则。例如,要允许端口80上的入站请求,您还必须创建一条出站规则以允许相应临时端口(1024-65535)上的流量。由于这种复杂性,大多数使用场景通过精心配置的安全组就能得到很好的满足,而NACL则保留其默认(全部允许)设置。
我们将这些组件组合起来,形成一个机器学习项目的常见架构。此设计通过将计算资源放置在私有子网中并严格控制访问来优先考虑安全性。
一种用于AI工作负载的安全网络架构。机器学习工程师通过堡垒主机访问私有资源。训练实例通过NAT网关从互联网获取代码,并通过安全的VPC端点访问对象存储中的数据集,避免数据通过公共互联网传输。
此架构展现了安全高效的工作流程:
对于跨多个实例的大规模分布式训练任务,连接这些实例的网络与GPU本身同样重要。节点间梯度持续交换可能很快成为瓶颈。云服务提供商提供专门功能来处理此问题:
将高带宽实例与低延迟放置策略结合,您可以确保计算集群高效通信,让您昂贵的GPU得到充分使用。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造