banner
Maison / Blog / Meta, MIT et d'autres testent un bras robotique dans une infrastructure d'IA optique
Blog

Meta, MIT et d'autres testent un bras robotique dans une infrastructure d'IA optique

Jun 23, 2023Jun 23, 2023

Par Agam Shah

19 avril 2023

Des chercheurs de Meta, du MIT et d'autres institutions ont connecté des serveurs avec une douzaine de GPU Nvidia avec des commutateurs optiques et un bras robotique, concevant une nouvelle interconnexion qui pourrait être utilisée pour l'apprentissage automatique. La structure, appelée "TopoOpt", peut créer des topologies de réseau à la volée en fonction des besoins informatiques. La technologie intervient alors que les ordinateurs hautes performances sont mis à rude épreuve par l'adoption plus large de technologies d'IA telles que ChatGPT, qui teste les limites du supercalculateur d'IA de Microsoft.

Un article sur la technologie a été présenté au Symposium USENIX sur la conception et la mise en œuvre de systèmes en réseau qui se tient cette semaine.

TopoOpt utilise des algorithmes pour trouver les techniques de calcul parallèle les plus rapides en fonction d'informations telles que les exigences de traitement, les ressources informatiques disponibles, les techniques de routage des données et la topologie du réseau. Les chercheurs ont également amélioré la fonctionnalité AllReduce de Nvidia, qui minimise le temps de communication entre les GPU et les autres composants.

"TopoOpt crée des partitions dédiées pour chaque tâche de formation à l'aide de commutateurs optiques reconfigurables et de panneaux de brassage, et optimise conjointement la topologie et la stratégie de parallélisation au sein de chaque partition", ont écrit les chercheurs.

Les chercheurs ont testé TopoOpt au sein de l'infrastructure Meta, en utilisant une douzaine de serveurs Asus ESC4000A-E10, chacun équipé d'un GPU A100, de cartes réseau HPE et d'une carte réseau Mellanox ConnectX5 100 Gbps. Les NIC avaient des émetteurs-récepteurs optiques avec des fibres de dérivation.

"TopoOpt est le premier système qui co-optimise la topologie et la stratégie de parallélisation pour les charges de travail ML et est actuellement en cours d'évaluation pour un déploiement chez Meta", ont déclaré les chercheurs.

La configuration utilise également un panneau de brassage de Telescent qui reconfigure un réseau à l'aide "d'un bras robotique qui saisit une fibre du côté transmission et la connecte à une fibre du côté réception", indique le journal. Le bras robotisé, qui est contrôlé par logiciel, se déplace de haut en bas pour relier la fibre de transmission à une fibre de réception n'importe où dans le système. Cela offre la flexibilité et l'élasticité nécessaires pour reconfigurer rapidement un réseau. Les panneaux de brassage sont déjà largement utilisés dans les applications commerciales, mais sont maintenant proposés pour une utilisation dans les centres de données.

Google a récemment présenté un article détaillant comment il a utilisé un superordinateur AI avec des commutateurs de circuits optiques pour améliorer les vitesses de formation sur ses puces TPU v4 tout en réduisant la consommation d'énergie. La commutation de circuit optique (OCS) dans la configuration de Google n'est pas aussi mobile qu'un bras robotique, mais utilise des miroirs pour basculer entre les fibres d'entrée et de sortie. La configuration de Google était également un banc d'essai plus grand, avec un déploiement à grande échelle sur 4 096 TPU.

Les chercheurs ont opté pour le panneau de brassage car ils ont constaté que les commutateurs optiques de style Google étaient "cinq fois plus chers" et qu'ils supportaient également moins de ports. Dans le même temps, les chercheurs ont déclaré que la technologie OCS, comme celle utilisée par Google, est destinée aux déploiements à grande échelle. "Le principal avantage des OCS est que leur latence de reconfiguration est de quatre ordres de grandeur plus rapide que les panneaux de brassage", ont écrit les chercheurs.

TopoOpt pré-approvisionne les exigences de calcul et de réseau, et est prêt à fonctionner une fois que les serveurs sont prêts et que la tâche est prête à être déployée. "Nous connaissons déjà la séquence des arrivées de travaux et le nombre de serveurs requis par chaque travail", ont écrit les chercheurs, ajoutant que "cette conception permet à chaque serveur de participer à deux topologies indépendantes".

Les chercheurs ont conclu que TopoOpt fournissait un temps d'itération de formation 3,4 fois plus rapide qu'une autre technique appelée "fat-tree", dans laquelle l'épine dorsale du réseau est la pièce maîtresse de l'infrastructure, qui distribue ensuite les données à plusieurs couches de commutateurs statiques reliant le back-end du réseau central. matériel aux serveurs frontaux. Cette technique est largement utilisée aujourd'hui.

L'utilisation du réseau optique dans un centre de données est un nouveau concept, et les chercheurs introduisent le bras robotique et un nouveau protocole de communication comme moyen moins coûteux de construire une infrastructure de réseau IA. La viabilité de la technologie est testée par Meta.