Huawei Cloud à la KubeCon EU 2024 : libérer l'ère intelligente avec l'innovation open source continue

USA - English

USA - español

USA - Pусский

USA - Deutsch

USA - slovenčina

USA - Polski

USA - čeština

News provided by

Mar 27, 2024, 08:19 ET

PARIS, 27 mars 2024 /PRNewswire/ -- Lors de la KubeCon + CloudNativeCon Europe 2024, qui s'est tenue à Paris le 21 mars, Dennis Gu, architecte en chef de Huawei Cloud, a souligné, dans un discours d'ouverture intitulé « Cloud Native x AI : Unleashing the Intelligent Era with Continuous Open Source Innovation » (Cloud natif x IA : libérer l'ère intelligente avec l'innovation open source continue), que l'intégration de technologies cloud natives et de l'IA était cruciale pour stimuler la transformation de l'industrie. Huawei Cloud prévoit de continuer à innover dans les projets open source et de collaborer avec les développeurs pour créer une ère intelligente.

Dennis Gu, Chief Architect of Huawei Cloud

L'IA pose des défis clés au paradigme du cloud natif.

Ces dernières années, les technologies cloud natives ont révolutionné les systèmes informatiques traditionnels et accéléré les progrès numériques dans des domaines tels que l'Internet et les services gouvernementaux. Le cloud natif a introduit de nouvelles possibilités, telles que des ventes ultrarapides et des opérations agiles, comme le DevOps, grâce à la gouvernance des microservices. Ces changements ont eu un impact significatif sur la vie des gens, et la croissance rapide et l'adoption généralisée de l'IA, y compris les modèles à grande échelle, sont désormais au cœur de l'intelligence industrielle.

Selon une enquête d'Epoch réalisée en 2023, le calcul requis pour les modèles de base a été multiplié par 10 tous les 18 mois, ce qui est cinq fois plus rapide que le taux de croissance prévu par la loi de Moore pour le calcul général. L'émergence de cette « nouvelle loi de Moore » due à l'IA et à la prévalence des modèles d'IA à grande échelle présente des défis pour les technologies cloud natives. Dans son discours, Dennis Gu a souligné les points clés suivants :

Une faible utilisation moyenne du GPU/NPU augmente le coût de l'entraînement de l'IA et de l'inférence dans l'IA.
Les échecs fréquents des grands clusters d'entraînement réduisent l'efficacité de l'entraînement.
La configuration complexe des modèles à grande échelle entraîne des exigences élevées en matière de développement de l'IA.
Le déploiement de l'inférence dans l'IA à grande échelle comporte le risque de délais d'accès imprévisibles pour l'utilisateur final et implique des problèmes potentiels de confidentialité des données.

L'innovation Huawei Cloud AI offre aux développeurs des idées pour relever les défis.

La taille croissante des modèles d'IA exige davantage de calcul, ce qui crée des défis pour les technologies cloud natives, mais crée également des opportunités d'innovation dans l'industrie. Dennis Gu a partagé des histoires sur l'innovation en IA de Huawei Cloud, offrant aux développeurs un point de référence pour relever les défis.

Huawei Cloud a utilisé KubeEdge, une plateforme de calcul edge native dans le cloud, pour créer une plateforme de planification et de gestion multirobots. Avec cette plateforme, les utilisateurs peuvent utiliser des commandes en langage naturel pour indiquer à la plateforme ce qu'elle doit faire, et le système coordonne plusieurs robots en périphérie pour accomplir des tâches complexes. Le système est conçu avec une architecture en trois parties (cloud, nœud périphérique et robot) pour relever des défis tels que la compréhension du langage naturel, la planification et la gestion efficaces de plusieurs robots et la gestion de l'accès à plusieurs types de robots. Il utilise de grands modèles pour exécuter des commandes en langage naturel et effectue des prévisions de trafic, l'attribution des tâches et la planification des itinéraires. L'architecture en trois parties améliore considérablement la flexibilité de la plateforme robotique, accroît l'efficacité de la gestion de 25 %, réduit le temps nécessaire au déploiement du système de 30 % et ramène le temps nécessaire au déploiement de nouveaux robots de plusieurs mois à quelques jours.

Pour l'une des principales plateformes de partage de contenu en Chine, qui compte plus de 100 millions d'utilisateurs actifs par mois, le principal service est celui des recommandations sur la page d'accueil. Cette fonctionnalité est alimentée par un modèle comportant près de 100 milliards de paramètres. Pour entraîner ce modèle, la plateforme utilise un cluster d'entraînement avec des milliers de nœuds de calcul, y compris des centaines de ps et de travailleurs pour une seule tâche d'entraînement. Il y a donc une forte demande pour une meilleure planification de la topologie, des performances élevées et un débit élevé. Volcano, un projet open source, améliore la prise en charge des charges de travail d'IA ou d'apprentissage automatique sur Kubernetes et offre une gamme de politiques de gestion des tâches et de planification avancées. Volcano intègre des algorithmes, tels que la planification tenant compte de la topologie, l'emballage des bacs et la planification tenant compte des accords de niveau de service (SLA), ce qui se traduit par une amélioration de 20 % des performances globales de l'apprentissage et une réduction significative de la complexité de l'exploitation et de la maintenance pour la plateforme.

L'IA sans serveur est à la pointe du développement du cloud natif.

De nombreuses entreprises et développeurs sont confrontés au défi d'exécuter des applications d'IA de manière efficace et fiable tout en minimisant les coûts d'exploitation. Huawei Cloud a développé une solution à ce problème en identifiant les principales exigences des plateformes d'IA cloud natives et en introduisant un nouveau concept appelé IA sans serveur.

Au cours de son discours, Dennis Gu a expliqué que l'IA sans serveur est conçue pour simplifier les tâches complexes d'entraînement et d'inférence en recommandant intelligemment des politiques parallèles, ce qui facilite l'utilisation par les développeurs. Elle comprend également une fonction d'expansion automatique adaptative GPU/NPU qui ajuste dynamiquement l'allocation des ressources en fonction des changements de charge de travail en temps réel, assurant une exécution efficace des tâches. En outre, l'IA sans serveur dispose d'un cluster GPU/NPU exempt de toute défaillance, ce qui évite aux développeurs de craindre que les défaillances matérielles n'interrompent les services. Plus important encore, l'IA sans serveur est compatible avec les principaux cadres d'IA, ce qui permet aux développeurs d'intégrer facilement leurs outils et modèles d'IA existants.

L'IA sans serveur est également un développement très important pour les fournisseurs de services cloud. L'IA sans serveur offre de nombreux avantages comme une utilisation améliorée du GPU/NPU, des charges de travail hybrides plus efficaces pour l'entraînement, l'inférence et le développement, et l'informatique verte grâce à une meilleure efficacité énergétique, ce qui permet d'économiser de l'argent sur l'électricité. En outre, l'IA sans serveur permet le partage GPU/NPU entre plusieurs locataires dans des espaces différents ou à des moments différents, améliorant ainsi le taux de réutilisation des ressources. L'aspect le plus important de l'IA sans serveur est sa capacité à fournir une qualité de service (QoS) et des SLA garantis pour les tâches d'entraînement et d'inférence, assurant un service stable et de haute qualité.

L'IA sans serveur utilise une couche flexible de planification des ressources qui est construite sur un système d'exploitation virtualisé. Cette couche encapsule les fonctions essentielles des cadres applicatifs dans la couche de médiation des ressources applicatives. Dennis Gu a présenté l'architecture de référence pour l'IA sans serveur. Il pense que cette architecture permet à l'IA sans serveur de piloter automatiquement des ressources d'IA à grande échelle. Cela inclut l'analyse précise des modèles d'utilisation des ressources, le partage des ressources à partir de pools matériels hétérogènes et la garantie de la tolérance aux pannes pendant les tâches d'entraînement de l'IA grâce à la virtualisation GPU/NPU et à la migration de charge en direct. En outre, la planification multidimensionnelle et la mise à l'échelle élastique adaptative améliorent l'utilisation des ressources.

Lors du sous-forum, les experts techniques de Huawei Cloud ont noté que les charges de travail d'IA ou d'apprentissage automatique exécutées sur Kubernetes n'ont cessé d'augmenter. En conséquence, de nombreuses entreprises construisent des plateformes d'IA cloud natives sur plusieurs clusters Kubernetes répartis dans les centres de données et un large éventail de types de GPU. Karmada et Volcano peuvent planifier intelligemment les charges de travail des GPU sur plusieurs clusters, en prenant en charge le transfert des erreurs et en assurant la cohérence et l'efficacité au sein des clusters et entre eux. Ils peuvent également équilibrer l'utilisation des ressources sur l'ensemble du système et la qualité de service des charges de travail avec différentes priorités pour relever les défis de la gestion d'environnements GPU hétérogènes et à grande échelle.

Karmada offre une gestion automatique immédiate et fiable des applications dans des scénarios de cloud multicloud et hybride. Un nombre croissant d'utilisateurs utilisent Karmada pour créer des solutions adaptables et efficaces dans les environnements de production. Karmada a été officiellement mis à niveau vers le projet d'incubation CNCF en 2023, et la communauté attend avec impatience que d'autres partenaires et développeurs se joignent à elle.

Volcano Gang Scheduling est une solution pour l'entraînement distribué de l'IA et les scénarios de big data, qui résout les problèmes d'attente sans fin et de blocage dans les tâches d'entraînement distribuées. Grâce à la topologie des tâches et à l'ordonnancement conscient des E/S, le délai de transmission des tâches d'entraînement distribuées est minimisé, améliorant ainsi les performances d'entraînement de 31 %. De plus, minResources résout les conflits de ressources entre le pilote Spark et l'exécuteur dans les scénarios de concurrence élevée, optimise le degré de parallélisme et améliore les performances de 39,9 %.

Dennis Gu estime que la clé de l'amélioration de la productivité de l'IA réside dans l'agilité des technologies cloud natives et l'innovation des plateformes informatiques d'IA hétérogènes. Huawei Cloud se consacre à l'innovation open source et vise à travailler avec des pairs de l'industrie pour inaugurer une nouvelle ère de l'intelligence.

Photo - https://mma.prnewswire.com/media/2370741/Dennis_Gu_Chief_Architect_Huawei_Cloud.jpg