WEKA lance un nouveau plan de solution pour simplifier l'inférence de l'IA à grande échelle
L'architecture de référence WARRP fournit une solution modulaire complète qui accélère le développement d'environnements d'inférence basés sur RAG
ATLANTA et CAMPBELL, Californie, 19 novembre 2024 /PRNewswire/ -- Depuis le Supercomputing 2024 : WEKA, la société de plateforme de données natives IA, a présenté une nouvelle solution d'architecture de référence pour simplifier et rationaliser le développement et la mise en œuvre d'environnements d'inférence de l'IA dans les entreprises. La plateforme de référence WEKA AI RAG (WARRP) fournit aux développeurs d'IA générative et aux architectes cloud un plan de conception pour le développement d'un cadre d'infrastructure d'inférence robuste qui incorpore la génération augmentée de récupération (RAG), une technique utilisée dans le processus d'inférence de l'IA pour permettre aux grands modèles de langage (LLM) de collecter de nouvelles données à partir de sources externes.
L'importance cruciale de RAG dans la mise en place d'opérations d'IA sûres et fiables
Selon une étude récente sur les tendances mondiales en matière d'IA menée par S&P Global Market Intelligence, l'IA générative est rapidement devenue la modalité d'IA la plus adoptée, éclipsant toutes les autres applications d'IA dans l'entreprise.[1]
L'un des principaux défis auxquels les entreprises sont confrontées lorsqu'elles déploient des LLM est de s'assurer qu'elles peuvent récupérer et contextualiser efficacement de nouvelles données dans des environnements multiples et à partir de sources externes afin de faciliter l'inférence de l'IA. La RAG est la principale technique d'inférence de l'IA, et elle est utilisée pour améliorer les modèles d'IA formés en récupérant en toute sécurité de nouvelles informations à partir de sources de données externes. L'utilisation de la RAG dans le processus d'inférence peut contribuer à réduire les hallucinations du modèle d'IA et à améliorer la précision, la fiabilité et la richesse des résultats, réduisant ainsi la nécessité de cycles de recyclage coûteux.
Toutefois, la création d'environnements d'inférence robustes et prêts à la production, capables de prendre en charge les cadres RAG à grande échelle, est complexe et difficile, car les architectures, les meilleures pratiques, les outils et les stratégies d'essai évoluent encore rapidement.
Un plan détaillé pour l'accélération de l'inférence
Avec WARRP, WEKA a défini une architecture de référence indépendante de l'infrastructure qui peut être utilisée pour construire et déployer à l'échelle des solutions RAG de qualité production et de haute performance.
Conçu pour aider les organisations à construire et à mettre en œuvre rapidement des pipelines d'inférence AI basés sur RAG, WARRP fournit un plan détaillé de composants modulaires qui peuvent être utilisés pour développer et déployer rapidement un environnement d'inférence AI de classe mondiale optimisé pour la portabilité de la charge de travail, les centres de données mondiaux distribués et les environnements multicloud.
L'architecture de référence WARRP s'appuie sur le logiciel WEKA® Data Platform fonctionnant sur le matériel cloud ou serveur préféré de l'organisation en tant que couche fondamentale. Elle intègre ensuite les frameworks d'IA d'entreprise de NVIDIA - notamment les microservices NVIDIA NIM™ et NVIDIA NeMo™ Retriever, qui font tous deux partie de la plateforme logicielle NVIDIA AI Enterprise - des capacités avancées d'orchestration de charges de travail d'IA et de GPU de Run:ai et des technologies logicielles de gestion de données commerciales et open-source populaires telles que Kubernetes pour l'orchestration des données et Milvus Vector DB pour l'ingestion des données.
« Lorsque la première vague de technologies d'IA générative a commencé à pénétrer dans les entreprises en 2023, les ressources d'infrastructure de calcul et de données de la plupart des organisations étaient concentrées sur la formation des modèles d'IA. Alors que les modèles et les applications d'IA générative sont arrivés à maturité, de nombreuses entreprises se préparent maintenant à transférer ces ressources pour se concentrer sur l'inférence, mais ne savent peut-être pas par où commencer », déclare Shimon Ben-David, responsable de la technologie, WEKA. « Il est extrêmement difficile de faire fonctionner l'inférence IA à grande échelle. Nous développons la plateforme d'architecture WEKA AI RAG sur les principales solutions d'infrastructure IA et cloud de WEKA, NVIDIA, Run:ai, Kubernetes, Milvus et d'autres pour fournir un plan robuste prêt pour la production qui rationalise le processus de mise en œuvre de la RAG afin d'améliorer la précision, la sécurité et le coût d'exécution des modèles d'IA d'entreprise. »
WARRP fournit un cadre flexible et modulaire qui peut prendre en charge une variété de déploiements LLM, offrant une évolutivité, une adaptabilité et des performances exceptionnelles dans les environnements de production. Principaux avantages :
- Construire plus rapidement un environnement d'inférence prêt pour la production : L'infrastructure et l'architecture agnostique de WARRP peuvent être utilisées par les développeurs d'IA générative et les architectes cloud pour rationaliser le développement d'applications d'IA générative et exécuter plus rapidement des opérations d'inférence à grande échelle. Elle s'intègre de manière optimale aux composants existants et futurs de l'infrastructure d'IA d'une organisation, aux modèles de langage de petite et de grande taille et aux fournisseurs de serveurs, d'hyperscale ou de cloud d'IA spécialisés, offrant aux organisations une flexibilité et un choix exceptionnels dans l'architecture de leur pile d'inférence d'IA.
- Matériel, logiciel et cloud agnostique : La conception modulaire de WARRP prend en charge la plupart des principaux fournisseurs de serveurs et de services cloud. L'architecture permet aux organisations de réaliser facilement la portabilité des charges de travail sans compromettre les performances en permettant aux praticiens de l'IA d'exécuter la même charge de travail sur leur plateforme cloud hyperscale préférée, le service cloud d'IA ou le matériel serveur sur site avec des changements de configuration minimes. Qu'ils soient déployés dans un environnement de cloud public, privé ou hybride, les pipelines d'IA affichent un comportement stable et des résultats prévisibles, ce qui simplifie les opérations hybrides et multicloud.
- Optimisation de bout en bout de la pile d'inférence de l'IA : L'exécution de pipelines RAG peut être très exigeante, en particulier lorsqu'il s'agit de grands référentiels de modèles et de charges de travail d'IA complexes. Les organisations peuvent obtenir des améliorations significatives de performance en intégrant la plateforme de données WEKA dans leur pile d'inférence IA, en particulier dans les scénarios d'inférence multi-modèle. La capacité de WEKA Data Platform à charger et décharger efficacement les modèles accélère et fournit efficacement des tokens pour les invites utilisateur, en particulier dans les flux de travail d'inférence complexes et enchaînés impliquant plusieurs modèles d'IA.
« Alors que l'adoption de l'IA s'accélère, il existe un besoin critique de moyens simplifiés pour déployer des charges de travail de production à l'échelle. En parallèle, l'inférence basée sur la RAG émerge comme une frontière importante dans la course à l'innovation de l'IA, apportant de nouvelles considérations pour l'infrastructure de données sous-jacente d'une organisation », déclare Ronen Dar, responsable de la technologie, Run:ai. L'architecture de référence WARRP constitue une excellente solution pour les clients qui construisent un environnement d'inférence, en fournissant un plan essentiel pour les aider à développer rapidement, de manière flexible et sécurisée, en utilisant des composants de premier plan de NVIDIA, WEKA et Run:ai pour maximiser l'utilisation du GPU dans des environnements de cloud privés, publics et hybrides. Cette combinaison est gagnante pour les clients qui veulent devancer leurs concurrents dans l'innovation IA. »
« Les entreprises recherchent un moyen simple d'intégrer leurs données pour construire et déployer des pipelines RAG », déclare Amanda Saunders, directrice du logiciel Enterprise Generative AI, NVIDIA. « En utilisant NVIDIA NIM et NeMo avec WEKA, les entreprises pourront rapidement développer, déployer et exécuter des opérations d'inférence d'IA et de RAG de haute performance à grande échelle. »
La première version de l'architecture de référence WARRP est maintenant disponible en téléchargement gratuit. Visitez le site https://www.weka.io/resources/reference-architecture/warrp-weka-ai-rag-reference-platform/ pour en obtenir une copie.
Les participants au Supercomputing 2024 peuvent rendre visite à l'équipe WEKA au stand 1931 pour plus de détails et une démonstration de la nouvelle solution.
Citations de fournisseurs de services cloud IA
Applied Digital
« Alors que les entreprises exploitent de plus en plus l'IA avancée et l'inférence d'IA générative pour autonomiser leurs clients et leurs employés, elles reconnaissent les avantages de tirer parti de la RAG en termes de simplicité, de fonctionnalité et d'efficacité », déclare Mike Maniscalco, responsable de la technologie chez Applied Digital. « La pile WARRP de WEKA fournit un cadre de référence très utile pour fournir des pipelines RAG dans un déploiement de production à l'échelle, soutenu par la puissante technologie NVIDIA et une infrastructure cloud fiable et évolutive. »
Ori Cloud
« Les principales entreprises d'IA générative utilisent Ori Cloud pour former les plus grands LLM du monde et obtiennent une utilisation maximale des GPU grâce à notre intégration avec WEKA Data Platform », déclare Mahdi Yahya, fondateur et CEO, Ori Cloud. « Nous nous réjouissons à la perspective de travailler avec WEKA pour construire des solutions d'inférence robustes en utilisant l'architecture WARRP afin d'aider les clients d'Ori Cloud à maximiser les avantages des pipelines RAG pour accélérer leur innovation en matière d'IA. »
À propos de WEKA
WEKA conçoit une nouvelle approche de la pile de données d'entreprise adaptée à l'ère de l'IA. La plateforme de données WEKA® établit la norme pour l'infrastructure d'IA avec une architecture native cloud et IA déployable n'importe où, offrant une portabilité optimale des données à travers les environnements sur site, cloud et edge. Elle transforme les silos de données existants en pipelines de données dynamiques qui accélèrent les GPU, l'apprentissage et l'inférence des modèles d'IA et d'autres charges de travail exigeantes, leur permettant de travailler plus efficacement, de consommer moins d'énergie et de réduire les émissions de carbone associées. WEKA aide les entreprises et les organismes de recherche les plus innovants au monde à relever les défis complexes liés aux données pour parvenir plus rapidement et plus durablement à des découvertes, des idées et des résultats - y compris 12 des entreprises du classement Fortune 50. Visitez www.weka.io pour en savoir plus ou rejoignez WEKA sur LinkedIn, X et Facebook.
WEKA et le logo WEKA sont des marques déposées de WekaIO, Inc. Les autres noms commerciaux utilisés dans le présent document peuvent être des marques commerciales de leurs propriétaires respectifs.
[1] 2024 Global Trends in AI, septembre 2024, S&P Global Market Intelligence.
Photo - https://mma.prnewswire.com/media/2561543/4304845.jpg
Logo - https://mma.prnewswire.com/media/1796062/WEKA_v1_Logo.jpg
Partager cet article