WEKA präsentiert neuen Lösungsentwurf, um KI-Inferenzierung in großem Maßstab zu vereinfachen

APAC - Traditional Chinese

Korea - 한국어

APAC - English

Middle East - English

USA - Nederlands

France - Français

Middle East - Arabic

USA - English

Vom Nachrichtendienst

19 Nov, 2024, 15:06 GMT

Die WARRP-Referenzarchitektur bietet eine umfassende modulare Lösung, die die Entwicklung von RAG-basierten Inferenzumgebungen beschleunigt

ATLANTA und CAMPBELL, Kalifornien, 19. November 2024 /PRNewswire/ -- Supercomputing 2024: WEKA, das Unternehmen für KI-native Datenplattformen, stellte eine neue Referenzarchitekturlösung vor, die die Entwicklung und Implementierung von KI-Inferenzumgebungen für Unternehmen vereinfachen und optimieren soll. Die WEKA AI RAG Reference Platform (WARRP) bietet Entwicklern von generativer KI (GenAI) und Cloud-Architekten einen Entwurf für die Entwicklung eines robusten Inferenz-Infrastruktur-Frameworks, das Retrieval-Augmented Generation (RAG) integriert. Diese Technik kommt beim KI-Inferenzprozess zum Einsatz und befähigt Large Language Models (LLMs) dazu, neue Daten aus externen Quellen zu erfassen.

Die Rolle von RAG beim Aufbau eines sicheren, zuverlässigen KI-Betriebs
Laut einer aktuellen Studie von S&P Global Market Intelligence zu globalen KI-Trends hat sich GenAI schnell zur am häufigsten eingesetzten KI-Modalität entwickelt und stellt alle anderen KI-Unternehmensanwendungen in den Schatten.^[1]

Eines der größten Probleme, mit denen Unternehmen bei der Bereitstellung von LLMs konfrontiert sind, betrifft die effektive Abfrage und Kontextualisierung neuer Daten aus verschiedenen Umgebungen und externen Quellen, um die KI-Inferenz zu unterstützen. RAG ist die führende Technik für KI-Inferenz und dient dazu, trainierte KI-Modelle zu verbessern, indem neue Erkenntnisse aus externen Datenquellen auf sichere Weise abgerufen werden. Der Einsatz von RAG im Inferenzprozess kann dazu beitragen, Halluzinationen von KI-Modellen zu reduzieren und die Genauigkeit, Zuverlässigkeit und Reichhaltigkeit der Ergebnisse zu erhöhen, wodurch sich der Bedarf an kostspieligen Nachschulungszyklen verringert.

Das Erstellen robuster, produktionsreifer Inferenzumgebungen, die RAG-Frameworks in großem Maßstab unterstützen können, ist jedoch komplex und anspruchsvoll, da sich Architekturen, bewährte Verfahren, Tools und Teststrategien immer noch rasant weiterentwickeln.

Ein umfassendes Konzept für die Beschleunigung von Inferencing
Mit WARRP hat WEKA eine infrastrukturunabhängige Referenzarchitektur definiert, die dafür verwendet werden kann, um RAG-Lösungen in Produktionsqualität und mit hoher Performance in großem Maßstab zu erstellen und zu implementieren.

WARRP wurde entwickelt, um Unternehmen dabei zu helfen, RAG-basierte KI-Inferenz-Pipelines schnell aufzubauen und bereitzustellen. Die Architektur bietet einen umfassenden Entwurf modularer Komponenten, um die Entwicklung und Bereitstellung einer erstklassigen KI-Inferenzumgebung zu beschleunigen, die für die Portabilität von Arbeitslasten, verteilte globale Rechenzentren und Multi-Cloud-Umgebungen optimiert ist.

Die WARRP-Referenzarchitektur baut auf der WEKA® Data Platform-Software auf, die auf der bevorzugten Cloud- oder Server-Hardware eines Unternehmens als Basisschicht ausgeführt wird. Sie integriert führende KI-Frameworks für Unternehmen von NVIDIA – einschließlich NVIDIA NIM™ Microservices und NVIDIA NeMo™ Retriever, beide Teil der NVIDIA AI Enterprise Software-Plattform –, erweiterte KI-Workload- und GPU-Orchestrierungsfunktionen von Run:ai und beliebte kommerzielle und Open-Source-Datenmanagement-Softwaretechnologien wie Kubernetes für die Datenorchestrierung und Milvus Vector DB für die Datenaufnahme.

„Als die erste Welle generativer KI-Technologien im Jahr 2023 in die Unternehmen einzog, konzentrierten sich die Rechen- und Dateninfrastrukturressourcen der meisten Organisationen auf das Training von KI-Modellen. Mit der zunehmenden Ausreifung der GenAI-Modelle und -Anwendungen bereiten sich viele Unternehmen nun darauf vor, diese Ressourcen auf die Inferenz zu verlagern, wissen aber oft nicht, wo sie anfangen sollen", erklärt Shimon Ben-David, Chief Technology Officer bei WEKA. „KI-Inferenz in großem Maßstab durchzuführen, ist eine extreme Herausforderung. Wir entwickeln die WEKA AI RAG Architecture Platform auf der Grundlage führender KI- und Cloud-Infrastrukturlösungen von WEKA, NVIDIA, Run:ai, Kubernetes, Milvus und anderen und stellen einen robusten, produktionsreifen Entwurf bereit, der den Prozess der Implementierung von RAG optimiert, um die Genauigkeit, Sicherheit und Kosten für den Betrieb von KI-Modellen in Unternehmen zu verbessern."

WARRP bietet ein flexibles, modulares Framework, das eine Vielzahl von LLM-Anwendungsfällen unterstützt und Skalierbarkeit, Anpassungsfähigkeit und eine hervorragende Performance in Produktionsumgebungen bietet. Die wichtigsten Vorteile sind:

Schnellerer Aufbau einer produktionsbereiten Inferenzumgebung: Die Infrastruktur und die Cloud-agnostische Architektur von WARRP können von GenAI-Entwicklern und Cloud-Architekten genutzt werden, um die Entwicklung von GenAI-Anwendungen zu rationalisieren und die Ausführung von Inferencing-Operationen in größerem Maßstab zu beschleunigen. Sie lässt sich nahtlos in die bestehenden und zukünftigen KI-Infrastrukturkomponenten eines Unternehmens, in große und kleine Sprachmodelle sowie in die bevorzugten Server, Hyperscale- oder speziellen KI-Cloud-Anbieter integrieren und bietet Unternehmen eine außergewöhnliche Flexibilität und Auswahl bei der Gestaltung ihres KI-Inferenz-Stacks.
Hardware-, Software- und Cloud-Unabhängigkeit: Das modulare Design von WARRP unterstützt die meisten führenden Server- und Cloud-Service-Anbieter. Die Architektur ermöglicht Unternehmen, die Portabilität von Arbeitslasten auf einfache Weise zu erreichen, ohne dabei die Performance zu beeinträchtigen, indem KI-Anwender die gleiche Arbeitslast auf ihrer bevorzugten Hyperscale-Cloud-Plattform, ihrem KI-Cloud-Service oder ihrer lokalen Serverhardware mit minimalen Konfigurationsänderungen ausführen können. Unabhängig davon, ob sie in einer öffentlichen, privaten oder hybriden Cloud-Umgebung eingesetzt werden, demonstrieren KI-Pipelines ein stabiles Verhalten und vorhersehbare Ergebnisse und vereinfachen so den Hybrid- und Multi-Cloud-Betrieb.
Optimierung des gesamten KI-Inferenz-Stacks: Die Ausführung von RAG-Pipelines kann sehr anspruchsvoll sein, insbesondere bei großen Modell-Repositories und komplexen KI-Workloads. Mit der Integration der WEKA Data Platform in ihren KI-Inferenz-Stack können Organisationen erhebliche Leistungssteigerungen erzielen, insbesondere in Szenarien mit mehreren Inferenzmodellen. Die Fähigkeit der WEKA Data Platform, Modelle effizient zu laden und zu entladen, beschleunigt die Bereitstellung von Token für Benutzeranfragen weiter, insbesondere in komplexen, verketteten Inferenz-Workflows, die mehrere KI-Modelle umfassen.

„Mit der zunehmenden Verbreitung von KI wächst der Bedarf an vereinfachten Methoden zur Bereitstellung von Produktions-Workloads in großem Maßstab. Die RAG-basierte Inferenzierung entwickelt sich zu einem wichtigen Meilenstein im Wettlauf um KI-Innovationen und bringt neue Überlegungen für die zugrunde liegende Dateninfrastruktur eines Unternehmens mit sich", kommentiert Ronen Dar, Chief Technology Officer bei Run:ai. „Die WARRP-Referenzarchitektur ist eine hervorragende Lösung für Kunden, die eine Inferenzumgebung aufbauen. Sie bietet einen grundlegenden Entwurf für eine schnelle, flexible und sichere Entwicklung mit branchenführenden Komponenten von NVIDIA, WEKA und Run:ai zur Maximierung der GPU-Nutzung in privaten, öffentlichen und hybriden Cloud-Umgebungen. Diese Kombination ist eine Win-Win-Situation für Kunden, die ihre Konkurrenz an der Spitze der KI-Innovation überholen wollen."

„Unternehmen suchen nach einer einfachen Möglichkeit, ihre Daten einzubetten, um RAG-Pipelines zu erstellen und einzusetzen", erklärt Amanda Saunders, Director of Enterprise Generative AI Software, NVIDIA. „Die Verwendung von NVIDIA NIM und NeMo mit WEKA bietet Unternehmenskunden einen schnellen Weg zur Entwicklung, Bereitstellung und Ausführung hochleistungsfähiger KI-Inferenz- und RAG-Operationen in großem Maßstab."

Die erste Version der WARRP-Referenzarchitektur steht jetzt zum kostenlosen Download bereit. Besuchen Sie https://www.weka.io/resources/reference-architecture/warrp-weka-ai-rag-reference-platform/, um eine Kopie zu erhalten.

Besucher der Supercomputing 2024 können WEKA am Stand 1931 besuchen, um weitere Informationen zu erhalten und eine Demo der neuen Lösung zu erleben.

Ergänzende Zitate von KI-Cloud-Service-Anbietern

Applied Digital
„Da Unternehmen zunehmend hochentwickelte KI- und GenAI-Inferenzierung nutzen, um ihre Kunden und Mitarbeiter zu unterstützen, erkennen sie die Vorteile der Nutzung von RAG für mehr Einfachheit, Funktionalität und Effizienz", betont Mike Maniscalco, Chief Technology Officer bei Applied Digital. „Der WARRP-Stack von WEKA bietet ein äußerst nützliches Framework für die umfangreiche Bereitstellung von RAG-Pipelines in einer Produktionsumgebung, unterstützt durch leistungsstarke NVIDIA-Technologie und eine zuverlässige, skalierbare Cloud-Infrastruktur."

Ori Cloud
„Führende GenAI-Unternehmen nutzen Ori Cloud, um die weltweit größten LLMs zu trainieren, und erreichen dank unserer Integration mit der WEKA Data Platform eine maximale GPU-Auslastung", so Mahdi Yahya, Gründer und CEO von Ori Cloud. „Wir freuen uns auf die Zusammenarbeit mit WEKA, um robuste Inferenzlösungen unter Verwendung der WARRP-Architektur zu entwickeln und so den Kunden von Ori Cloud dabei zu helfen, die Vorteile von RAG-Pipelines zu maximieren und ihre KI-Innovationen zu beschleunigen."

Informationen zu WEKA
WEKA entwickelt einen neuen Ansatz für den Unternehmensdaten-Stack, der für die KI-Ära konzipiert ist. Die „WEKA® Data Platform" setzt mit einer Cloud- und KI-nativen Architektur, die überall eingesetzt werden kann und eine nahtlose Datenportabilität zwischen lokalen, Cloud- und Edge-Umgebungen bietet, neue Maßstäbe für KI-Infrastrukturen. Sie verwandelt veraltete Datensilos in dynamische Datenpipelines, die Grafikprozessoren, das Training und die Inferenz von KI-Modellen sowie andere leistungsintensive Arbeitslasten beschleunigen und es ihnen ermöglichen, effizienter zu arbeiten, weniger Energie zu verbrauchen und die damit verbundenen CO2-Emissionen zu reduzieren. WEKA unterstützt die innovativsten Unternehmen und Forschungseinrichtungen der Welt bei der Bewältigung komplexer Datenherausforderungen, um schneller und nachhaltiger zu Entdeckungen, Erkenntnissen und Ergebnissen zu gelangen – darunter 12 der Fortune 50. Besuchen Sie www.weka.io, um mehr zu erfahren oder verbinden Sie sich mit WEKA auf LinkedIn, X oder Facebook.

WEKA und das WEKA-Logo sind eingetragene Marken von WekaIO, Inc. Andere hier verwendete Markennamen können Marken der jeweiligen Eigentümer sein.

^[1] Global Trends in AI 2024 , September 2024, S&P Global Market Intelligence

Foto - https://mma.prnewswire.com/media/2561543/4304845.jpg
Logo – https://mma.prnewswire.com/media/1796062/WEKA_v1_Logo.jpg

WEKA präsentiert neuen Lösungsentwurf, um KI-Inferenzierung in großem Maßstab zu vereinfachen

APAC - Traditional Chinese

Korea - 한국어

APAC - English

Middle East - English

USA - Nederlands

France - Français

Middle East - Arabic

USA - English

Vom Nachrichtendienst

Kontaktaufnahme zu PR Newswire

Globale Seiten