WEKA debuteert met een nieuwe blauwdruk om AI-inferencing op schaal te vereenvoudigen
WARRP-referentiearchitectuur biedt uitgebreide modulaire oplossing die de ontwikkeling van RAG-gebaseerde inferencing-omgevingen versnelt
ATLANTA en CAMPBELL, Calif., 19 november 2024 /PRNewswire/ -- Op Supercomputing 2024: WEKA, het AI-native dataplatformbedrijf, heeft een nieuwe referentie-architectuuroplossing gepresenteerd om de ontwikkeling en implementatie van enterprise AI inferencing omgevingen te vereenvoudigen en te stroomlijnen. Het WEKA AI RAG Reference Platform (WARRP) biedt ontwikkelaars van generatieve AI (GenAI) en cloud-architecten een ontwerpblauwdruk om een robuust infrastructuur framework voor inferenties te ontwikkelen met behulp van retrieval-augmented generation (RAG), een techniek die in het AI-inferentieproces wordt gebruikt om grote taalmodellen (LLM's) in staat te stellen nieuwe gegevens van externe bronnen te verzamelen.
De kriticiteit van RAG in het bouwen van veilige, betrouwbare AI-activiteiten
Volgens een recent onderzoek naar wereldwijde AI-trends, uitgevoerd door S&P Global Market Intelligence, heeft GenAI zich snel ontpopt als de meest toegepaste AI-modaliteit, die alle andere AI-toepassingen in de onderneming overschaduwt.[1]
Een primaire uitdaging voor bedrijven bij het inzetten van LLM's is ervoor te zorgen dat ze effectief nieuwe gegevens uit meerdere omgevingen en externe bronnen kunnen ophalen en contextualiseren om ter ondersteuning van AI-inferentie. RAG is de toonaangevende techniek voor AI-inferentie en wordt gebruikt om getrainde AI-modellen te verbeteren door op een veilige manier nieuwe inzichten uit externe gegevensbronnen te halen. Het gebruik van RAG in het inferentieproces kan helpen om hallucinaties van AI-modellen te verminderen en de nauwkeurigheid, betrouwbaarheid en rijkdom van de uitvoer te verbeteren, zodat minder vaak kostbare hertrainingscycli minder nodig zijn.
Het creëren van robuuste productieklare inferentieomgevingen die RAG frameworks op schaal kunnen ondersteunen is echter complex en uitdagend, vanwege de voortdurende snelle ontwikkeling van architecturen, best practices, tools en teststrategieën.
Een uitgebreide blauwdruk voor Inferencing-versnelling
Met WARRP heeft WEKA een infrastructuur-agnostische referentie architectuur gedefinieerd die kan worden ingezet om productie-kwaliteit en hoogperformante RAG-oplossingen op schaal te bouwen en te implementeren.
WARRP is ontworpen om organisaties te helpen met de snelle bouw en uitrol van op RAG gebaseerde AI-inferencingpijplijnen. Het biedt een uitgebreide blauwdruk van modulaire componenten die kunnen worden ingezet om snel een geoptimaliseerde AI-inferentieomgeving van wereldklasse te ontwikkelen en te gebruiken voor de overdraagbaarheid van workloads, gedistribueerde wereldwijde datacenters en multicloudomgevingen.
De WARRP-referentiearchitectuur is gebaseerd op WEKA® Data Platform-software die draait op de gewenste cloud of serverhardware van een organisatie als basislaag. Het bevat vervolgens toonaangevende enterprise AI frameworks van NVIDIA, waaronder NVIDIA NIM™ microservices en NVIDIA NeMo™ Retriever, beide onderdeel van het NVIDIA AI Enterprise software platform. Het levert geavanceerde AI-workload en GPU orkestratiemogelijkheden van Run:ai en populaire commerciële en open-source softwaretechnologieën voor gegevensbeheer zoals Kubernetes voor gegevensorkestratie en Milvus Vector DB voor gegevensinvoer.
"Toen de eerste golf van generatieve AI-technologieën in 2023 naar de onderneming kwamen, waren de rekenkracht- en data-infrastructuurmiddelen van de meeste organisaties gericht op het trainen van AI-modellen. Nu GenAI-modellen en -toepassingen volwassen zijn geworden, bereiden veel bedrijven zich voor op het verschuiven van deze middelen om zich te richten op inferencing, maar ze weten misschien niet waar ze moeten beginnen," zegt Shimon Ben-David, chief technology officer bij WEKA. "AI-inferencing op schaal uitvoeren is een enorme uitdaging. We ontwikkelen het WEKA AI RAG Architecture Platform op toonaangevende AI- en cloudinfrastructuuroplossingen van WEKA, NVIDIA, Run:ai, Kubernetes, Milvus en anderen. We willen een robuuste productieklare blauwdruk bieden die het implementatieproces van RAG stroomlijnt om de nauwkeurigheid, veiligheid en kosten van het uitvoeren van AI-modellen voor bedrijven te verbeteren."
WARRP levert een flexibel, modulair raamwerk dat verschillende LLM-implementaties ondersteunt en schaalbaarheid, aanpasbaarheid en uitzonderlijke prestaties in productieomgevingen biedt. De belangrijkste voordelen zijn:
- Snellere bouw van een productie-klare inferencing-omgeving: GenAI-ontwikkelaars en cloud-architecten kunnen de infrastructuur- en cloud-agnostische architectuur van WARRP gebruiken om de ontwikkeling van GenAI-applicaties te stroomlijnen en inferentie-actiiviteiten sneller op schaal uit te voeren. Het integreert naadloos met bestaande en toekomstige AI-infrastructuurcomponenten, grote en kleine taalmodellen en voorkeursproviders van servers, hyperscale of gespecialiseerde AI-clouds, waardoor organisaties uitzonderlijke flexibiliteit en keuzemogelijkheden hebben bij het ontwerpen van hun AI-inferentiestack.
- Agnostisch voor hardware, software en cloud: Het modulaire ontwerp van WARRP ondersteunt de meeste grote server- en cloudserviceproviders. De architectuur stelt organisaties in staat om gemakkelijk workloads over te dragen zonder in te boeten op de prestaties. AI-beoefenaars kunnen dezelfde workload draaien op hun favoriete hyperscale cloudplatform, AI cloudservice of on-premises serverhardware met minimale configuratiewijzigingen. Of ze nu worden ingezet in een publieke, private of hybride cloudomgeving, AI-pijplijnen vertonen stabiel gedrag en voorspelbare resultaten, en vereenvoudigen hybride en multicloudactiviteiten.
- Geoptimaliseerde end-to-end AI-inferencing stack: Het uitvoeren van RAG-pijplijnen kan zeer veeleisend zijn, vooral als je te maken hebt met grote modelrepositories en complexe AI workloads. Organisaties kunnen enorme prestatieverbeteringen bereiken door het WEKA Data Platform in hun AI-inferentiestack te integreren, zoals in multi-model inferentiescenario's. De mogelijkheid van het WEKA Data Platform om modellen efficiënt te laden en te lossen versnelt en levert tokens voor gebruikersprompts, vooral in complexe, gekoppelde inferentie workflows met meerdere AI-modellen.
"Nu AI steeds sneller wordt toegepast, is er een grote behoefte aan vereenvoudigde manieren om productieworkloads op schaal in te zetten. RAG-gebaseerde inferenties worden ondertussen een belangrijke grens in de AI-innovatierace, die nieuwe overwegingen met zich meebrengt voor de onderliggende data-infrastructuur van een organisatie," zegt Ronen Dar, chief technology officer bij Run:ai. "De WARRP-referentiearchitectuur biedt een uitstekende oplossing voor klanten die een inferentie-omgeving bouwen en levert een essentiële blauwdruk om hen te helpen snel, flexibel en veilig te ontwikkelen. Met behulp van toonaangevende componenten van NVIDIA, WEKA en Run:ai kunnen van een maximaal GPU-gebruik in private, publieke en hybride cloudomgevingen profiteren. Deze combinatie is een win-win voor klanten die hun concurrentie willen overtreffen op het snijvlak van AI-innovatie."
"Ondernemingen zijn op zoek naar een eenvoudige manier om hun gegevens in te bedden voor de bouw en uitrol van RAG-pijplijnen," zegt Amanda Saunders, directeur Enterprise Generative AI-software, NVIDIA. "Het gebruik van NVIDIA NIM en NeMo met WEKA geeft zakelijke klanten een snel pad om krachtige AI-inferentie en RAG-activiteiten op schaal te ontwikkelen, in te zetten en uit te voeren."
De eerste versie van de WARRP-referentiearchitectuur kan nu gratis worden gedownload. Ga naar https://www.weka.io/resources/reference-architecture/warrp-weka-ai-rag-reference-platform/ voor een exemplaar.
Deelnemers aan Supercomputing 2024 kunnen WEKA bezoeken op stand #1931 voor meer details en een demo van de nieuwe oplossing.
Commentaren van ondersteunende AI Cloud Serviceproviders
Applied Digital
"Nu bedrijven steeds meer gebruik maken van geavanceerde AI en GenAI-inferencing om hun klanten en werknemers meer mogelijkheden te geven, erkennen ze de voordelen van het gebruik van RAG voor meer eenvoud, functionaliteit en efficiëntie," zegt Mike Maniscalco, chief technology officer bij Applied Digital. "De WARRP-stack van WEKA biedt een zeer nuttig referentiekader om RAG-pijplijnen te leveren in een productie-implementatie op schaal, ondersteund door krachtige NVIDIA-technologie en betrouwbare, schaalbare cloud-infrastructuur."
Ori Cloud
"Toonaangevende GenAI-bedrijven draaien op Ori Cloud om 's werelds grootste LLM's te trainen. Ze bereiken een maximaal GPU-gebruik dankzij onze integratie met het WEKA Data Platform," zegt Mahdi Yahya, oprichter en chief executive officer van Ori Cloud. "We kijken ernaar uit om met WEKA samen te werken en robuuste inferentie-oplossingen te bouwen met behulp van de WARRP-architectuur. Hiermee kunnenl Ori Cloud-klanten de voordelen van RAG-pijplijnen maximaliseren en hun AI-innovatie versnellen."
Over WEKA
WEKA ontwerpt een nieuwe benadering van de enterprise data stack, gebouwd voor het AI-tijdperk. Het WEKA®-dataplatform zet de standaard voor AI-infrastructuur met een cloud- en AI-native architectuur die overal kan worden gebruikt. Het biedt naadloze datatoegang on-premises, in de cloud en aan de rand. Het bedrijf transformeert stagnerende gegevensopslagsilo's in dynamische datapijplijnen die GPU's, AI-modeltraining en inferentie, en andere prestatie-intensieve werklasten in de versnelling zetten, om efficiënter te werken, minder energie te verbruiken en de bijbehorende CO2-uitstoot te verminderen. WEKA helpt 's werelds meest innovatieve bedrijven en onderzoeksorganisaties complexe data uitdagingen te overwinnen om sneller en duurzamer tot ontdekkingen, inzichten en resultaten te komen - inclusief 12 van de Fortune 50. Bezoek www.weka.io voor meer informatie of verbind met WEKA op LinkedIn, X, en Facebook.
WEKA en het WEKA-logo zijn geregistreerde handelsmerken van WekaIO, Inc. Andere hierin gebruikte handelsnamen kunnen handelsmerken zijn van hun respectieve eigenaars.
[1] 2024 Global Trends in AI, september 2024, S&P Global Market Intelligence.
Foto - https://mma.prnewswire.com/media/2561543/4304845.jpg
Logo - https://mma.prnewswire.com/media/1796062/WEKA_v1_Logo.jpg
Dit artikel delen