Nyheter

NVIDIA och Dells nytänk ger 19 gånger snabbare AI-svar

NVIDIA och Dell presenterar nu ett nytt sätt att få stora språkmodeller att svara snabbare, med lägre latens och bättre kostnadskontroll. Lösningen bygger på att flytta den så kallade KV‑cachen, modellens minne av pågående konversationer och dokument, från GPU:ns begränsade minne till andra mer tillgängliga resurser. 

När en modell arbetar skapas uppgifter (Keys och Values) som hjälper AI att förstå sammanhang. Så länge dessa ryms i GPU:ns snabba minne genereras svar snabbt. Men när kontexten blir lång växer cachen, vilket tvingar fram omräkningar som gör svaren långsammare, något som också ökar strömförbrukningen. Genom att avlasta KV‑cachen till större minnes‑ och lagringslager kan GPU:er fokusera på beräkningar, vilket ger snabbare svar och bättre resursutnyttjande.

Med NVIDIA BlueField‑4 och den nya Context Memory Storage‑plattformen (CMS), kombinerat med Dells lagringslösningar PowerScale, ObjectScale och Project Lightning, blir inferensen mer effektiv och lättare att skala.

BlueField‑4 för CMS lägger till ett dedikerat minneslager som kopplar ihop snabb, men begränsat, GPU‑minne med traditionell lagring. Det innebär bättre utnyttjande av GPU:er vid längre resonemang, lägre latens i realtidsdialoger och högre prestanda per watt.

Mätbara vinster redan nu

Från start går det att få tydliga prestandaförbättringar. Dells avlastning av KV‑cache kan ge upp till 19 gånger snabbareförsta svar (TTFT, Time to First Token) och upp till 5,3 gånger fler förfrågningar per sekund. För verksamheter som ännu inte använder BlueField‑4, eller som behöver stort lagringsutrymme, finns en mjukvarustack som kombinerar LMCache och NVIDIA NIXL med Dells lagringsmotorer. Då kan KV‑cachen flyttas till fil‑ eller objektlagring via RDMA, en typ av överföring som går förbi serverns CPU och håller dataflödet uppe.

För organisationer har detta ett tydligt värde. Kostnaderna kan sänkas eftersom man inte behöver köpa fler dyra GPU:er enbart för minne. Samtidigt gör den förbättrade förmågan att avläsa sammanhang att modeller kan minnas mer av samtal, sammanfatta större dokument och ge mer träffsäkra, personliga svar över tid.

Genom ett öppet ekosystem bygger NVIDIA och Dell en komplett AI‑fabrik som hjälper organisationer att snabbare gå från idé till resultat, oavsett om fokus är ultralåg latens med BlueField‑4 eller större skala med PowerScale och ObjectScale.

För mer information, besök Dells blogg här

BIld: Gerd Altmann