NVIDIA och Dells nytänk ger 19 gånger snabbare AI-svar

NVIDIA och Dell presenterar nu ett nytt sätt att få stora språkmodeller att svara snabbare, med lägre latens och bättre kostnadskontroll. Lösningen bygger på att flytta den så kallade KV‑cachen, modellens minne av pågående konversationer och dokument, från GPU:ns begränsade minne till andra mer tillgängliga resurser.

När en modell arbetar skapas uppgifter (Keys och Values) som hjälper AI att förstå sammanhang. Så länge dessa ryms i GPU:ns snabba minne genereras svar snabbt. Men när kontexten blir lång växer cachen, vilket tvingar fram omräkningar som gör svaren långsammare, något som också ökar strömförbrukningen. Genom att avlasta KV‑cachen till större minnes‑ och lagringslager kan GPU:er fokusera på beräkningar, vilket ger snabbare svar och bättre resursutnyttjande.

Med NVIDIA BlueField‑4 och den nya Context Memory Storage‑plattformen (CMS), kombinerat med Dells lagringslösningar PowerScale, ObjectScale och Project Lightning, blir inferensen mer effektiv och lättare att skala.

BlueField‑4 för CMS lägger till ett dedikerat minneslager som kopplar ihop snabb, men begränsat, GPU‑minne med traditionell lagring. Det innebär bättre utnyttjande av GPU:er vid längre resonemang, lägre latens i realtidsdialoger och högre prestanda per watt.

Mätbara vinster redan nu

Från start går det att få tydliga prestandaförbättringar. Dells avlastning av KV‑cache kan ge upp till 19 gånger snabbareförsta svar (TTFT, Time to First Token) och upp till 5,3 gånger fler förfrågningar per sekund. För verksamheter som ännu inte använder BlueField‑4, eller som behöver stort lagringsutrymme, finns en mjukvarustack som kombinerar LMCache och NVIDIA NIXL med Dells lagringsmotorer. Då kan KV‑cachen flyttas till fil‑ eller objektlagring via RDMA, en typ av överföring som går förbi serverns CPU och håller dataflödet uppe.

För organisationer har detta ett tydligt värde. Kostnaderna kan sänkas eftersom man inte behöver köpa fler dyra GPU:er enbart för minne. Samtidigt gör den förbättrade förmågan att avläsa sammanhang att modeller kan minnas mer av samtal, sammanfatta större dokument och ge mer träffsäkra, personliga svar över tid.

Genom ett öppet ekosystem bygger NVIDIA och Dell en komplett AI‑fabrik som hjälper organisationer att snabbare gå från idé till resultat, oavsett om fokus är ultralåg latens med BlueField‑4 eller större skala med PowerScale och ObjectScale.

För mer information, besök Dells blogg här.

BIld: Gerd Altmann

Nyheter

Du kanske även vill läsa om det här

Drönare kan bli elektroniskt synliga i svenskt luftrum

Med den nya strategiska planen FUTUREADY laddar Renault för global tillväxt och massiv elektrifiering

AXS lanserar nya kamera- och VMS-lösningar för komplett portfölj och professionell övervakning

Så fungerar den nya elbilspremien – regler, inkomstkrav och vilka som kan få stödet

Alpine fortsätter tillväxtresan: Breddar modellutbudet och ny teknikplattform

Rivstart för eldrivna transportbilen Kia PV5 Cargo – toppar registreringarna hittills i år

Gasen i botten under 2025 – nu konsoliderar Hedin Nordic Truck sitt nätverk

En av Finlands största operatörer väljer Waystream

De mest uppmärksammade säkerhetsincidenterna under 2025 – och vad de avslöjar om 2026