Nyheter

CGI och Karlstad Universitet startar forskningssamarbete om syntetisk data

För att AI och maskininlärning ska kunna fungera på ett effektivt och tillförlitligt sätt krävs stora mängder data att träna på. Syntetisk data blir mer och mer viktigt i detta sammanhang. Idag finns inget tillförlitligt sätt för att bedöma kvaliteten på syntetiska data.

För att hitta bättre metoder för att bedöma kvalitet på syntetisk data och för att utforska hur generering av syntetisk data kan göras på ett bra sätt har IT-konsultföretaget CGI ,ett av de största IT- och affärskonsultföretagen i världen med stark närvaro i Sverige, tillsammans med Karlstad universitet startat ett forskningssamarbete, och etablerat ett forskningsteam.

– Forskningen kommer att fokusera på att utveckla metoder för utvärdering av syntetisk datakvalitet som tar hänsyn till olika dataegenskaper, modelltyper och som även kan uppskatta användbarheten på ett bra sätt, säger Jonas Forsman, Director Consulting Expert för Data Advantage på CGI i Karlstad. Vår forskning kommer att kunna hjälpa verksamheter att både generera och utvärdera syntetisk data som bättre kan säkerställa bra utfall samt vara säkra på att investeringar i data verkligen ger önskat resultat.

AI- och maskininlärning kräver enorma mängder data för att tränas, så att de kan utföra de tänkta uppgifterna. Verklig data kan både innehålla känsliga personuppgifter som gör data olämplig att använda. Datan kan också vara upphovsrättsskyddad eller helt enkelt inte finnas i den omfattning som krävs för att kunna träna AI- eller maskininlärningsmodeller.

Verklig data kan också innehålla en rad fel, vilket gör att dess kvalitet och användbarhet blir sämre. För att råda bot på detta kan syntetisk data, som genereras artificiellt, användas. Syntetisk data innehåller alltså inte någon verklig data, men har samma statistiska egenskaper och ger därför samma statistiska slutsatser som verklig data. Det gör den mycket användbar för AI-lösningar.

– En mycket viktig aspekt av syntetisk data är dess kvalitet, säger Sebastian Herold, Docent och forskare vid institutionen för matematik och datavetenskap, Karlstads universitet. Det är ett relativt outforskat område. Med syntetisk data kan du nämligen bestämma vilken kvalitet datan måste ha. I vissa situationer behöver man inte investera i hög kvalitet och på så sätt hålla nere kostnaderna. Men detta kräver tillförlitliga sätt att mäta kvalitet på den syntetisk datan.

Att kunna generera obegränsade mängder syntetisk data av hög kvalitet ger också positiva hållbarhetseffekter, då det minskar behovet av dyr datainsamling och förhindrar överflödiga träningsupprepningar, vilket minskar energiförbrukningen. Användandet av syntetisk data begränsar också potentiella läckage av känslig data och kan ge bättre och mer tillförlitliga resultat i AI-baserade lösningar.

Gemensam forskningsgrupp

Forskningssamarbetet har som mål att definiera kvalitetsmått för syntetisk data och att utveckla nästa generations syntetiska datalösningar som ger påtagligt affärsvärde för verksamheter. Dessa lösningar kommer att göra det möjligt för verksamheter att dra nytta av storskaliga och högkvalitativa syntetiska datauppsättningar utan de begränsningar som traditionell data kan ha.

Forskningsteamet består av Sebastian Herold Docent och forskare vid institutionen för matematik och datavetenskap, Karlstads universitet, som forskar på AI-metoder för mjukvarudesign, kvalitet och evolution, Jonas Forsman, Director Consulting Expert för Data Advantage på CGI i Karlstad, med lång erfarenhet av innovativa AI-lösningar, Alexander Florean, IT-konsult på CGI i Karlstad, med expertis inom maskininlärning och syntetisk data.

Foto: Recklessstudios