Hoppa till innehållAftonbladet

Dagens namn: Orvar

Spansk superdator hjälper till med svenskan

Gustav Sjöholm/TT

Publicerad 2024-05-16

Superdatorn Mare Nostrum 5 i Barcelona. Arkivbild.

Svenska AI Sweden och tyska Fraunhofer IAIS får tillgång till den Barcelonabaserade superdatorn Mare Nostrum 5,

– Modellen kommer att funka jättebra för svenska, säger Magnus Sahlgren på AI Sweden.

I samarbetet ska stora språkmodeller av 45 europeiska språk och dialekter tas fram, inklusive svenska. Några kända stora språkmodeller – LLM:er – är Chat GPT och Googles Gemini. AI Sweden ligger bakom 2022 års svenska GPT-SW3. Den nya modellen blir förhoppningsvis betydligt vassare.

– När man tränar så här kraftfulla stora modeller på flera språk så får man överföringseffekter till mindre språk. Mindre språk blir bättre av att ha en blandning av större språk i modellerna, säger Magnus Sahlgren, chef för naturlig språkförståelse vid delvis statligt finansierade AI Sweden.

Träningen inleds under maj, på data som skrapats från nätet, och de första språkmodellerna ska vara färdiga inom några månader. Rent tekniskt innebär arbetet 8,8 miljoner beräkningstimmar i klustret, som består av 4 480 grafikchip från Nvidia av typen H100. Det är en kapacitet som inte finns tillgänglig i Sverige, enligt AI Sweden.

Målet är att modellen också ska kunna hantera minoritetsspråk som samiska.

– Det handlar ju rätt mycket om hur datatillgången ser ut för samiska. Men även om det inte är så att vi får med samiska i själva träningsförfarandet nu, så kan man sedan anpassa modellen för att kunna samiska efteråt.