Qra, zoals de wetenschappers van de Technische Universiteit van Gdańsk en het Information Processing Center (OPI) hun taalmodellen noemen, kan concurreren met wereldspelers zoals OpenAI’s ChatGPT of Mistral AI.
Uit informatie van de Technische Universiteit van Gdańsk blijkt dat de samenwerking tussen de universiteit en het AI-lab van het Informatieverwerkingscentrum heeft geleid tot de creatie van generatieve neurale modellen die werken op terabytes aan taalgegevens.
“Qra is het eerste model van deze schaal en is het beste taalmodelleringsequivalent van de open tools van Meta of Mistral AI. Qra begrijpt de taalinhoud beter, begrijpt de vragen die in die taal worden gesteld beter, en genereert zelf beter samenhangende teksten”, aldus de verklaring.
Aan de Technische Universiteit van Gdańsk werd in het STOS Competence Center – een van de modernste IT-centra in Europa, waar de Kraken-supercomputer zich bevindt – een gespecialiseerde omgeving gecreëerd voor de ontwikkeling van AI-modellen.
Reden om trots te zijn
De universiteit liet weten dat een cluster van 21 Nvidia A100 80 GB grafische kaarten werd gebruikt om het project uit te voeren. Het proces van het opzetten van de omgeving, het ontwikkelen van de instrumenten en modellen, het trainen ervan (op basis van gegevens uit verschillende vakgebieden zoals recht, technologie, sociale wetenschappen, biogeneeskunde, religie en sport) en het testen ervan duurde ongeveer zes maanden.
Dankzij de geavanceerde infrastructuur van CK STOS konden de meest complexe modellen in ongeveer een maand worden getraind in plaats van jaren, aldus het persbericht.
De samenwerking tussen de Technische Universiteit van Gdańsk en OPI resulteerde in de creatie van drie modellen met verschillende niveaus van complexiteit:
Qra 1B
Qra 7B
Qra 13B
De Qra 7B- en Qra 13B-modellen behaalden aanzienlijk betere testresultaten, wat hun superieure vermogen aantoont om taal te modelleren, zowel op lexicaal als grammaticaal niveau, vergeleken met de oorspronkelijke Llama-2-7b-hf (Meta) en Mistral-7B-v0.1 (Mistral AI).
De tests werden uitgevoerd op de eerste 10.000 zinnen uit de PolEval-2018-testset en 5.000 lange en complexe documenten, geschreven in 2024.
De Qra-modellen zijn bedoeld als basis voor IT-oplossingen in domeinen die een dieper begrip van taal vereisen.
“In dit stadium is Qra een fundamenteel taalmodel dat grammaticaal en stilistisch correcte antwoorden in de taal kan genereren. De gecreëerde inhoud is van zeer hoge kwaliteit, wat wordt bevestigd door de mate van coherentie,” aldus de release.
Het team is van plan door te gaan met het afstemmen van de modellen om hun effectiviteit te beoordelen in toepassingen zoals tekstclassificatie, samenvatting en vraagbeantwoording.
De ontwikkelde modellen zijn beschikbaar gesteld in de OPI-PG-repository op het Huggingface-platform, waardoor ze gedownload en gebruikt kunnen worden voor verschillende domeinen en taken, zoals vraagbeantwoording.