Microsoft-specialisten hebben kunstmatige intelligentie ontwikkeld die spraak genereert. Het heeft menselijke niveaus van communicatie en natuurlijke taalherkenning bereikt. Het bedrijf zegt ronduit: we hebben het, maar we zullen het niet publiekelijk beschikbaar maken omdat het te gevaarlijk is voor het grote publiek.
Het taalmodel genaamd Vall-E (niet te verwarren met de animatiefilm Wall-E) is een andere versie van het op kunstmatige intelligentie gebaseerde systeem dat door Microsoft is ontwikkeld. Dit systeem richt zich op het herkennen van natuurlijke taal en menselijke spraak. De nieuwste versie van Vall-E overtreft de eerdere inspanningen van het bedrijf op het gebied van ‘natuurlijkheid’ en de gelijkenis van spraak met de oorspronkelijke bron – in dit geval de spreker waarop de technologie is gebaseerd en ontwikkeld.
Hier komt het probleem. Al zou het misschien beter zijn om het anders te zeggen: een uitdaging. Het bleek dat Vall-E in de nieuwste versie gelijkheid met mensen heeft bereikt. Hij klinkt als een mens, hij praat als een mens, hij is in principe niet van een mens te onderscheiden. Het taalmodel is dermate ontwikkeld dat Microsoft de verantwoorde beslissing heeft genomen om het niet publiekelijk beschikbaar te maken.
Een taalmodel voor het klonen van mensen
Het nieuwe AI-model van Microsoft kreeg voornamelijk twee verbeteringen die de prestaties aanzienlijk verbeterden. Ten eerste ontving hij de zogenaamde groepsmodellering van codes, wat een betere organisatie van geluidssamples mogelijk maakt en resulteert in een hogere snelheid van gevolgtrekking. Hierdoor leert AI sneller en voert passende correcties uit.
De tweede verbetering is een betere herhalingsbewuste bemonstering. Hier gaat het erom dat AI vooral leert van nieuwere en frissere materialen, en niet te vaak hetzelfde bronmateriaal ‘herwerkt’. Tegelijkertijd helpt dit proces de werking van het hele model te stabiliseren.
LibriSpeech is een dataset die wordt gebruikt bij onderzoek naar spraakherkenning en die duizenden uren Engelse spraakopnames en transcripties bevat van openbaar beschikbare boeken van Project Gutenberg. Het wordt veel gebruikt voor het trainen en testen van algoritmen voor spraakherkenning en spraaksynthese.
VCTK Corpus is op zijn beurt een spraakdatabase met opnames van verschillende sprekers uit verschillende regio’s, die wordt gebruikt voor onderzoek naar spraaksynthese en sprekerherkenning. Dankzij de grote verscheidenheid aan accenten en stemmen is VCTK een waardevolle hulpbron voor trainingsmodellen die met verschillende varianten van de Engelse spraak moeten omgaan.
Beide Vall-E 2.0-testen waren zeer succesvol. Bovendien beweert Microsoft dat de AI-tool een menselijk niveau bereikte: het presteerde beter dan de bronmonsters in termen van gelijkenis en natuurlijkheid. Met andere woorden: de tool kan natuurlijke spraak genereren die vrijwel identiek is aan de spraak van de oorspronkelijke spreker.
Het klinkt uiterst realistisch
Om de effectiviteit van Vall-E te bewijzen heeft Microsoft op de projectwebsite samples van het AI-systeem beschikbaar gesteld. We kunnen daar geen eigen opnames maken, maar we kunnen wel luisteren naar een aantal reeds voorbereide opnames.
De door Microsoft geplaatste opnames klinken inderdaad zeer realistisch en zijn niet te onderscheiden van een menselijke spreker. Kunstmatige intelligentie heeft zelfs geen probleem met het opmerken van verschillende subtiliteiten, zoals het benadrukken van het juiste woord in een zin, wat mensen onbewust doen tijdens het spreken. Kortom: hij klinkt menselijk.
Vall-E blijft een onderzoeksproject
De nieuwste versie van Vall-E blijft slechts een onderzoeksproject. Microsoft heeft geleerd verrassend effectieve en ‘menselijke’ spraakgeneratoren te maken en zal deze vaardigheden voor zichzelf houden. Het bedrijf benadrukte dat het geen plannen heeft om de technologie in consumentenproducten te integreren en deze niet beschikbaar zal maken voor het grote publiek. Ze zijn te gevaarlijk omdat ze veel valse berichten kunnen creëren en waarschijnlijk snel in de handen van cybercriminelen zouden vallen voor illegale activiteiten (bijvoorbeeld nabootsing van identiteit, stemidentificatie).
Het is onduidelijk of Microsoft de spraakgeneratietechnologie voor eigen voordeel zal gebruiken. Het bedrijf zou bijvoorbeeld passende oplossingen voor de filmindustrie kunnen creëren en nasynchronisatie kunnen bieden met de stemmen van acteurs en actrices die niet meer leven, of tegen lage kosten gesproken educatieve inhoud kunnen creëren. Natuurlijk blijft er nog de kwestie van wettelijke regelgeving, ethiek en publieke ontvangst, maar de mogelijkheden zijn zeer breed.
Voorlopig kunt u erop rekenen dat Microsoft over een sterke beveiliging beschikt. Een spraakgenerator van deze klasse kan simpelweg niet in verkeerde handen vallen.