Je zegt “Hallo!” en je hoort: “Hallo.” Meta Voicebox, de generatieve kunstmatige intelligentie gepresenteerd door Mark Zuckerberg, zal ervoor zorgen dat iedereen van ons een vreemde taal kan spreken.
Het enige wat Meta’s AI nodig heeft, is een audiofragment van slechts 2 seconden. Daarna begint het met het genereren van spraak en is het uitstekend in het verwerken van natuurlijke taal.
Meta, het moederbedrijf van Facebook, heeft zijn Voicebox-technologie onthuld. Deze technologie kan tekst vloeiend omzetten in spraak of een deel van de spraak herstellen dat bijvoorbeeld is onderbroken door extern geluid (zoals een blaffende hond) en correcties aanbrengen door het blaffen te verwijderen.
Daarnaast kan Voicebox een opname beluisteren en de tekst voorlezen in andere talen zoals Frans, Duits, Spaans of Portugees.
De Voicebox spraaksynthesizer heeft slechts 2 seconden nodig
Voicebox kan worden gebruikt om virtuele assistenten of niet-speelbare personages (NPC’s) in de metaverse een natuurlijk klinkende stem te geven.
Stel je voor dat we met een vriend naar een bijeenkomst in de virtuele wereld gaan en een online winkel bezoeken. Het kan zomaar zijn dat een kunstmatige intelligentie achter de toonbank staat. Deze AI kan op een natuurlijke manier met ons communiceren, bijvoorbeeld door vragen over producten te beantwoorden of te helpen met het plaatsen van een bestelling voor thuisbezorging.
Een andere toepassing van de unieke spraaksynthesizer is het gebruik ervan door slechtzienden. Hiermee kunnen zij naar relevant nieuws luisteren of artikelen laten voorlezen. Het kan ook eenvoudig berichten van vrienden of familie hardop afspelen, en als we het “voeden” met audiofragmenten van deze mensen, zullen de berichten klinken alsof ze zijn ingesproken door personen die we kennen. Althans, dat is wat de eerste demonstraties laten zien.
Zoals Meta uitlegt, is de tekst-naar-spraaktechnologie meer dan alleen een spraaksynthesizer. Het onderscheidt zich door:
Tekst-naar-spraak-synthese in context: Met een audiofragment van slechts twee seconden kan Voicebox de stijl van de audio overnemen en deze gebruiken om tekst-naar-spraak te genereren.
Spraakbewerking en ruisonderdrukking: Voicebox kan een spraakfragment reproduceren dat door ruis is onderbroken, of verkeerd uitgesproken woorden vervangen zonder dat de hele spraak opnieuw hoeft te worden opgenomen. Stel bijvoorbeeld dat een hond blaft in een opname, dan kan Voicebox dat specifieke deel verwijderen en opnieuw genereren.
Meertalige stijloverdracht: Wanneer het systeem een voorbeeld van een toespraak en een stukje tekst in een andere taal ontvangt, bijvoorbeeld Engels, Frans, Duits, Spaans of Portugees, kan Voicebox de tekst in een van deze talen voorlezen, zelfs als het voorbeeld alleen in één taal is.
De Voicebox-synthesizer bevindt zich nog in de testfase
Momenteel is de tekst-naar-spraaktechnologie van Meta nog in de testfase en kunnen we deze niet publiekelijk gebruiken. Het bedrijf geeft aan dat het “binnenkort” beschikbaar zal zijn.
Meta is zich echter bewust van de potentiële gevaren die kunstmatige intelligentie met zich mee kan brengen. Dit betreft vooral de verspreiding van nepnieuws of het creëren van vervalste audio-opnames in de stem van bekende personen. Daarom benadrukt het bedrijf dat er wordt gewerkt aan “een effectieve manier om authentieke spraak te onderscheiden van door Voicebox gegenereerde spraak.”
Er is echter nog een andere dreiging: het vervangen van sprekers door kunstmatige intelligentie. Het is niet moeilijk om je een scenario voor te stellen waarin audioboeken door AI worden voorgelezen en niet door mensen. Vooral omdat bedrijven als Google en Apple al werken aan ‘AI-narratie’ voor audioboeken. In 2022 stelde Google deze diensten beschikbaar voor uitgevers in zes landen, waaronder de VS en Canada. Google’s AI-stemmen dragen namen zoals Archie, die Brits klinkt, of Santiago, die Spaans spreekt.
Apple introduceerde op zijn beurt AI-stemmen zoals Madison en Jackson. Onafhankelijke auteurs kunnen deze vertellers gebruiken om hun werk om te zetten in audioboeken en een nieuw publiek te bereiken. Apple communiceerde de introductie van AI bij het lezen van boeken op een manier die stelde dat elk boek het verdient om gehoord te worden. Dat klinkt goed, maar weinig mensen beseffen dat dit mogelijk kan leiden tot een verlies van banen voor professionele voorlezers. Als Voicebox even effectief blijkt te zijn en stemmen kan nabootsen van personen die we graag horen, zullen professionele vertellers dit zeker als een bedreiging zien.