Xavier ‚X‘ Jernigan, hlas DJe společnosti Spotify, vysvětluje, jaké to je stát se umělou inteligencí

V březnu Spotify (SPOT) spustilo svou první funkci využívající umělou inteligenci, když debutovalo se svým AI DJ – inteligentním zvukovým průvodcem s přesvědčivě realistickým hlasem. Jak se ukázalo, tato postava AI byla ve skutečnosti založena na skutečném člověku – šéfovi kulturních partnerství společnosti Spotify Xavieru „X“ Jerniganovi, který měl tu čest stát se prvním hlasovým modelem pro funkci AI.

Nový DJ s umělou inteligencí přizpůsobuje posluchačům poslech hudby a vybírá hudbu podle jejich zájmů. Ke každé skladbě má také mluvený komentář – podobně jako skutečný rozhlasový moderátor.

Kromě své hlavní role ve společnosti Spotify je Jernigan také hostitelem různých podcastů Spotify, včetně „The Window“, „Showstopper“ a již zaniklého podcastu „The Get Up“. Je tedy zvyklý, že jeho hlas slyší miliony posluchačů. Přesto je jeho hlas zvěčněný jako umělá inteligence jedinečnou zkušeností.

Společnost Spotify si Jernigana vybrala jako prvního hlasového modela, protože „jeho hlas a osobnost již rezonovaly s mnoha našimi posluchači,“ řekl Jernigan. „[Společnost] si byla poměrně jistá, že budu rezonovat i tímto způsobem.“

Zdroj: Unsplash

Ranní show „The Get Up“ na Spotify si získala téměř 6 milionů posluchačů a byla v top 10 podcastů na Spotify, než v roce 2022 náhle skončila, což dokazuje Jerniganovu přitažlivost.

Přesto bylo pro moderátora podcastu zpočátku těžké přijmout roli hlasového modelu pro DJe.

„Dostal jsem nabídku stát se hlasovým modelem pro DJ a když mi to vysvětlili, byl jsem úplně bez sebe,“ řekl nám Jernigan. „Představte si, že když to slyšíte poprvé, nemáte se na co dívat a já si jen říkám: ‚Počkat, cože? Budu to já, ale nejsem to já, a je to text a hlas, ale bude to znít jako já, a je to umělá inteligence?“ „Ne, ne, ne, ne…

„Pro mě to byla nová zkušenost pracovat s umělou inteligencí tímto způsobem. Byl jsem prostě ohromen,“ dodal.

Společnost Spotify uvádí, že její AI DJ byl vytvořen pomocí technologií Sonantic a OpenAI.

Sonantic je startup s umělou inteligencí, který loni koupila společnost Spotify. Technologie této společnosti byla zodpovědná za vytváření realistických hlasů založených na umělé inteligenci, včetně hlasu použitého pro Vala Kilmera ve filmu Top Gun: Maverick.“

Zdroj: Unsplash

Před akvizicí strávila společnost Spotify několik let výzkumem technologie využívající umělou inteligenci a na funkci DJ pracovala „v určité iteraci“, poznamenal Jernigan. Odmítl sdělit, jak dlouho přesně proces trval, ale uvedl, že integrace technologie Sonantic „to opravdu nakopla“.

Jernigan vysvětlil proces tréninku umělé inteligence, který zahrnoval vstup do studia, čtení ze scénáře a mluvení s různou kadencí a nádechem, aby byly vyjádřeny různé emoce. Umělou inteligenci krmil určitými slovy, která používá pouze on, aby působila co nejautentičtěji.

„Používáme slova, která říkám… Neříkám ‚melodie‘ pro písně. Takhle prostě nemluvím,“ řekl. „Říkám ‚hity‘ nebo ‚bangery‘. Takže uslyšíte DJe říkat taková slova,“ pokračoval Jernigan. „Dokonce jsme udělali celý proces, jak řeknu ‚hej‘, jak řeknu ‚ahoj‘. Nosil jsem s sebou zápisník a prostě jsem si zapisoval tyhle různé fráze, které jsem chtěl říct.“

Dodal, že tým Spotify se snažil zachovat jeho přirozené pauzy a nádechy, aby hlas umělé inteligence zněl skutečně jako lidský.

Dokonce i Jerniganova matka dala na výsledky svůj souhlas.

„[DJ] prošel testem maminky. Pustil jsem jí to ještě předtím, než to vyšlo, vysvětloval jsem jí to a snažím se, aby si to zařadila,“ řekl. „Poslouchala všechny moje podcasty, takže je zvyklá slyšet můj hlas nahraný a přehrávaný už dřív a říkala si: ‚To zní přesně jako ty‘. Moje máma říkala, že to zní jako já, takže jsem věděl, že je to na místě.“

Zdroj: Unsplash

Přestože již existují realistické hlasy s umělou inteligencí, tvrdíme, že DJ od Spotify je ve srovnání s ostatními, které jsme slyšeli, nejklidnější a nejpohodovější. Ačkoli technologie Duplex společnosti Google může znít autenticky, nemusí to být hlas, který je příjemné poslouchat, když se snažíte rozvibrovat svůj playlist letních jamů.

„Mým cílem při hraní z hlediska hlasového projevu bylo navázat kontakt s lidmi, konverzovat s nimi a přemýšlet o jednom člověku. Takže když jsem trénoval umělou inteligenci, představoval jsem si jen jednoho člověka, když jsem byl ve studiu, mluvil jsem s ním a byl jsem jeho přítelem,“ dodal.