AI od Googlu opět čaruje, z vašich poznámek vám vytvoří podcast na míru

Adam Homola 13. 9. 2024 18:00

NootebookLM umí z dostupných materiálů udělat audio přehled
V praxi to zní jako neformální AI podcast na vámi vybrané téma
Zatím jde stále pouze o experimentální funkci, ovšem s obřím potenciálem

Google v rámci své pořád relativně nové aplikace NootebookLM představil funkci Audio Overview. Ta promění vaše poznámky a textové zdroje ve zvukový soubor, který je de facto podcastem na dané téma. Audio Overview se totiž v praxi tváří jako živá diskuze dvou lidí rozpravujících o tématu.

Podcast na přání

Oni dva diskutující probírají dané téma, shrnují materiál, vyvozují souvislosti, a dokonce i vtipkují. Teoreticky tak můžete do aplikace NotebookLM nahrát hromadu textů či dokumentů, nechat si z toho na jedno kliknutí udělat podcast a namísto úmorného studia souborů to celé poslouchat ve formě podcastu při nějaké jiné činnosti.

V návaznosti na stávající možnosti NotebookLM, které už nějakou dobu využívají model umělé inteligence Gemini pro shrnutí výzkumu, nabízí Audio Overview zvukový rozměr interakce s poznámkami a přepisy.

Google Bard, model Gemini Pro a umělá inteligence Googlu (ilustrační obrázek) — Ilustrační obrázek

První reakce uživatelů naznačují, že jde v praxi o poměrně uvěřitelnou diskuzi, která má být opravdu podobná té lidské. Ostatně stačí si pustit ukázkovou debatu zde na blogu Googlu a ano, jde poznat, že to není tak úplně přirozená debata dvou kamarádů. Ale v kontextu hlasů vygenerovaných umělou inteligencí jde o opravdu velice působivé řešení.

Teprve začátek

Jakkoliv je nová funkce působivá, není bez problémů a potýká se s podobnými nešvary jako audio dialog s Gemini. Občas se tak může stát, že umělá inteligence některá slova vyhláskuje nebo používá netradiční fráze. Leckdy je také příliš odlehčený tón „moderátorů“ podcastu mírně řečeno podivný, obzvláště u vážnějších témat, ale to je něco, co se nejspíš velice brzy vyřeší. Nastavovat tóny, respektive úroveň formality, je u textových výstupů velkých jazykových modelů jednoduché. A u hlasových modelů by to mělo být, minimálně v případě blížícího se Advanced Voice Mode od OpenAI, taktéž jednoduše nastavitelné přímo uživatelem.

Google ale tato omezení uznává a zdůrazňuje, že funkce Audio Overview je zatím pouze experimentální a může tak být poměrně nepřesná. Google také připomíná, že generované diskuse nejsou komplexní nebo objektivní analýzou, ale odrážejí jen a pouze vlastní poznámky uživatele. Mezi další omezení patří čas potřebný k vygenerování zvukového přehledu – několik minut u větších zápisníků – a současně vám funkce nevygeneruje podcast v žádném jiném jazyce než v angličtině.

Zkuste si to sami

Pro vyzkoušení Audio Overview mohou uživatelé otevřít zápisník v NotebookLM, vybrat průvodce sešitem v pravém dolním rohu a kliknout na „Načíst“ v sekci Audio Overview, respektive v české verzi aplikaci jde o „Zvukový přehled“.

Nepřehlédněte

Google hlásí revoluci ve vývoji her. Jeho AI umí generovat nekonečného Dooma v reálném čase

Osobně jsem nový zvukový přehled na několika svých sešitech vyzkoušel a v angličtině to funguje opravdu velice dobře, byť již zmíněný tón a způsob nepříliš formálního vyjadřování se k celé řadě témat opravdu moc nehodí a celou věc leckdy zbytečně natahuje. Pořád jde ale o nesmírně působivou funkci, kterou se teď jiní pochlubit nemůžou.

Vstoupit do diskuze

Zdroj článku

Autor článku

Adam Homola

Nové technologie mě fascinují už od útlého věku. K dlouhodobému zájmu o hry a herní průmysl se mi postupem času přirozeně přidal i hardware, software, internetové služby a od roku 2022 i umělá inteligence.