Hlasoví asistenti, jakými jsou například Amazon Alexa, Google Asistent, Siri, či Cortana, získávají celosvětově na popularitě. Vzhledem k tomu, že mnohdy plnohodnotně fungují pouze v angličtině, je jejich obliba pochopitelně vyšší v anglojazyčných státech. Pomalu se ale zabydlují i v České republice. Nedávný výzkum agentury Median ve spolupráci s Esetem odhalil, že chytrého asistenta v ČR vlastní přibližně desetina domácností. Další domácnosti pak o pořízení uvažují.

S rostoucí oblibou je ale také stále relevantnější otázka bezpečnosti těchto zařízení. Hlasoví asistenti ze své podstaty poslouchají pořád, a čekají, kdy se ozve aktivační fráze následovaná dotazem. Problém však je, že dochází také k falešným aktivacím, a zvukové nahrávky bývají odesílány na servery provozovatele a analyzovány.

Alexa poslouchá

Větší zájem o bezpečnost chytrých asistentů spustila loňská kauza, která ukázala, že konverzace, které Amazon Alexa poslouchá, v některých případech analyzují lidé. Bloomberg loni v dubnu vyzpovídal několik zaměstnanců z údajných tisíců osob zaměstnaných v centrech v USA, Kostarice, Indii a Rumunsku. Z rozhovorů se zaměstnanci, kteří mimochodem musí podepisovat dohodu o mlčenlivosti, vyšlo několik zajímavých informací.

Jednou z nich je, že data nejsou tak docela anonymní. K nahrávkám sice není připojeno celé jméno uživatele, nicméně číslo Amazon účtu a výrobní číslo přístroje obsahují. Zatímco řadový zaměstnanec (resp. v některých případech externista) tak asi přímo nevidí, od koho poslouchaná nahrávka pochází, Amazon rozhodně nebude mít problém v případě zájmu nahrávku ke konkrétnímu člověku přiřadit.

To se však podle všeho asi moc neděje. Dalším ze zjištění vyplývajících z rozhovorů Bloombergu totiž bylo to, že ačkoliv Alexa někdy zachytí i scény domácího násilí, zanedbání péče, či dokonce znásilnění, podle oficiálních instrukcí nemají zaměstnanci tato zjištění nijak dále rozvíjet.

Cílem je tak údajně čistě zlepšování schopností asistenta. K nahrávkám jsou přiřazovány různé štítky a jsou tříděny do kategorií, podle čehož se učí umělá inteligence Alexy. Amazon se navíc brání, že tyto „lidské“ analýzy probíhají pouze na „extrémně malém vzorku“ získaných nahrávek.

Návod: jak Alexe zakázat analyzovat vaše příkazy?

Amazon po zveřejnění této kauzy do mobilní aplikace Alexa přidal novou možnost, díky které lze zakázat analýzu vašeho hlasu. Stačí spustit aplikaci, kliknout na záložku More ve spodní liště a následně Settings – Alexa Privacy.

Otevře se vám nová stránka, kde vyberte Manage Your Alexa Data. Následně najděte položku Use of Voice Recordings a vypněte ji. Alexa vás upozorní, že některé funkce hlasového asistenta nemusejí správně fungovat, ale nemusíte se obávat, po 2 týdnech s vypnutím této funkce Alexa funguje úplně stejně.

Pokud byste chtěli odstranit všechny vaše uložené zvukové příkazy, které Alexa zaznamenala, vraťte se o krok nazpět a vyberte z nabídky položku Review Voice History. Položku Filter by date nastavte na All history, a následně máte možnost kliknutím na Delete all my recordings smazat všechny hlasové příkazy.

Druhou možností je pak, stejně jako u všech jiných asistentů, prostě vypnout mikrofon. To ale není příliš pohodlné, protože pak přijdete o praktickou možnost kdykoliv na reproduktor promluvit s dotazem.

Poslouchá každý asistent

Ačkoliv se zpráva Bloombergu týkala čistě asistenta Amazonu, je důvodné předpokládat, že obdobně postupují i všichni konkurenti. Manuální přiřazování informací k získaným nahrávkám totiž efektivně pomáhá asistentům zlepšovat své schopnosti a správně analyzovat podobné problémy v budoucnu.

Zajímavým zdrojem informací na toto téma je stále probíhající studie, kterou realizují vědci z Královské univerzity v Londýně a bostonské Northeastern University. Ti vzali přístroje využívající Alexu, Google Asistent, Siri, a Cortanu a přehráli jim 134 hodin seriálů z Netflixu, a to opakovaně. S využitím kamer, analýz síťového provozu, i automaticky generovaných reportů přístrojů pak zkoumali, za jakých okolností dochází k aktivaci a co se s takto získanými nahrávkami děje.

Pozitivní je, že vědci nenašli žádný důkaz pro to, že by se jakýkoliv z asistentů zapínal záměrně s účelem pořizovat náhodné nahrávky. Ze studie nevyplynula ani existence „tajných“ alternativních aktivačních frází a nezdá se ani, že by asistenti za nějakých okolností nahrávali kontinuálně.

Co už tak pozitivní není, je fakt, že se všechna zařízení v průměru aktivovala 0,95× za hodinu, aniž by zazněla aktivační fráze. Následná nahrávka pak v 10 % případů trvala alespoň 10 vteřin, v polovině případů čtyři vteřiny. V ojedinělých případech byly zaznamenány i nahrávky dlouhé 43 vteřin.

Tato čísla se liší v závislosti na zařízení a aktivační frázi, nicméně orientačně lze říct, že při rychlosti 1,5–3 slova za vteřinu už na nahrávce dost možná nějaká ta věta zaznamenána bude.

Pozor na rýmující se spojení

Ze studie vyplývá – vcelku očekávatelně – že největší šance na falešnou aktivaci je při vyřčení spojení, které se buď rýmuje, nebo zní podobně jako aktivační fráze.

Pro přístroje s Google Asistentem jsou to tak často fráze s „Hey“, „Hi“, nebo rýmujícími se slovy. Zjištěné příklady uvádí například spojení „Hey, you told“, „Okay to go“, nebo „Yeah… good weird“. Najdou se ale i zvláštnější spojení, jako „Maybe I don’t like the cold“.

Apple pak u své Siri často reaguje opět na spojení začínající „Hey“ či „Hi“, ovšem tentokrát zpravidla následované slovy na S, F, nebo anglické TH. Aktivaci tak ve studii zařídila například spojení „Hey Missy“, „They secretly“, nebo „I’m sorry“.

Cortana pak má vzorec falešných aktivací trochu jiný, a reaguje na slova obsahující K následované hláskou R nebo T. Asistent od Microsoftu se tak spustil po spojeních „Take a break“, „Quartet“ či „According to“.

Amazon Echo lze aktivovat na mnoho způsobů

U Amazonu je pak situace složitější, protože se chování mění v závislosti na zvoleném aktivačním slovu. Pokud máte nastavené slovo Alexa, falešnou aktivaci zařídí spojení s I na začátku následovaným hláskou K nebo S. Příklady zahrnují „I care about“ nebo „I messed up“.

V případě aktivace slovem Echo pak problém činila spojení se samohláskou následovanou hláskou K či G. Jde tedy například o fráze „Head coach“, „He was quiet“ či „That cool“.

Pokud svého asistenta od Amazonu aktivujete slovem Computer, stačí v zásadě vyslovit cokoliv začínající na „comp“, případně něco, co se rýmuje s „here“. Zaznamenány tak byly aktivace na „Comparisons“, „I can’t live here“, ale také „Nuclear accident“.

Poslední možností je aktivace slovem Amazon, kde lze očekávat falešnou aktivaci u spojení kombinujících slova was, as, goes, some, případně pak fráze začínající „I’m“ následované hláskou S. Jde tedy o spojení typu „It was a“, „I’m sorry“ nebo „Want some water?“.

Nahodilé aktivace

Jakkoliv lze ve falešných aktivacích chytrých asistentů objevit určité vzorce popsané výše, není to úplně pravidlem. Výzkumníci konstatují, že většina chybných aktivací není konzistentní. Z 12 přehrání přístroje na problematické fráze reagovaly v průměru méně než třikrát. Typickým chováním tak je, že jednou spojení může způsobit aktivaci, a příště zase ne.

Proč tomu tak je, není jisté. Experiment probíhal v kontrolovaném prostředí a vliv okolních zvuků tak lze víceméně vyloučit. Výzkumníci v tomto ohledu nabízejí dvě možnosti. První z nich je náhodná ztráta dat, resp. deformace v průběhu převádění analogového signálu z mikrofonu na digitální nahrávku. Druhá pak počítá s tím, že se asistenti učí ze svých chyb a snaží se znovu nereagovat na fráze, které již jednou byly neúspěšné. Pro tuto tezi nicméně výzkumníci našli podklady jen u Amazonu.

Tak jako tak, aktivace je zkrátka trochu loterie. Určitá minorita frází nicméně produkovala vcelku konzistentní aktivace. Studie neuvádí, které přesně, nicméně lze předpokládat, že půjde o ty nejpodobnější správnému příkazu.

Nejvíc aktivací zařídili Narcos

Zajímavým zjištěním také je, že asistenti podle všeho obecně reagují více na špatnou výslovnost. Největší míru aktivací (při přepočtu na počet slov) produkoval totiž seriál Narcos. Ten se odehrává do značné míry ve španělsky mluvícím prostředí. Hodně aktivací tak způsobily anglické fráze se silným španělským přízvukem, či dokonce přímo španělská slova.

To je na jednu stranu poměrně logické – špatně vyslovená fráze může znít podobně jako aktivační spojení, byť by třeba při správné výslovnosti zněla úplně jinak. Na druhou stranu by se však dalo očekávat, že naopak rozpoznávání jiné řeči a její ignorace bude na vyšší úrovni. Zde se hodí poznamenat, že jedním z cílů výzkumníků do budoucna je právě prozkoumat reakce asistentů na cizí řeči.

Možná poněkud neočekávaným faktem pak je to, že vědci odhalili významné odlišnosti v tom, jak reagují asistenti v USA a ve Spojeném království. Ačkoliv obě země mluví anglicky, šlo o stejné modely asistentů, a bylo jim přehráváno identické audio, aktivační chování bylo jiné. Ze studie nevyplývá, jestli je důvodem čistě geografická poloha, nebo jiné vlivy.

Co se děje s nahrávkami?

Každého asi zajímá, co se stane s nahrávkou, kterou jeho chytrý asistent takto mimoděk pořídí. Jednoduchá odpověď na to ale neexistuje. Výzkum zmiňovaných univerzit zdokumentoval, že téměř kdykoliv se zařízení aktivuje a pořídí záznam, tak je následně i odeslán do cloudu. Lokální analýza je tak podle tohoto zjištění jen okrajovou záležitostí.

To, že se data do cloudu odešlou, nicméně ještě neznamená, že je někdo někdy uslyší. V drtivé většině případů asi proběhne pouze klasická automatická analýza, a tím vše končí. Na začátku zmiňovaná loňská kauza s Alexou nicméně dokládá, že v některých případech může dojít i k tomu, že si dané audio poslechne nějaký člověk. Jak časté to skutečně je, na základě jakého klíče jsou nahrávky vybírány, a nakolik je přitom ctěna anonymita, se můžeme v podstatě jen dohadovat. Jak již ale bylo řečeno, výzkum neodhalil, že by přístroje cíleně pořizovaly neoprávněné nahrávky. Cíleného špehování se tak asi bát nemusíte.

V případě Amazonu a Googlu máte navíc i možnost si ověřit, kdy k aktivaci došlo, a jak. Studie potvrdila, že takto nabízené záznamy jsou konzistentní s realitou. Ostatní poskytovatelé ale v současnosti uživatelům neposkytují přístup k nahrávkám uloženým v cloudu.

Jsou asistenti bezpeční?

Již zmiňovaný průzkum Medianu a Esetu říká, že 70 % Čechů považuje svá chytrá zařízení za bezpečná. Nakolik je to správný závěr, je samozřejmě diskutabilní. Studie dvou univerzit nicméně neodhalila žádné vyložené zneužití a v zásadě tak asi lze říct, že ano. Samotné poslouchání a odesílání nahrávek je zkrátka dané principem fungování těchto zařízení a je určitou daní za jejich služby.

Problém však může nastat, pokud nahrávku bude analyzovat člověk a mohl by z ní získat nějaký citlivý údaj. Pravděpodobnost je to sice asi minimální, nicméně vzhledem k tomu, že minimálně Amazon používá k těmto úkolům i externisty ze zemí, kde nemusí být ochrana uživatelských dat na takové úrovni, není to úplně vyloučené.

Pokud to tedy jde, doporučujeme odebrat souhlasy s následnou analýzou vašich nahrávek, shromažďováním statistických dat a podobně. V krajním případě, kdy například kvůli home office budete potřebovat řešit nějaký opravdu citlivý údaj, je asi lepší asistenta zcela vypnout, nebo se vzdálit z jeho „doslechu“.

Dobré je také nezapomínat na to, že chytré reproduktory a podobné přístroje, jsou neustále připojené k internetu, a jako takové jsou samozřejmě i zranitelné vůči útokům třetích stran. Je tak určitě dobré dbát na to, aby byl software stále aktuální. To ale platí obecně, nejen pro chytré asistenty.