Így hallgatnak bele a beszélgetéseinkbe a techóriások

Tudomány

Mostanában több alkalommal is kiderült, hogy az otthoni hangvezérelt asszisztens eszközök, vagyis a beszélgetős kütyük mögött időnként emberek ülnek és fülelnek. Tényleg lehallgatnak minket?

Talán pontosabb úgy feltenni a kérdést: az asszisztenssel folytatott beszélgetéseinkbe belehallgat-e más ember?

Nos, a válasz röviden: mi az hogy! Még azt is meg tudjuk mondani, hogy egyelőre nem látszik az a technológiai-iparági változás, ami ennek véget vetne. Azon egyszerű oknál fogva, mert a mesterségesintelligencia-technológia jelenleg ezen a szinten jár.

Mennyiség minőségbe

A mesterséges intelligencia nem úgy intelligens, mint az ember. Egy-egy MI alkalmazás azt tudja, amire megtanították. Hiába olvashatjuk egymás után az arról szóló cikkeket, hogy a gépi intelligencia slágert ír, sakktornát nyer és megtalálja a rákos sejteket a röntgenképeken, ezek a hírek különböző szoftverekről szólnak. Az egyes MI-k szűk intelligenciák, azaz egy-egy célra készítik őket. Van, amit arra, hogy felismerje az útburkolati jeleket és táblákat, mást arra, hogy zenét csináljon.

Okosotthon

Okosotthon

 

Az a közös ezekben, hogy a szoftver úgy tanulja meg, mit kell csinálnia, hogy rendkívüli mennyiségű jól-rosszul felcímkézett adatot néz át. Ezt a módszert hívják felügyelt tanulásnak. Az MI nem a világot figyeli meg és abból von le következtetéseket, s nagyon okos lesz, hanem például végignéz tízmilliárd férfi és tízmilliárd női arcot, amelyekről tudja, hogy férfit vagy nőt ábrázolnak, és utána nagy biztonsággal tud majd tippelni új képek esetében is.

„Szeretnénk arra haladni, hogy a címkézetlen adat is jó legyen, de az ipar még nem jár ezen a szinten. Sőt az Akadémia sem. A Facebook próbálkozik zajosan vagy gyengén címkézett adatok feldolgozásával” – válaszolja Szabados Levente mesterségesintelligencia-szakértő arra a kérdésemre, hogy mikor jöhet el az emberi segítség nélkül tanuló MI kora.

Az említett zajos címkézés a lájkolás, de ilyen a hashtag is: az egyik tetszést fejez ki, a másik úgy vonatkozik a képre, hogy nincs bejelölve, melyik részéhez tartozik, nincs jelölve, hogy az ábrázolt jelenetet (#fa) vagy a készítés feltételeit (#nofilter) írja-e le. Mindenesetre jobb, mintha egyáltalán nincs semmilyen leírás az adathoz. „Az Instagramnál bejött, hogy 3 milliárd képnyi rosszul címkézett fotó jobb adatnak számít, mint pár tízmillió kézzel címkézett. A mennyiség átcsapott minőségbe” – mondja Szabados.

Bocs, nem így akartuk

Az asszisztens eszközöknek a legvonzóbb funkciója, hogy hanggal lehet vezérelni őket. Beszédfelismerő és beszédszintetizáló programok viszonylag régóta léteznek, de a minőségük jelentősen javult az elmúlt években.

A felismert mondatokból megérti a rendszer, hogy mit kérünk tőle, és ha képes rá, végrehajtja. Számokat rak be, viccet mesél, időjárást olvas fel, vagy csak átállítja a termosztátot. Mindezt pedig ideális esetben akkor is megteszi, ha az ember nem rádióbemondó hangon beszél, hanem akcentusa van, meg van fázva vagy a szomszéd szobából üvölt át.

false

 

Fotó: Pixabay.com/RJA1988

Az Apple augusztus végén volt kénytelen bocsánatot kérni a felhasználóitól, mert kiderült, hogy a cég alvállalkozói belehallgathattak a Siri asszisztenssel folytott beszélgetéseikbe. A cég azzal védekezett, hogy a Siri tanításához, a minőség-ellenőrzéshez volt szükség az emberi felügyeletre. Megoldásként azt találták ki, hogy csak a felvételek elemzését vállaló ügyfelek adataival dolgozzanak az Apple alvállalkozói, és ezeket az adatokat is anonimizálják. A bocsánatkéréshez ugyanis az vezetett, hogy egy szivárogtató szerint maguk a beszélgetések bizalmas részleteket tartalmaztak, amelyeket a minőség-ellenőrzés során hallhattak a feladattal megbízott Apple-alkalmazottak. Ezen az anonimizálás sem tud minden esetben segíteni.

Korábban hasonló problémával szembesült a Google, a Facebook és a Microsoft is. A Microsoft még a Skype automatikus fordításait is emberekkel ellenőriztette. Természetesen az Amazon sem talált fel emberek nélküli megoldást. Még áprilisban írta meg a Bloomberg, hogy a hangvezérelt asszisztens szolgáltatást nyújtó Amazon Echo eszközökön dolgozó emberek akár napi ezer felvételt is kiértékelnek, a viccesnek talált részleteket pedig a közös csevegőszobában osztják meg.

A módszer miatt valójában egy cég sem kért elnézést, csupán a mellékes körülmények miatt szokták exkuzálni magukat. A Google például azért, mert holland nyelvű felvételek szivárogtak ki. Az Amazon is azt tudja csak megígérni, hogy nem fognak egy belső fórumon kacagni az ügyfelek beszélgetésén. Ezek valóban minőségbiztosítási kérdések, a rendszer adta válaszok nem ettől lesznek jobbak.

Mivel a rendszer gépi tanuláson alapul, ez pedig ma szinte kizárólag felügyelt tanulást jelent, szükség van olyan adatra, melyen be lehet tanítani az asszisztens komponenseit. Ezt az adatot a felhasználók maguk gyártják le azzal, hogy beszélgetnek az eszközzel. Illetve a Google, az Amazon vagy az Apple alvállalkozói, akik a tanítási adatbázis összeállításához belehallgatnak a beszélgetésekbe, címkézik azokat, adatokkal látják el, majd ezt feldolgoztatják az algoritmussal. A tanulás során az algoritmus átnéz egymillió címkézett képet, hogy az egymillió-egyedikről meg tudja mondani például, hogy férfi vagy nő látható rajta.

Aki nem mosolyog

Végül az eredményt is ellenőrizni kell: tényleg azt tanulta meg a szoftver, amit várunk tőle? Rengeteg történet van arról, hogyan csúszik félre egy ilyen tanulási folyamat. Egy bűnözők arcainak felismerésével kísérletező csapat például egy nagy biztonsággal működő mesterséges intelligenciát tanított be – az ártatlanok és bűnözők fotóit mutatták meg az algoritmusnak. Arra csak az ellenőrzés során jöttek rá, hogy a rendszer egy dolgot tanult meg: aki nem mosolyog a képen, az bűnöző. Teljesen igaza volt a maga világában a képfelismerőnek, hiszen a letartóztatáskor készített fotóján senki nem mosolyog, az eredmény azonban használhatatlannak bizonyult.

Egy önvezető autót fejlesztő cég vezetője pedig arról számolt be, hogyan csúszott félre egy közlekedési táblákat azonosító neurális háló tanítása: a nagy piros stoptábla helyett a képen látható egyéb egyenesekre és szögekre figyelt fel a mesterséges intelligencia. „A modellek minden jelenségre harapnak, amely ott van az adatban. És benne van a mi viselkedésünk, a mi előítéleteink is, amelyeket eltanul tőlünk a mesterséges intelligencia” – mondja Szabados.

A szakértő példát is hoz, Clever Hanst, a századelő híres, számolni tudó lovát. A ló természetesen nem tanult meg számolni, ellenben perfektül megfigyelte, mikor várja a megfejtést a gazdája, és erre jelzett vissza. „A jelenlegi mesterséges intelligenciás megoldások nagy mennyiségben a Clever Hans-effektus alapján működnek” – magyarázza Szabados. Ilyen Clever Hans-megoldás a mosolygó embereket ártatlannak, a morcosakat bűnözőnek tartó algoritmus is.

Clever Hans, a híres számolni

Clever Hans, a híres számolni "tudó" paripa

 

Az asszisztensekkel kapcsolatban nem csak az az elvárás, hogy teljesítsék az utasításainkat. Sokan azt szeretnék, ha ennél okosabb dolgokra is képesek lennének. Tárcsázza a mentőket, ha a tulajdonosa rosszul van. Jelentse vagy legalább álljon felvételi módba, ha bántalmazás hangjait hallja. Ezeknek a felismerése azonban még nehezebb feladat.

A technológia sajátosságai és az üzleti megfontolások (adat = érték) mellett még egy kulturális összetevője is van a lehallgatásnak. Az amerikai kultúrában benne gyökerezik a „csináld meg és később kérj elnézést” gondolata. Azaz a Facebook előbb begyűjt egy csomó beszélgetést, majd ha pert indítanak ellene, akkor elnézést kér. Ez nem csak a Facebookra igaz, az amerikai törvényhozás is így működik: precedensperekkel, s az azok alapján hozott törvényekkel. Mivel a legtöbb mesterséges intelligenciát használó cég amerikai, ezért egyelőre mindenki adatot gyűjt és várja az első pereket és a kialakuló joggyakorlatot.

„Az európai gyakorlat az, hogy előbb megpróbáljuk az etikai alapelveket lefektetni, majd aszerint kialakítani a helyes gyakorlatot. Ez lassabb, mint az amerikai megoldás” – magyarázza az eltérést Szabados, hozzátéve, hogy van még a kínai módszer is, ahol kijelentik, hogy mi a jó gyakorlat. A három paradigma közül az amerikai cégeké a leggyorsabb, ezért ezt látjuk működni. Akit zavar, az a tárcájával szavazhat, és nem vesz beszélgetős kütyüt a konyhába, hanem a mosogatáshoz a Sokol rádiót kapcsolja be.

Figyelmébe ajánljuk