Ugye mindenki látta, amikor a Google 2018-ban bemutatta a „mesterséges intelligencia-alapú” személyi asszisztensét? Ez a kis program (látszólag) úgy bonyolít le egy telefonbeszélgetést, hogy észre sem veszed, hogy nem emberrel beszéltél.
Hallottál már a Tesla önvezető autóiról?
Vagy a méltán híres Boston Dynamics robotoktról?
Ezek mind-mind olyan projektek, amelyeket szeretünk a mesterséges intelligencia (vagy angolul „Artificial Intelligence” – röviden csak „AI”) címkével illetni.
De tovább megyek: manapság már a Facebook- és Google-reklámok, a Waze vagy a Spotify ajánlórendszere, és még oly sok minden más is azt mondja magáról, hogy ő bizony AI-alapon működik.
Ebben a cikkben szeretnék egy kicsit mélyebbre ásni a témában. Mennyire beszélhetünk a fent említett projektekben ténylegesen mesterséges intelligenciáról, és mennyi benne a marketinges porhintés?
Tényleg forradalmi áttörésekről beszélünk? Vagy esetleg csak egy újabb hype-ról van szó?
Prediktív analitika és gépi tanulás
Ahhoz, hogy megértsük, hogy szakmai értelemben (data science szempontból) mit takar a mesterséges intelligencia, előbb meg kell ismerkednünk két másik fogalommal, és azok tényleges jelentésével. Ezek: a prediktív analitika és a gépi tanulás (angolul: machine learning).
Prediktív Analitika
Tegyük fel, hogy van egy könyveket áruló webshopod, és így alakulnak az első 15 hónap eladásai:
A képen egy egyszerű vonaldiagramot látsz a múlt adatairól. Ebben még nincs nagy varázslat.
A következő szint, amikor statisztikai módszerekkel, a múlt adataira illesztünk egy másik vonalat. Erre a koncepcióra „trendvonal” néven is szoktak hivatkozni. És valóban, ez a kifejezés elég jól leírja a lényegét: ezt a vonalat meghosszabbítva megtippelhetjük a közeli jövőben várható eladási eredményeket.
Ez a prediktív analitika. (Legalábbis egy nagyon leegyszerűsített példa rá.)
Egyébként ahogy az látszik, a piros görbénk elég rosszul jelzi a jövőt. Ahogy azt mindig is próbálom hangsúlyozni, ez az, ahol a data science tudományos része elkezd domborodni. Mert hogy persze, ez az (ún. elsőfokú) függvény nem jósol túl jól. De természetesen nem csak egyfajta piros görbét tudsz a kék görbére illeszteni. Csak néhány alternatíva:
Azt, hogy a fentiek közül melyik görbe a nyerő, az fogja eldönteni, hogy melyik adja a legpontosabb előrejelzést. Abba, hogy ezt hogyan lehet számosítani (és egyértelműen eldönteni), itt nem mennék bele. Ahogy említettem, ez már a „science” része a data science-nek. Ha jobban érdekel a téma, prediktív analitikáról írtam már egy hosszabb bevezető jellegű (angol nyelvű) cikket.
De most jöjjön a következő nagy kérdés: egyáltalán hogyan illeszted rá a piros görbét a kék görbére?
Gépi Tanulás (Machine Learning)
Természetesen ezt nem te fogod csinálni érzésre vagy szemre, hanem a számítógéped különböző algoritmusok és számítások alapján.
Ez a GIF tökéletesen megmutatja a folyamatot, ahogy a számítógép több lépésben megtalálja a legjobban illeszkedő egyenes vonalat (elsőfokú függvényt) egy adott adathalmazhoz:
Minél több adatpontod van és minél bonyolultabb a matematikai képlet, ami alapján illeszteni szeretnéd a görbédet, annál több számítási kapacitásra lesz szükséged a számítógépedtől.
Viszont nehogy azt gondold, hogy itt valami nagyon modern és forradalmi dologról van szó! A legtöbb statisztikai módszer, amit egy ilyen gépi tanulásos feladatnál alkalmazunk, már évtizedekkel ezelőtt – sőt egyesek még annál is régebben – léteztek. De még ennél is jobbat mondok. Az Excelben található egyszerű trendvonalillesztés-funkció is tulajdonképpen ugyanezzel a „machine learning” módszerrel működik.
Persze ez csak a legegyszerűbb példa volt. A görbeillesztéssel valójában még csak karistolgatjuk az adattudomány tetejét. Merthogy gépi tanulással azért ennél jóval bonyolultabb dolgokat is meg tudunk oldani – pl. szövegfelismerés, képfelismerés, stb.
Hamarosan mutatok még néhány modellt és módszertant.
De előtte még beszéljünk egy nagyon fontos alapkoncepcióról a prediktív analitikával kapcsolatban.
A prediktív analitika alapképlete: múlt = jövő
Figyeld meg, hogy mit csináltunk az előző példában:
- megfogtuk a múltbeli adatpontjainkat;
- erre megpróbáltunk ráilleszteni egy matematikailag is leírható modellt;
- ezt a modellt használtuk a jövőbeli adatpontok megtippelésére.
A „megtippelés” szót nem véletlenül írtam. Habár egy-egy ilyen illeszkedés (egy-egy ilyen modell) lehet közel tökéletes (pl. 99.9%-os), még így is egy közelítő módszerről van szó. Szóval sosem lesz teljesen hibátlan, 100%-os. Tehát a jövőre vonatkoztatva kaphatunk belőle egy nagyon-nagyon jó tippet, de azért a modell mindig fenntartja magának a hibázás lehetőségét.
A prediktív analitika és a gépi tanulás alaptétele, hogy: ami történt a múltban, az fog történni a jövőben is.
És ez persze jelzi is számunkra az egész módszertan nyilvánvaló határait is. Például, amihez hasonló dolog nem történt a múltban – amiről nincs adatunk – azt nem is tudjuk előre jelezni.
Ezt a múlt–jövő-alaptételt használja nemcsak a fent bemutatott görbeillesztéses gépi tanulási modell, hanem a legtöbb egyéb algoritmus is.
Mutatok ezekre néhány példát.