Ebben a cikkben egy olyan témát fogok feldolgozni, amit sokan kértetek és kérdeztetek tőlem… Nevezetesen azt, hogy: Mi az a Data Science?
A cél, hogy lényegretörően bemutassam ezt a területet és kibontsam a data science fogalmát, úgy hogy közben akár a kevésbé technikai hátterű emberek is megértsék.
Vágjunk is bele!
Tipp: ugyanez az anyag podcast formátumban is elérhető itt:
A data science fogalma – egy hétköznapi példán kersztül
A data science nagyon leegyszerűsítve arról szól, hogy van rengeteg-rengeteg adatom és ebből megpróbálok valami okosat és hasznosat kinyerni.
Na ez így nagyon absztrakt még, tudom, úgyhogy mondok egy egyszerű példát.
Biztos láttál már okosórát (vagy akár neked is van). Ezek a kis kütyök tudják mérni, hogy hogyan alszol, mennyit sétálsz, mennyi a pulzusod, stb.
Ebben a példában vegyük ezek közül az alvásminőséget.
Ha minden egyes nap megnézed, hogy aznap éppen hogy aludtál, az minden egyes nap egy-egy adatpontot jelent. Mondjuk, hogy ma kiváló volt az alvás minőséged: 8 órát aludtál, keveset mozgolódtál közben. Remek. Egy adatpont megvan. Másnap kicsit rosszabbul alszol: csak 7 órát aludtál és sokat forgolódtál. Ez egy újabb adatpont.
Ha ezt gyűjtögeted mondjuk egy hónapig, akkor az egyes adatpontokból elkezdenek kirajzolódni trendek. Például, hogy hétvégén jobban és többet alszol, mint hétköznap. Vagy ha korábban lefekszel, magasabb az alvásminőséged. Vagy esetenként hajnali 2-kor felébredsz valamire. Satöbbi…
Ha ezt gyűjtöd egy évig, akkor még komplexebb elemzéseket készíthetsz. Elemezni tudod, hogy mikor érdemes lefeküdnöd és felkelned. Megjelennek a stresszes szakaszai az évnek, amikor sokat dolgoztál és keveset aludtál. Sőt ezeket a stresszes szakaszokat akár előre is meg tudod már “jósolni” és fel tudsz készülni rájuk…
Na ez már egyre jobban közeledik az adattudomány felé.
De menjük még mélyebbre.
Nem csak trendek, összefüggések is
Ha van kellő mennyiségű adatod, akkor nemcsak trendeket tudsz vizsgálni, hanem összefüggéseket is.
Megnézheted például azt, hogy az, hogy mennyit mozogtál (séta, sport, stb. – ezeket szintén tudjá mérni az okosórák), hogyan hat az alvásodra. Például, megállapítod, hogy azokon a napokon, amikor megtettél 5000 lépést mindig nagyon jól aludtál. Na ez érdekes! Ez már több mint egy elemzés: ez már egy olyan információ, ami kézzelfogható és hasznos cselekvési tervvel lát el: sétálj minden nap 5000 lépést!
De még ennél is tovább mehetünk…
Ha az órád gyártója elemzi ki az összes óra használó adatait (az összes olyan felhasználóét, mint, amilyen te magad is vagy), akkor ő aztán tényleg olyan információkat tud kinyerni, amit Te, egyszeri felhasználóként, el se tudsz képzelni.
Napi 3.000 lépéssel tényleg megelőzhető a depresszió az emberek többségénél? Egyes országokban tényleg egészségesebbek az emberek, mint másokban? Az időjárás tényleg befolyással van fontosabb társadalmi jelenségekre? És még rengeteg érdekes kérdés van, amihez ezeknek a cégeknek már van adatuk és tudnak kutatni…
Megjegyzés: Most a jogi és etikai vonzatairól ne beszéljünk a dolgoknak. Bár az is egy elég izglamas téma.
Ahogy látod: minél több és minél részletesebb adat áll rendelkezésedre egy-egy projektben, annál összetettebb, érdekesebb és hasznosabb elemzéseket tudsz elkészíteni.
És lényegében erről szól a data science.
Kivéve persze, hogy mindez nem csak okosórákkal működik a magánemberek személyes életében, hanem rengeteg más eszközzel rengeteg más területen is.
Ha mélyebben érdekel a data science, vagy akár szeretnél te magad is data scientist lenni, akkor jó szívvel ajánlom figyelmedbe a Junior Data Scientist Akadémiát. Ez egy átfogó, erősen gyakorlatközpontú Data Science képzés, ami a teljesen kezdő szintről a junior tudásszintig juttat el 3 hónap alatt.
Milyen területeken hódít a data science?
Első sorban természetesen az üzleti élet és azon belül is az online világ az, amit a data science a legjobban meghódított. De társadalomtudományokban is már nagyon régóta jelen van. És egy sok más helyre is kezd begyűrűzni, pl.
- a termelés
- az ipar
- az agrárvilág
- a politika
- satöbbi, satöbbi.
Lentebb írok öt konkrét online és üzleti példát is, de előtte néhány szót még ejtenék arról, hogy milyen részterületekből áll össze a data science.
Mi az a Data Science?
Statisztika + Kódolás + Üzlet
Aki data scientist akar lenni, három főbb területet kell, hogy nagyon jól ismerjen.
1. Az egyik főterület: a statisztika.
Na ez az a szó, amit mindenki utál, amitől mindenkinek összeugrik a gyomra, leveri a víz. De azért olvass tovább és hadd nyugtassalak meg: a statisztika alapvetően érdekes dolog, csak rossz a marketingje. (Ami amúgy főleg a nagyszerű egyetemi oktatásnak köszönhető. De hidd el nekem, hogy a statisztika érdekes.)
Hogy mást ne mondjak, a statisztika az, aminek vannak matematikai eszközei arra, hogy meg tudja mondani, hogy az előző okosórás példában milyen erős a megtett lépések és az alvásminőség közötti összefüggés…
Mert sajnos az élet nem úgy működik, hogy megteszek 3.000 lépést és fixen felugrik az alvásminőségem kiválóra. Sokkal inkább úgy, hogy minél több lépést teszek meg, annál nagyobb az esélye annak, hogy jobban fogok aludni. Ami nagy különbség. Mert innentől a kérdés az, hogy pontosan mekkora is az a nagyobb esély. És itt jönnek a képbe olyan matematikai fogalmak, mint az átlag, a medián, a szórás, a korreláció analízis, a valószínűség számítás, a függvények és még sok-sok-sok minden más.
De ezekbe most ennél részletesebben nem mennék bele.
2. A második nagy terület, amit ismernie kell egy data scientist-nek: a kódolás.
Miért kell tudni kódolni?
Az indok egyszerű. Ha komolyabban hozzá akarsz nyúlni az adataidhoz, azt csak kódolással tudod megtenni. Természetesen létezik az Excel, a Google Analytics és hasonló “összekattintgatós”, kódolásmentes eszközök. De ezeknek az eszközöknek van pár közös hátrányuk.
- Az egyik, hogy nem rugalmasak. (Csak egy példa: nagyon nehéz bennük különböző adattáblákat hatékonyan összecsatolni egymással.)
- A másik, hogy alig léteznek bennük fejlettebb machine learning és prediktív analitikai megoldások.
- A harmadik pedig kifejezetten az Excel-re jellemző. Mégpedig az, hogy az Excel a többmillió soros adathalmazokkal… hát mondjuk úgy, hogy nincs jó barátságban. Aki dolgozott már Excel-lel az tudja, hogy egy bizonyos adatmennyiség felett szimpán lefagy már egyszerűbb számításoktól is.
Ezek miatt jön nekünk nagyon jól a két legismertebb data science nyelv: a Python és az SQL.
Mindkettő másra jó… Például az SQL-ben könnyedén és pillanatok alatt tudsz akár több tízmillió soros táblákat egymáshoz csatolni és számításokat végezni rajtuk. A Python-ban pedig rengeteg machine learning és fejlett analitikai könyvtár érhető el, amiket nagyon sok mindenre lehet használni: predikcióra, szövegelemzésre, képfelismerésre, automatikák beállítására, öntanuló botok építésére, stb.
De mind a Python-hoz, mind az SQL-hez és úgy általában a data science-hez: tudni kell kódolni.
3. És a harmadik terület, amire szükség van a data science-hez: az üzleti gondolkodás.
Ezt gondolom, nem kell megmagyaráznom. Kell egy alapvető “biznisz-mindset” ahhoz, hogy tudd, mi az a data science projekt, ami hasznos és kell vele foglalkozni — és mi az, ami nem. Ez a stratégiai gondolkodás nem csak projektszinten, hanem rengeteg más helyen is megjelenik az egész adatos témában. De erről a példákban még írok részletesebben.
A lényeg: A Data Science három terület metszete. Ezek: a statisztika, a kódolás és az üzlet.
5 üzleti Data Science példa
Ígértem, hogy írok pár konkrét üzleti példát is.
Ebből most ötöt hoztam. Az egyszerűbbtől az összetettebbek felé fogok haladni.
Ha mélyebben érdekel a data science, vagy akár szeretnél te magad is data scientist lenni, akkor jó szívvel ajánlom figyelmedbe a Junior Data Scientist Akadémiát. Ez egy átfogó, erősen gyakorlatközpontú Data Science képzés, ami a teljesen kezdő szintről a junior tudásszintig juttat el 3 hónap alatt.
Példa #1) E-commerce + Data Science (egyszerűbb példa)
Az első példa legyen egy klasszikus adatos projekt egy klasszikus online üzletben.
Mondjuk, hogy van egy e-commerce cégünk és szeretnénk riportokat összerakni magunknak. (Ezt amúgy sok cég csinálja is — az egy másik kérdés, hogy sokan nem túl jól.)
Egy ilyen projektben mindig az a cél, hogy az adott e-commerce biznisz vezetői és döntéshozói tisztábban lássanak, mielőtt egy-egy döntést meghoznak. Az adatelemző vagy a data scientist feladata az, hogy ehhez elemzéseket, kimutatásokat és riportokat készítsen.
Az adatelemző fogja és megnézi, hogy mi történt az elmúlt egy hétben, egy hónapban, egy évben. Mik a trendek? Mik a változások? Mik a tipikus vásárlói életutak? Mi várható a jövőben a múltbeli adatok alapján? A vezetők pedig ez alapján döntenek.
Tegyük fel, hogy azt látjuk, hogy az emberek egyre több piros zoknit vesznek és egyre kevesebb sárga pólót. Nyilván az ajánlatainkat is megpróbáljuk összhangba hozni ezekkel a változásokkal.
Ez a legegyszerűbb példa az adatok használatára egy cég életében.
Megjegyzés: Legalábbis így elmondva egyszerű, aztán természetesen az ördög itt is a részletekben lakik — és a megvalósításban már elő szoktak jönni nehézségek.
Példa #2) E-commerce + Data Science (haladóbb példa)
A második példa egy eggyel magasabb szintű és bonyolultabb data science projekt.
Maradjunk ugyanennél az e-commerce cégnél. Csak most fókuszáljunk kifejezetten a reklámköltéseire. Azon belül is a fizetett Google Ads hirdetésekre a példa kedvéért.
Tegyük fel, hogy jön egy kérdés a vezetőségtől: mi legyen a következő negyedéves Google Ads büdzsénk? Ezt nem olyan egyszerű belőni. Ha túl magas a büdzsé az nem jó, mert túlköltekezünk és emiatt elkezd csökkenni a profit. Ha túl alacsony a büdzsé az se jó, mert akkor meg nem költünk eleget hirdetésre és csökken az eladások száma, így a bevétel — ami szintén negatívan hat a profitra.
Itt data scientist-ként azt kell kibalanszolnunk, hogy mi az az optimális költségkeret, amivel a legtöbb profitot tudjuk behozni.
Sok cégnél ezt egy senior marketing menedzser kiválóan össze tudja pakolni mindenféle best practice-ek és iparági tapasztalatok alapján, akár Excelben is. De a data science területe kínál egy még precízebb és pontosabb megoldást: a különböző prediktív analitikai és machine learning algoritmusokat.
Amit csinálunk az lényegében az, hogy megadjuk a számítógépnek az elmúlt évek részletes költési, bevételi, weboldal-látogatottsági és mindenféle egyéb adatait. Arra szépen “rátanítunk” egy machine learning algoritmust. Aztán az így kapott matematikai modell segítségével készítünk egy tűpontos előrejelzést és egy optimális költési ajánlatot a jövőre nézve.
Ebben nem csak az a jó, hogy pontosabb, mint az ember által készített verzió, hanem az, hogy még skálázhatóbb is. Ha pl. bonyolítjuk a dolgot és bejön még 6-8-10 új marketing csatorna, amin lehet költeni, azt lehet, hogy egy ember már nem látja át 100%-osan. Egy machine learning algoritmusnak viszont ez csak pár újabb változó a képletben.
Nyilván, itt nem azt mondom, hogy minden cégnek data science alapokra kéne helyezni a reklám költési terveit… De van az a cégméret és bonyolultság, ahol ez már bőven kifizetődő.
Példa #3) Klasszikus kereskedelem (FMCG szektor) + Data Science
A harmadik példám egy élelmiszer forgalmazó cég adatos projektje.
Ugyebár, az élelmiszer többnyire egy nem túl tartós fogyasztási cikk. Ezt konkrétan egy olyan ismerősömtől hallottam, aki egy ismertebb élelmiszeráruház-láncnak dolgozik data scientist-ként: az FMCG cégeknél egy óriási kihívás, hogy pontosan meg tudják mondani, hogy mennyit kell rendelniük egy-egy adott termékből a következő hónap(ok)ban.
Itt is hasonló a dilemma, mint az előző példában: ha túl sok terméket rendelnek, rájuk romlik a boltban. Ha túl keveset, akkor pedig üresen állnak a polcok és mérgesek a vásárlók. (Sőt lehet, még át is mennek a szomszéd boltba.)
Mindkét esetben veszteségük van, úgyhogy itt is meg kell találni a tökéletes egyensúlyt.
Erre a problémára a megoldás szintén csak egy szépen behangolt prediktív analitikai modell lehet, ami a múltbeli adatok és a különböző paraméterek alapján “megjósolja” (valójában matematikai modelleket készít és használ), hogy az adott elkövetkező időszakban mekkora fogyasztás várható. A rendelést pedig már ehhez lehet szabni.
Erre van konkrét megvalósult és publikált esettanulmány is, az amerikai Walmart-tól, ami már elég régóta adat alapon tölti fel a készleteit… Az ő algoritmusaik nagyon ki lettek csiszolva a hosszú évek alatt. Ráadásul az eladási adataik mellett nagyon sok külső forrásból is szednek be még adatot.
Ők csinálták meg talán elsőként a saját iparágukban azt, hogy összevetették az időjárási adatokat a különböző termékeik eladásával. És rögtön látták is, hogy ha nagy vihar jön, akkor több esernyőt és zseblámpát kell bekészíteni, mert ezt fogják vinni a vásárlók. Ez így önmagában még persze nem olyan durva… Az igazi nagy dobás az az volt, hogy az algoritmusuk azt is kimutatta nekik, hogy ilyenkor az esernyő mellé a sör készletre is rá kell duplázniuk, mert egy tipikus Walmart-vásárló ebből is szeret betárazni otthonra, ha tudja, hogy rossz idő jön.
Ez már kevésbé triviális. De még ha az is, egy olyan áruházban, ami több millió terméket árul, több ezer áruházban, világszerte: nincs az a szakértő, aki ezeket az előrejelzéseket folyamatosan tudja szállítani. Egy jól beállított data science-es megoldás viszont minden további nélkül.
Megjegyzés: És az se titok, hogy ezek a dolgok elég nagyot dobtak a Walmart üzleti eredményein is.
Példa #4) Youtube ajánlórendszer
A negyedik példám, amit biztosan Te is ismersz: a Youtube ajánlórendszere.
Ugye mindig, amikor nézel egy videót, a Youtube a jobb felső sarokban ajánl egy következőt. Ez is teljesen automatikus és adatalapú. Amit ők használnak itt, az az úgy nevezett collaborative filtering.
- Megnézik, hogy milyen videókat néztél eddig.
- Aztán megnézik, hogy más felhasználók, akik ugyanazokat a videókat nézték mint te, miket néznek még.
- És te már azt kapod következő videó ajánlásnak, amit más hozzád hasonló emberek néztek ugyanaz után a videó után, amit most éppen te is nézel.
Pofonegyszerűen hangzik. A megvalósítás, azért ennél sokkal összetettebb.
De ez is egy remek példa arra, hogy a data science hogyan segíthet egy vállalkozásnak jobban megtartani a nézőit és hallgatóit… Hozzáteszem majdnem ugyanezt az elvet használja a legtöbb médiaplatform, amit ismersz: a Spotify, a Netflix, egyes hírportálok és még sokan mások.
Példa #5) Robotok, öntanuló gépek, stb…
Az utolsó példám, ami a legtávolabb áll egy egyszerű KKV életétől: a Boston Dynamics. Ha esetleg még nem hallottál róluk, íme egy videó arról, hogy mivel foglalkoznak:
Robotokat gyártanak, akik mára már megdöbbentően ügyesek és intelligensek. A tudásuk nagy részét pedig a machine learning-nek és a data science-nek köszönhetik. Képfelismerő és hangfelismerő algoritmusok, öntanuló modulok és megannyi haladóbb data science-es koncepció élteti és fejleszti ezeket a gépeket.
És persze nem ez az egyetlen cég, aki ilyen jövőbe mutató technológiákkal kísérletezik. Hasonló alapokon fejlesztik az önvezető autókat, az emberi hangot utánozni képes robotokat és még sok minden mást.
Ez csak öt gyors példa volt, de ahogy el tudod képzelni van még kb. másik tízezer.
Egy mélyebb data science képzés…
Viszont ennyi fért ebbe a nagyon bevezető jellegű cikkbe.
Ha mélyebben érdekel a data science, vagy akár szeretnél te magad is data scientist lenni, akkor jó szívvel ajánlom figyelmedbe a Junior Data Scientist Akadémiát. Ez egy átfogó, erősen gyakorlatközpontú Data Science képzés, ami a teljesen kezdő szintről a junior tudásszintig juttat el 3 hónap alatt.
Zárógondolat
Remélem, ebben a cikkben sikerült jól megmutatnom, hogy mi az a data science. Ekkora terjedelemben nehéz teljes képet festeni, de talán a lényeget sikerült átadni: a data science egy izgalmas és gyakorlatias téma – ami a közhiedelemben ellentétben, nem rakétatudomány…
Persze komplex téma, és ha valaki data scientist akar lenni, akkor azért sok mindenről kell tanulnia. De az biztos, hogy nem kell hozzá PhD, különleges agy vagy bármi egyéb olyan dolog, ami olyan elérhetetlen lenne. 🙂
Mester Tomi
(adatelemző, a data36.com szerzője)
megjegyzés: a cikk továbbdolgozott angol verziója megtalálható az angol nyelvű blogomon, itt: What is Data Science?