Summa Technologiae: Didžiųjų duomenų mitas    

Žmonija mėgsta išprotėti, kad tik būtų tam pretekstas. O mada visad jį suranda,    
L.N. Strelnikova    

Susipažinkite su „didelių duomenų“ terminais

Prieš kurį laiką buvo 3D spausdintuvų bumas (ačiū žiniasklaidai!), taip garsiai skambėjęs, kad Ostapas Benderis galėjo panaudoti savo instrukcijai, kaip kurti „... proginius eilėraščius, odes ir pagirikas“. Visi džiaugsmingai darė savo darbą: gamintojai gaudavo pradinį kapitalą ir į parodas atveždavo tai, ką pavyko pagaminti, vartotojas entuziastingai vartojo pakylėtus straipsnius, žurnalistai aptarnavo ir vienus, ir kitus, tačiau pirmiausia savo leidinius, keldami jų skaitomumą ir pelningumą. Tik mažai kas parašė apie tai, kas akivaizdu: brangi technologija, konkurentabili tik vienetinėms detalėms iš tam tikros klasės medžiagų (beveik išimtinai – iš plastiko). Kai kurie rašė visai įdomiai, pvz., „metodas puikiai tinka modeliams, neskirtiems didesnėms mechaninėm apkrovom ir nereikalaujantiems didelio atsparumo susidėvėjimui – tarkim, juvelyriniams dirbiniams“.

Praeityje jau buvo panašių bumų: dėl ypatingai plastiškų medžiagų, miltelinės metalurgijos (kai dirbiniai presuojami iš miltelių) ir pan. Matyt, taip yra dėl psichologijos: žmogui norisi kažko neįprasto, universalaus, ypatingo... t.y. stebuklingo. Tai atspindima ir anekdotuose: „Problema turi du sprendimo būdus: a) fantastinį – patys padarysim; b) realistinį – atskris ateiviai ir padarys“.

Kai mums sako, kad kažko yra daugiau, greičiau ar mažesnių, mus domina, kaip tai atsilieps kasdieniniame gyvenime. Ir jei norime ne tik aikčioti, bet ir suprasti, tada yra prasmė paklausti – o kokiems velniams, po perkūnais, mums reikalingi visi tie petabaitai?!

Publikacijose apie „big data“ paprastai pradedama nuo apibrėžimų, nurodant tam tikrus požymius:
1) reiks dirbti su dideliu duomenų kiekiu; 2) užsakovas perspėja, kad duomenų dar daugės; 3) duomenis reikia apdoroti sparčiai, kartais iškart, kai jie gauti; 4) duomenys gali būti įvairiose vietose; 5) duomenys gali būti įvairios struktūros ar visai nestruktūrizuoti; 6) rezultatas turi būti aiškia žmogui forma.

Pirmi 4-i požymiai akivaizdūs ir tokie uždaviniai buvo ir anksčiau. Naujumas tik akcentuojame didesniame nei įprasta duomenų kiekyje ir poreikyje turėti naujas programines priemones. Tikrovėje yra taip, kad reikalingi nauji metodai ir programinė įranga jau yra rinkoje. Sudėtingesnis duomenų struktūrizacijos klausimas,... bet ir čia jau yra progresas.

Tai iš kur tokia ekstazė? Tikriausiai dėl to, kad reikia trumpo, skambaus, lengvai įsiminančio (ir miglotos prasmės) žodžio. O dar svarbiau – užkabinantis vaizdinys! „Big data“ – tai kažkas didelio: nesvarbu kas, bet kas didelis, tas jau „krūta“...

Milžiniškos duomenų apimtys turėtos ir anksčiau (pvz., radijo teleskopų ir greitintuvų) – net tokio dydžio, kad apie jų saugojimą ir kalbos nebuvo: reikėjo realiu laiku atrinkti tai, kas svarbiausia. Bet tam reikia suprasti, kas vyksta. Tačiau dauguma big data ideologų bando menedžerius įtikinti priešingu dalyku – atseit suprasti nieko nereikia, tiesiog sumetam visus duomenis į krūvą ir programa ne tik pati ras, bet dar ir pasakys, ką daryti. Nors... kartais rašantieji apie big data vis tik nedrąsiai puse lūpų užsimena, kad vis tik yra geriau, jei supranti, ką daro supergalinga programa. Tačiau jų tarp rašančiųjų – mažuma.

Bet kuriai idėjai reikia, kad ji žmoguje kažką „užkabintų“. Pažiūrėk kaip patrauklu – „pasidaryk pats“! Tiksliau, už mus tai padarys „stebuklinga“ programa – o žmogus tiesiog priims sprendimą. „Priimti sprendimą“ – juk tai skamba taip svariai! Bet... prisimenate teismų medikus?!

- O galėtum paskaičiuoti Žemės diametrą?
- Atsiprašau, bet negalėčiau, - atsakė Šveikas ir tęsė. – Tačiau aš irgi noriu, ponai, pateikti jums uždavinėlį. Štai stovi 4-ių aukštų namas, kiekviename aukšte po 8 langus, ant stogo du stoglangiai ir du kaminai, o kiekviename aukšte po du gyventojus. O dabar, ponai, pasakykite, kuriais metai mirė šveicoriaus močiiutė?
Teismo medikai daugiareikšmiškai susižvalgė.

Neabejotina, kad turint daugiau duomenų ir darant „gilesnę analizę“ (t.y. daugiau kartų prasukant per mėsmalę) padidėja tikimybė kažką pastebėti (kažkokį dėsningumą). Bet sociologijos pradžiamokslis mums sako, kad koreliacija nereiškia priklausomybės (žr. >>>>>). Ir nėra sprendimo, kaip atskirti vieną nuo kitos. Tiksliau jis yra tik tiksliuosiuose moksluose – ir tai tik asimptotinis. Tačiau big data apologetai to nežino ir džiugiai rašo, kad įžengiam į epochą, kai svarbios tik koreliacijos, o priklausomybės nė nago juodymo nevertos. Tikrai fundamentalus teiginys!

O argi neužburia tvirtinimas, kad dar „prieš šimtmetį fizikai spėjo, kad ne atomai, o informacija bus visos esaties pagrindas“? Arba tokia nuostabi frazė: „Tikimybė, kad, gavę personalizuotą reklamą, žmonės imsis veiksmų (nusipirks kažką ar balsuos už kandidatą) išaugs 1400%“. Taip rašančiam, matyt, ne viskas gerai su jo paties data.

Ketvirtas apokalipsės raitelis – baimė

Matyt, kad big data turi dar vieną pusę. Pagrindinis aukštųjų technologijų užsakovas – tas, kuris turi tam pinigų. Tai prekyba, nes į ją savo pinigus neša galutinis vartotojas. Jei analizuojant duomenis pastebima koreliacija, prekyba, greičiausiai, sugebės ja pasinaudoti. O jei kuris nors iš koreliuojančių parametrų yra valdomas, tai kyla pagunda paieškoti galimybės papildomam pelnui. Didinant duomenų apimtį ir siaurinant reklamą vis tikslingesnei auditorijai, galima išskaičiuoti konkretų pirkėją ir jam pasiūlyti tiksliai tai, ką jis pirktų su didžiausia tikimybe. Atrodo ypač patraukliai, tačiau ar toji tikimybė tikrai didesnė nei kontrolinėje grupėje? Prekybininkų tasai klausimas nedomina - sistema jau nupirkta ir įdiegta, o ir menedžeriams tai geras prasiblaškymas.

Tačiau yra klientų grupė, kurie linkę rinktis patys. Tokį klientą reklama tik erzina – jis net labiau linkęs nepirkti to, kas reklamuojama, nes puikiai supranta, kad už reklamą galų gale jis sumokės pats. Tokie klientai aplamai vengia firmų, daug išleidžiančių reklamai.

Normalus žmogus įtariai žiūri į valstybę. Priežastys dvi: a) jis moka mokesčius ir pan., o taisyklės jų panaudojimui visad pernelyg bendros; b) jis pagal save puikiai žino, kokia didelė pagunda yra iššvaistyti tai, kas lengvai gauta – ir tai projektuoja į valstybę (ir visai neapsirinka!).

O čia netikėtai išneria, kad visokios ten „gūglės“ viską apie mus žino! O mes tai jau puikiai suprantam, kad valstybei (nesvarbu kuriai) jos viską atiduos vien pamojus mažuoju piršteliu. O kai kurios jų netgi bėga „garvežio priekyje“ ir įtikinėja valstybę, kad visi duomenys apie gyventojus yra (tos) valstybės nuosavybė.

SSkaityti apie big data kartais įdomu, kartais smalsu, o ir nelabai baisu. Ekonominė situacija tokia, kad mintis apie „Lamborghini“ pirkimą atidėta iki stagnacijos pabaigos, o ką nors „pakramsnoti“ rasim ir be reklamos. O jei iš Didžiojo brolio burnos pernelyg smarkiai dvokia, tai patarimai labai paprasti: a) nesinaudoti jokiais socialiniais tinklais („feisbukėm“ ir pan.); b) naudotis anonimaizeriais ir įjungti saugius naršyklės režimus (jokių „sausainių“ - cookies ir pan.); c) neatsižymėti svetainėse (jokių registracijų ir pan.); d) po paieškų internete būtinai kartą per dieną prasukti „valytuvus“ (jų yra nemokamų); e) nesinaudoti mobiliu telefonu (namie draugams yra laidinis; darbui – tarnybinis; o „į kairę“ nuklystant - visai nieko gero iš to nesulauksi).

Net nepatikėsite, kiek tai laiko jums sutaupys bendravimui su šeimos nariais ir draugais!

Ankstesnės "Advanced HTML" skyrelio temos:
Tcl kalba
Ruby on Rails
Unix komandinė eilutė
CGI.pm biblioteka: sausainiai
Pitonas, kandantis sau uodegą
Didelių duomenų koncepcijos terminai
AWK kalba - sena ir nuolat aktuali
Lambda išraiškos – Java į naują lygį
CGI.pm biblioteka: sausainiai
Programavimo kalbų istorija
Dygios JavaScript eilutės
Pelė uodega švystelėjo...
Ateities kalbos?

Anotacijos Java kalboje
Sveikųjų skaičių žaidimai
Programavimo kalbų klegesys
Pirmoji programuotoja: Ada Lovelace
Java 8: Optional prieš null
Kompiuterių ištakos
Tiesiog - Java
Vartiklis