Kaj je Big Data?

Iz intervjuja z Saško Mojsilović, izvedenka za velike zbirke podatkov pri IBM v Sobotni prilogi Dela:

Kaj je Big Data? Kaj so velike podatkovne zbirke? Kako bi to razložili babici?
Naj poskusim. Svet okrog nas je obkrožen s signali. Glasba je signal. Signal je telefonski klic. Ko prižgemo luč, pošljemo signal upravljavcu električnega omrežja. Signal je, ko nekaj kupimo na internetu ali ko uporabimo kreditno kartico. Merjenje vremenskih pojavov je merjenje nekih signalov. Od nekdaj smo obkroženi s signali in vedno bomo. Vendar lahko danes signale posnamemo, digitaliziramo in skladiščimo. Dostopni so v obliki, s katero lahko nakrmimo računalnik. Signal se je s tem spremenil v digitalni podatek. Računalnik lahko to analizira. To je možno že nekaj časa. Zdaj pa smo na točki, ko so cene prenosa podatkov nizke, ko lahko prenašamo velike količine podatkov, ko je skladiščenje podatkov poceni, računalniki so zmogljivi … Skoraj vse oblike signalov so danes digitalizirane in skladiščene in prvič v zgodovini lahko vse te množice podatkov z računalnikom tudi obdelamo. Internet, video, podatki o telefonskih klicih, potrošniških transakcijah, zdravstveni podatki, novice, literatura, znanstvene publikacije, ekonomski, meteorološki podatki, geodetski podatki, borza, vladni dokumenti … vse je na dosegu roke. Po teh podatkih lahko kopljemo. To nepregledno množico podatkov lahko analiziramo. Podatke lahko povezujemo med seboj. V zbirkah podatkov iščemo določene vzorce, trende ... In temu rečemo Big Data. ...

Kje se začne Big Data?
Težko je določiti mejo. Recimo, da je zbirka podatkov, s katero upravlja Facebook, Big Data. Facebook vsak dan požre 500 terabajtov novih podatkov. Spodoben osebni računalnik ima danes en terabajt spomina. Walmart vsako uro upravlja s podatki o transakcijah enega milijona potrošnikov. Te uvozijo v podatkovno bazo, ki vsebuje prek 2560 terabajtov podatkov.

Kaj to pomeni v svetovnem merilu?
V tem trenutku milijarda povezanih elektronskih naprav na Zemlji vsak dan generira 2,5 milijona terabajtov podatkov. Lani so na planetu nastali štirje zetabajti podatkov. Analitiki družbe IDS napovedujejo, da bo leta 2020 na svetu nastalo 40 zetabajtov podatkov.

Lahko to prevedete v jezik, ki bo razumljiv človeku, ki ni prišel iz digitalnega vesolja?
Vse informacije, shranjene v knjigah ameriške Kongresne knjižnice, obsegajo okrog 15 terabajtov podatkov. Terabajtom sledijo petabajti in exabajti. Potem so zetabajti. Čez šest let naj bi tako vsako leto nastalo za 660 milijard Kongresnih knjižnic podatkov.

Preučevali ste odločitve ameriških zakonodajalcev. Glede na pretekla glasovanja članov ameriškega kongresa ste skušali napovedati, kolikšna je možnost, da bi bil neki zakonski osnutek sprejet.
Razumeti smo skušali, kako učinkovit model lahko razvijemo, ko preučujemo in napovedujemo obnašanje zakonodajalcev. Pri odločitvah članov ameriškega kongresa so na voljo zelo kakovostni podatki o tem, kako glasujejo pri določenem zakonu. Na voljo so besedila zakonov. Model, ki smo ga razvili, je bil kar zanesljiv. Z 92-odstotno natančnostjo smo napovedali, kakšen bo izid glasovanja. Algoritem naj bi nam odgovoril na vprašanje, kolikšna je verjetnost, da bi določen osnutek v kongresu dejansko postal zakon. ...