Samilst milzu dati, veidi, kā tos saskaitīt, savairojas

Samilst milzu dati, veidi, kā tos saskaitīt, savairojas

Milzu datu krājumi un elektromehāniska vai elektroniska datu apstrāde nav nekas jauns!

     Viens veids, kā radīt lielus datu krājumus, ir tautas skaitīšana. Tās vēsture ir ļoti sena – pat Bībeles stāstā par Jēzus piedzimšanu (vismaz vienā versijā) ir runa par to, ka Jāzeps un Marija ieradās Betlēmē, jo notika romiešu valdnieku organizēta tautas skaitīšana. 

     Ja padomā, diez vai ir lielāka nošķirta datu kopa par tautu vai vienas valsts iedzīvotājiem – to skaits var sasniegt miljonus, simtus miljonu, pat krietni pāri miljardam, ja runa ir par tādām valstīm kā Ķīna vai Indija. Turklāt tautas skaitīšanā valsts vēlas noskaidrot ne tikai, cik daudz esam (atbilde Latvijas gadījumā: nepilni 2 miljoni), bet arī – kādi esam, kas

Runa te ir par ĻOTI LIELĀM datu kopām, kuru priekšā dažos gadījumos pat visizvērstākā
Ķīnas tautas skaitīšana nobāl

uzdevumu padara apjomīgāku un sarežģītāku. Šādi kas esi jautājumi, attiecināti uz katru saskaitāmo iedzīvotāju, uzreiz savairo par katru ievācamo datu vienību skaitu. Ja konstatējam tikai, ka iedzīvotājs X ir, Latvijā būs nepilni 2 miljoni datu vienību, bet, ja prasām X dzimumu, visizvecumu un dzīvesvietu, datu vienību skaits no šādas vienkāršas skaitīšanas visai ātri samilst. Tātad X – sieviete vai vīrietis, vecums, pilsēta – jau uz katru no 2 miljoniem skaitāmo saražo četras datu vienības: X ir; ir, teiksim, sieviete; 28 gadi; dzīvo Liepājā. Nu jau būs astoņi miljoni datu ierakstu.

Jo vairāk grib zināt, jo vairāk datu vienību

     Šāda skaitīšana ne vienmēr dod derīgu un vēlamu informāciju. Datu vienību skaitu varam krietni palielināt, ja rodas prasība par katru tautas skaitīšanā saskaitīto personu uzzināt visu. Latvijā 2011. gada tautas skaitīšanas anketā par katru iedzīvotāju bija jāiegūst aptuveni 30 datu vienību – tātad jau 60 miljonu datu, ja izdodas visus anketēt. 

     Valstīs ar krietni lielāku iedzīvotāju skaitu tautas skaitīšana jau kopš 19. gadsimta beigām radīja gandrīz nepārvaramas šo savākto datu kopu apstrādes problēmas. Turklāt tādā strauji augošā valstī kā ASV, kurp plūda miljoniem imigrantu, radās jaunas pilsētas mežonīgajos rietumos un valsts pārvaldei bija jāsaprot, ko un kā risināt, tautas skaitīšanas apkopošanu nedrīkstēja vilkt garumā. Taču jau 1890. gada tautas skaitīšanā ASV varas iestādes saprata, ka gandrīz 63 miljonu iedzīvotāju datus, strādājot ar roku, varētu neapstrādāt līdz nākamajai likumā stingri paredzētajai tautas skaitīšanai 1900. gadā. 

     Situāciju izglāba vācu imigrantu dēls statistiķis un izgudrotājs Hermanis Holerīts (Herman Hollerith), kas bija izstrādājis perfokaršu skaitīšanas un datu apkopošanas mašīnu, t. s. elektromehānisko tabulatoru. Gadu gaitā H. Holerīta izgudrojums, viņa dibinātais uzņēmums Tabulating Machine Company, apvienojoties ar līdzīgiem uzņēmumiem, pārtapa par International Business Machines, ko labāk pazīstam kā IBM. Savā laikā IBM  bija galvenais pasaules lieldatoru ražotājs, vēlāk radīja vienu no pirmajiem personālajiem datoriem (personal computer – PC), kuru varēja lietot mājsaimniecības. Patlaban kompānija ir krietni mainījusi profilu un pārsvarā nodarbojas ar programmatūras un datu sistēmu risinājumu izstrādi, bet PC  ražošana ir pārdota ķīniešu Lenovo

     Jebkurš, kas mazliet pazīst moderno galda un portatīvo datoru jaudas rādītājus, sapratīs, ka jaunākie procesori viegli varētu apstrādāt vidēji lielas valsts tautas skaitīšanas datus un to izdarītu nesalīdzināmi ātrāk par H. Holerīta tabulatoriem vai pat par 60. gadu IBM  skapjiem. Varētu iedomāties, ka IT ir atrisinājušas lielu datu kopu apstrādes problēmu.

Datu vākšanas kapacitāte radīja big data

     Un tad parādījās big data. It kā tas būtu lielas datu kopas tulkojums, taču runa te ir par ĻOTI LIELĀM datu kopām, kuru priekšā dažos gadījumos pat visizvērstākā Ķīnas tautas skaitīšana nobāl. Big data  radīja nevis datu apstrādes tehnoloģijas, bet – drīzāk – datu vākšanas tehnoloģijas. 1890. gada ASV tautas skaitītājs mūļa mugurā jāja uz zelta racēju nometni, lai ar zīmuli uz papīra pierakstītu duča cilvēku datus (un vēlāk pārnestu uz perfokartēm), bet šodien viss ir mainījies. Mēs paši un mūsu ierīces esam kļuvuši par milzu datu ievācējiem. 

     Ja padomājam, tirdzniecība ar maksājumu kartēm (un veikalu tīklu lojalitātes kartēm), arī tirdzniecība vai jebkāda veida sērfošana internetā rada milzu daudzumu datu par katru no mums un par cilvēku populācijām kopumā. Pieskārāmies mājaslapai – viena datu vienība; klikšķinām uz mājaslapas sadaļas Par mums – vēl viena; atveram internetbanku, samaksājam rēķinu – vēl vairākas datu vienības gan bankai, gan rēķina saņēmējam, gan par pašu sistēmu.
Banka, piemēram, uzkrāj datus par caurmēra transakcijas veikšanas laiku, skatās, vai internetbanka strādā pareizi, un vāc datus par katru klientu un klientiem kopumā. Pensionārs Jānis, kas ik mēnesi ir maksājis tikai par elektrību, kabeļtelevīziju un savu mobilo telefonu, pēkšņi gandrīz visu sava konta atlikumu pārskaita SIA Šaraškins un dēli  it kā par konsultāciju pakalpojumiem. Sarkanais karogs – jo šāds darījums gan izlec starp uzkrātajiem Jāņa datiem, gan ir agrāk pamanīts kā iespējama krāpšana ar citiem klientiem. Tas ir iespējams, pateicoties milzu datu krāšanai un analīzei. 

      Interneta lietotāja, kas staigā arī pa veikaliem, iepērkas, zvana ar mobilo telefonu, dienas gaitā par sevi atstāj simtiem datu vienību. Taču pat uz visrosīgāko elektroniski satīkloto cilvēku varam attiecināt tautā populārās dziesmas piedziedājumu tas jau arī nav nekas, notiek lietas trakākas… kaut vai ar mobilo telefonu un visiem mobilajiem telefoniem valstī. Pat ja nezvanām, ieslēgti mobilie telefoni pastāvīgi komunicē ar bāzes stacijām, kas, savukārt,
nemitīgi pārraida dažādus datus par savu stāvokli mobilo sakaru operatora tīkla vadības sistēmām. Vairākas reizes sekundē minētās lietotājas iPhone  tīklam pavēsta – esmu pie bāzes stacijas Brīvības iela, gatavs saņemt zvanus, bet bāzes stacija, savukārt, tīklam ziņo: viss labi, manā tuvumā ir 132 lietotāji, 27 šobrīd zvana, 17 sērfo mobilajā internetā (un tā katru sekundes sīkdaļu). Katra mobilā telefona raidītās datu vienības jau ir rēķināmas tūkstošos, pat desmitos tūkstošu, tam vēl ir jāpieskaita bāzes staciju datu plūsma. Sasniegt miljardiem datu vienību – pat Latvijas ietvaros – vairs nav neiespējami.

Datu plūsmas veido datu bardaku

     Bet kas tad ir šie dati? Rēzeknes bāzes stacijā 231 lietotājs; Irina zvana uz Kijevu, 7 minūtes; Pēteris skatās delfus  savā Samsung S5; Rīgas centra bāzes stacijas noslodze ir 87 %; mobilā interneta ātrums Ķekavā – 23 megabiti… Un tā ir tikai mikroskopiska daļa no dienas, varbūt pat stundas datu plūsmas un izskatās pēc… datu bardaka?  Ar to arī nonākam pie nākamās big data definīcijas pakāpes: tie ir ne tikai milzu datu plūsmas un daudzums, bet arī veids, kā šos datus izmantot uzņēmuma vadīšanai un lēmumu pieņemšanai. Citos vārdos – ir jāspēj atbildēt, vienkāršoti izsakoties, uz jautājumiem Kas notiek?  (tūlītējai reakcijai) un Kas notika?, lai saprastu un izvērtētu pagātnes procesu nozīmi un secinājumus izmantotu turpmākajai rīcībai. 

      Daži šādi datu apstrādes paņēmieni jau ir ieprogrammēti cilvēku smadzenēs. Cik internetā nav redzēti melnā humora video, kur sāk sasvērties grezna daudzstāvu viesību torte vai brukt lielveikalā rūpīgi sakrauta kārbu piramīda. Tuvumā esošie gandrīz momentāni reaģē, jo saprot, ka šis labi nebeigsies, un izmisīgi cenšas glābt situāciju. Viņu smadzenēs notiek reāllaika datu apstrāde, diemžēl parasti operatīvā reakcija ir novēlota. Varam visu dienu vērot iepirkšanās plūsmu kādā veikalā, kur meiteņu apģērbu ar atlaidēm pērk tikai skolnieces no vienas no divām apkaimē esošajām vidusskolām. Var rasties aizdomas, ka veikala reklāmas kampaņa vismaz vienā skolā nav pamanīta, varbūt ir jāpēta sīkāk un jācenšas uzlabot reklāmu. Vienā gadījumā atbildam uz Kas notiek?, otrā – Kas notika?

     Risinājums – veiksmes atslēga – nav pašos datos, bet t. s. big data analytics jeb milzu datu plūsmu vai kopu analīzē. Tai ir vajadzīgi gan jaudīgi datori un serveri (dzelži), kas kopumā var gan glabāt milzu datu kopas, gan izņemt tās no glabātavas un pēc iespējas ātri apstrādāt, gan arī konstatēt pašu datu plūsmu – taisns… sveras?… sasveras! tūliņ gāzīsies… – un analizēt to teju notikuma brīdī. Abi uzdevumi nav viegli, ja tos grib veikt veidos, kas nes pievienotu vērtību uzņēmumam. Ir nepieciešami ne tikai programmatūras risinājumi, bet pat veseli sasaistīti risinājumu kopumi.

Nāk palīgā mākoņskaitļošanas risinājumi

     Latvijā diez vai ir daudz datu tīklu lietotāju ar desmitiem terabaitu datu krājumiem. Taču pat biljona (tūkstoš miljardu) datu ierakstu apskate pa rindiņai var ieilgt, arī ja ir liels procesora ātrums un jauda tiek dalīta starp procesoriem un serveriem t. s. virtualizētajā skaitļošanas vidē. Vienkāršā valodā tas nozīmē ar īpašiem programmēšanas paņēmieniem sadalīt vairākus skaitļošanas uzdevumus sīkās procesora laika šķēlītēs un starp vairākām datu mašīnām.

     Tas viss darbojas, ja dati ir sakārtoti un ticami, taču nozarē ir labi zināms, ka iespējami derīgo datu bardaks sociālo mediju un e-pasta dēļ tikai iet plašumā. No reāllaika kases aparātu darbības redzam, ka kādā veikalā krītas vai kāpj pircēju darbība, bet varbūt svarīgāka informācija ir ieraksti Twitter, ka pilsētai tuvojas negaiss – un visi skrien pirkt lietussargus – vai arī pilnīgs bezsakara notikums – dziedātāja X savā koncertā pēc pāris dienām vēlas redzēt klausītājus T kreklos viņas mīļākajā krāsā. Šādos nesakārtotos datos var slēpties pat būtiska vērtība.

     Komentējot modernas lieljaudas datu apstrādes iespējas, SIA IBM Latvija  programmatūras risinājumu vadītājs Ēriks Miķelsons raksta: „Organizāciju mērķi datu uzglabāšanai, apstrādei un analizēšanai atšķiras tikpat krasi kā dažādie datu tipi un veidi, ko apkopo big data termins. Tie var būt liela apjoma dati tradicionālajās biznesa sistēmās (pieraksti medicīnas informācijas sistēmās, kredītkaršu transakcijas, e-komercijas sistēmu darījumi, banku informācijas sistēmas utt.), elektronisku sistēmu ģenerēti dati (gudrie elektrības skaitītāji, sensoru dati jūsu automašīnā, dati par mobilā telefona zvaniem un atrašanās vietu, datorsistēmu žurnalēšanas pieraksti), kā arī cilvēku radītie sociālo tīklu dati, pie šiem datiem pieskaitot gan tādu tīklu kā Twitter  un Facebook  ierakstus, gan arī tradicionālo žurnālistu rakstus, interneta lietotāju blogus, lasītāju komentārus pie dažādiem rakstiem, atsauksmes par konkrētu produktu vai pakalpojumu.”

Datu tīrīšanas risinājumi 

     Ē. Miķelsons norāda: „Modernajām tehnoloģijām nevajadzētu rasties grūtībām analizēt strukturētus datus, kas nepārsniedz pāris terabaitu apjomu attiecībā uz sistēmu jaudu un ātrdarbību. Terabaits strukturētu, analizējamu datu ir ļoti liels praktiskās informācijas apjoms. Sarežģījumi rodas ar datu tīrību un uzticamību, dažādiem datu formātiem dažādās sistēmās. Parādās uzņēmumi, kuri domā arī par nestrukturētu datu, piemēram, videoierakstu, informācijas sociālajos tīklos, analīzi, kas ir sarežģītāks uzdevums. 

     IBM  ir speciālisti un risinājumi gan datu attīrīšanai un ticamības nodrošināšanai, gan prognozēšanai un nestrukturēto datu analītikai.”

     Arī Microsoft, izmantojot savu mākoņdatošanu (attālinātas skaitļošanas jaudas, kuras pērk un apmaksā pēc vajadzības), saredz virkni biznesam izdevīgu lieljaudas datu analīzes lietojumu, lai gan uzskata, ka Latvijā lielu datu daudzuma vācēju ir maz. Skaidro SIA Microsoft Latvia  risinājumu arhitekts Aldis Viļums: „Terabaitu apjoms pats par sevi nav lieli dati – bieži vien klientu un (vai) transakciju datus var apstrādāt tradicionālā (business intelligence / data mining)  risinājumu veidā. Sevišķi tas attiecas uz Latviju, kur reti kurai organizācijai ir miljoni klientu un miljardi transakciju. Big data  apstrādes elementi varētu parādīties, aplūkojot šos klasiskos datus kopā ar kādu citu datu kopu, it sevišķi tādu, kas nāk no sensoriem (liels apjoms, nestrukturēta informācija), mēģinot pierādīt kādas hipotēzes par viena elementa (vienkāršs piemērs – laikapstākļu) ietekmi (vai pretējo) uz transakciju apjomu, pirkšanas sakarībām.” 

     Tipiski risinājumi, kuros Microsoft, izmantojot savu mākoni Azure un atvērtā koda big data apstrādes platformu Hadoop, iekļauj „reāllaika monitoringu, ir automātiska sensoru datu savākšana praktiski reāllaikā, informācijas agregēšana un (vai) apstrāde hot režīmā (kad dati vēl ir karsti) un rezultātu attēlošana dažāda veida kontroles paneļos. Šinī gadījumā pamatdati vai nu netiek saglabāti, vai tiek saglabāti vēlākai apstrādei, bet akcents ir uz stream analytics brīdī, kad dati ienāk”. Ir iespējams veikt arī apkopes vajadzības prognozēšanu jeb „problēmu identificēšanu, pirms tās ir iestājušās, produktu turpmāku uzlabošanu. To pārsvarā izmanto dažāda veida aparatūras ražotāji – sākot ar naftas apstrādes aparatūru (sūkņiem, urbjiem), turpinot ar liftiem, konveijeriem un beidzot ar diagnostikas ierīcēm, kuras tiek izmantotas medicīnā”. Šādam nolūkam, balstoties uz miljoniem darbības ciklu datu, tiek radīti algoritmi, kas, pamanot datus par konkrētas ierīces iespējamo iziešanu no ierindas nākotnē, iedarbina preventīvas apkopes procesu, dažkārt pat bez cilvēku iejaukšanās.

Vai pagātnes datu kalnos glabājas zelts?

     Ē. Miķelsons no IBM  uzskata, ka Latvijas uzņēmējiem galvenais labums no big data risinājumu lietošanas būs, atbildot uz pagātnes formas jautājumu Kas notika?. Tieši lielos datu krājumos, kas ir ievākti no dažādiem avotiem un ir daļēji haotiski, var slēpties kopsakarības, kas izrādās dārgumi. 

     „Visbiežāk izaicinājumi rodas attiecībā uz organizācijas spēju atklāt, kā uzkrāto un pieejamo datu analīze var atbalstīt uzņēmuma biznesa mērķu sasniegšanu vai arī kavēt nākotnes izaugsmi un konkurētspēju, ja esošā datu politika biznesa mērķus neatbalsta. Datu analītika var palīdzēt gan klientu piesaistē un peļņas palielināšanā, gan labākā plānošanā un izdevumu samazināšanā, inovatīvu pieeju atklāšanā jūsu biznesam,” skaidro Ē. Miķelsons. 

     IT risinājumu un pakalpojumu nozarē ir arī nedaudz skeptiskāki viedokļi par to, vai Latvijā ir vajadzīgi visjaudīgākie lielo datu kopu apstrādes risinājumi un tehnoloģijas. Tā, piemēram, uzņēmumu vadības risinājumu kompānijas SIA Visma Enterprise  pārdošanas un mārketinga direktors Jānis Rancāns uzskata, ka „Latvijā ir tikai daži lieli uzņēmumi, kas ir uzkrājuši pietiekamu apjomu datu un tos sistemātiski analizē. Lai sāktu nodarboties ar liela apjoma datu izmantošanu, uzņēmumam vispirms ir jāsaprot, ko tas vēlas sasniegt, kāds ir datu analīzes mērķis. Pēc tam var skatīties, kādus datus un kādas metodes vislabāk izmantot. Tehnoloģijas šo datu apstrādei ir pieejamas, tās ir dažādas, atliek vien rūpīgi izvērtēt, vai ieguvumi atsver izmaksas”.

Latvijā ir tikai daži lieli uzņēmumi, kas ir uzkrājuši 
pietiekamu apjomu datu

     Visma Enterprise, kas, pirms to pārņēma skandināvu Visma Group, kā SIA FMS  izstrādāja resursu vadības un grāmatvedības programmu Horizon, būtu pieskaitāma pie uzņēmumiem, kas piedāvā datu vākšanas rīkus. Tā arī pārstāv t. s. biznesa inteliģences rīku MicroStrategy, ko var izmantot dažāda veida datu analīzei. Varētu sacīt, ka gandrīz visas pazīstamākās uzņēmuma vadības sistēmas (enterprise resource planning – ERP)  pašas ietver datu analīzes rīkus vai sadarbojas ar risinājumu izstrādātājiem, kas tādus piedāvā. Tā kā big data uzskata par samērā izplūdušu jēdzienu, var izrādīties, ka, uzzinot par big data aktualitāti un pārskatot uzņēmuma resursus, sanāk kā dzejolītī: „No rīta ceļos, aunu kājas, bet skatos – tās jau apautas!” 

     Protams, ja sāk plašāk pārskatīt visu datu kopu kopumu, tostarp nesakārtotos datus, sociālo mediju plūsmas u. tml., ir jāmeklē papildu risinājumi. Kā stāsta Ē. Miķelsons, „pēdējo divu gadu laikā IBM  klientiem Latvijā un Lietuvā ir piegādājis vairākas datu apstrādes sistēmas PureData System for Analytics, kas katra spēj vienlaikus analizēt 15–30 TB datu, nodrošināt datu ielādi un (vai) transformāciju ar ātrumu, kas pārsniedz 5 TB stundā, un sniegt atbildes uz sarežģītiem analītikas pieprasījumiem dažu minūšu vai pat sekunžu laikā”.

Big data izmaksas var regulēt, un tās kritīsies

     Arī ja big data  risinājumi Latvijā nav plaši izplatīti, to izmaksas, izmantojot mākoņdatošanas platformas, kā Microsoft Azure  u. c., var regulēt (maksā tikai, ja lieto), vienlaikus krītoties sensoru u. c. datu vācēju cenām. Šādi risinājumi var būt īpaši izdevīgi uzņēmumiem, kuru darbībā ir liels transakciju vai notikumu (mašīnu parka monitorings) skaits, bet samērā ierobežoti personāla resursi. Interneta veikalu var noorganizēt neliela komanda, taču tajā var būt tūkstošiem darbību (apmeklējumi, pirkumi) katru dienu. Arī speciālistiem, kas uzrauga lielas industriālas iekārtas darbību, diendienā blakus nesēž apkopes un remonta tehniķi, tos brīdina un izsauc tikai tad, kad uzraudzības programmatūra prognozē iespējamu bojājumu.

     Savukārt Microsoft  jau ir ieskicējis, kādi pastāvoši big data risinājumi nākotnē varētu būt aktuāli Latvijā un citviet, kur šīs tehnoloģijas vēl ir sākumstadijā: starp tiem ir policijas darbības plānošana, balstoties noziedzības uzplaiksnījumu prognozēs (kas balstās uz daudz un dažādu datu apkopošanu), un sportistu treniņu piemērošana, balstoties uz fizioloģisku procesu (sirdsdarbība, elpošana, asinsaina) rādītājiem un rezultātiem. Kas zina, varbūt tuvākajos gados big data vairs nedarbosies tikai sakaru operatoru vai tirdzniecības tīklu aizkulisēs, bet parādīsies kā kādas Latvijas hokeja komandas e-treneris.

Saistītie raksti


Kontakti

Saziņai:
23300113
Adrese:
Slokas iela 31-11, Rīga, LV-1048
Ikmēneša labāko ziņu apkopojums e-pastā:
Seko!