Hopp til innhold

Stordata

Fra Wikipedia, den frie encyklopedi
Datasenter kan lagre gigantiske datasett

Stordata[1](fra engelsk«big data») er datasett som er så store eller komplekse at de er vanskelige å analysere med vanlige dataprosesseringsverktøy.[2]

Stordata, eller «big data» på engelsk, ermoteordsom ofte benyttes i markedsføring av selskaper som har utviklet teknologi som er i stand til å behandle slike datasett. Ofte brukes begrepet noe feilaktig som et synonym for enhver form for dataanalyse, uavhengig av om IT-folk vil regne datasettene som «store».

Hvor store er stordata?

[rediger|rediger kilde]

Datateknologien blir stadig kraftigere og de lagrede datamengdene større. Derfor varierer det over tid hva som regnes som stordata. Tidligere vargigabyte(tusen millioner byte: 1 GB = 1000 MB) ogterabyte(en milliard byte: 1 TB = 1000 GB = 1000000 MB) å regne for stordata. I dag snakker man oftere ompeta- ogexabyte(1 petabyte = 1000 terabyte, 1 exabyte = 1000 petabyte).

Siden det er vanskelig å definere stordata som en størrelse, er det blitt vanligere å avgrense stordata gjennom egenskapene dataene har, f.eks. at stordata er data som er mest muligfullstendige,detaljerteogidentifiserende[2] (se lenger nede i artikkelen omEgenskaper ved stordata).

Grunnlag for stordata

[rediger|rediger kilde]

Det er minst fem teknologiske utviklinger som sammen har lagt grunnlaget for stordatabehandling:[2]

  • Prosesseringskrafthar øket enormt de siste tiårene samtidig som prisen har gått ned.Moores lov(eller rettereMoores observasjon) sier at antallet transistorer som det er plass til på enintegrert kretsdobler seg hver 18-24 måned. En vanligmobiltelefonhar i dag større regnekraft enn ensuperdatamaskinfra 1970-tallet.
  • Lagringskapasitethar også øket enormt de siste tiårene. Datalagring er blitt langt billigere, raskere og mer pålitelig. I tillegg kommer nye teknologier som lagring pågridiskyenog nyeNOSQL-databaser.
  • Kommunikasjonskapasitethar også øket enormt og blitt billigere, ikke minst på grunn avfiberoptiskekabler. De kraftigste kablene i dag kan overføre på ett sekund all datatrafikk som ble overført påinternetteti løpet av en hel måned på slutten av 1990-tallet.
  • Allestedsnærværende og gjennomtrengende databehandlingvil si at vi i stadig større grad omgis av datainnsamlende og -behandlende apparater, både dem vi bærer med oss (deallestedsnærværende,som mobiltelefoner og smartklokker) og dem som bygges inn i omgivelsene våre (degjennomtrengende,som smarte hus og byer). I tillegg til at vi omgis av stadig flere datainnsamlende og -behandlende apparater, blir hver av dem stadig merdigitale,nettverkstilknyttedeogsmarte,og dermed mer egnet for stordatafangst.
  • Standardidentifikatorergjør det mulig å identifisere fenomener som personer, gjenstander, informasjon og lokasjoner unikt. Eksempler på slike identifikatorer er:personnummer,førerkortnummer,passnummer,kontonavn osv for personer;produkt- ogRFID-koder for kommersielle produkter;kjennemerkeogautopass-ID for biler;MAC-adresserfor datautstyr;IMEI-nummer formobiltelefoner;IMSI-nummer forSIM-kort;ISBN-,ISSN- ogDOI-numre for ulike typerpublikasjoner;URI/IRI-er forvevressurser;gateadresser,postnumreoggeokoordinaterfor geografiske lokasjoner. Det finnes mange flere. Identifikatorene gjør det mulig å knytte sammen data som kommer fra ulike kilder, men som handler om samme fenomen, f.eks. om samme person, eller som handler om relatert fenomener, f.eks. at en person er eier av en gjenstand og holder til på et bestemt sted.

Kilder til stordata

[rediger|rediger kilde]

Hovedkildene til stordata er direkte og automatisk datainnsamling og frivillig dataproduksjon.[2]I tillegg kommer åpne data.

Direkte datainnsamling

[rediger|rediger kilde]

Direkte datainnsamlinger innsamling av data gjennom aktiviteter der innsamling av data er blant hovedmålene. Direkte datainnsamling kan være rettet mot gjenstander, steder eller, særlig, mot personer:[2]

  • Offentlig registreringskjer ved folketellinger og ved registrering av f eks fødsler, dødsfall og helseforhold.
  • Kunde-ellerklientregistreringskjer ved mange typer henvendelser til kommersielle, ideelle og offentlige virksomheter.
  • Nettovervåkninger automatisert innsamling av logging av internett- ogteletrafikk.Viktige formål er å forebygge og oppdagenettkriminalitetogterrorhandlinger.
  • Områdeovervåkninger automatisert innsamling av bilde- og andredata fra et geografisk avgrenset område, f eks ved hjelp av digitaleovervåkningskameraeller frasatellitt.Mens slikt utstyr tidligere varanalogtog isolert er det i dag stadig ofteredigitalt,koblet inettverkog i økende gradsmart,noe som gjør det bedre egnet til stordatainnsamling, f eks når overvåkningskameraer i økende grad blir i stand til å utføreansikts-ogirisgjenkjenningisanntid.Ulike værovervåkningssystemer hører også til denne gruppen.

Automatisk datainnsamling

[rediger|rediger kilde]

Automatisk datainnsamlinger (mer eller mindre nødvendig) datainnsamling som en sideeffekt av andre typer aktiviteter:[2]

  • Teknologibruk,f eks av smarttelefoner,digital-TVbokser og smart-TV-er logges rutinemessig, både lokalt i ustyret og av og til på avstand, f eks hos utstyrsprodusenten eller iskyen.Slike objekter — som består av et vanlig fysisk objekt sammen med en løpende oppdatert logg over objektets historie — kalles på engelsk et«logject»(på norsk f eks«loggjekt»).
  • Nettransaksjonerlogges rutinemessig. F eks logger mange nettbutikker alle detaljer om hvordan brukerne navigerer gjennom butikken, såkalteklikkstrømmer.
  • Medisinsk utstyrlogger rutinemessig pasient- og andre data som siden kan benyttes til administrasjons- og forskningsformål.

Frivillig dataproduksjon

[rediger|rediger kilde]

Frivillig dataproduksjonvil si at brukerne selv bidrar til store datasett:[2]

  • Sosiale medierer IKT-plattformer for brukergenerering og -deling av innhold.MikrobloggetjenestersomTwitterer en kilde til slike stordata.
  • Undervåkning(fra engelsk«sousveillance»,av fransk:«sous-»,under) er når brukerne selv aktivt deler persondata, samlet inn f eks av skrittellere og andre typer bevegelsesmålere.
  • Nettdugnad(engelsk:«crowdsourcing») er bruk av IKT-verktøy til massesamarbeid for å produsere nye produkter (Wikipedia) eller for å evaluere eksisterende produkter i stor skala (TripAdvisor). Slike dugnadsresultater kan være datasett som i seg selv er store (f eks Wikipedia ogWikidata) eller som kan inngå i stordatasett ved kombinering.

Åpne data,som forvaltnings- og forskningsdata, er data som er gjort alment tilgjengelige av offentlige, ideelle og, av og til, kommersielle organisasjoner. Enkelte åpne datasett er stordatasett i seg selv, f eks forskningsdata fra internasjonale forskningsfasiliteter somCERNeller fra maskiner forDNA-sekvensering.Andre åpne datasett kan inngå i stordata i kombinasjon med andre datasett.

Egenskaper ved stordata

[rediger|rediger kilde]

Datastørrelse

[rediger|rediger kilde]

Hva som regnes som stordata har gjennom årene utviklet seg kraftig. Det har gått fra at man anså gigabyte (1000 megabyte) med data som store mengder data til at man i dag snakker om peta- (1000 terabyte) og exabyte (1000 petabyte).[2]

De tre v-ene

[rediger|rediger kilde]

I stedet for å definere stordata kun ut fra størrelse målt i byter, kan man identifisere typiske egenskaper ved stordata. Detre v-eneregnes som sentrale:[2]

  • Volumvil som sagt si at stordata har et volum som setter nye og strenge krav til både behandling, lagring og overføring.
  • Velositet(ellerhastighet,fra engelsk«velocity») vil si at stordata gjerne registreres i sanntid og derfor både må analyseres og vokser raskt. Enkelte stordatastrømmer blir ikke lagret i sin helhet, men blir analysert i sanntid, slik at kun resultatene lagres.
  • Variasjon(engelsk«variability») vil si at stordata gjerne er satt sammen fra mange ulike kilder. De er derfor en blanding avstrukturerte,semistrukturerteogustrukturertedata.

Tidligere datateknologier var i stand til å støtte to av disse tre egenskapene samtidig. Det er nytt med stordata at samme løsninger støtter alle tre.[2]

De fem v-ene

[rediger|rediger kilde]

På engelsk er det vanlig å legge enda to v-er til de tre første:[3]

  • Troverdighet(på engelsk«veracity»eller«trustworthiness») vil si at siden stordata gjerne er satt sammen fra mange ulike kilder, er det viktig å ha oversikt over hvor pålitelige, nøyaktige og korrekte de ulike delene av stordatasettet er.
  • Verdibetyr at stordata må ha personlig, kommersiell, ideell eller samfunnsmessig verdi.

Flere egenskaper ved stordata

[rediger|rediger kilde]

Andre viktige egenskaper ved stordata er:[2]

  • Fullstendighet(engelsk:«exhaustiveness») vil si at stordatasett gjerne inneholder data om alle fenomenene det handler om, mens tradisjonelle (små-)datasett i stedet beskriver (mest mulig representative)utvalgav aktuelle fenomener. Der et vanlig datasett f eks kan representere et utvalg av typiske husholdninger i Norge, vil et tilsvarende stordatasett i stedet inneholde data om alle norske husholdninger.
  • Finkornethet(engelsk:«fine-grained resolution») vil si at stordatasett gjerne inneholder så detaljerte data som mulig. Der et tradisjonelt (små-)datasett for en vevbutikk kan beskrive en nettbruker ved besøkshyppighet og besøkslengde, vil et tilsvarende stordatasett beskrive hvert eneste tastetrykk og museklikk brukeren har gjort i hvert enkelt av sine besøk i nettbutikken.
  • Indeksikalitetvil si at stordatasett forsøker å bruke standardidentifikatorer (se over) på alle fenomenene som er beskrevet. Identifikatorene gjør det mulig å knytte sammen data som kommer fra ulike kilder, men som handler om samme fenomen, f eks om samme person.
  • Relasjonalitetvil si at data om ulike fenomener i et stordatasett er knyttet sammen ved hjelp av disse identifikatorene, f eks at en person kjenner en annen person og er eier av en fysisk gjenstand.
  • Utvidbarhet(engelsk:«extensibility») betyr at det må være mulig og enkelt å legge nye typer data — kanskje fra andre kilder — til eksisterende stordatasett.
  • Skalerbarhetbetyr at teknologier for stordata må tåle rask vekst i datamengde og behandlingsbehov.

Behandling av stordata

[rediger|rediger kilde]

Når datamengdene blir store, medfører det utfordringer i innsamling, lagring, analyse, søking, utveksling og visualisering av data. En vanlig teknikk er å behandle stordata er å dele opp og distribuere datasett slik at de kanbehandles parallelt.Maskinlæringsteknikkerogkunstig intelligenser også sentrale. Dessuten benyttesinformasjonsvisualiseringtil å få oversikt over oganalyserestore datasett.

Bruk av stordata

[rediger|rediger kilde]

Utviklingen mot større datasett er basert på evnen til å trekke ekstra informasjon fra analyser av et enkelt sett med store mengder sammenhengende data, sammenlignet med separate, mindre sett med samme totale mengden data som gjør det mulig for tilkoblinger slik at man kan finne forretningstrender, fastslå kvaliteten på forskning, forebygge sykdommer, sammenligne juridiske siteringer, bekjempe kriminalitet og holde et øye med trafikkforhold i sanntid.

  1. ^Kartlegging og vurdering av stordata i offentlig sektor(PDF)(Rapport til Kommunal- og moderniseringsdepartementet). Utarbeidet av Vivento AS. 7. mars 2016. Arkivert fraoriginalen(PDF)8. mars 2016.
  2. ^abcdefghijkKitchin, Rob (2014).The data revolution: Big data, open data, data infrastructures and their consequences.Sage.
  3. ^Berhard Marr (6. mars 2014).«Big Data: The 5 Vs Everyone Must Know».LinkedIn.Besøkt 28. august 2016.