Elever i klasselokale
Flere og flere undervisningsmaterialer er blevet digitale og indsamler således big data fra eleverne.
Foto: Ida Maria Odgaard / Scanpix

Big data

journalist Malene Fenger-Grøndahl, IBureauet/Dagbladet Information. November 2013. Opdateret af journalist Martine Stock, Bureauet, januar 2020
Top image group
Elever i klasselokale
Flere og flere undervisningsmaterialer er blevet digitale og indsamler således big data fra eleverne.
Foto: Ida Maria Odgaard / Scanpix
Main image
Udviklingschef i Berlingske Media, Pernille Tranberg fortæller på en IT konfernece om sin bog 'Fake it' og de gratis nettjenesters brug af vores personlige data - også kaldet Big data.
Udviklingschef i Berlingske Media, Pernille Tranberg fortæller på en IT konfernece om sin bog 'Fake it' og de gratis nettjenesters brug af vores personlige data - også kaldet Big data.
Foto: Jacob Eskildsen / Scanpix

Indledning

Vi efterlader elektroniske spor næsten hele tiden. Når vi er i kontakt med kommunen, laver en opdatering på Facebook, er indlagt på hospitalet, kører i en bil med GPS eller betaler med et dankort. De mange data, som opsamles om os, vokser konstant, og de enorme mængder information kan give både forskere, politikere og virksomheder ny viden. Hvis dataene analyseres og bruges rigtigt, kan de bruges til at indrette vores byer bedre, forebygge sygdomme og gøre os mere effektive i dagligdagen. Men de enorme datamængder kan også bruges af virksomheder og myndigheder, der ønsker at styre vores forbrug og adfærd. Så Big data rummer store muligheder, men også mange faldgruber og risici.

Video fra TED-Ed, hvor det forklares, hvad Big data er, og hvordan de enorme mængder data håndteres.

Artikel type
faktalink

Baggrund om Big data

Print-venlig version af dette kapitel - Baggrund om Big data

Hvad er Big data?

Stort set alt, hvad vi gør, resulterer i et dataspor, og mængden af data vokser så eksplosivt, at verdens samlede mængde data fordobles hvert tredje år. Denne enorme mængde data og de nye muligheder for analyse og regulering, som de indebærer, kaldes Big data. Big Data bruges i stigende grad inden for markedsføring og it og er også begyndt at brede sig til andre dele af erhvervslivet og det offentlige.

Hvad er forskellen på Small data og Big data?

Forskellen er, som navnet antyder, især mængden af data. Men i Big data ligger også, at det er data, som ikke altid er indsamlet med et bestemt formål, sådan som de fleste data var tidligere. Før i tiden lavede en virksomhed eller en offentlig myndighed for eksempel en undersøgelse af nogle borgeres ønsker eller behov med et helt bestemt formål for øje. De data, der blev indsamlet, kunne typisk kun bruges til netop det formål, de var blevet indhentet for at dække.

Men med Big data er det nærmest omvendt. De fleste af de mange data indsamles som en form for sideeffekt eller biprodukt, som opstår, når vi kommunikerer, handler og bevæger os. Det medfører, ifølge nogle af de førende eksperter i Big data, at forskere i dag kan opdage sammenhænge eller fænomener, som man i small data-tidsalderen ikke ville opdage, fordi man aldrig ville kunne forestille sig dem.

"For mange mennesker er det svært at forstå, men i Big Data-tidsalderen, er det smukke, at du kan få en masse indsigt ved at se på verden gennem korrelationer. I Small Data-tidsalderen blev vi nødt til at formulere et spørgsmål, derefter indsamle data og så se på mulige sammenhænge," siger Viktor Mayer-Schönberger, professor i Internet Governance and Regulation på Oxford University og forfatter til bogen "Big Data A Revolution That Will Transform How We Live, Work and Think" i artiklen En revolution i sandheder (se kilder).

Brugen af Big data

Print-venlig version af dette kapitel - Brugen af Big data

Hvem har adgang til Big data?

Det vides ikke med sikkerhed. Den amerikanske whistleblower Edward Snowden har afsløret, at den amerikanske efterretningstjeneste indsamler et væld af oplysninger ved at opsnappe kommunikation direkte fra de fiberkabler, som den globale internettrafik løber gennem, samt ved hjælp af det såkaldte PRISM-program, der giver NSA adgang til data fra alle de store internetselskaber som Google, Facebook, Skype og Microsoft.

Formodentlig har andre efterretningstjenester tilsvarende adgang til Big data, og det samme gælder store virksomheder. Forskere i Big data nævner, at der blandt private virksomheder er fem giganter, der især opsamler store datamængder, nemlig: Google, Facebook, Amazon, Apple og Microsoft. Disse giganter har altså rådighed over enorme datamængder, som de kun i begrænset omfang giver virksomheder eller forskere adgang til mod betaling.

 

Hvilke typer data har Facebook, Google og Apple adgang til?

Facebook gemmer oplysninger om, hvordan sitets mere end 1,5 milliard daglige brugere interagerer med netværket og hinanden. Hver dag laver brugerne flere milliarder nye likes og lægger mange hundrede millioner billeder i Facebook-universet, og de store datamængder er ikke noget, udenforstående umiddelbart kan trække oplysninger fra. Facebook kan derimod bruge det til at målrette reklamer. Google har adgang til enorme datamængder om blandt andet websøgninger og e-mailkommunikation, mens Apple både har store mængder kommunikations- og netværksdata, men også indsamler data fra de indbyggede GPSer, der bruges i blandt andet telefonens kortfunktioner.

Hvordan bruges Big data?

De store datamængder bruges blandt andet af firmaer, der trækker viden ud om kunder og bruger dem til at målrette reklamer. Google gemmer for eksempel alle søgeresultater og bruger det til markedsføring og Amazon registrerer alle køb og klik på deres hjemmeside og bruger det til at give den enkelte bruger de tilbud, der retter sig mest præcist mod vedkommendes interesser. Big data, som sælges af for eksempel Google til forskere eller offentlige institutioner, bruges desuden til at forudsige tendenser og problemer og til at forebygge dem. Et eksempel på det nævnes i artiklen En revolution i sandheder (se kilder): Et eksempel er Googles projekt Flu Trends, der har vist sig bedre og hurtigere at kunne forudsige og registrere udbrud af influenza end data indsamlet af sundhedssektoren. Google får mere end tre milliarder søgninger dagligt og gemmer samtlige søgeord. Så ved at gå tilbage historisk og koble alle søgninger på sundhedsdata om udbrud og spredning af influenza fandt Google ved hjælp af en matematisk model frem til en stærk sammenhæng mellem 45 søgetermer og den faktiske spredning af influenza igennem tiden. På den måde kan de nu hurtigere end myndighederne følge og forudsige spredningen af influenza.

Hvem bruger Big data?

Efterretningstjenester og it-virksomheder som Google, Apple og Facebook bruger Big data, og virksomheder inden for andre brancher gør det også i stigende grad. Virksomheder kan for eksempel bruge data om køb, salg og besøg på bestemte hjemmesider til at målrette tilbud, kampagner, forsikringer, varer og meget andet til bestemte målgrupper, og de store mængder data gør det muligt at ramme meget præcist.
En del offentlige institutioner bruger også Big data, og både kommuner, universiteter og stater har fået øjnene op for potentialerne i en øget udnyttelse af datamængderne. Men det offentlige halter stadig langt bagefter de private virksomheder, fremgår det af artiklen ”En revolution i sandheder” (se kilder).

Hvilke forhindringer er der for at bruge Big data?

Ifølge artiklen En revolution i sandheder (se kilder) har især det offentlige problemer med at bruge Big data, fordi det offentlige mangler it-kompetencer og har problemer med at samarbejde på tværs af forskellige enheder. I artiklen citeres en førende amerikansk forsker i Big data, Viktor Mayer-Schönberger, for følgende: "Staten har ganske vist en masse information, men det er en meget stor organisation med forskellige enheder, der som oftest ikke taler særligt godt sammen. It i det offentlige er for det meste en trist historie om inkompetence og mangel på ressourcer, fordi de ikke har de bedste talenter, og deres projekter sædvanligvis er for store med omkostninger, der løber løbsk."
En anden forhindring for, at Big data kan udnyttes er, at ingen instanser har adgang til alle de mane datasæt, som ofte skal kombineres for at få mest mulig gavn af dem. Ingen af dem, der indsamler data, har altså et komplet billede af, hvad deres brugere foretager sig, og det forhindrer, at man kan udnytte de mange data bedst muligt. Desuden tilhører de største og mest interessante datasæt teknologigiganterne, bl.a. Facebook og Google, og derfor kan for eksempel forskere og offentlige institutioner ofte ikke få adgang til alle de data, de ønsker. "Det er et demokratisk problem. For mængden af informationer, som kan udledes fra de her data er ufatteligt stor, og det kan bruges til mange praktiske formål," siger Dino Pedreschisi, der er professor i Computervidenskab på Universitetet i Pisa i artiklen Et overblik over livet i helt uset omfang (se kilder).
Desuden er der et dilemma mellem hensynet til den enkeltes privatliv og den gavn, forskere og andre kan have af at få adgang til personfølsomme oplysninger.