Big data

Kenneth Nyberg

”Big data” kan, som redan framhållits, ses som en samlande term för mycket av det som är nytt med digital humaniora – eller för den delen det digitala samhället i stort. Enkelt uttryckt är de nya möjligheterna att utnyttja gigantiska datamängder en följd av dels tillgången på data i digital form (vare sig dessa är digitalbaserade eller digitaliserade), dels de alltmer kraftfulla datorer (computers, räknemaskiner) vi har till vårt förfogande för att bearbeta dessa data. Denna uppskalning av beräkningskraften är så omfattande och går så snabbt att man kan tala om en radikal förändring av vilken typ av frågor vi kan ställa oss och rimligen förvänta oss att få svar på.

Följaktligen uppfattas framväxten av digital humaniora inte sällan som en förskjutning från en tyngdpunkt på kvalitativa metoder till en dominans för kvantitativa sådana. Inte minst inom historieämnet har just uppdelningen kvalitativ kontra kvantitativ metod ofta betraktats som grundläggande, där det stora genombrottet för de sistnämnda under 1960- och 70-talen inte välkomnades av alla ”traditionellt” arbetande historiker. Efter den s.k. kulturella eller språkliga vändningen inom ämnet under 1980- och 90-talen kan det tyckas som att pendeln nu är på väg att svänga ännu en gång, och vissa konfliktlinjer från den tidigare debatten om kvantitativa metoder kan återigen urskiljas i diskussionen kring digital humaniora.

Det ligger säkert något i dessa positioneringar, vilka avspeglar att forskare har olika prioriteringar och är intresserade av delvis olika saker i sitt studium av det förflutna. Samtidigt ska man inte överdriva motsättningen mellan kvalitativ metod å ena sidan och kvantitativ å den andra; snarare handlar det om en skala utan några skarpa övergångar, ett spektrum där ett givet tillvägagångssätt kan placera sig närmare ena änden och en annan metod hamnar närmare den andra. En gemensam nämnare för nästan all forskning är, trots allt, att hitta mönster i data, att urskilja en signal i bruset, men det kan göras på olika sätt.

Det är också missvisande att kalla mycket av det som för närvarande väcker mest uppmärksamhet inom DH för ”kvantitativ metod” i traditionell mening eftersom det ofta handlar om exempelvis text mining (se nedan) snarare än renodlade statistiska analyser. De nya verktygen används dessutom i många fall för att hitta intressanta ingångar i materialet snarare än för att skapa beräkningar vilka i sig ses som forskningens slutresultat. Detta arbetssätt, där man systematiskt växlar mellan empiri och teori, dvs. data och tänkandet kring data, kallas ibland för abduktion, vilket skiljer sig från induktion där man drar slutsatser utifrån empiriska data och deduktion där man formulerar hypoteser och teorier vilka sedan testas mot empirin.[1]

Med allt detta sagt kvarstår det faktum vi började med, att en stor del av möjligheterna med DH – åtminstone som de uppfattas i nuläget – på många sätt är kopplade till användningen av stora datamängder. Dels sker det i form av utveckling av konventionella statistiska metoder som ”bara” handlar om mer data och snabbare datorer, dels om helt nya arbetssätt som snarare handlar om kvantifiering av kvaliteter, dvs. att analysera egenskaper och relationer på grundvalen av mycket stora material. Nära förknippad med båda dessa utvecklingslinjer är ytterligare en central företeelse inom DH, nämligen visualiseringar, vilka behandlas i nästa avsnitt. Statistik i sig går vi inte in på i detta sammanhang men några ord behöver sägas om det som kallas text mining, vilket också kommer att tas upp i separata fördjupningsartiklar.

Text mining är en tillämpning av idén om ”big data” på stora textmängder, snarare än exempelvis sifferdata. Det handlar om hur man med hjälp av såväl kvalitativ som kvantitativ databehandling kan analysera stora mängder digital(iserad) text, vare sig det är historiska eller litterära källor. En enkel form av text mining är att i stora korpusdatabaser (av korpus, textsamling) söka efter frekvensen av olika ord och hur den har förändrats över tid. Det går också att studera korrelationer av olika slag, i vilka sammanhang begrepp har använts historiskt (som det avspeglas i de analyserade texterna), vilka ord som tenderar att förekomma nära varandra och så vidare. Kvantitativa studier av stora mängder litterära texter kallas distant reading, där den italienske forskaren Franco Moretti – nu verksam i USA – är en pionjär, och topic modelling är en benämning på analyser av texters tematiska struktur som bygger på studiet av vilka begrepp som används, i vilka sammanhang de förekommer och hur de relaterar till varandra.[2]

Ett känt och omdiskuterat projekt som bygger på text mining kallas Culturomics och baserar sig på de miljontals böcker som Google digitaliserat, där man genom frekvensmätningar försöker studera kulturella förändringar av olika slag.[3] Vem som helst kan också göra enkla sådana analyser i databasen genom webbapplikationen Google Books Ngram Viewer (ofta förkortat ”Google Ngrams”). Den typen av studier kan vara mycket fruktbara, men som många har påpekat är det viktigt att fundera på vad de egentligen säger om djupare betydelser eller större historiska sammanhang och inte ”bara” om orden eller tecknen i sig. Dessutom är det just i Googles fall ofta svårt att veta vilken datamängd det egentligen är man söker i, då den hela tiden förändras i en process som inte är särskilt genomskinlig. Ett exempel på verktyg för topic modelling som fått viss uppmärksamhet är Paper Machines av Jo Guldi, vilket rent tekniskt är en insticksmodul till referenshanteringsprogrammet Zotero.[4]

Google Books Ngram Viewer

Google Ngrams. Sökning i Google Ngrams som visar frekvensen av orden computer, digital och history mellan 1958 och 2008 i den engelskspråkiga delen av verktygets korpus, vilken totalt består av flera miljoner böcker på olika språk utgivna mellan 1500 och 2012. (Källa: Google Books Ngram Viewer, http://books.google.com/ngrams, hämtad 2013-01-15.)

I Sverige är det än så länge främst språkvetare och litteraturforskare som arbetat med text mining. En viktig resurs i det sammanhanget är Språkbanken vid Göteborgs universitet, en databas med svenska texter som innehåller ca en miljard ord och sträcker sig flera hundra år tillbaka men också innehåller material från ett antal nutida svenska bloggar. Andra svenska korpusdatabaser är Litteraturbanken och Svensk prosafiktion 1800–1900. Dessa används i första hand av litteraturvetare, som i dem kan undersöka olika frågor om exempelvis sociala nätverk i texterna, hur personerna i dem rör sig i rummet och så vidare. Principiellt sett finns det inga hinder för att utnyttja sådana databaser även för mer historievetenskapliga undersökningar, även om det är viktigt att vara medveten om deras begränsningar.[5] (Vi kommer att utveckla resonemanget om betydelsen av kritisk granskning i kapitlets sista avsnitt.)

Läs också:

Fördjupning: Digitala textarkiv och forskningsfrågor

av Mats Malm

Fördjupning: Kulturomik: Att spana efter språkliga och kulturella förändringar i digitala textarkiv

av Lars Borin och Richard Johansson

Fördjupning: Open research methods in computational social sciences and humanities: introducing R

av Markus Kainu

< Föregående avsnitt   |   Nästa avsnitt >


[1] Jfr Lev Manovich, “The meaning of statistics and digital humanities”, Software Studies 2012-11-27, http://lab.softwarestudies.com/2012/11/the-meaning-of-statistics-and-digital.html (hämtad 2013-10-01).

[2] Om Moretti och distant reading se Kathryn Schulz, “What Is Distant Reading?”, New York Times 2011-06-26, http://www.nytimes.com/2011/06/26/books/review/the-mechanic-muse-what-is-distant-reading.html?pagewanted=all&_r=1& (hämtad 2013-10-02). För exempel på hur resultaten av topic modelling kan se ut se Manovich, “The meaning of statistics”.

[3] Projektet introducerades i en omtalad uppsats i Science: Jean-Baptiste Michel m.fl., ”Quantitative Analysis of Culture Using Millions of Digitized Books”, Science vol. 331 no. 6014 (2011-01-14), s. 176–182. (Tillgänglig digitalt på http://www.sciencemag.org/content/331/6014/176.abstract.)

[4] Google Books Ngram Viewer, http://books.google.com/ngrams, och Paper Machines, http://papermachines.org (båda hämtade 2013-10-02).

[5] Språkbanken, http://spraakbanken.gu.se; Litteraturbanken, http://litteraturbanken.se; och Svensk prosafiktion 1800–1900, http://spf1800-1900.se (alla hämtade 2013-01-18).

2 reaktioner på ”Big data

  1. Pingback: Fördjupning: Kulturomik: Att spana efter språkliga och kulturella förändringar i digitala textarkiv | Historia i en digital värld

  2. Pingback: Text: Big data | Historia i en digital värld

Kommentera

Fyll i dina uppgifter nedan eller klicka på en ikon för att logga in:

WordPress.com Logo

Du kommenterar med ditt WordPress.com-konto. Logga ut / Ändra )

Twitter-bild

Du kommenterar med ditt Twitter-konto. Logga ut / Ändra )

Facebook-foto

Du kommenterar med ditt Facebook-konto. Logga ut / Ändra )

Google+ photo

Du kommenterar med ditt Google+-konto. Logga ut / Ändra )

Ansluter till %s