Geen data, toch datajournalistiek

Mechanical Turk - Wikipedia

Toch een datajournalistiek verhaal maken terwijl de data in eerste instantie ontbreekt? In haar workshop ‘Datajournalistiek zonder data’ vertelde CIR’s Jennifer LaFleur hoe je dat aanpakt. Over het aanleggen van je eigen database, het nemen van steekproeven en het belang van een nerdbox: na deze blogpost is geen data voor jou geen probleem meer.

Mechanical Turk

Amazons webservice mTurk is vernoemd naar een nep schaakmachine uit de 18e eeuw.

Maak zelf een database

“Onderzoek voor je begint eerst goed of er niet toch al ergens een database bestaat die je zou kunnen gebruiken. Het aanleggen van een eigen database is tijdrovend, dat wil je echt niet doen als er al een bestaat”, waarschuwt Lafleur. Bij het maken van een nieuwe database is het belangrijk om alle data goed te controleren. “Je wilt niet dat data door een persoon handmatig wordt ingevoerd. Laat twee of drie mensen samenwerken, want een foutje is heel snel gemaakt. Ook als je data scrapet of scant kunnen er foutjes in je database sluipen.” Als oplossing stelt Jennifer voor dat je ‘spot checks’ uitvoert: controleer willekeurig een paar keer of alle zevens ook echt nog zevens zijn na het scannen.

Mechanical Turk

Als je een database maakt kun je ook gebruiken van de Amazon webservice Mechanical Turk, waar mensen voor een vergoeding van een paar cent een kleine handeling uitvoeren. “Met mTurk is het invoeren van data veel goedkoper geworden, maar ook sneller. Bij Propublica gebruikten we die webservice voor het invoeren van data. In plaats van duizend dollar of meer uit te geven bij een data entry bureau, gaven we honderd dollar uit en was de klus de volgende dag geklaard.” In Propublica’s gids voor het gebruiken van Mechanical Turk staat wel dat alle data meerdere keren ingevoerd werd, om fouten te voorkomen.

Steekproef

Als je data opgesloten zit in pdfs of papier, kun je er ook voor kiezen om een steekproef te nemen. Als je weet dat er een miljoen papieren dossiermappen zijn, is het simpelweg onmogelijk om binnen een acceptabel tijdsbestek al deze records uitgebreid te analyseren of toe te voegen aan je database. Dan is het sneller om een steekproef te nemen, waarbij je op basis van bijvoorbeeld tien procent van de records iets zegt over het geheel.

Overwegingen bij het nemen van een steekproef

  1. Wat is het universum van de data? Ofwel: waar gaat de data over? Wat kun je vragen aan deze database? En, wellicht belangrijker nog, wat kun je dus niet vragen?
  2. Hoe trek je de steekproef? Je kunt op verschillende manieren de records voor je steekproef selecteren: willekeurig, systematisch – elke tiende record beginnend bij 4, dus 4, 14, 24 – of gestratificeerd. Dat laatste wil zeggen dat rekening houdt met onderliggende getallen. Een voorbeeld: tweederde van het dorp is boer, een derde dokter. Bij een gestratificeerde steekproef neem je dan 2 willekeurig gekozen boeren, en 1 willekeurig gekozen dokter.
  3. Hoe kom je aan de items, documenten of data?
  4. Tot op welk niveau – globaal of gedetailleerd – wil je het analyseren?
  5. Welke mate van nauwkeurigheid heb je nodig? Dit kan een belangrijk zijn voor het vaststellen van de grote van je steekproef: bekijk je tien, twintig of veertig procent van het geheel?

Nerdbox

Welke methode je ook kiest, verificatie en dubbelcheck blijken eens te meer van groot belang. En als je jouw database dan af is, je verhaal geschreven, en je klaar bent voor publicatie; denk dan nog even aan de ‘nerdbox’. “Bij Propublica publiceerde we bij dit soort verhalen altijd een kader waarin we uitlegden hoe we te werk waren gegaan, de nerdbox”, legt LaFleur uit. “Beschrijf bijvoorbeeld in een kader hoe je de steekproef hebt genomen, en welke foutmarge er bij je analyse hoort.” In feite is een nerdbox een kader bij je verhaal waarin je je werkwijze uitlegt, want datajournalistiek zonder data vraagt om een toelichting.

Twee dagen wisselen onderzoeksjournalisten tips en tricks uit tijdens de VVOJ conferentie in Zwolle. Dit jaar is het thema ‘De macht van het getal’. Zie hier de verslagen van enkele workshops.

Filed under Geen categorie