Regular Expression: Zwitsers zakmes voor datajournalisten

Zweeds zakmes

Data is onontbeerlijk voor datajournalistiek. Kant-en-klare datasets zijn slechts per uitzondering te downloaden. Voor al die andere data die je wilt hebben, kan het handig zijn om informatie van websites scrapen. Regular expressions – vaak afgekort als regex of regexp – is het Zwitsers zakmes van scrapende datajournalisten. Alles wat je moet weten over deze lifesaver.

Zwitsers zakmes

Regular expression

Met regular expression leer je computers om strings – ookwel tekenreeksen of ‘gewoon’ tekst – te herkennen. Zo kun je er onder meer teksten mee doorzoeken, bewerken – denk aan splitsen en ordenen – en controleren. Als je op je computer of via google zoekt naar een pdf-bestand zou je *.pdf kunnen gebruiken. Hiermee laat je weten dat je pdf-bestanden zoekt, ongeacht wat voor titel deze hebben. In feite is dat een eenvoudige variant van een regex. Deze manier van omgaan met tekst en informatie kan heel handig zijn. Zo kun je alle e-mailadressen uit (de broncode van) een website laten destilleren of een html-pagina kun je snel uitsplitsen en samenvatten.

Zwitsers zakmes

Regex voorzag in zo’n brede behoefte, dat het inmiddels in veel programmeertalen is geïmplementeerd. In sommige code editors kun je regular expressions zelfs zelfstandig gebruiken. Dit maakt regular expressions misschien wel waardevoller voor het scrapen van informatie dan programmeertalen… Maar natuurlijk kent regexp, als een waar Zwitsers zakmes, nog meer voordelen:

  • Regex is breed inzetbaar, voor onder meer html-, sql-, xml-, en csv-bestanden.
  • Regular expression gebruikt relatief weinig code.
  • Het is vaak sneller dan programmeren.
  • Vrijwel alles wat je wilt doen heeft betrekking op tekst; of regular expression is vrijwel altijd inzetbaar.
  • Het stelt je in staat om heel snel veel tekst te verwerken.

Regex tutorials

Een zakmes is handig, maar dan moet je wel weten hoe je er mee om moet gaan. Een aantal tutorials om je op weg te helpen:

  1. Code Academy

    Vaste prik voor het leren van nieuwe programmeerskills. Met name handig voor het prille begin, omdat je op een interactieve manier met de absolute basis aan de slag gaat. Dat geldt ook voor regular expressions.

  2. Webcast van O’reilly

    Uitgeverij O’reilly geeft naast heel veel boeken – ook over regex – ook webcasts uit. In deze webcast legt Lea Verou je de basis van regexp uit.

  3. Online Journalism Blog – Scraping for Journalists

    Op het Online Journalism Blog legt Paul Bradshaw uit hoe je websites kunt scrapen met regular expressions. Wel scrapen maar niet met regular expressions? De blogpost is een eerste versie van hoofdstuk 10 uit Bradshaws boek Scraping for Journalists; met nog veel meer tips en trucs voor het scrapen van informatie.

  4. Tutsplus

    Volgens deze Tutsplus tutorial uit 2009 weet je nog niets van regexp – inderdaad, tot je de tutorial volgt. Regular expressions wordt hier gecombineerd met javascript, al heb je geen voorkennis nodig. Inclusief een vijf video-tutorials.

  5. Regex the hard way

    Liever de moeilijke dan de makkelijke weg? Ook bij Learn Code The Hard Way hebben ze een speciale regular expressions hoek ingericht. Bedoeld voor hen die vol gas van start willen gaan.

  6. Regex One

    Leer Regex online via Regex One, inclusief met interactieve voorbeelden. Volg je RegEx One al op Twitter? :)

Verder lezen

Filed under Geen categorie

2 Comments

  1. Hi daar … Ik neem aan dat je verwijst naar Zwitserse (niet Zweedse) zakmessen. Dat is in elk geval het mes in de foto.

    • Goedemorgen! Je hebt helemaal gelijk Peet. Was duidelijk nog niet wakker toen ik dit schreef. Thanks!

Comments are closed.