Onderzoeksmethoden

Er bestaan veel verschillende onderzoeksmethoden om je evaluatievraag te beantwoorden. Om een idee te geven van de manieren waarop je verschillende onderzoeksmethoden kunt inzetten, is per methode een fiche uitgewerkt. Hierin vind je ook onderwerpen als de eisen, beperkingen en kosten van de methode.

De Toolbox bevat op dit moment de volgende fiches:

Ex ante

Inleiding

Een business case brengt alle financiële consequenties van een beleidsvoorstel in beeld: uitgaven, ontvangsten en risico’s. De business case gebruik je tijdens de beleidsvoorbereiding. De twee belangrijkste vragen die je met een business case kunt beantwoorden, zijn:

Is de voorgenomen beleidsoptie een financieel gezonde keuze?
Is er een noodzaak tot overheidsinvestering, of kan het beoogde resultaat door de markt tot stand gebracht worden?

Wat is een business case?

Van oorsprong is de business case een bedrijfseconomische analyse vanuit een puur private invalshoek. In zo’n klassieke business case ligt de nadruk op de financiële waarde voor aandeelhouders. Dit is anders voor een publieke business case. Daarin wordt namelijk ook aandacht geschonken aan de maatschappelijke effecten van een project of beleidskeuze. De focus van de publieke business case blijft echter op de financiële gevolgen.

Als de verwachte ontvangsten groter zijn dan de verwachte uitgaven en risico’s stellen we doorgaans dat de business case ‘sluitend’ is: aan het voorgenomen project of beleidsvoorstel kan verdiend worden.

Toepassingsgebied

Een business case is breed toepasbaar op een groot aantal beleidsterreinen. De business case kan gebruikt worden voor verschillende toepassingen. Hieronder zijn drie toepassingen uitgewerkt. De eerste toepassing betreft een klassieke business case, de andere twee toepassingen zijn vormen van een publieke business case:

Een toepassing voor de overheid van een klassieke business case is het bepalen van de noodzaak tot overheidsinvesteringen. Projecten met een sluitende business case hoeven meestal geen financiële bijdrage vanuit de overheid te krijgen. Deze projecten kunnen zelfstandig door private partijen gerealiseerd worden. Aan de andere kant zijn er projecten waar de overheid belang bij heeft, maar die voor de markt niet aantrekkelijk zijn om te financieren. Dit geldt bijvoorbeeld als de risico’s te groot zijn voor een private partij. Een business case kan helpen vaststellen of een financiële bijdrage van de overheid nodig is om de business case voor private partijen ‘sluitend te maken’, en hoe groot deze bijdrage zou moeten zijn.

Daarnaast kan de business case gebruikt worden om projecten en activiteiten die noodzakelijkerwijze door de overheid worden uitgevoerd vanuit financieel oogpunt af te wegen. Bijvoorbeeld, om een alternatief te vormen voor een privaat monopolie kan een economische activiteit belegd worden bij een staatsbedrijf. Tegelijkertijd moeten staatsbedrijven – net als private partijen – financiële kosten en opbrengsten in balans houden. Aangezien het hier gaat om de activiteiten van een publieke partij kun je overwegen ook maatschappelijke gevolgen mee te nemen.

Tot slot kun je een business case ook gebruiken om het financiële effect van beleid op de begroting in kaart te brengen. Bijvoorbeeld, als we investeren in sollicitatietrainingen voor bijstandsgerechtigden, levert dit dan voldoende uitstroom op uit de bijstand om de kosten van de investering te dekken? Maatschappelijke gevolgen – zoals de gevolgen voor bijstandsgerechtigden zelf – zijn hierbij uiteraard ook belangrijk om mee te nemen.

Uitvoering

Het Ministerie van Financiën heeft in 2016 de ‘Handleiding publieke businesscase’ gepubliceerd. De handleiding gaat aan de hand van vier modules in op de voorbereiding, kwalitatieve analyse, kwantitatieve analyse en de afronding van de business case. De handleiding is bruikbaar voor een brede set aan beleidsdomeinen.

Voor de specifieke toepassing van de business case in het infrastructuurdomein heeft het Kennisinstituut voor Mobiliteitsbeleid de ‘Leidraad voor opdrachtgevers van business cases’ ontwikkeld. De leidraad gaat in op de basisprincipes van de business case, maar biedt ook verdieping op specifieke aspecten – van aanleiding tot risicomanagement – aan de hand van een achttal modules.

Beperkingen

De belangrijkste beperking van de business case is de financiële focus. Als een business case bijvoorbeeld laat zien dat een project voor marktpartijen onvoldoende rendabel is, is daarmee nog geen oordeel geveld over de wenselijkheid van een overheidsbijdrage. Daarvoor zal (middels aanvullend onderzoek) moeten worden onderzocht of de maatschappelijke baten opwegen tegen de benodigde bijdrage, bijvoorbeeld middels een MKBA.

De mogelijke betrokkenheid van de overheid kan een gevolg hebben voor de uitkomsten van de business case. Bijvoorbeeld, als bekend is dat de overheid overweegt woningbouw op een bepaalde locatie te subsidiëren, dan is dit van invloed op grondwaarde van de locatie. Het kan zijn dat hierdoor de business case voor de vastgoedontwikkelaar niet sluit. Houdt er dus rekening mee dat je als overheid meer bent dan alleen observator, ook als je alleen nog maar een verkennend onderzoek uitvoert.

Kosten en doorlooptijd

De kosten en doorlooptijd van een business case zijn afhankelijk van de scope en complexiteit van het beleidsvoorstel. Soms zijn de verwachte opbrengsten van een project of activiteit makkelijk in te schatten, soms vereisen ze bijvoorbeeld een uitgebreide marktanalyse.

Inleiding

Kosteneffectiviteitsanalyses (KEA) gebruik je om te kijken hoe de kosten van beleidsopties zich verhouden tot de mate waarin het beoogde doel wordt bereikt. Deze methode gebruik je in de beleidsvoorbereidende fase. De methode helpt bij het maken van doelmatige beleidskeuzes. De belangrijkste vraag die je met een KEA kan beantwoorden, is:

Welke beleidsoptie realiseert het grootste doelbereik tegen de laagste kosten?

Wat is een kosteneffectiviteitsanalyse?

Met een kosteneffectiviteitsanalyse (KEA) bereken je de kosten van verschillende beleidsopties om een bepaalde beleidsuitkomst bereiken. Bijvoorbeeld: van drie verschillende beleidsopties, welke realiseert de meeste reductie in CO₂ uitstoot tegen de laagste kosten? Een KEA weegt dus niet alle maatschappelijke kosten en baten, maar beperkt zich tot het beoogde beleidseffect en de kosten. Verschillende beleidsopties kun je op deze manier vergelijken op basis van de kosten en het doelbereik. De uitkomsten zeggen iets over de verwachte doelmatigheid van beleidsopties.

Toepassingsgebied

KEA’s kun je toepassen op (bijna) ieder denkbaar beleidsterrein.

KEA’s gebruik je in de beleidsvoorbereiding als je de verhouding wil weten tussen de kosten van een beleidsoptie en het beoogde beleidseffect. Je ambitie is dus niet om het totaalplaatje van alle maatschappelijke kosten en baten in beeld te krijgen zoals bij een MKBA. Gebruik de KEA dus alleen als de overwogen beleidsopties weinig van elkaar verschillen in het creëren van neveneffecten. Overweeg een KEA in plaats van een MKBA als het halen van het beleidsdoel een harde verplichting betreft (zoals voldoen aan een wettelijk norm).

Uitvoering

Een KEA wordt in de uitvoering soms beschouwd op een beperkte vorm van een MKBA. Let hierbij wel op, met een KEA worden duidelijk andere vragen beantwoord dan met een MKBA. De Algemene MKBA-leidraad van het CPB biedt aanwijzingen voor het uitvoeren van zowel MKBA’s als KEA’s.

De richtlijn voor het uitvoeren van economische evaluaties in de gezondheidszorg van Zorginstituut Nederland kan je helpen bij het uitvoeren van KEA’s op het gebied van de zorg.

Beperkingen

KEAs kunnen een aantal beperkingen hebben, waardoor je geen complete afweging kunt maken. Twee belangrijke beperkingen zijn:

Geen zicht op neveneffecten. Door de focus op één beoogd effect blijven de mogelijke neveneffecten van de beleidsvarianten die je vergelijkt buiten beeld. Het kan zijn dat de goedkoopste optie om een gewenst effect te realiseren door schadelijke neveneffecten niet de beste optie is. Inventariseer van tevoren welke neveneffecten er mogelijk optreden, en in welke mate deze neveneffecten belangrijk zijn voor de besluitvorming.
Geen totaalscore. Doordat er geen totaaloverzicht van de effecten wordt gemaakt, kan ook geen totaalscore worden gegeven . Met een KEA kan bijvoorbeeld dus wel bekeken worden welke infrastructuurverbetering tegen de laagste kosten het meeste reistijd bespaart, maar niet of het geheel van batenposten in verhouding staat tot de (financiële én maatschappelijke) kosten. Met een MKBA kan dat wel.

Kosten en doorlooptijd

De kosten en doorlooptijd van KEA’s verschillen. Dit is afhankelijk van meerdere factoren. Hoe makkelijk kun je de benodigde informatie krijgen? Hoe ingewikkeld is het beleidsterrein en het beleidsvoorstel? En hoe nauwkeurig moeten de analyses zijn?

Inleiding

De impact-analyse (scorekaart) en multicriteria-analyse (MCA) zijn methoden om de effecten en eventueel ook kosten van beleidsvoorstellen systematisch op een rij te zetten. Beide methoden gebruik je in de beleidsvoorbereidende fase. De methoden helpen je bij het vergelijken van beleidsopties op meerdere aspecten. Ze zijn gebaseerd op een zo veel mogelijk gekwantificeerd overzicht van beleidseffecten.

Toelichting van de twee methoden

Multicriteria-analyse (MCA): met een MCA kun je beleidsopties vergelijken in situaties waarin je rekening moet houden met meerdere beleidseffecten. Met een MCA maak je een cijfermatig overzicht van de effecten en kosten van verschillende beleidsopties. Op basis van deze effecten en kosten wordt voor iedere beleidsvariant een totaalscore berekend. De effecten zijn vaak in verschillende grootheden uitgedrukt – bijvoorbeeld decibels geluid en tonnen CO₂-uitstoot. Om deze effecten bij elkaar te kunnen optellen wordt gebruik gemaakt van wegingsfactoren. De wegingsfactoren worden samen met betrokken politici, beleidsambtenaren, experts en/of burgers vastgesteld. Het is daarbij wel belangrijk zorgvuldig te werk te gaan en transparant te zijn over de gehanteerde wegingsfactoren en hoe deze tot stand komen.

Impact-analyse (scorekaart): net als bij een MCA worden in een impact-analyse beleidsopties beoordeeld en vergeleken. Dit gebeurt net als bij de MCA met een totaaloverzicht van de kosten en effecten (de ‘scorekaart’). Anders dan bij een MCA wordt er echter geen totaalscore berekend, maar wordt de afweging tussen verschillende effecten en kosten aan de lezer gelaten.

Toepassingsgebied

Zowel MCA’s als impact-analyses zijn breed toepasbaar binnen alle beleidsdomeinen. Als er niet tot eenduidige en transparante wegingsfactoren kan worden gekomen verdient een impact-analyse de voorkeur boven een MCA.

Uitvoering

Er bestaan binnen het Rijk geen handleidingen om een MCA of impact-analyse uit te voeren, maar in het algemeen moeten er drie stappen worden uitgevoerd:

Inventariseren van beleidseffecten: bekijk welke effecten je moet meenemen in de scorekaart. Denk onder andere aan bedoelde effecten, onbedoelde effecten (en kosten.
Kwantificeren van beleidseffecten: de effecten die je gaat meenemen in de scorekaart, moet je kwantificeren, dus uitdrukken in aantallen. Daarvoor moet je de effecten meten of schatten op basis van bijvoorbeeld simulaties, data-analyses, gedragsinzichten, literatuurstudies, pilots en enquêtes.
Weging van beleidseffecten (alleen bij MCA): hoe verhouden de beleidseffecten zich tot elkaar? Door wie worden de wegingsfactoren vastgesteld?

Beperkingen

Het voordeel van een MCA is dat er een totaalscore geproduceerd wordt. Het nadeel is wel dat niet iedereen het eens hoeft te zijn met de wegingsfactoren die aan de grondslag liggen van die totaalscore. Schat dus van tevoren in hoe groot de variatie zal zijn tussen betrokkenen in de mate waarin de effecten verschillend gewaardeerd (gewogen) worden. Er bestaat ook kritiek op de manier waarop de wegingsfactoren van bij een MCA worden vastgesteld.

Bij een impact-analyse is het voordeel dat iedereen zijn eigen afweging kan maken op basis van de ingeschatte beleidseffecten en kosten. Het nadeel is dat een totaalscore ontbreekt, en dat de methode dus niet resulteert in een finaal oordeel over welke beleidsoptie het beste is. Dit oordeel wordt aan de lezer overgelaten.

Kosten en doorlooptijd

Impact-analyses en MCA’s kunnen in vrij korte tijd worden uitgevoerd, namelijk in twee tot zes maanden. Dit is afhankelijk van hoe uitgebreid en gedetailleerd de effecten en kosten moeten worden vastgesteld.

Inleiding

Een Maatschappelijke kosten-baten Analyse (MKBA) is een belangrijk instrument in de beleidsvoorbereidende fase. Een MKBA helpt bij het maken van beleidskeuzes om beleidsvoorstellen te beoordelen, maar kan ook achteraf ingezet worden om terug te blikken op uitgevoerd beleid.

Vragen die met een MKBA beantwoord kunnen worden zijn:

Wat zijn de maatschappelijke kosten en baten van elk van de beleidsopties?
Wie ondervindt wanneer de kosten en baten?
Hoe scoren de verschillende beleidsopties ten opzichten van elkaar in termen van maatschappelijke kosten en baten?

Wat is een maatschappelijke kosten-baten analyse?

Een MKBA laat zien welke welvaartseffecten een beleidsoptie heeft. Dat wil zeggen de directe en indirecte effecten voor de hele (Nederlandse) maatschappij. De kosten en baten worden zoveel mogelijk in euro’s uitgedrukt. Dit geldt ook voor zaken die niet echt een prijskaartje hebben, zoals geluidsoverlast, een mooi uitzicht of je veilig voelen. Door zoveel mogelijk effecten in geld uit te drukken worden de effecten onderling vergelijkbaar. Daarmee kan op overzichtelijke wijze inzicht worden gegeven in de maatschappelijke kosten en baten van verschillende beleidsopties zodat een afgewogen beslissing kan worden genomen over de vraag welke beleidsoptie een positieve bijdrage aan de welvaart levert en welke beleidsoptie de voorkeur geniet.

Toepassingsgebied

MKBA’s worden vaak gebruikt bij de beoordeling van infrastructurele projecten. MKBA’s zijn echter breed toepasbaar binnen ieder denkbaar beleidsterrein. Voorbeelden zijn onderwijs, zorg, arbeidsmarktbeleid, woonbeleid, milieu- en natuurbeleid, energiebeleid en digitale overheidsprojecten.

De MKBA gebruik je in de fase van de beleidsvoorbereiding om de beleidsopties te beoordelen. De MKBA kun je ook gebruiken in een eerdere fase van de beleidsvorming: om beleidsopties aan te scherpen of nieuwe beleidsopties te ontwerpen. Behalve vooraf, kan de MKBA ook achteraf worden gebruikt om terug te blikken op uitgevoerd beleid.

Uitvoering

Het uitvoeren van een MKBA is niet eenvoudig. Daarom is door het Centraal Planbureau (CPB) en het Planbureau voor de Leefomgeving (PBL) een Algemene MKBA-leidraad opgesteld. Deze leidraad zet alle stappen op een rij die je moet doorlopen voor een goede MKBA. In de leidraad staat welke eisen aan de verschillende onderdelen van een MKBA worden gesteld. De leidraad geeft voorschriften en richtlijnen waaraan iedere MKBA minimaal moet voldoen. Het gebruiken van de Algemene MKBA-leidraad is verplicht voor alle MKBA's waar de Rijksoverheid (mede)opdrachtgever van is. Maar de leidraad is in brede zin bruikbaar, dus ook voor MKBA’s die voor medeoverheden worden uitgevoerd.

Daarnaast zijn er sectorspecifieke werkwijzers. Deze zijn afgeleid van de Algemene MKBA-leidraad. Ze zijn bedoeld voor toepassingen op specifieke, vaak departementale, toepassingsdomeinen. De werkwijzers sluiten aan op de Algemene Leidraad, zijn getoetst door het CPB en PBL en zijn onderling op inhoudelijke consistentie gecontroleerd. Beleidsmaatregelen kunnen effecten hebben op meerdere terreinen, waarvoor verschillende werkwijzers bestaan. Uitvoerders van MKBA’s wordt geadviseerd bij aanvang van een MKBA te bekijken welke effecten relevant zijn voor de scope van de desbetreffende MKBA’s, en bij hun aanpak toe te lichten welke werkwijzer centraal wordt gesteld, en welke werkwijzers gehanteerd worden voor deeleffecten. Tot slot bieden de werkwijzers ook ondersteuning bij het vinden en gebruiken van de meest voorkomende waarderingskengetallen. De volgende sectorspecifieke werkwijzers zijn beschikbaar:

Over de relatie tussen de MKBA en brede welvaart is een aanvulling op de leidraad MKBA opgesteld. De publicatie beschrijft hoe brede welvaart beter meegenomen kan worden in de MKBA:

Aanvulling op de Algemene MKBA-leidraad (MKBA en brede welvaart)

Er is veel onderzoek naar de MKBA gedaan en er zijn vele documenten verschenen die relevant zijn voor de toepassing van de MKBA, al dan niet in opdracht van de Rijksoverheid. Het voert te ver om al deze documenten hier te benoemen. De volgende documenten hebben een brede zeggingskracht voor alle toepassingsdomeinen:

De publicatie “Een kennismaking met de maatschappelijke kosten-batenanalyse“ biedt houvast voor betrokkenen die weinig of geen ervaring met MKBA’s hebben.

Voor het uitvoeren van een MKBA is vaak additionele informatie nodig, bijvoorbeeld empirische informatie over de effecten. Om onzekerheden in beeld te brengen wordt (vooral voor langetermijneffecten) gebruikgemaakt van scenario’s. Voor de leefomgeving zijn dit de Welvaart en Leefomgeving scenario’s. Om kosten en baten in de tijd te verdisconteren, wordt gebruikgemaakt van een discontovoet.

Beperkingen

In een MKBA worden de kosten en baten worden mogelijk in euro’s uitgedrukt . Voor dit zogeheten ‘monetariseren’ moeten waarderingsgetallen uit de economische literatuur beschikbaar zijn. Deze zijn niet altijd voor alle relevante kosten en baten voorhanden. Deze effecten worden in de MKBA dan Pro Memori weer gegeven, dat wil zeggen als PM-posten opgenomen. Er bestaat dan echter het gevaar dat deze kosten en baten niet voldoende worden meegewogen in de afweging.

Kosten en doorlooptijd

De kosten en doorlooptijd van MKBA’s zijn sterk afhankelijk van de mate waarin informatie – zoals de waarderingsgetallen – eenvoudig voorhanden is, de complexiteit van het beleidsterrein, de complexiteit van het beleidsvoorstel en de gewenste mate van nauwkeurigheid.

Om een MKBA zo nuttig mogelijk te laten zijn, moet je op het volgende letten:

Kies een vorm van de MKBA die past bij de beschikbare kennis en de informatie die je nodig hebt. Dit hangt af van de fase van de besluitvorming en van de beschikbaarheid van kennis over de belangrijkste effecten van een maatregel. Soms is een gedetailleerde volledig uitgewerkte MKBA mogelijk en nodig, maar soms kan dat niet.

Ook wanneer er geen MKBA wordt uitgevoerd, is de leidraad nuttig als denkkader. Wanneer er nauwelijks informatie bekend is over de aard en omvang van effecten van beleid, helpt het gedachtengoed van de MKBA om beslisinformatie te structureren.

Ex durante en ex post

Korte toelichting

In experimentele en quasi-experimentele onderzoeksmethoden probeer je een causaal verband vast te stellen tussen een verandering in een onafhankelijke variabele (bijvoorbeeld inkomensondersteunende maatregelen) en veranderingen in de afhankelijke doelvariabele (vermindering van armoede). Op deze manier kun je het effect van een maatregel aantonen. Concreet betekent dit dat er twee vergelijkbare groepen nodig zijn, waarbij de ene groep (experimentele groep) wel wordt blootgesteld aan een interventie en de andere groep (controlegroep) niet. Het verschil in uitkomst tussen de twee groepen wordt daarmee toegeschreven aan de interventie of de maatregel. Deze methoden kun je toepassen op zowel grote groepen als kleine groepen.

Randomised Controlled Trial

Wanneer het mogelijk is om een zuiver experiment uit te voeren spreken we over een Randomized Controlled Trial (RCT). Het indelen van personen aan een experimentele of controlegroep gebeurt zuiver ofwel willekeurig (random). Een RCT wordt door veel onderzoekers als de meest zuivere methode voor het meten van het effect van een maatregel of interventie gezien. Het is in beleidsonderzoek echter ingewikkeld (en vaak ook niet goed mogelijk) een RCT uit te voeren. In veel gevallen kun je mensen niet uitsluiten van bepaalde beleidsmaatregelen, omdat ze voor iedereen toegankelijk zijn. Wanneer je bijvoorbeeld wilt onderzoeken wat het effect is van een bijstandsuitkering, kun je niet zomaar één groep uitsluiten van een bijstandsuitkering wanneer zij daar recht op hebben. Het gevolg is dat de groep wel- en niet-gebruikers niet zonder meer vergelijkbaar zijn.

Quasi-experimentele methoden

Wanneer een RCT niet haalbaar is, kun je in veel gevallen gebruik maken van een quasi-experiment (ook wel natuurlijk experiment genoemd). Het belangrijkste verschil tussen een experiment en een quasi-experiment is dat de twee groepen niet willekeurig zijn samengesteld, maar op basis van de toepassing van een beleidsmaatregel. Het kan dan bijvoorbeeld gaan om twee groepen van bedrijven, waarvan de experimentele groep een innovatiesubsidie heeft ontvangen, en de controlegroep niet. De controlegroep kan dan bestaan uit bedrijven die de subsidie nooit hebben aangevraagd of bedrijven die de subsidie hebben aangevraagd, maar waarbij de aanvraag afgewezen is. Anders dan bij een RCT zijn deze twee groepen dus niet willekeurig geselecteerd.

Een quasi-experimentele methode heeft dan ook als nadeel dat er ook onderliggende redenen kunnen zijn waarom de ene groep wel en de andere groep geen gebruik heeft gemaakt van de regeling en die van invloed zijn op wat je wilt evalueren. Om de effecten van een maatregel aan te tonen zal je hiervoor zoveel mogelijk moeten corrigeren. Hiervoor kun je econometrische methoden gebruiken. Deze methoden gebruiken gegevens over groepen die wel/niet aan de beleidsmaatregel hebben blootgestaan, en schatten een causaal verband tussen de behandeling en de uitkomsten daarvan. Op deze manier wordt geprobeerd het effect van een maatregel aan te tonen. Voorbeelden hiervan zijn verschillende vormen van regressieanalyse en Difference-in-Differences. Meer uitgebreide informatie is te vinden in het rapport van de commissie Theeuwes: Durf te meten.

Toepassingsgebied

In principe kunnen experimentele en quasi-experimentele methoden in ieder beleidsterrein worden toegepast, maar het is niet eenvoudig om te voldoen aan de methodologische voorwaarden voor (zuiver) experimenteel onderzoek. Deze vorm van onderzoek is vaak eenvoudiger toe te passen in psychologisch en medisch onderzoek dan in de weerbarstige beleidspraktijk. Daar staat tegenover dat experimenteel en quasi-experimenteel onderzoek krachtige onderzoeksmethoden zijn, omdat ze als enige methoden de mogelijkheid bieden om causaliteit eenduidig, ‘hard’ aan te tonen. Het is dan ook niet verwonderlijk dat in een toenemend aantal beleidsdossiers en in evaluatieonderzoek gestreefd wordt naar het waar mogelijk benutten van de mogelijkheden van experimentele evaluatie.

Eisen

Het uitvoeren van experimenten en quasi-experimenten vereist een goede voorbereiding en een zorgvuldige uitvoering. Wanneer dat niet gebeurt, kan het experiment of quasi-experiment worden verstoord en levert dat minder betrouwbare uitkomsten op. Experimenten en quasi-experimenten kennen een aantal basiseisen:

Het is van belang een geschikte behandel- en controlegroep te selecteren die zoveel als mogelijk naar eigenschappen en context gelijk zijn, en waarbij alleen het wel of niet blootgesteld worden aan de interventie een verschil is. Voor een zuivere experimentele methode is het van belang de interventie willekeurig toe te wijzen aan de deelnemers van het experiment. Idealiter gebeurt dat 'dubbel blind', wat betekent dat noch de onderzoekers, noch de deelnemers op de hoogte zijn van welke deelnemers in de experimentele of in de controlegroep zitten, zodat zij daardoor niet worden beïnvloed.
Tijdens het experiment moet ervoor worden gezorgd dat alleen de experimentele groep wordt blootgesteld aan de maatregel; de controlegroep wordt juist afgeschermd. Alle andere omstandigheden moeten gelijk zijn.
Voordat de prikkel wordt toegediend worden alle deelnemers gemeten (nulmeting). Nadat de beleidsmaatregel is toegepast worden alle deelnemers opnieuw gemeten. Om te kunnen bepalen hoe tijdelijk of bestendig de effecten van de maatregel zijn, volgen er meerdere nametingen. Houd ook rekening met de incubatietijd van een maatregel. Veranderingen als gevolg van beleid treden vaak pas op na verloop van tijd.

Beperkingen

In de praktijk blijkt het bij veel beleidsvraagstukken vaak lastig om experimentele methoden toe te passen. Dat komt met name doordat het onmogelijk of ethisch onwenselijk is of in de ogen van de betrokkenen teveel tijd kost om met bepaald beleid en doelgroepen experimenten uit te voeren. Hierdoor worden in de praktijk voor dergelijke vraagstukken veelal quasi-experimenten gebruikt.

Daarnaast is de scope van een dergelijke evaluatie beperkt omdat het zich vaak richt op één enkel effect. De uitkomsten zijn dus weliswaar overtuigend, maar slechts voor een specifieke groep, maatregel of effect relevant. De generalisatie van de uitkomsten is daardoor vaak beperkt. Een experiment wordt meestal voor ex-post evaluaties ingezet omdat het effect achteraf wordt gemeten. Daarnaast kunnen ex-ante experimenten (pilots) met kleine groepen worden uitgevoerd.

Kosten en doorlooptijd

De kosten van (quasi-)experimenten zijn sterk afhankelijk van de omvang en de doorlooptijd. Over het algemeen geldt dat hoe langer de doorlooptijd en hoe groter de omvang van de behandel- en controlegroep, hoe hoger de kosten. De kosten zijn ook afhankelijk van de complexiteit van de analyses en de mate waarin bewerking van data nodig is (of correctie voor datagebreken in de econometrische analyse). Een klein experiment met kleine groepen burgers of bedrijven waarbij het effect redelijk snel zichtbaar is zou voor tien tot vijftig duizend euro binnen enkele maanden uit te voeren moeten zijn. Een groot onderzoek met grote groepen en een lange doorlooptijd van bijvoorbeeld enkele jaren kan miljoenen euro’s kosten.

Literatuur

Meer dan 300 voorbeelden van gerandomiseerde veldexperimenten zijn te vinden in: Robert F. Boruch, A. John McSweeny, E. Jon Soderstrom (1978). Randomized Field Experiments for Program Planning, Development, and Evaluation: An Illustrative Bibliography. Evaluation Review 2(4): 655-695.
Knaap, P. van der, V. Pattyn (2020). Beleidsevaluatie in theorie en praktijk, Boom bestuurskunde.
Commissie Theeuwes (2012). Durf te meten. Eindrapport Expertwerkgroep Effectmeting, Ministerie van EZK, paragraaf 2.4

Voorbeeldstudies

Experiment:

Stichting Wetenschappelijk Onderzoek Verkeersveiligheid (2014). Evaluatie voortgezette rijopleiding voor motorrijders – Motorrijders rijden veiliger na training

Quasi-experiment:

Mogelijke dataverzamelingsmethoden

Voor het uitvoeren van (quasi-)experimentele methoden kunnen verschillende dataverzamelingsmethodes worden toegepast. Een combinatie van deze dataverzamelingsmethoden is mogelijk.

Naast het verzamelen van de kwantitatieve data kunnen de volgende dataverzamelingsmethoden ter ondersteuning dienen aan het uitvoeren van het experiment en/of begrijpen van de uitkomsten van het (quasi-)experiment:

Korte toelichting

Een systematic review is een specifieke vorm van literatuuronderzoek waarbij op een gestructureerde manier de resultaten van een aantal wetenschappelijke artikelen over een bepaald specifiek onderwerp gericht worden geselecteerd, samengevat en beoordeeld. In tegenstelling tot andere vormen van literatuuronderzoek, die meestal meer verkennend van aard zijn, wordt bij een systematic review van tevoren een gerichte onderzoeksvraag geformuleerd die dan door de review wordt beantwoord. De expliciete verantwoording over de selectie van de publicaties die wel (inclusie) en niet (exclusie) worden meegenomen, en over de wijze waarop de kwaliteit van de publicatie wordt beoordeeld, is het kenmerkende verschil met andere vormen van literatuuronderzoek.

Een meta-analyse is een uitbreiding op de systematic review. Het is een statistische methode om de kwantitatieve uitkomsten van meerdere studies te vergelijken en te combineren.

Toepassingsgebied

De systematic review vindt haar oorsprong in de medische wetenschap, maar wordt inmiddels in veel meer domeinen gebruikt. De methode wordt ingezet om een systematisch overzicht te krijgen van de laatste stand van zaken ten aanzien van een bepaald probleem (aandoening) of interventie (behandeling). De systematische review geeft antwoord op een van tevoren gericht geformuleerde vraag. Door de methode te volgen zijn de resultaten van systematische reviews in principe vrij van persoonlijke voorkeuren van de onderzoekers (geen confirmation bias) en zijn ze te repliceren en dus te controleren. Het onderzoeksprotocol, de selectie en beoordeling van artikelen, kan tijdens het onderzoek overigens worden aangepast zolang er maar duidelijk gerapporteerd wordt over deze wijziging.

In de medische wetenschap worden alleen wetenschappelijke publicaties als bronnen gebruikt, en dan meestal publicaties waarin de resultaten van experimenten (medical trials) staan beschreven. Voor beleidsonderzoek wordt meestal een meer diverse set van publicaties gebruikt. Welk type studies wel of niet wordt meegenomen in de systematische review hangt af van de soort onderzoeksvraag. Voor de beoordeling van effectiviteit zijn dit experimenten of quasi-experimenten, voor de beoordeling van risico’s longitudinale en retrospectieve studies, en voor de inventarisatie van meningen surveys.

Een meta-analyse geeft een statistische samenvatting van de gevonden literatuur. Het doel van een meta-analyse is om een gemiddeld effect te berekenen van de onderzochte interventie. Eventueel kan de meta-analyse ook worden gebruikt om de (verstorende) invloed van de specifieke kenmerken van de onderliggende studies (bv. timing van de interventie) te onderzoeken. Deze vorm van meta-analyse heet meta-regressie.

Eisen

Bij een systematische review is de onderzoeksvraag leidend. De eerste stap is het formuleren van een duidelijk afgebakende (niet te algemene) onderzoeksvraag. Als ezelsbruggetje voor de onderwerpen van de studies die moeten worden beschreven kan hiervoor bijvoorbeeld PICOC (of een variant zoals SPICE) worden gebruikt:

Populatie (P)
Interventie (I)
Controlegroep (C1)
Outcome (O)
Context (C2)

Vertaald naar de onderzoeksvraag van een evaluatieonderzoek in het wetenschapsbeleid:

Helpen persoonsgebonden beurzen (I) om onzekere loopbaanperspectieven (C2) onder jonge en talentvolle wetenschappers (P1) te verminderen (O)?

De controlegroep (C1) is dan dezelfde populatie (P) die de interventie (I) – persoonsgebonden beurs – niet hebben ondergaan.

Verdere eisen:

Om relevante publicaties te vinden moet de onderzoeksvraag vervolgens worden vertaald in een exacte onderzoeksopdracht (query) die op een of meerdere databases (bv. Web of Science, Scopus, Medline, Cochrane etc) wordt uitgevoerd. In de review moeten zowel de namen van deze bronnen worden genoemd als de periode die is onderzocht (bv. 2010-2019) als de taal van de publicaties.
Nadat alle publicaties uit de database(s) zijn verzameld wordt de relevantie en de methodologische kwaliteit (zoals interne en externe validiteit) van iedere relevante publicatie stuk voor stuk beoordeeld. Voor deze screening wordt een beoordelingsprotocol gebruikt dat van tevoren is opgesteld. Hiervoor wordt meestal gebruik gemaakt van bestaande standaardprotocollen. Welk protocol het meest geschikt is hangt vooral van het type studies af. Voor (quasi-)experimenten wordt het Cochrane protocol het meest gebruikt. Voor case studies wordt weer een ander protocol gebruikt (zie bijvoorbeeld Murad et al., 2017). Specifiek voor beleidsonderzoek is de website van de Campbell Collaboration een goed startpunt.
Om te voorkomen dat de selectie en analyse van bronnen beïnvloed worden door subjectiviteit van de onderzoeker, moet de beoordeling onafhankelijk door minimaal twee andere onderzoekers worden uitgevoerd. Deze experts moeten vooraf al goed bekend zijn met het onderwerp dat wordt onderzocht.
Bij een meta-analyse moeten eerst van elke studie de effectgroottes worden beschreven, met een bepaalde betrouwbaarheidsinterval. In de meeste kwantitatieve studies zijn deze maten al berekend. De tweede stap in de meta-analyse is het berekenen van het gemiddelde effect.
De eisen van repliceerbaarheid en transparantie vragen zowel van systematische reviews als van meta-analyses om een gedegen rapportage. In deze rapportage moeten alle stappen die zijn doorlopen in het onderzoeksproces in detail worden beschreven. Als checklist voor de rapportage kan bijvoorbeeld gebruik worden gemaakt van het PRISMA protocol.

Beperkingen

Een systematic review stelt zware eisen aan de literatuur waarop de review wordt uitgevoerd, zowel in termen van kwantiteit (startset moet >100 relevante publicaties bevatten) als kwaliteit (studies moeten volgens de wetenschappelijke standaard zijn uitgevoerd). Voor effectevaluaties zijn in principe alleen (quasi-)experimenten geschikt. In veel beleidsdomeinen komen dit soort studies slechts weinig voor. Bij de formulering van de onderzoeksvraag moet hier rekening mee worden gehouden. Voor een meta-analyse geldt als aanvullende eis dat de studie kwantitatieve gegevens moet bevatten die op een robuuste manier zijn verzameld en beschreven.
Bij de selectie van databases (en daarbinnen van journals/kanalen waarin gepubliceerd wordt) moet rekening worden gehouden met het gegeven dat niet alle studies een gelijke kans hebben om te worden gepubliceerd. Zo hebben de meeste auteurs (en de meeste journals) een bias naar significante resultaten (“er is aangetoond dat iets werkt”). Deze publication bias valt deels te ondervangen door een gevarieerde set van bronnen te gebruiken maar wat niet in de brondata zit kan er natuurlijk niet worden uitgehaald. Het is in ieder geval van belang om bewust te zijn van de mogelijke witte vlekken in het onderzoek.
Wat betreft de relevantie is een uitdaging bij systematic reviews (en nog meer bij meta-analyses) dat er voldoende overlap in de populatie moet zijn, dat wil zeggen de studies die worden geselecteerd moeten zoveel mogelijk op (exact) dezelfde populatie, hetzelfde tijdsbestek en dezelfde context betrekking hebben om een betrouwbare vergelijking mogelijk te maken.

Kosten

Het uitvoeren van een redelijk omvangrijke systematic review (met 250~500 artikelen in de selectie) vergt maanden. De review moet parallel door drie ervaren experts worden uitgevoerd. Hierbij geldt: hoe beter afgebakend de onderzoeksvraag hoe korter de doorlooptijd. Gemiddeld vergt een systematisch review meer dan 1.000 uur seniorcapaciteit. Bij een bescheiden uurtarief van €80 komt dat neer op vijfenzeventig tot honderdduizend euro.

Literatuur

Petticrew, M., Roberts., H (2006) Systematic Reviews in the Social Sciences: A Practical Guide. Oxford: Blackwell.
Booth, A. (2016). Searching for qualitative research for inclusion in systematic reviews: a structured methodological review. Systematic Reviews 5(74).
Murad, M.H., Sultan, S., Haffar, S., Bazerbachi, F. (2018) Methodological quality and synthesis of case series and case reports. BMJ Evid Based Med. 23(2): 60-6
Siddaway, A.P., Wood, A.M., Hedges, L.V. (2019). How to Do a Systematic Review: A Best Practice Guide for Conducting and Reporting Narrative Reviews, Meta-Analyses, and Meta-Syntheses. Annual Review of Psychology 70: 747-770.
Mix 2.0 Meta-Analysis in Excel

Voorbeeldstudies

Veel voorbeelden van beleidsrelevante systematic reviews/ meta-analyses zijn te vinden in het open access journal Campbell Systematic Reviews. Andere voorbeelden zijn:

Mogelijke dataverzamelingsmethoden

In theorie is de meest relevante (en eigenlijk ook de enige) dataverzamelingsmethode voor het uitvoeren van een systematische review & meta-analyse het analyseren van literatuur, en dan met name in de vorm van voorgaande (wetenschappelijke) onderzoeken, of rapporten van eerder uitgevoerde evaluaties. Er is altijd sprake van een samenkomst en/of vergelijking van meerdere onderzoeken die in de review of meta-analyse onder de loep worden genomen.

Korte toelichting

Een case study is een onderzoeksstrategie waarmee je één of enkele ‘gevallen’ diepgaand bestudeert in hun natuurlijke omgeving, waarbij het geval vaak in ruimte en tijd wordt afgebakend. In beleidsonderzoek zijn bijvoorbeeld complexe besluitvormingsprocessen nogal eens een object van een case study. Een case study wordt gekenmerkt door een klein aantal onderzoekseenheden, een arbeidsintensieve benadering, een voorkeur voor diepgang boven breedte van het onderzoek en een beredeneerde, geïnformeerde keuze van gevallen.

Vragen in een case study richten zich vooral op hoe en waarom bepaalde processen zich voltrokken hebben. Zo kun je bijvoorbeeld bij een evaluatie van de decentralisatie van het jeugdbeleid verschillende vragen stellen:

Hoe is de uitvoering in verschillende gemeenten verlopen? (beschrijvende vraag)
Hoe succesvol was de decentralisatie in een aantal gemeenten? (toetsende vraag)
Hoe en waarom was de decentralisatie in gemeenten succesvol? (verklarende vraag)

Er zijn verschillende typen casestudies. Staat er één geval centraal, dan spreken we van een enkelvoudige case study. Onderzoek je meerdere gevallen, dan kun je dat op verschillende manieren doen. Je kunt cases parallel aan elkaar onderzocht of achter elkaar onderzoeken. Voor een case study kunnen veel soorten (kwantitatieve en kwalitatieve) data worden gebruikt. Vaak wordt gebruik gemaakt van triangulatie (meerdere verschillende methoden inzetten om een evaluatievraag te beantwoorden) en worden meerdere databronnen gebruikt om tot betrouwbare bevindingen te komen.

Toepassingsgebieden

Een case study is niet beperkt tot een specifiek beleidsterrein. Of je een case study kunt toepassen hangt vooral of het specifieke geval zich daarvoor leent. Om een case study uit te kunnen voeren moeten er immers geschikte cases zijn. Selectie van cases gebeurt dan op basis van de grootste informatierijkheid en variatie en niet op basis van representativiteit. Data-analyse kan bestaan uit beschrijvende statistieken en interpretatie en codering van allerlei kwalitatieve gegevens. In een beschrijvende case study kan de uitkomst een beschrijving zijn van het beleid in de praktijk vanuit een bepaald perspectief (bijvoorbeeld het perspectief van de rijksoverheid) of vanuit meerdere perspectieven (bijvoorbeeld verschillende overheidslagen of doelgroepen).

Daarnaast beantwoord je met een case study vragen die vooral verklarend zijn, bijvoorbeeld hoe en waarom beleid in de praktijk wel of niet werkt en onder welke condities dat beleid werkt. Hoe en waarom beleid in de praktijk wel of niet werkt kan onder andere worden onderzocht door middel van methoden als contribution analysis en/of process tracing.

In de praktijk zien we geregeld dat er maar één case is die onderzocht kan worden, denk aan verschillende parlementaire enquêtes of onderzoek naar rampen of complexe besluitvormingsprocessen. Enkelvoudige case studies worden vaak gebruikt om te onderzoeken wat er mis is gegaan met beleid en/of uitvoering in een specifiek geval. Andersom zijn case studies ook geschikt voor onderzoek naar succesvol beleid.

Eisen

Afhankelijk van het type case study en de onderzoeksvraag is kennis nodig van verschillende kwantitatieve en kwalitatieve methoden van dataverzameling en –analyse. Een case study kan worden uitgevoerd op basis van beschikbare data en/of in combinatie met nieuw te verzamelen data. Het is ook belangrijk om een zo objectief mogelijke selectie en afbakening te maken van cases.

Beperkingen

Een case study is niet geschikt om te generaliseren naar een hele populatie of om inzicht te krijgen in de omvang van de effecten van beleid. Cases worden doorgaans niet geselecteerd op basis van representativiteit (zoals bij een survey), waardoor statistische generaliseerbaarheid (de kans dat de uitkomsten van het onderzoek in de onderzochte steekproef ook gelden voor de populatie) niet relevant is. De mate waarin bevindingen/conclusies theoretisch generaliseerbaar zijn (in hoeverre ze ook gelden voor niet onderzochte gevallen binnen de reikwijdte van de theorie), hangt af van de onderbouwing van de casusselectie en de plausibiliteit van de argumentatie.

Kosten

De kosten voor case studies lopen zeer uiteen. De kosten zijn afhankelijk van welke vraag of vragen met de case study beantwoord worden. Daarnaast spelen het aantal te onderzoeken cases, de complexiteit en omvang van de casussen en de beschikbare data een belangrijke rol. Een eenvoudige case study waarbij één behapbare case wordt bekeken met een beperkte diepgang kan in enkele weken tegen beperkte kosten uitgevoerd worden. Meer complexe meervoudige case studies kunnen maanden of zelfs jaren in beslag nemen en honderdduizenden euro’s kosten.

Literatuur

Yin, R.K. (1984), Case Study Research. Design and Methods, Sage, Thousand Oaks, CA.
Nutt, P.C. (2002), Why decisions fail. Avoiding the blunders and traps that lead to debacles, Berrett-Koehler Publishers, San Francisco.
Case study evaluations van de Wereldbank
Dul, J. & Hak, T. (2008). Case Study Research Methodology in Business Research. Oxford: Butterworth-Heinemann.

Over Process tracing/ Contribution Analysis:

Beach, D. and Pedersen, R.B. (2012) Process-Tracing Methods: Foundations and Guidelines, Ann Arbor MI: University of Michigan Press
Schmitt, J., & Beach, D. (2015). The contribution of process tracing to theory-based evaluations of complex aid instruments. Evaluation, 21(4), 429–447.
Befani, B. and Mayne, J. (2014) ‘Process Tracing and Contribution Analysis: A Combined Approach to Generative Causal Inference for Impact Evaluation’, IDS Bulletin 45.6: 17–36.
Delahais, T. and Toulemonde, J. (2012) ‘Applying Contribution Analysis: Lessons from Five Years of Practice’, Evaluation 18.3: 281–93
Lemire ST, Nielsen SB and Dybdal L (2012) Making contribution analysis work: a practical framework for handling influencing factors and alternative explanations. Evaluation 18: 294–309.

Voorbeeldstudies

Mogelijke dataverzamelingsmethoden

Voor het uitvoeren van casestudies kunnen verschillende dataverzamelingsmethoden worden toegepast. Een combinatie van deze dataverzamelingsmethoden is mogelijk.

Casestudies komen in veel verschillende vormen en maten, waar de nadruk kan liggen op zowel kwantitatieve als kwalitatieve data, of een mix van beiden. De meest relevante dataverzamelingsmethodes zijn:

Korte toelichting

Bij monitoring worden gegevens over bijvoorbeeld een organisatie of een beleid periodiek en met een vast patroon verzameld, opgeslagen, verwerkt en gerapporteerd. Met deze methode kun je de bijvoorbeeld de prestaties van een organisatie volgen en bijsturen wanneer dat nodig is. Dit middel biedt doorgaans belangrijke managementinformatie. De basis van deze methode bestaat uit een van tevoren, veelal op basis van doelstellingen vastgestelde set van indicatoren. Een indicator is een meetbare grootheid die een signalerende functie heeft. Wanneer een indicator afwijkt van de vooraf vastgestelde norm, kan dat aanleiding geven voor bijsturing. Monitoring is niet per definitie gebonden aan de inzet van een beleidsmaatregel of doelen van beleid of uitvoering. De gebruikte indicatoren kunnen ook belangrijke contextuele informatie bieden van een beleidsmaatregel. Het aantal roofovervallen en inbraken zijn bijvoorbeeld indicatoren voor criminaliteit, maar om het effect van veiligheidsbeleid op deze indicatoren vast te stellen, is nader evaluatieonderzoek nodig. Monitoring genereert dus belangrijke beleidsinformatie. Echter, om het effect van beleid op de gemonitorde indicatoren van prestaties en/of doelstellingen vast te stellen, is altijd nader evaluatieonderzoek nodig. Monitoring vormt vaak dus de basis of een onderdeel van evaluaties.

Toepassingsgebied

Monitoring is een breed toegepaste methodiek en komt bij alle ministeries en in vrijwel alle beleidsterreinen voor. Voor organisaties als het CBS en de planbureaus is monitoring een belangrijke activiteit. Uitvoeringsorganisaties en grote bedrijven gebruiken ook op grote schaal monitoren (zoals interne managementdashboards). Niet alleen ministeries en publieke kennisinstellingen, maar ook marketing- en onderzoeksbureaus, inspecties en toezichthouders en maatschappelijke organisaties ontwikkelen monitoren om bestuur en beleid te voeden met actuele informatie. Monitoring kan een belangrijk hulpmiddel zijn in evaluaties wanneer bij aanvang van bijvoorbeeld een nieuwe beleidsmaatregel afgesproken wordt welke indicatoren gedurende langere tijd periodiek gevolgd gaan worden. De gegevens die op basis van de afgesproken indicatoren worden verzameld, kunnen later worden gebruikt in een evaluatie.

Monitoring hangt nauw samen met ex-durante evaluaties. Monitoring registreert slechts scores en geeft dus nog geen antwoord op de vraag of er een causaal verband bestaat tussen de interventie en veranderingen in de score op een indicator (wat een evaluatie wel beoogt te doen). Dit sluit overigens niet uit dat er indicatoren kunnen zijn die wel direct verband houden met een beleidsmaatregel. Scores op indicatoren kunnen aanleiding zijn om beleid bij te sturen en om te evalueren.

Eisen

Aan het ontwikkelen en gebruiken van monitoren kunnen enkele belangrijke eisen worden gesteld.

Indicatoren zijn bij voorkeur kwantitatief en gaan met het oog op een evaluatie gepaard met een streefwaarde of norm zodat later beoordeeld kan worden of de doelstelling is gehaald (los van de vraag in welke mate de beleidsmaatregel daaraan bij heeft gedragen). Het is overigens mogelijk om kwalitatieve indicatoren op te nemen (als er geen kwantitatieve indicatoren voorhanden zijn; bijvoorbeeld wanneer een maatregel beoogt besturen van kleine scholen te professionaliseren en voortgang daarvan beter in woorden uit te drukken is dan in getallen) of mogelijke verklaringen voor schommelingen in scores op te stellen. Dat kan later van pas komen bij een evaluatie.
Indicatoren zijn met het oog op een evaluatie een operationalisering van beleidsdoelstellingen. Daarbij zullen sommige type van indicatoren doorgaans makkelijker te meten zijn dan andere. Indicatoren die input van een maatregel meten (bv. budget, personeelscapaciteit) of die de prestaties meten (bv. aantal verstrekte subsidies) zijn meestal eenvoudiger meetbaar dan indicatoren die een verandering in de omgeving meten (bv. grotere verkeersveiligheid, afname criminaliteit).
Het risico bestaat dat het aantal te volgen indicatoren toeneemt, maar dat de vraag gesteld kan worden welk nut dat heeft (‘nice to know’ boven ‘need to know’). Er is dus een balans nodig tussen volledigheid en het overzicht kunnen houden in een monitor.
Ook moet gelet worden op de kwaliteit van indicatoren: Wat zegt een indicator echt? Hoe wordt een indicator gemeten? Wat is de eenheid van een indicator? Wat is de betrouwbaarheid? Is er een beter alternatief voor deze indicator?
Monitoring vraagt om een robuust informatiesysteem. De complexiteit van een dergelijk systeem neemt toe als er meerdere typen datastromen in meerdere formaten van meerdere partijen moeten worden verzameld en gecombineerd, en op een flexibele wijze moeten worden ontsloten (bv. om tussentijds rapportages op maat te kunnen maken).

Beperkingen

Deze methodiek kent ook beperkingen.

Monitoring doet geen uitspraken over de causaliteit. Het is immers geen evaluatiemethode (maar draagt daar in de meeste gevallen dus wel aan bij). Mocht ex-durante evaluatie toch verlangd worden, is het raadzaam te putten uit methoden voor andere evaluaties.
Monitoring heeft het risico dat wat niet gemeten kan worden ten onrechte minder aandacht krijgt: dat er “tweede keus” indicatoren worden gemeten omdat het ontbreekt aan de gewenste indicatoren of dat indicatoren strategisch worden gekozen (bv. makkelijk haalbaar en meetbaar). Dan bestaat het risico dat het beleid (en later een evaluatie) gebruik moet maken van onvolledige of onjuiste informatie.
In sommige gevallen ben je binnen een monitor afhankelijk van gegevens die derde partijen aanleveren. Je hebt dan minder garantie dat indicatoren blijvend gemeten worden en hebt minder invloed op eventuele veranderingen van de metingen (andere operationalisering, andere meetmethode, moment van publicatie, gebruik van brondata, etc.). Deze uitdaging wordt urgenter naarmate een monitor meer gebruik maakt van gegevensverzameling door derden en minder eigen onderzoek.
Indicatoren zijn inherent statisch, zeker omdat ze over een langere periode worden gemeten. Beleid en samenleving zijn echter niet statisch. Het is dus ook raadzaam zo af en toe ook de gekozen indicatoren te herijken.

Kosten

De kosten van een monitor kunnen sterk uiteenlopen. Sommige monitoren maken gebruik van enkele indicatoren uit kosteloos beschikbare en/of openbare bronnen. Dan kom je voor het verzamelen uit met enkele dagen per meting. Andere monitoren vergen meer maatwerk (nieuwe indicatoren, nieuwe en eigen gegevensverzameling) en dat doet de kosten stijgen, zeker wanneer daar ook een informatiesysteem (met dashboards en visualisaties) en eventueel maatwerk rapportages voor worden gemaakt. De ontwikkelkosten bedragen dan al snel minimaal enkele tienduizenden euro’s, plus jaarlijks enkele duizenden euro’s voor onderhoud van de applicatie. Bij de afweging tussen het handmatig of automatisch verzamelen en verwerken van gegevens speelt uiteraard de frequentie (elke minuut, uur, dag, maand, kwartaal, jaar een meting), de omvang (aantal datastromen en records per stroom) en de structuur (gestructureerd, semi-gestructureerd of ongestructureerd) van de brondata een rol.

Voorbeeldstudies

Mogelijke dataverzamelingsmethodes

Voor het uitvoeren van monitoring kunnen verschillende dataverzamelingsmethodes worden toegepast. Een combinatie van deze dataverzamelingsmethodes is mogelijk.

Voor het monitoren van een instrument is het verzamelen van verschillende indicatoren over de tijd van belang, met name in de vorm van kwantitatieve data. De volgende dataverzamelingsmethodes zijn hiervoor relevant:

Naast het verzamelen van de kwantitatieve data kunnen de volgende dataverzamelingsmethodes ter ondersteuning dienen:

Korte toelichting

In een productiviteitsonderzoek wordt gekeken naar de relatie tussen de middelen die worden ingezet en de daarmee gerealiseerde hoeveelheid en kwaliteit van diensten of prestaties. Dit type onderzoek kan dus bijdragen aan het inzicht in de doelmatigheid van prestaties. In een ziekenhuis gaat het bij ingezette middelen bijvoorbeeld om de hoeveelheid verplegend personeel en het aantal specialisten, maar ook om de hoeveelheid (en de kwaliteit van de) apparatuur die wordt gebruikt. In dit geval zijn de diensten of prestaties het aantal succesvol verrichte behandelingen. Door in dit geval verschillende ziekenhuizen met elkaar te vergelijken, kun je bepalen welke ziekenhuizen de meest gunstige verhouding hebben tussen ingezette middelen en gerealiseerde diensten. Benchmarking is een overkoepelende term die wordt gebruikt om te kijken wat je kan leren door je te spiegelen aan je peers. Data Envelopment Analysis (DEA) en Stochastic Frontier Analysis (SFA) zijn twee methoden om een benchmark uit te voeren. Het is ook mogelijk één instelling te bekijken door te kijken naar de ontwikkeling van de productiviteit, mits dit mogelijk is voor een langere tijdsperiode.

Vragen die je met dergelijke onderzoeken kunt beantwoorden zijn onder andere:

Waarom lijken sommige instellingen beter te presteren dan andere?
Hoe groot zijn de doelmatigheidsverschillen, ook in de tijd?
Hoe krijgen we meer zicht op doelmatigheid en kunnen we een basis krijgen voor een gesprek hierover met stakeholders?
Wat kunnen instellingen van elkaar leren?

Toepassingsgebied

Benchmarks zijn breed inzetbaar en zijn niet gebonden aan specifieke beleidsterreinen. Wel werken dergelijke onderzoeken het beste als er sprake is van homogene instellingen die je goed met elkaar kunt vergelijken. Hierbij kun je denken aan gemeenten, ziekenhuizen, nutsbedrijven, zorginstellingen en uitvoeringsorganen.

Een kanttekening daarbij is dat de specifieke context van zo’n organisatie een goede vergelijking in de weg kan staan. Ook bij instellingen die minder eenvoudig met andere instellingen te vergelijken zijn, zoals zelfstandige bestuursorganen of agentschappen, kun je vormen van productiviteitsonderzoek toepassen door zogenoemd ‘longitudinaal onderzoek’. Bij longitudinaal onderzoek volg je dezelfde instellingen voor een langere tijd en bekijk je vooral de ontwikkeling van de productiviteit van een organisatie over de tijd.

Het is ook mogelijk deze aanpak toe te passen over een heel domein, bijvoorbeeld door te kijken naar de productiviteitsontwikkeling in de tijd van alle ziekenhuizen samen. Hierbij wordt alleen gekeken naar de ontwikkeling van de productiviteit en niet naar de mate waarin de productiviteit per jaar verbeterd kan worden.

Eisen

Je hebt gedetailleerde informatie nodig over de ingezette middelen (personeel, materieel) en over de productie (aantal geleverde diensten of producten) om uitspraken te doen over de productiviteit. Daarbij heb je deze informatie ook nodig voor meerdere eenheden en/of over meerdere tijdsperioden. Indien deze informatie niet per instelling beschikbaar is (wat goed mogelijk is), maar wel voor een bepaald domein (zoals ziekenhuizen) dan kun je wel kijken naar de ontwikkeling van de productiviteit van het domein.

Beperkingen

De beperkte meetbaarheid van prestaties van veel publieke instellingen is een beperkende factor: welke indicatoren je ook voor het aspect ‘kwaliteit’ kiest, het houdt altijd een beperking in. Er moet goed nagedacht worden hoe bepaalde prestaties in meetbare eenheden en cijfers uitgedrukt kunnen worden. Het inzicht in productiviteit (en de doelmatigheid daarvan) is nu vaak nog beperkt en er is ook meer mogelijk dan vaak wordt gedacht.
Deze methode is niet per definitie gericht op het doen van een uitspraak over de redenen waarom de productiviteit (en de doelmatigheid daarvan) verschilt en verandert. Wanneer er voldoende gegevens zijn kan hier aanvullend wel onderzoek naar worden gedaan.
Verder ontbreken vaak gegevens over de kwaliteit van de productie, omdat deze vaak niet structureel worden verzameld. Daarin schuilt het gevaar dat de productiviteit lijkt toegenomen, terwijl in de praktijk daar een langere kwaliteit voor is geleverd die niet in het onderzoek naar voren komt.

Kosten en doorlooptijd

Het verzamelen van de gegevens, het opschonen van de data voor de analyses en het uitvoeren van de analyses is tamelijk arbeidsintensief. De tijdsinspanning zal een stuk lager liggen bij een DEA dan bij een SFA. SFA vraagt ook specialistische expertise. Bij een DEA moet je denken aan een doorlooptijd van circa 3-6 maanden, bij een SFA is het eerder 6-12 maanden.

Literatuur

Een standaardwerk over SFA is Kumbhakar en Knox Lovell, Stochastic Frontier Analysis (2000)

Voorbeeldstudies

IPSE Studies is gespecialiseerd in het uitvoeren van SFA en DEA en op hun website vind je diverse rapporten met voorbeelden: https://www.ipsestudies.nl/
Het SCP heeft ook diverse productiviteitsstudies uitgevoerd, met daarin ook een beschrijving van de methoden in het Nederlands. Zie onder meer “Verstandig verzorgd” (2001). Een voorbeeld van een macrostudie is Publiek voorzien: https://www.scp.nl/publicaties/publicaties/2018/11/06/publiek-voorzien

Andere voorbeelden die ook in de repository aan voorbeeldevaluaties te vinden zijn:

Mogelijke dataverzamelingsmethoden

Voor het uitvoeren van productiviteitsonderzoek kunnen verschillende dataverzamelingsmethoden worden toegepast. Een combinatie van deze dataverzamelingsmethoden is mogelijk.

De meest relevante dataverzamelingsmethoden zijn van kwantitatieve aard, voornamelijk:

Hoewel minder gebruikelijk, kan data ook verzameld worden door middel van:

Naast het verzamelen van de kwantitatieve data kunnen de volgende dataverzamelingsmethoden ter ondersteuning dienen:

Korte toelichting

Outcome Mapping (OM) is een uitgebreide methode met als doel om te verklaren waarom bepaalde duurzame gedragsveranderingen wel of niet tot stand komen bij specifieke doelgroepen. Het vertoont op dit aspect veel overeenkomsten met Theory of Change. In de Theory of Change ligt de nadruk meer op het proces (het bereiken van de veranderingen); bij OM ligt de nadruk meer op de inhoud (het verklaren van de veranderingen). Het onderscheidende kenmerk van OM is dat er achteraf wordt teruggeredeneerd van de (gewenste) uitkomsten van een interventie(proces) naar de factoren die deze uitkomsten verklaren. Het praktische voordeel van deze methode is dat de analyse gericht is op de factoren die er toe doen. Het methodologische nadeel is dat er vanuit een gevolg naar een oorzaak wordt geredeneerd. Dit staat haaks op het wetenschappelijke principe dat er van tevoren altijd een hypothese (beleidstheorie) wordt geformuleerd die later wordt getoetst. Bij OM (en de varianten die daar van zijn afgeleid) wordt er achteraf een verklarende theorie geconstrueerd. Die klopt dus per definitie en is dus niet te falsificeren.

Toepassingsgebied

Outcome Mapping (OM) omvat een set van verschillende evaluatie-instrumenten. Deze instrumenten kunnen respectievelijk worden gebruikt om doelgroepen te identificeren, om gedragsveranderingen te monitoren, om de effectiviteit van interventies te meten en om specifieke factoren nader te onderzoeken. De instrumenten kunnen zowel apart (als onderdeel van andere evaluatiemethoden) als in samenhang worden toegepast. Welbeschouwd is er alleen in het laatste geval sprake van OM. Voor de beschrijving van de uitkomsten van een interventie gebruikt OM een standaard stramien. De veranderingen op de kortere termijn – die direct zijn toe te schrijven aan de interventie – worden daarbij ingebed in de autonome doorgaande (demografische, economische, politieke, ecologische) veranderingen op de lange termijn. De uiteindelijke uitkomst van de interventie is een resultaat van de combinatie van deze twee soorten veranderingen.

Outcome Harvesting (OH) is een variant op OM die zich specifiek richt op complexe situaties waarin de relaties tussen oorzaak (factor) en gevolg (uitkomsten) nog grotendeels onbekend zijn. Onderscheidend kenmerk van OH is het open karakter van de methode. Die gaat niet uit van vooraf gedefinieerde uitkomsten, maar definieert naderhand bepaalde veranderingen in het netwerk van relevante actoren als een ‘uitkomst’ (bijvoorbeeld een plotselinge wijziging in de steun voor een beleidsmaatregel) en redeneert vervolgens terug hoe de interventie heeft bijgedragen aan deze specifieke verandering. Deze bijdrage kan direct of indirect, bedoeld of onbedoeld, positief of negatief zijn maar er moet wel altijd een aannemelijk verband bestaan tussen de interventie en de ‘uitkomst’.

Most Significant Change (MSC) is een beknoptere kwalitatieve variant van Outcome Harvesting. De ‘uitkomsten’ die bij MSC ‘geoogst’ worden zijn verhalen waarin persoonlijk relaas wordt gedaan van het effect van de interventie op het leven van de respondent. MSC omschrijft als methode hoe deze verhalen verzameld kunnen worden, hoe de belangrijkste (meest significante) verhalen kunnen worden geselecteerd, en tenslotte wat stakeholders van deze verhalen kunnen leren. MSC heeft veel raakvlakken met de Success Case Method (#insert ref to O12#). Beide methodes richten zich nadrukkelijk op het proces (gedeelde visies, reflectie op doelen) en niet op de resultaten van de oorspronkelijke interventie. Een belangrijk voordeel van de MSC-methode is dat het ook onbedoelde maar waardevolle veranderingen naar voren kan brengen die anders over het hoofd waren gezien. De methode is het meest geschikt in situaties waarbij uitkomsten van tevoren niet goed kunnen worden ingeschat en/of waarbij de stakeholders sterk verschillen van mening over het belang/gewicht van de verschillende uitkomsten.

Eisen

OM, OH en MSC kennen elk hun eigen specifieke eisen:

Outcome Mapping (OM) is een relatief complexe methode die om ervaren evaluatoren vraagt die al goed zijn ingevoerd in de methode. In een strak stramien moet er op een logische wijze stapsgewijs van een veranderingen in de beleidsomgeving naar het effect van de interventie worden toegeredeneerd.
Outcome Harvesting (OH) is met name geschikt voor situaties waarin de inputs, activiteiten, outputs en resultaten niet voldoende specifiek of meetbaar zijn op het moment dat een beleidsmaatregel wordt gepland. Als er vooraf meer informatie bekend is, is OM een geschiktere methode
Outcome Harvesting (OH) en Most Significant Change (MSC) zijn beide echte participatieve methoden. De bereidheid van direct betrokken om intensief met de evaluator mee te werken, is een noodzakelijke vereiste. Bij OH moeten de stakeholders (de individuen en organisaties die de resultaten van OH gaan gebruiken) in elke fase van de evaluatie worden betrokken (inclusief ontwerp en herontwerp) zodat ze invloed kunnen uitoefenen op het verdere verloop van het onderzoek.
Bij MSC is de selectie van de verhalen niet willekeurig: net als bij de Success Case Method wordt er doelbewust een bias ingebouwd naar succesverhalen.

Beperkingen

De belangrijkste beperking die voor de gehele familie van OM-varianten geldt is al in de inleiding genoemd: het terugredeneren van gevolg naar oorzaak kent methodologische risico's. Daarnaast hebben elk van de drie methoden hun eigen specifieke beperkingen:

De inzet van Outcome Mapping (OM) vraagt om forse investeringen over langere periode. Het vereist in de meeste gevallen ook een ‘paradigma shift’ van de betrokken organisaties (en het management) over de wijze waarop maatschappelijke veranderingen tot stand (kunnen) komen (alternatieve Theory of Change).
Het proces van Outcome Harvesting (OH) wordt altijd op maat gemaakt voor de specifieke doelgroepen waar de evaluatie zich op richt. De resultaten van OH zijn daarom niet goed generaliseerbaar. Een beperking die hiermee samenhangt (die ook geldt voor MSC) is dat de data zwaar leunt op de subjectieve oordelen van de respondenten – de uitkomsten zijn dus per definitie gekleurd.
Most Significant Change (MSC) is niet geschikt als (ex-post) effectmeting: er wordt, juist als tegenwicht tegen de vaak meer negatief ingestoken effectmetingen (‘wat ging er mis?’), expliciet een positieve bias ingebouwd (‘wat ging er goed?’).

Kosten

Outcome Mapping (OM) is een zeer uitgebreide methode: ze omvat drie fasen en daarbinnen twaalf stappen die gevolgtijdig moeten worden doorlopen. Dit vergt een relatief lange doorlooptijd en een relatief groot budget.

De uitvoering van een MSC-evaluatie vereist altijd meerdere iteraties. Dit brengt een relatief lange doorlooptijd met zich mee. In combinatie met de arbeidsintensieve wijze van dataverzameling kan dit tot aanzienlijke uitvoeringskosten leiden.

Net als Outcome Mapping vereist Outcome Harvesting (OH) veldonderzoek om data te verzamelen. Dit is een relatief arbeidsintensieve en dus dure methode. Van de drie methoden is OH wel de meest efficiënte omdat er in relatief korte tijd en met relatief weinig capaciteit op gerichte wijze een relatief grote hoeveelheid informatie kan worden verzameld.

Literatuur

Smutylo, T. (2005) Outcome mapping: A method for tracking behavioural changes in development programs. The Institutional Learning and Change (ILAC) Initiative (Brief #7).
Wilson-Grau, R. Britt, H. (2012) Outcome Harvesting, Ford Foundation (MENA Office).
INTRAC (2017). Most Significant Change. Oxford: INTRAC.
Willetts, J.& Crawford, P. (2007). "The most significant lessons about the most significant change technique". Development in Practice. 17 (3): 367–379.

Voorbeeldstudies

The World Bank (2014) Cases in Outcome Harvesting: Ten pilot experiences identify new learning from multi-stakeholder projects to improve results. Washington DC: World Bank.
Booth, D., Balfe, K., Gallagher, R. Kilcullen, G., O’Boyle, S., Tiernan, A. (2018). Learning to make a difference. Christian Aid Ireland’s adaptive programme management in governance, gender, peace building and human rights. London: Overseas Development Institute

Mogelijke dataverzamelingsmethoden

De meest voor de hand liggende en relevante dataverzamelingsmethoden zijn:

Daarbij kan het effectonderzoek ook worden onderzocht en/of ondersteund worden door het toepassen van de volgende dataverzamelingsmethoden:

Korte toelichting

Het kenmerkende karakter van zowel Appreciative inquiry (AI) als de Success Case Methode (SCM) is dat de nadruk in de evaluaties wordt gelegd op de positieve zaken die worden gevonden. AI en SCM zijn ontstaan als reactie op traditionele evaluatiemethoden die inherent een veroordelend karakter hebben (“wat ging er mis?”). Dit werkt vaak demotiverend op de mensen die direct of indirect (als onderdeel van een organisatie of programma) onderwerp van de evaluatie zijn. De bereidheid van organisaties en de mensen binnen de organisaties om hun gedrag aan te passen op basis van de uitkomsten van traditionele evaluties (“leren van de fouten uit het verleden”) is daardoor vaak laag. Het doel van AI en SCM is om de bereidheid om te leren en te veranderen te verhogen door juist positieve aspecten te belichten (“wat ging er goed?”). De nadruk bij AI en SCM ligt daarom meer op het proces dan op de inhoud. Het zijn in de eerste plaats verandermethoden. Voor een inhoudelijke evaluatie van een organisatie of programma zijn ze minder geschikt.

De basis van AI is een groepsproces waarin vier opeenvolgende stappen worden doorlopen:

Onderzoeken (‘Discover’): identificeren van de positieve aspecten (“wat is er bereikt?”; “wat zijn de prestaties waar men trots op is?”);
Verbeelden (‘Dream’): identificeren van beelden van een wenselijke toekomst;
Vernieuwen (‘Design’): de visie vertalen naar bruikbare (actionable) uitspraken;
Implementeren (‘Destiny’): de uitdagende stellingen werkelijkheid laten worden.

De Success Case Methode (SCM) is een meer verhalende aanpak. Via verhalen wordt geanalyseerd wat de succes- en faalfactoren zijn van een bepaalde beleidsmaatregel (of organisatieverandering). Een onderscheidend kenmerk van SCM is dat men zich richt op de extremen: de verhalen van en over respectievelijk de meest én minst succesvolle gevallen. Dat gaat in twee stappen:

Identificeren van de relevante (meest en minst succesvolle) cases;
Bevragen deelnemers (met behulp van interviews of een survey) om te achterhalen waarom ze zo (on)succesvol zijn, en welke factoren daarbij een rol hebben gespeeld.

Toepassingsgebied

Appreciative inquiry (AI) is ontstaan als een evaluatiemethode (“wat werkt goed en hoe kan het nog beter?”) maar is steeds meer verschoven van een methode naar een principe dat als onderliggend uitgangspunt in tal van evaluatiemethoden kan worden gebruikt. De theorie achter het AI-principe is dat de wereld zoals we die kennen in hoge mate wordt gestuurd door de taal die we gebruiken en het type vragen die we onszelf stellen. Kort door de bocht: positieve vragen scheppen een positief wereldbeeld, negatieve vragen een negatief wereldbeeld. Het AI-principe kan als een tegenwicht worden gezien voor klassieke audit-achtige evaluaties, die vaak (impliciet) een veroordelend karakter hebben (‘wat ging er mis’). Een concreet voorbeeld is om bij beoordelingen van wetenschappers te vragen om de drie publicaties waar zij of hij het meest trots op is.

De Success Case Methode (SCM) is meer berust op resultaten – en vertoont dus meer verwantschap met een effectevaluatie – dan AI maar ook hier ligt de focus meestal op organisatieveranderingen. SCM wordt dan toegepast om het effect van de organisatieverandering te evalueren. Typische (evaluatie) vragen die met behulp van een SCM kunnen worden beantwoord zijn:

- Wat is er echt gebeurd?

- Welke resultaten kunnen worden toegeschreven aan de interventie?

- Wat is de waarde die wordt toegekend aan de resultaten van de interventie?

- Hoe had de interventie meer effect kunnen hebben gehad?

SCM kan (en wordt) in combinatie met andere onderzoeksmethoden worden toegepast, bijvoorbeeld met quasi-experimenten zoals tijdreeksanalyse.

Eisen

Appreciative inquiry is een interactief groepsproces. Praktisch gezien vereist dit de simultane fysieke deelname van zoveel mogelijk leden van de groep in kwestie. Een belangrijke culturele eis is dat de groep (en de organisatie waar de groep deel van uitmaakt) open moet staan voor de toepassing van participatieve methoden zoals AI, een open cultuur heeft en vernieuwing en creativiteit waardeert.

Daarnaast vraagt Appreciative inquiry om ervaren coaches. Als aanvullende eis geldt dat deze coaches ook op groepsniveau moeten kunnen coachen.

Praktische voorwaarden voor SCM is dat de onderzoeker direct toegang krijgt/kan communiceren met alle werknemers/individuele deelnemers in een programma, dus zonder tussenkomst van leidinggevenden of toezichthouders. Verder moeten zowel de langetermijndoelen van het te evalueren programma als de onderliggende onderdelen van het programma (of interventie) bekend zijn. Onderzoekers moeten ervaren zijn met het verzamelen (zonder bijsturen) en analyseren van rijke data (‘verhalen’).

Beperkingen

SCM en met name AI staan in zekere zin haaks op traditionele evaluatiemethoden. Vooral AI is moeilijk in te passen in het stramien van een meer inhoudelijke analyse. SCM kan wel, als aanvulling, in combinatie met traditionele methoden worden toegepast. Zowel voor AI als voor SCM geldt dat ze niet voldoen aan de methodologische eisen die aan beleidsevaluaties kunnen worden gesteld. Ze leveren immers doelbewust gekleurde uitkomsten op. Ten eerste wordt slechts een deel van de werkelijkheid belicht (alleen de positieve aspecten). Ten tweede is de identificatie en de interpretatie van de resultaten louter gebaseerd op de subjectieve oordelen van de mensen binnen de organisaties of programma’s die worden geëvalueerd. AI en SCM moeten daarom vooral als verandermethoden worden gezien – en ook als zodanig worden ingezet. Voor een inhoudelijke evaluatie van een organisatie of programma zijn deze methoden minder geschikt.

Kosten

Bij AI hangt dat van het aantal groepen en het aantal sessies af. Groepen kunnen niet te groot zijn; bij grotere aantallen zijn dus meerdere ervaren (en dus relatief dure) coaches nodig. Een AI kan in principe beperkt blijven tot een eenmalige sessie – de grootste kosten zitten in het daadwerkelijk implementeren van de toekomstbeelden die in de laatste stap ("destiny") zijn beschreven.

Door middel van SCM kunnen in relatief korte tijd (enkele maanden) en met relatief weinig capaciteit en middelen de kritische succesfactoren van beleidsinterventies gericht achterhaald worden. De kosten hangen grotendeels af van het aantal cases/deelnemers (maar dat is relatief beperkt omdat de focus op de extremen ligt) en de wijze van bevragen. Interviews zijn arbeidsintensief en dus relatief duur, en daarom wordt voor SCM meestal een (korte en simpele) enquête gebruikt.

Literatuur

Preskill H, & Catsambas T T (2006), Reframing Evaluation through Appreciative Inquiry, Thousand Oaks, California. Sage Publications
Smith, A. (2010) Appreciative Inquiry principles.
Brinkerhoff, R.O. (2003) The Success Case Method: Find Out Quickly What's Working and What’s Not. San Francisco: Berrett Koehler Publishers.
Deller, J. (2019) Brinkerhoff Model 101: Methodology and Goals.

Voorbeeldstudies

Wijngaarden, PJ. van, Oijen, R. van, Boessenkool, M., Es, M. van (2019) Developing a Participative Company Strategy at Netherlands Railways. AI Practitioner 21(3): 15-23. x.doi.org/10.12781/978-1-907549-40-3-4
Brinkerhoff, R.O. (2005) The Success Case Method: A Strategic Evaluation Approach to Increasing the Value and Effect of Training. Advances in Developing Human Resources 7(1): 86-101

Mogelijke dataverzamelingsmethoden

Voor het uitvoeren van een Appreciative Inquiry of Succes Case Method kunnen verschillende dataverzamelingsmethoden worden toegepast. Een combinatie van deze dataverzamelingsmethodes is mogelijk.

De focus bij het uitvoeren van deze onderzoeksmethodes ligt voornamelijk bij het verzamelen van meer kwalitatieve vormen van data. Er kan echter door middel van enquêtes ook kwantitatieve data worden verzameld. De meest relevante dataverzamelingsmethoden omvatten:

Daarbij kan ook het analyseren van literatuur worden toegepast:

D2. Documenten- en literatuuronderzoek (incl. beleidsrapporten, Kamerbrieven e.d.)

Korte toelichting

Qualitative Comparative Analysis (QCA) is een methode die je gebruikt om te achterhalen waarom een beleidsmaatregel onder bepaalde omstandigheden wél het beoogde resultaat behaalt en onder bepaalde omstandigheden níet. In de praktijk blijkt bijvoorbeeld dat een subsidieprogramma dat erop gericht is om onderzoeksjournalistiek te bevorderen in ontwikkelingslanden in het ene land wel en in het andere land niet succesvol is. Het is daarbij zinvol, zeker bij het voortzetten van het programma, te onderzoeken onder welke voorwaarden een dergelijk subsidieprogramma wel en niet werkt.

QCA gaat ervan uit dat combinaties van condities voldoende aanwezig moeten zijn - of zelfs noodzakelijk zijn - om een bepaalde uitkomst te bereiken. Een uitkomst, in een evaluatiecontext, is doorgaans een beoogd of onbeoogd beleidseffect dat aanwezig of afwezig kan zijn. Anders dan in geval van de meer statistische of econometrische benaderingen waarbij wordt onderzocht of een specifiek instrument leidt tot een bepaald doel, gaat QCA er vanuit dat causaliteit ‘configurationeel’ is: het zijn combinaties van factoren die een uitkomst produceren en niet van slechts een enkele voorwaarde. Dat betekent ook dat verschillende ‘configuraties’ kunnen leiden tot min of meer dezelfde uitkomst (verschillende wegen leiden immers naar Rome). QCA leent zich goed in een complexe beleidsrealiteit.

Om casussen systematisch te kunnen vergelijken, worden deze ‘uitgedrukt’ in een combinatie van de aan- of afwezigheid van condities en een bepaalde uitkomst. In de meer recent ontwikkelde versie van QCA kunnen de aan- of afwezigheid van condities worden uitgedrukt op een continue schaal die loopt van 0 tot 1 (Verweij en Gerrits, 2012). QCA bevindt zich dan ook op het snijvlak van kwalitatieve en kwantitatieve methoden (Pattyn et al. 2015).

Toepassingsgebied

De methode werd oorspronkelijk ontwikkeld voor onderzoeken met tussen de 20 en 35 casussen, waarbij men een aantal casussen heeft dat te klein is om statistische technieken op toe te passen, maar waarbij men anderzijds wel patronen wil ‘ontrafelen’ over casussen heen. In de loop der jaren wordt de techniek niet langer enkel en alleen toegepast in dergelijke zogeheten ‘medium N’ settings, maar ook meer en meer bij een groter aantal casussen.

Casussen kunnen in QCA verschillende vormen aannemen. In een evaluatiesetting zijn casussen typisch contexten waarin een interventie is toegepast. In het eerder vermeld voorbeeld betreffen casussen de onderzoeksjournalistieke producten die tot stand zijn gekomen met een subsidie. Casussen kunnen echter ook bijvoorbeeld individuele personen zijn.

Het type uitspraken en soort bevindingen dat kan worden gedaan op basis van QCA betreft, zoals gesteld, het identificeren van de (combinatie van) condities die noodzakelijk en/of voldoende zijn voor het wel of niet optreden van een bepaalde uitkomst. Noodzakelijke en voldoende voorwaarden komen in pure vorm echter weinig voor. Meer realistisch zijn zogenaamde INUS-voorwaarden. Een INUS-voorwaarde wordt gedefinieerd als een ‘Insufficient but Necessary part of a condition which is itself Unnecessary but Sufficient for the result’.

Eisen

Een aantal basiseisen dienen te worden overwogen, alvorens met QCA aan de slag kan worden gegaan:

QCA vertrekt vanuit de systematische vergelijking van casussen, waarbij er een verschil is in uitkomst. Het is met andere woorden niet mogelijk een QCA uit te voeren als geen variatie in effect wordt vastgesteld.
QCA vraagt een goed begrip van de uitkomst of effect, en een goede afbakening hiervan alvorens men met de methode aan de slag kan gaan. Elke nieuwe uitkomst die in de methode wordt meegenomen, vereist ook mogelijk andere condities, wat extra werk met zich meebrengt.
QCA eist een vrij goede kennis van de casussen. De methode werkt iteratief, waarbij er een sterke dialoog is tussen de theorie en de praktijk. Indien een combinatie van condities onvoldoende verschil maakt tussen casussen waar een effect aanwezig of afwezig is, dien je in staat te zijn te achterhalen welke condities bijvoorbeeld over het hoofd werden gezien, of anders dienden te worden geoordeeld.

Gezien het type resultaten dat QCA oplevert is ook duidelijk dat QCA in eerste instantie geschikt is voor lerend evalueren, eerder dan voor verantwoordingsvraagstukken. De vertrekbasis voor een QCA is immers niet óf beleid werkt, dan wel eerder ‘onder welke condities beleid werkt’.

Beperkingen

Strikt genomen zal QCA enkel ‘associaties’ tussen een conditie en een uitkomst achterhalen. Eenzelfde beperking geldt voor het tijdselement. Alhoewel wordt gewerkt aan verschillende manieren om ‘tijd’ mee te nemen in een QCA-analyse, is het type bevindingen eerder statisch van aard dan dynamisch. Hierom wordt QCA meer en meer gecombineerd met methoden die wel gericht zijn op het openen van de causale blackbox. Met name de combinatie QCA en Process Tracing wordt hiertoe regelmatig gebruikt.

Kosten

Kosten hangen af van de beschikbare data en of men nog extra investeringen wil doen om de bevindingen te interpreteren via andere methoden zoals Process Tracing. Voor QCA-analyse wordt kun je gebruik maken van software die open source en dus gratis beschikbaar is (zie www.compasss.org)

Het eigenlijke toepassen van QCA als techniek is niet zo tijdsintensief; het is wel belangrijk te beseffen dat de methode méér vereist dan een loutere druk op de (software)knop. De meeste tijd kruipt in het bepalen van een gerichte selectie van condities die men wil ontrafelen, het kalibreren (scoren) hiervan, en het interpreteren van de resultaten waarvoor vaak iteratief wordt teruggegaan naar de casussen zelf, en bijkomende analyses plaatsvinden. Een grondige QCA-studie duurt al snel 9 tot 12 maanden, maar dit hangt ook af van de reeds beschikbare data en de eventuele inspanningen die men wil nemen om de bevindingen te interpreteren.

Literatuur

Basiswerken waarin de details van QCA als benadering en techniek worden gegeven:

Ragin, C. C. (1987). The comparative method: Moving beyond qualitative and quantitative strategies. Berkeley: University of California Press.
Ragin, C. C. (2008). Redesigning social inquiry: Fuzzy sets and beyond. Chicago, IL: University Chicago Press.
Rihoux, B., Ragin, C. (2009). Configurational comparative methods. Qualitative comparative analysis (QCA) and related techniques. Thousand Oaks, CA: Sage.
Schneider, C. Q., Wagemann, C. (2012). Set-theoretic methods for the social sciences. A guide to qualitative comparative analysis. Cambridge, MA: Cambridge University Press.

Achtergrondinformatie over de methode via www.compasss.org. Deze website toont ook de software die kan worden gehanteerd.

Een uitgebreide handleiding voor het toepassen van de methode in een evaluatiecontext:

Befani, B. (2016). Pathways to change: Evaluating development interventions with QCA, Rapport till Expertgruppen för biståndsanalys [Report for the Expert Group for Aid Studies-EBA], Expert Group for Aid Studies. Report 05/16. Stockholm, Sweden: EBA.

Een toegankelijke beschrijving van de methode in het Nederlands:

Verweij, S., Gerrits, L. (2012). Systematische Kwalitatieve Vergelijkende Analyse (Systematic Qualitative Comparative Analysis) Kwalon, 17 (3), 25-33.
Pattyn, V., Gerrits, L., Verweij, S. (2015). Qualitative Comparative Analysis. Meer behorend bij de kwalitatieve dan bij de kwantitatieve benadering. Kwalon, 20(3).

Voor een bespreking van de potentie en uitdagingen bij het toepassen van de methode op basis van een voorbeeld van een HIVOS-evaluatie:

Pattyn, V., Molenveld, A., & Befani, B. (2019). Qualitative Comparative Analysis as an Evaluation Tool: Lessons From an Application in Development Cooperation. American Journal of Evaluation, 40(1), 55–74.

Voorbeeldstudies

Palladium, Economic Policy Incubator, Policy Entrepreneur INC (2019). What drives policy change in Nepal? A qualitative comparative analysis

Mogelijke dataverzamelingsmethoden

De meest voor de hand liggende methoden zijn:

Daarnaast kan ook gebruik worden gemaakt van:

Korte toelichting

In een simulatie boots je de werkelijkheid na door die werkelijkheid te vereenvoudigen met een model. In dat model is een aantal spelregels beschreven waar de individuele actoren (agents) in het model (bv. mensen of bedrijven) aan moeten voldoen. Vervolgens ‘spelen’ deze actoren het ‘spel’ volgens de regels en ontstaat er een bepaalde uitkomst (bv. een gedeelde consensus over een bepaald probleem, of een evenwicht op een markt in het geval van economische modellen). Door de spelregels te veranderen kan worden bestudeerd welke invloed bepaalde factoren kunnen hebben op de uitkomsten. Simuleren is dus bij uitstek een methode om te leren, zowel over het gedrag van actoren als over de waarschijnlijke impact van interventies op dat gedrag. Er zijn twee soorten simulaties die respectievelijk gebruik maken van mensen (spelsimulaties) of van rekenmodellen (computersimulaties):

In spelsimulaties (‘gaming/simulation’) geschiedt de nabootsing van de werkelijkheid door personen in verschillende, maar samenhangende rollen. Zij spelen in een veilige en afgebakende omgeving processen uit de vereenvoudigde werkelijkheid na.
In computersimulaties wordt de werkelijkheid nagebootst in een formeel model. Er zijn daarbij twee varianten te onderscheiden. Macro (of computational) modellen beschrijven het functioneren van de (gesimuleerde) werkelijkheid in vooraf gedefinieerde wetmatigheden. De economische CPB-modellen zijn hier een bekend voorbeeld van en ondersteunen scenariostudies. Micro (of agent-based) modellen werken op basis van een beperkt aantal simpele spelregels waarmee de agents in het model worden uitgerust. Uit de interactie tussen de agents kunnen vervolgens heel complexe patronen ontstaan.
Feitelijk wordt hier dus ook gebruik gemaakt van de scenario-methode waarbij alternatieve modellen van een toekomstige situatie worden ontwikkeld en gebruikt. Een spelsimulatie bestaat uit een set van spelers, spelregels en een startsituatie. Door het spelen van een spelsimulatie ontwikkelt zich een scenario van wat voor gedrag een nieuw instrument oproept. Door de spelsimulatie vaker toe te passen, kunnen er ook meerdere toekomstscenario’s ontstaan. In computersimulaties kunnen scenario’s worden ontwikkeld door te variëren in de inputvariabelen van een rekenmodel, bijvoorbeeld wat de effecten zijn van een belastingverhoging van x of y procent op de werkgelegenheid. Wanneer de werkelijkheid goed is vervat in economische modellen kunnen zelfs extrapolaties naar de toekomst worden gedaan.

Toepassingsgebied

Binnen beleidsonderzoek worden simulaties ingezet om vooraf (ex ante) te evalueren wat de eventuele impact is van beleidsinterventies en/of van wijzingen in de beleidscontext. In het publieke debat verrichtte de Club van Rome al pionierswerk door aan de hand van computersimulaties aan te tonen dat bij ongewijzigd economisch beleid de wereld in een scenario terechtkomt waarin het tegen zijn fysieke grenzen aanloopt (overbevolking, milieuvervuiling, etc.). Dichter bij huis worden simulaties en scenariostudies ook toegepast, bijvoorbeeld om te ‘oefenen’ met een nieuw beleidsmaatregel of een organisatieverandering: welke gedragseffecten treden bijvoorbeeld op?

Van vrijwel alle beleidsterreinen kunnen simulaties, scenariostudies en trendextrapolaties worden gemaakt. Simulaties zijn wel een typische methode voor ex ante evaluaties, omdat zij vooral gebruikt worden om maatregelen te testen of om ermee te oefenen. Op basis van ex post evaluaties kun je ervaringen wel gebruiken om modellen in (volgende) simulaties te verfijnen.
Het is in een spelsimulatie bijvoorbeeld mogelijk om het effect van een nieuwe beleidsmaatregel te onderzoeken. Tijdens een spelsimulatie kan een nieuwe maatregel worden ingevoerd. Doordat de spelers levensechte rollen spelen, kun je nagaan welke vragen, gedragingen en effecten (en dus welk scenario) die nieuwe maatregel oproept. Daarnaast valt er veel te leren over strategisch gedrag: welke ontwijkende gedragingen zijn er en hoe streven actoren voordelen na? Ook kun je onverwachte gebeurtenissen simuleren (zoals een natuurramp) om te testen hoe actoren daarmee omgaan en welk effect dat heeft op de werking van een instrument (zoals samenwerking binnen een veiligheidsrisico onder crisisomstandigheden).
Het CPB gebruikt macromodellen voor het maken van scenario's, bijvoorbeeld over de ontwikkeling van de vergrijzing en koopkracht bij verschillende beleidskeuzes. Het effect van verschillende beleidsmaatregelen op bijvoorbeeld de arbeidsmarkt worden in deze modellen doorgerekend. Dat levert dan weer verschillende scenario’s op (bijv. ontwikkeling van koopkracht bij gewijzigd en bij ongewijzigd beleid).
Micromodellen worden op grote schaal in (kwantitatieve) sociologie gebruikt om sociale fenomenen zoals migratie en sociale spanningen te onderzoeken, of sociaal-biologische fenomenen zoals seksuele reproductie of de verspreiding van besmettelijke ziektes.
De samenwerking tussen de computerspelindustrie en (toegepast) wetenschappelijk onderzoek leidt ertoe dat er een tak van ‘serious gaming’ ontstaat waar professionals uit diverse sectoren oefenen met beleid, werkwijzen en protocollen met hulp van geavanceerde digitale hulpmiddelen. Wanneer je overweegt om simulaties toe te passen doe je er goed aan te inventariseren wat er zoal aan simulaties beschikbaar is.

Eisen

Het ontwikkelen van een scenario, spel- of computersimulatie vraagt specifieke expertise en de nodige ontwikkelcapaciteit. De computermodellen van bijvoorbeeld het CPB komen voort uit jarenlange ervaring en investeringen. Tegelijkertijd zijn veel van deze modellen wel beschikbaar voor evaluatieonderzoek. Spelsimulaties voor een specifieke beleidsmaatregel of organisatieverandering worden vaak als maatwerk ontwikkeld. Bij de inzet van simulaties zijn de volgende elementen van belang:

Het moment waarop een scenariostudie, computer- of spelsimulatie wordt ingezet, luistert nauw. Je kunt de resultaten van een simulatie gebruiken om een nog in te voeren (nieuwe) beleidsmaatregel te verbeteren of bij een spelsimulatie betrokkenen te laten oefenen met een nieuwe maatregel. Het moet dus duidelijk zijn wat het doel van de simulatie is en wat er met de resultaten van een simulatie gaat gebeuren.
Let erop dat de computer- of spelsimulatie of het scenario aansluit bij de beleveniswereld van de gebruikers. Zij moeten zich in een spelsimulatie in een herkenbare rol kunnen plaatsen (zonder het gevoel te hebben dat ze ‘een spelletje’ spelen), gemotiveerd worden door de simulatie en kunnen reflecteren op de problematiek en rollen in de simulatie en ervan kunnen leren. Hetzelfde geldt voor een scenario: hoe verder een scenario afstaat van de werkelijkheid hoe lastiger het is om je in het scenario in te leven en ervan te leren.
Zorg voor transparantie voor de aannames die bijvoorbeeld in modelmatige en computersimulaties worden gemaakt. Deze kunnen van grote invloed zijn op de uitkomsten. Denk aan het verschil in bijvoorbeeld werkloosheid en belastinginkomsten in een scenario van 1 of 2% economische groei.

Beperkingen

Simulaties en scenario's kennen ook uitdagingen:

De gehele werkelijkheid is nooit volledig na te bootsen. Er is vereenvoudiging noodzakelijk en er blijven altijd onzekerheden bestaan. Uiteindelijk kent een scenario dus ook grenzen. Dat betekent dat er geen garantie is dat gedrag in een spelsimulatie of uitkomsten van een computersimulatie (bv een scenario) buiten de simulatie automatisch geldig zijn. De uitkomsten worden ook bepaald door de kwaliteit van het modelontwerp en de daarbij gehanteerde aannames: de Club van Rome nam bijvoorbeeld de exponentiële groei van technologische ontwikkeling niet mee in zijn uiteindelijke scenario's.
De inzet van computersimulaties kan de blik in een ex-ante evaluatie dus vernauwen tot louter een expertoordeel. Beleidsmaatregelen die na een doorrekening ongunstig uitpakken (duur, niet doeltreffend) worden sneller als minder serieuze optie gezien, terwijl het mogelijk is dat een scenario aannames bevat die voor discussie vatbaar zijn. De aannames zijn echter vaak in technische termen geformuleerd en daardoor voor leken vaak moeilijk te volgen.
Macromodellen kunnen alleen worden opgesteld als de (gesimuleerde) werkelijkheid kan worden beschreven in algemene wetmatigheden. Voor fysische systemen (natuurkunde, bouwwerktuigkunde) is dit zeer goed mogelijk; voor sociale systemen (economieën, samenlevingen) zijn minder en minder robuuste wetmatigheden beschikbaar vanwege het onvoorspelbare en ‘lerende’ gedrag van mensen.
Let bij het ontwikkelen van een simulatie op schaalbaarheid, oftewel in welke mate een simulatie (eventueel met beperkte aanpassingen) zich leent voor hergebruik in een andere omgeving. Dit met het oog op het relatief hoge maatwerkniveau van simulaties en de substantiële ontwikkelingskosten.

Kosten

De kosten van een simulatie bestaan voornamelijk uit het ontwikkelen van een model dat aan de simulatie ten grondslag ligt (en dat omzetten in een computer- of spelsimulatie). Een maatwerk spelsimulatie kost al snel 100.000 euro. Er zijn ook ‘standaardsimulaties’ beschikbaar (reeds ontwikkeld en getest) waarvan de kostprijs lager is (10.000 euro).

Literatuur

Duke, R.D. & J.L.A. Geurts (2004), Policy games for strategic management. Pathways into the unknown, Dutch University Press, Amsterdam.
Joshua M. Epstein (2006). Generative Social Science: Studies in Agent‑Based Computational Modeling. Princeton, NJ: Princeton University Press, 2006.
Clark, W. & Fossett, M. (2008) Understanding the social context of the Schelling segregation model, Proceedings of the National Academy of Sciences Online
Aschwanden, G.D.P.A., Wullschleger, T., Müller, H-P, Schmitt, G. (2012) Agent based evaluation of dynamic city models: A combination of human decision processes and an emission model for transportation based on acceleration and instantaneous speed. Automation in Construction vol 22: 81-89

Voorbeelden van agent-based models:

Voorbeeldstudies

Mogelijke dataverzamelingsmethoden

Bij het uitvoeren van simulaties kan het gaan om het simuleren van rekenmodellen/computermodellen, maar mogelijk ook het fysiek simuleren van scenario’s waarbij participanten worden geobserveerd. De volgende dataverzamelingsmethoden zijn daarom het meest relevant:

Daarbij kunnen de uitkomsten van deze simulaties ondersteund worden door data verkregen uit:

Korte toelichting

Lerend evalueren is een geschikte methode om kennis te genereren over welke beleidsinstrumenten wanneer (= waar en onder welke omstandigheden) werken. Het maakt idealiter gezamenlijk leren over beleid mogelijk. Bij lerend evalueren wordt niet alleen ex ante of ex post geëvalueerd, maar zijn het beleid en de evaluatie als het ware met elkaar verbonden. Lerend evalueren wordt dan ook vooral ex durante gebruikt. Beleid kan hierdoor gaandeweg steeds worden bijgestuurd en worden verbeterd. Met lerend evalueren komen evalueren, leren en beleid maken samen: tijdens de beleidsontwikkeling en/of -uitvoering werken evaluatoren en beleidsbetrokkenen samen om met het evaluatieonderzoek bruikbare en betekenisvolle inzichten aan te dragen voor het lopende beleidsproces.

Deze inzichten kunnen gaan over verbeterpunten voor beleid, heroverweging van kaders en uitgangspunten van beleid en over knelpunten of systeembarrières die in de beleidspraktijk worden ervaren. Omdat een lerende evaluatie wordt afgestemd op specifieke vragen van beleidsbetrokkenen. Binnen lerend evalueren wordt gebruik gemaakt van verschillende onderzoeksmethoden en is er vaak sprake van een mixed methods aanpak, waarbij kwalitatieve en kwantitatieve benaderingen worden gecombineerd om kennis te genereren en te leren over de realisatie van de opgave en de werking van het beleid.

Een lerende evaluatie kan helpen om kennis te ontwikkelen, verklaringen voor de werking en toepassing voor de verschillende beleidsbetrokkenen inzichtelijk te maken, en de beleidstheorie nader in te vullen.

Toepassingsgebied

Lerend evalueren is niet beperkt tot bepaalde beleidssectoren. Wel zien we dat lerend evalueren vooral toegevoegde waarde heeft bij complexe maatschappelijke vraagstukken, zoals klimaatadaptatie, duurzame voedselproductie en vergrijzing, waarbij de behoefte aan leren groot is. Er is kennis nodig over de opgave en daarnaast over de (mogelijke) effectiviteit en werking van, vaak innovatieve en experimentele, beleidsmaatregelen. Overigens kun je lerend evalueren ook prima toepassen om al wat langer bestaand ‘getemd’ beleid.

Ook wanneer er sprake is van bestuurlijke complexiteit is een lerende evaluatie geschikt. Een opgave is bestuurlijk complex wanneer meer overheidslagen betrokken zijn en onderling moeten samenwerken. Lerend evalueren faciliteert de betrokkenheid en interacties tussen de verschillende beleidsbetrokkenen en moedigt gezamenlijk leren aan. Lerend evalueren draagt hierdoor in potentie niet alleen bij aan een met kennis verrijkte beleidspraktijk, maar ook aan interbestuurlijke samenwerking en aan een lerend (beleids)netwerk.

Eisen

Welke eisen er zitten aan het uitvoeren van een lerende evaluatie, is sterk afhankelijk van de context waarin de evaluatie zich bevindt en welke methoden toegepast worden. Wel zijn er een aantal algemene eisen te stellen aan lerende evaluaties.

Ervaring met mixed methods onderzoeksbenaderingen en interdisciplinaire vaardigheden omdat veelal een combinatie van casusonderzoek, participatieve methoden en kwantitatieve data (administratieve data, statistische data) vereist zijn.
Een bescheiden en reflexieve houding en responsiviteit; bereidheid het evaluatieonderzoek tussentijds bij te stellen als dit beter aansluit bij de beleidsontwikkelingen of behoeften.
Een lerende houding van de evaluatoren én beleidsmakers in een actieve rol door kennis en ervaringen te delen, toegang te verlenen tot de benodigde data en bronnen en tussentijdse inzichten uit het evaluatieonderzoek te vertalen naar het beleid/de beleidspraktijk (en hiervoor capaciteit beschikbaar stellen).

Beperkingen

Lerend evalueren vraagt om een investering in capaciteit en budget van evaluatoren en beleidsbetrokkenen, om onderlinge afstemming en uitwisseling te organiseren. Deze investering weegt echter waarschijnlijk vooral op wanneer de opgave en bestuurlijke context dusdanig complex zijn dat meer reguliere evaluatiemethoden onvoldoende handvatten bieden om het beleid te informeren.

Kosten en doorlooptijd

Een lerende evaluatie loopt parallel aan het beleidsproces. De doorlooptijd is daardoor afhankelijk van het beleidsprogramma. Door de diverse interacties tussen evaluatoren en (verschillende) beleidsbetrokkenen vallen de kosten doorgaans hoger uit dan bij meer reguliere beleidsevaluaties. Er zal budget en capaciteit moeten worden vrijgemaakt door beide partijen om dergelijke bijeenkomsten te organiseren, faciliteren en bij te wonen. Een aantal bepalende factoren voor de kosten zijn:

Hoe complex de opgave is, ofwel hoe duidelijk de opgave is afgebakend (is er veel verkennend werk nodig om tot een gedeeld evaluatiekader te komen?)
Aantal interactieve sessies en aantal deelnemers
Benodigde voorbereiding en nazorg van interactieve sessies
Het type onderzoeksmethode dat wordt toegepast
Verdeling van de onderzoeksactiviteiten tussen evaluatoren en beleidsbetrokkenen

Literatuur

FAQ en filmpje over lerend evalueren ikv de Lerende evaluatie van het Natuurpact
Folkert, R., Verwoerd, L., & Verwest, F. (2018). Lerend evalueren: navigeren tussen verantwoorden en leren. Beleidsonderzoek Online.
Kunseler, E. & L. Verwoerd (2019). Kennis met impact: reflexief werken bij publieke kennisorganisaties. Den Haag: Planbureau voor de Leefomgeving.
Verwoerd, L., De Wildt-Liesveld, R., & Regeer, B. J. (2017). The value of reflexive evaluation in the eyes of participants - a review of the Natuurpact reflexive evaluation (2014-2017). Athena Institute, Amsterdam
Verwoerd, L., Klaassen, P., & Regeer, B. J. (2019). The value of a reflexive evaluation approach in the eyes of researchers. Athena Institute, Amsterdam
Verwoerd, L., Klaassen, P., van Veen, S. C., De Wildt-Liesveld, R., & Regeer, B. J. (2020). Combining the roles of evaluator and facilitator: Assessing societal impacts of transdisciplinary research while building capacities to improve its quality. Environmental Science and Policy, 103, 32–40.
Verwest, F., E. Kunseler, P. Diederen en P. Faasse (2019) Van procedure naar praktijk: Inzet op effectieve onafhankelijkheidsborging bij het PBL. Bestuurkunde 28 (4): 19-31

Voorbeeldstudies

Mogelijke dataverzamelingsmethoden

Bij een lerende evaluatie is een combinatie van verschillende dataverzamelingsmethoden mogelijk:

Korte toelichting

In de mixed methods benadering worden kwalitatieve en kwantitatieve methoden op een gerichte manier gecombineerd om een evaluatievraag te beantwoorden. Het idee is dat op deze manier de voordelen van beide typen methoden elkaar kunnen versterken en dat de robuustheid van de conclusies kan worden verhoogd door de resultaten tegen elkaar af te zetten (triangulatie). Kwalitatieve methoden (zoals interviews en participerende observatie) leveren rijke en gedetailleerde maar meer subjectieve en onbepaalde (open-ended) informatie. Kwantitatieve methoden (zoals experimenten en quasi-experimenten) leveren objectieve en exacte (closed-ended) informatie maar deze is vaak steriel en specifiek van aard, met weinig oog voor de context waarin mensen leven en handelen.

Bij multiple methods wordt in de onderzoeksaanpak ook gebruik gemaakt van zowel kwalitatieve als kwantitatieve methoden, maar in tegenstelling tot mixed methods wordt in deze benadering elke onderzoeksvraag apart door een ander type benadering gedekt. Bij mixed methods worden beide typen benaderingen voor dezelfde onderzoeksvraag gebruikt.

Toepassingsgebied

Zowel voor mixed methods als voor multiple methods geldt dat de specifieke manier waarop de kwalitatieve en kwantitatieve methoden in het onderzoeksontwerp met elkaar worden gecombineerd, in hoge mate het toepassingsgebied bepaalt. Zowel de gevolgtijdelijkheid (parallel of sequentieel), de volgorde (eerst kwalitatief dan kwantitatief of andersom) als de mate van integratie kunnen in een onderzoeksontwerp verschillen (zie Creswell (2003) voor een overzicht).

De meest gebruikte ontwerpen zijn die waarbij:

eerst kwalitatieve gegevens worden verzameld die vervolgens kwantitatief worden geanalyseerd (sequential exploratory);
een klassiek kwantitatief ontwerp met daarbinnen kwalitatieve verdiepingen (concurrent nested);
parallel kwalitatieve en kwantitatieve gegevens worden verzameld die vervolgens worden gebruikt om de uitkomsten wederzijds te valideren (concurrent triangulation).

Het eerste ontwerp is geschikt om beleidsterreinen te verkennen en het tweede ontwerp om ‘steriele’ kwantitatieve analyses te verrijken met kwalitatieve informatie. Bij het derde ontwerp worden de sterktes van de ene benadering gebruikt om de zwaktes van de andere benadering zoveel mogelijk te mitigeren.

Eisen

Men kan verschillende methoden niet zonder meer met elkaar combineren. Elke methode komt voort uit een bepaalde onderliggende benadering, zoals de rationeel-analystische benadering voor kwantitatieve en de constructivistische benadering voor kwalitatieve methoden. De mixed methods aanpak vereist dat evaluatieonderzoekers:

binnen het team openstaan voor beide benaderingen;
op de hoogte zijn van de specifieke voor- en nadelen van beide benaderingen;
voldoende kennis en ervaring hebben met methoden uit beide benaderingen heeft om ze gericht met elkaar te kunnen combineren.

Om onderzoekers bekend te maken met de verschillende methodes/benaderingen/tradities wordt mixed methods daarom soms ook ingezet als een gemeenschappelijke onderneming waarin vanuit meerdere perspectieven tot enkelvoudige waarheden wordt gekomen. De focus ligt op het zo pragmatisch mogelijk beantwoorden van de evaluatievraag en tijdens dat proces komen dan verschillende methoden naar voren.

Een eis van praktische aard is dat voor het beantwoorden van de onderzoeksvraag één integrale dataset benodigd is. Kwalitatieve en kwalitatieve methoden leveren echter verschillende typen data op en om ze te kunnen combineren moet meestal worden gehercodeerd zodat ze aan elkaar kunnen worden gelinkt. Dit vereist specialistische statistische kennis (zie bv. O’Cathain, Murphy, & Nicholl, 2010). Voor het coderen en koppelen van data zijn speciale applicaties ontwikkeld.

Beperkingen

Het onderzoeksontwerp van mixed methods is inherent complex. Het is over het algemeen moeilijk om op basis van de uitkomsten van een bepaalde methode de volgende stap te ontwerpen (bv. welk type methode er nodig is) en uit te voeren.

Bij opeenvolgende (sequential) mixed method ontwerpen is de doorlooptijd per definitie langer dan bij enkelvoudige ontwerpen. Bij parallelle (concurrent) ontwerpen kunnen de bevindingen vanuit het ene spoor worden gebruikt om het andere spoor bij te sturen. Specifiek voor het concurrent triangulation ontwerp geldt dat het soms onduidelijk is hoe de eventuele verschillen tussen de uitkomsten moeten worden geïnterpreteerd.

Kosten

Bij mixed methods worden altijd twee verschillende benaderingen gebruikt. De uitvoering is dus per definitie duurder omdat zowel het verzamelen als het analyseren van data meer tijd kost dan bij enkelvoudige ontwerpen. Overigens zijn deze extra kosten meestal niet gelijk verdeeld over de tijd. Veldstudies kosten bijvoorbeeld vooral meer tijd (en dus budget) in de dataverzamelingsfase en experimenten meer in de ontwerp- en instrumentfase (Brewer & Hunter, 1998). Deze spreiding kan de financiële haalbaarheid vergroten omdat de kosten over verschillende partijen (en budgetten) kunnen worden gespreid (ibid.)

Literatuur

Brewer, J. and Hunter, A. (1989). Multimethod research: A synthesis of styles. Newbury Park, CA: Sage.
Creswell, J. W. (2003). Research design: Qualitative, quantitative and mixed methods approaches. London: Sage Publications.
Bryman, A. (2006). Integrating quantitative and qualitative research: How is it done? Qualitative Research, 6, 97–113.
O’Cathain, O., Murphy, E., Nicholl, J. (2010) Three techniques for integrating data in mixed methods studies. BMJ 241;341;c4587.
Patterson, Brandon James. "A mixed methods investigation of leadership and performance in practice based research networks." PhD (Doctor of Philosophy) thesis, University of Iowa, 2013.

Veel gebruikte softwareapplicaties om kwalitatieve en kwantitatieve data te coderen en te combineren:

Checklist voor gebruik van mixed methods:

Mixed Methods Appraisal Tool

Voorbeeldstudies

Shorten, A., Shorten, B., Kennedy, H.P. (2014). Complexities of choice after prior cesarean: a narrative analysis. Birth 41, 178-184.
Dialogic (2018). Eindevalutie Valorisatieprogramma.
Ecorys en Wageningen Economic Research (2019). Beleidsevaluatie Garantstelling Landbouw
Dialogic, Significant Ape en UNU-Merit (2019). Evaluatie WBSO 2011 - 2017

Mogelijke dataverzamelingsmethodes

Alle dataverzamelingsmethodes kunnen voor deze methodiek worden toegepast. (D1 tot en met D8).

Korte toelichting

De regressieanalyse is een statistische analyse die het mogelijk maakt verbanden tussen variabelen inzichtelijk te maken. Bijvoorbeeld het verband tussen overheidsuitgaven aan onderwijs en schoolprestaties. Hierbij kan zowel de aanwezigheid en omvang van het verband als het type verband (positief/negatief) worden onderzocht. In essentie duiden de resultaten van een regressieanalyse alleen op correlatie. Er zijn echter geavanceerde regressieanalyses die een causaal verband beter kunnen benaderen. Hieronder worden een aantal veelgebruikte typen regressieanalyses kort toegelicht.

Ordinary Least Squares (OLS)

Dit is de meeste simpele variant van regressie en maakt het mogelijk lineaire verbanden tussen twee of meer variabelen aan te tonen. Om deze analyse uit te kunnen voeren zijn er kwantitatieve indicatoren nodig van zowel de beleidsinterventie zelf als de uitkomsten. Als vuistregel wordt doorgaans aangehouden dat minimaal 30 waarden per variabele nodig zijn om deze analyse enigszins betrouwbaar uit te kunnen voeren. Bij voorkeur wordt er gebruik gemaakt van longitudinale data, wat betekent dat er per analyse eenheid meerdere waarnemingen zijn op verschillende punten in de tijd. Met longitudinale data is het mogelijk om rekening te houden met gebeurtenissen die niet gerelateerd zijn aan de beleidsinterventie, maar wel impact hebben op de uitkomst en/of effecten die inherent zijn aan unieke analyse-eenheden (bijvoorbeeld stad-specifieke kenmerken als gemeenten de analyse-eenheid zijn).

Two-Stage Least Squares (2SLS)

Dit is een geavanceerde variant van de OLS-regressie en maakt gebruik van een ‘instrumental variable’ om uit te sluiten dat een ontbrekende derde variabele die correleert met de beleidsinterventie en effect heeft op de uitkomsten de analyse vervuilt. Deze methode kun je toepassen wanneer je een instrumentele variabele kunt bedenken die (1) sterk gecorreleerd is met de indicator die je gebruikt om de beleidsinterventie te meten en (2) wanneer die instrumentele variabele in theorie niet aan de uitkomst gerelateerd is, behalve via de relatie met de beleidsinterventie.

Regression discontinuity

Hierbij wordt een strikt onderscheid benut tussen wie wel en niet geraakt worden door een beleidsinterventie (denk aan het natuurlijke experiment). Voor de NOW maatregel in de coronacrisis komen bijvoorbeeld alleen bedrijven in aanmerking met minimaal 20% omzetverlies. Door bedrijven die net wel en net niet profiteren van de maatregel te vergelijken kan een randomised control trial (RCT) benaderd worden. Hierbij is het wel belangrijk dat de doelgroep zelf (bedrijven) niet aan de relevante waarde (omzetverlies) kan sleutelen om wel of niet voor de beleidsinterventie in aanmerking te komen.

Differences-in-differences

Deze regressiemethode kan toegepast worden wanneer zich een natuurlijk experiment voordoet waarbij bijvoorbeeld de ene gemeente wel en de andere gemeente geen beleidsinterventie toepast. Door te kijken naar het verschil in de ontwikkeling over de tijd tussen de doelgroepen in de gemeenten voor- en na de beleidsinterventie is het mogelijk een causaal verband te benaderen.

Toepassingsgebied

Met de juiste toepassing en wanneer er voldoende kwantitatieve data beschikbaar zijn over de interventie en de output-variabelen is regressie-analyse geschikt om inzicht te krijgen in de causale effecten van beleidsinterventies . Dit is niet beperkt tot bepaalde beleidsterreinen. Een voorbeeld van de toepassing van 2SLS om de effecten van een beleidsinterventie in Nederland te duiden is onderzoek over het effect van een getrapte terugkeer naar werk op een succesvolle re-integratie op de arbeidsmarkt.

Eisen

Om bovenstaande methoden goed toe te passen is enige statistische kennis gewenst. Ook is het nodig toegang te hebben tot een statistisch computerprogramma zoals SPSS, STATA, R of Python. Over het algemeen geldt dat hoe meer hoogwaardige kwantitatieve data beschikbaar is voor de analyse hoe beter: dit geldt zowel voor het aantal analyse-eenheden waar data voor beschikbaar is als het aantal datapunten over de tijd.

Beperkingen

Met een simpele OLS-regressie alléén kunnen geen uitspraken gedaan over causale verbanden (er kan immers alleen correlatie aangetoond worden). Verder is de kwaliteit van de data cruciaal voor de kwaliteit van de uitkomsten. Wanneer de gebruikte indicatoren de interventie of de uitkomsten niet goed weergeven zullen de resultaten ongeacht welke regressie-methode men gebruikt tekortschieten. Regressieanalyses kunnen antwoord geven op de vraag of er een bepaald (beoogd) effect is door een maatregel. Je kunt ze niet gebruiken om te achterhalen waarom en hoe bepaalde maatregelen wel of niet werken.

Kosten en doorlooptijd

De kosten en doorlooptijd bij een regressieanalyse zijn sterk afhankelijk van de kwaliteit en de omvang van de data en de hoeveelheid analyse. Wanneer voldoende hoogwaardige data beschikbaar is kan relatief snel – naar schatting binnen enkele maanden - een analyse worden opgeleverd. Indien de indicatoren nog moeten worden samengesteld en data nog moet worden verzameld kunnen zowel de kosten als de doorlooptijd flink toenemen.

Literatuur

Valkuilen bij toepassing van regressieanalyse in beleidsevaluatie

Voorbeeldstudies

Een voorbeeld van toepassing van 2SLS in de Nederlandse beleidscontext

Een voorbeeld van toepassing van OLS in de Nederlandse beleidscontext

Korte toelichting

Contribution analysis en process tracing zijn kwalitatieve methoden gericht op het onderzoeken (‘openen’) van de black box van beleid. Ze kunnen inzicht geven in de werking van beleid. Beide methoden worden vaak gebruikt binnen case studies.

Contribution analysis (CA) kan meer inzicht geven in de specifieke bijdrage van beleid aan een uitkomst door het beter begrijpen en verklaren van de redenen van bepaalde effecten en de rol van beleid en andere factoren daarbij. Dit doe je door de praktijk te toetsen aan de beleidstheorie, waarbij je kijkt naar de mate waarin (tussentijdse) resultaten zich voordeden, assumpties te onderzoeken, implementatie te controleren, andere beïnvloedende factoren te testen en alternatieve verklaringen uit te sluiten. Als bewijsmateriaal kan zowel gebruik worden gemaakt van kwalitatieve als kwantitatieve data.

Process tracing (PT) start ook met het opstellen van hypothesen over de oorzaak en gevolg uit de beleidstheorie, waarbij voor elke hypothese beschreven wordt welke processen en mechanismen zich zouden voordoen indien de hypothese klopt. Ook wordt beschreven welke gegevens en welk bewijs je hiervoor kan vinden. Door een combinatie van kwantitatieve en kwalitatieve dataverzamelingsmethoden leg je vervolgens het proces en de resultaten van de (werking van de) praktijk bloot en toets je of de theorie al dan niet strookt met de praktijk. Ook alternatieve hypothesen worden geformuleerd en kunnen worden getest.

Het belangrijkste verschil tussen beide methoden is dat het toetsen van hypothesen bij process tracing meer gericht is op het vinden van ‘de juiste’ verklaring waarom beleid in een bepaalde context wel of niet werkt, terwijl contribution analysis meer gericht is op het relatieve belang van verschillende verklaringen.

Een uitdaging bij het uitvoeren van contribution analysis is het iteratieve karakter. Het contributieverhaal dient te worden verfijnd op basis van extra bewijsmateriaal tot er een plausibele argumentatie is ontwikkeld, waarin de betrokken stakeholders zich kunnen vinden.

Toepassingsgebied

Beide methoden zijn geschikt om inzicht te krijgen in de hoe de causale mechanismen van beleid wel of niet werken. Ze worden vaak toegepast in case study-onderzoek en in onderzoek waarin wordt gekeken naar de omstandigheden waaronder beleid werkt, bijvoorbeeld door gebruik te maken van een QCA. De kwalitatieve methoden kunnen ook worden ingezet als aanvulling op kwantitatief onderzoek naar de omvang van (gemiddelde) effecten van beleid (doorverwijzen naar fiches over quasi-experimenteel onderzoek en mixed-methods).

Eisen

Een gedetailleerde beleidstheorie is vereist voor toepassing van deze methode; deze kan eventueel gereconstrueerd worden voordat je de evaluatie uitvoert. Kennis van kwalitatieve onderzoeksmethoden is eveneens noodzakelijk. Verder wordt idealiter al bewijs verzameld tijdens de implementatie van het beleid.

Beperkingen

Contribution analysis en process tracing geven inzicht in hoe en waarom bepaalde effecten van beleid tot stand komen, maar geven geen inzicht in de (gemiddelde) omvang van deze effecten of de omstandigheden waaronder beleid werkt. De mate waarin conclusies theoretisch generaliseerbaar zijn (mate waarin bevindingen ook gelden voor niet-onderzochte gevallen binnen de reikwijdte van de theorie) hangt af van de onderbouwing van de casusselectie, de plausibiliteit van de argumentatie en de benadering in process tracing die wordt gehanteerd. Voor process tracing geldt evenwel dat je vaak keuzes moet maken in het aantal mechanismen dat je wilt testen, omwille van de beheersbaarheid van het onderzoek.

Kosten en doorlooptijd

Kosten hangen vooral af van de hoeveelheid bewijs dat je verzamelt over de plausibiliteit van de argumentatie, of de werking van bepaalde mechanismen. Ook de hoeveelheid mechanismen die je wil ontrafelen en toetsen, en de hoeveelheid primaire data die je hiervoor nieuw wil vergaren, zal de doorlooptijd en kosten bepalen. Tot slot is ook de mate waarin je stakeholders wil betrekken bij de identificatie van het contributieverhaal of -proces een bepalende factor voor de kostprijs.

Literatuur

Over process tracing specifiek:

Wadeson, A., Bernardo, M., Aston, R. (2020) Process Tracing as a Practical Evaluation Method: Comparative Learning from Six Evaluations
Bennett, A., & Checkel, J.T. (Eds.). (2015). Process tracing. Cambridge University Press.
Beach, D. and Pedersen, R.B. (2012) Process-Tracing Methods: Foundations and Guidelines, Ann Arbor MI: University of Michigan Press
Loyens, K. (2016) Een gestructureerde vorm van analyse in onderzoek naar besluitvorming. Kwalon, Tijdschrijft voor kwalitatief onderzoek.
Schmitt, J., & Beach, D. (2015). The contribution of process tracing to theory-based evaluations of complex aid instruments. Evaluation, 21(4), 429–447.

Over contribution analysis specifiek:

BetterEvaluation.org: Contribution Analysis
Delahais, T. and Toulemonde, J. (2012) ‘Applying Contribution Analysis: Lessons from Five Years of Practice’, Evaluation 18.3: 281–93,
Lemire ST, Nielsen SB and Dybdal L (2012) Making contribution analysis work: a practical framework for handling influencing factors and alternative explanations. Evaluation 18: 294–309.

Over process tracing en contribution analysis:

Befani, B., Mayne J. (2014) Process Tracing and Contribution Analysis: A Combined Approach to Generative Causal Inference for Impact Evaluation

Mogelijke dataverzamelingsmethodes

Alle dataverzamelingsmethodes kunnen voor deze methodiek worden toegepast. (D1 tot en met D8).

Korte toelichting

Veel – zo niet al het – beleid beïnvloedt het gedrag van mensen, of het nu gaat om het verhogen van accijnzen, het aanleggen van infrastructuur of het geven van voorlichting. Bij het maken van beleid worden vaak simpele aannames over menselijk gedrag gedaan, bijvoorbeeld de aanname dat mensen rationeel-economische wezens zijn die beschikken over volledige informatie en een afweging kunnen maken over de kosten en baten. Zo werkt het natuurlijk niet. Het is niet zo dat mensen na een accijnsverhoging op brandstof gelijk een rekensommetje gaan maken en vervolgens automatisch minder gaan autorijden. Ook simpelweg de juiste informatie geven, werkt lang niet altijd.

Het is doorgaans niet zo dat mensen, als ze weten hoe het zit, hun gedrag vanzelf gaan aanpassen (‘weten is doen’). Mensen maken namelijk meestal geen rationeel-economische keuzes, maar laten zich leiden door emoties, gewoontes en gemak. De WRR heeft het verschil tussen volledige rationaliteit en het feitelijk gedrag van mensen krachtig verwoord in haar rapport ‘Weten is nog geen doen’.

Gedragsinzichten worden in toenemende mate gebruikt in beleid, uitvoering en toezicht. Ze helpen om te komen tot een goede beleidstheorie en effectief beleid. Vaak zijn veel factoren van invloed op gedrag. Een gedragsanalyse helpt om te achterhalen welke factoren van invloed zijn op het gedrag, welke gedragsmechanismen er zijn en waar aanknopingspunten voor beleid liggen. Is dat wet- en regelgeving, een financiële prikkel, het aanpassen van de infrastructuur en/of iets anders? Gedragsinzichten kunnen ook benut worden om tot effectievere inzet van deze beleidsinstrumenten te komen. Bijvoorbeeld door bij een prijsprikkel de prijzen meer saillant te maken, of door belemmeringen weg te nemen waarmee het gewenste gedrag makkelijker wordt of door een subtiel duwtje in de gewenste richting te geven (een ‘nudge’), zoals bijvoorbeeld de bekende voetstappen in de richting van een trap.

Toepassingsgebied

Voor veel beleid is de toepassing van gedragsinzichten relevant omdat beleid doorgaans bedoeld is om gedragsverandering(en) bij uitvoerders/partners en/of maatschappelijke doelgroep(en) te bewerkstelligen.

Het benutten van gedragsinzichten heeft meerwaarde aan de voorkant van het beleid, dus in de beleidsontwikkeling, en op andere momenten waarop beleid kan worden bijgestuurd. Daarnaast kunnen gedragsinzichten ook ex durante en ex post helpen in het verklaren van (al dan niet tegenvallende) beleidsresultaten waarmee ze uiteindelijk ook input vormen voor beleidsaanpassingen.

Om te komen tot gedragsinzichten voor een bepaald beleidsvraagstuk is gedragsonderzoek belangrijk.

Gedragsonderzoek helpt om:

inzicht te krijgen in het vraagstuk en het gedrag van de doelgroep te doorgronden (de gedragsanalyse);
effectieve beleidsinterventies te ontwerpen of bestaande beleidsinterventies aan te scherpen en daarbij te komen tot een onderbouwde beleidstheorie;
antwoord te krijgen op de vragen ‘werkt het beleid’ (is de beleidsinterventie effectief) en/of ‘hoe werkt het beleid’ (welke gedragsmechanismen verklaren succes of falen). Dit kan zowel vooraf (ex ante), als ex durante of ex post.

Bij het toepassen van gedragsinzichten speelt onderzoek een belangrijke rol. De rol van onderzoek verschilt per beleidsfase. In de verkennende fase kan onderzoek inzicht geven in je doelgroep en in het gedragsvraagstuk dat centraal staat: om het gedrag van de doelgroep te doorgronden. Tijdens de ex-ante fase, als je interventies ontwerpt, kun je met onderzoek tot een onderbouwde beleidstheorie komen. Bij de beleidsevaluatie kun je toetsen of de gedragsinterventie het beoogde effect gaat hebben (vooraf) of heeft gehad (achteraf) bij je specifieke doelgroep.

Eisen

Gedragsinzichten zijn eigenlijk geen methode: het zijn brede inzichten in de werking van menselijk gedrag. Om tot deze (vraagstuk-specifieke) inzichten te komen is analyse en onderzoek nodig. Voor veel van de onderzoeksmethoden is specialistische methoden-kennis nodig. Voor het uitbesteden van gedragsonderzoek aan derden volstaat passieve kennis van de methoden en het kunnen duiden van de sterke en minder sterke punten van de methoden.

Beperkingen

De meeste gedragsinzichten gaan over individuen. In de gedragswetenschappen, zoals de gedragseconomie en de sociale psychologie, is namelijk het meest bekend over het gedrag en de keuzes van individuen en in veel mindere mate over het gedrag en de keuzes van organisaties. Inmiddels is er echter meer bekend over het gedrag van organisaties, zoals bedrijven: bedrijven blijken op veel terreinen gevoelig voor dezelfde biases als individuen, zij het soms in mindere mate. Dit blijkt uit onderzoek dat EZK heeft laten uitvoeren. In 2020 heeft EZK via www.binnl.nl ook een tool ontsloten gericht op gedragsbeïnvloeding bij bedrijven.

In discussies over de toepassing van gedragsinzichten in beleid gaat het vaak over de ethische kant. Maar vrijwel iedere maatregel die de overheid uitvoert, heeft gedragsgevolgen. Daarom is het belangrijk om bij al het beleid rekening te houden met de ethische aspecten van beleid. De overheid moet zich houden aan de algemene beginselen van behoorlijk bestuur, good governance, die gelden voor alle beleid.

Kosten en doorlooptijd

Voor gedragsonderzoek kan een breed scala aan onderzoeksmethoden worden toegepast (zie de hiervoor genoemde BIN NL publicatie Hoe is gedrag te onderzoeken?). Daardoor vallen de kosten lastig in algemene zin te typeren. De range is groot en kan variëren van een quickscan op de beleidstheorie die tot aanscherping van het beleid leidt tot een Randomized Controlled Trial (RCT)

Literatuur

Behavioral Insights Netwerk Nederland (BIN NL) is een samenwerkingsverband van alle ministeries voor de toepassing van gedragskennis binnen de rijksoverheid. Op de website van BIN NL staan de contactpersonen per ministerie. BIN NL heeft inmiddels ook een aantal publicaties uitgebracht. Op de website van BIN NL wordt een totaaloverzicht gegeven. Een selectie:

Rijk aan gedragsinzichten (edities 2017 en 2019) Deze publicaties laten zien hoe het benutten van gedragswetenschappelijke kennis in de praktijk vorm krijgt. Maar liefst 35 mooie voorbeelden van gedragsprojecten binnen het Rijk worden beschreven, inclusief contactpersonen. De publicatie schetst ook recente ontwikkelingen binnen het vakgebied. Tevens worden er lessen en uitdagingen genoemd voor de toepassing van de gedragsinzichten binnen het Rijk. Gedragsprojecten zijn ook te vinden in de kennisbank op www.binnl.nl.
Zeven behavioural insights tools - Deze publicatie van BIN NL biedt een kort en bondig overzicht van tools om effectieve beleidsinterventies te ontwerpen.
Hoe is gedrag te onderzoeken? - Deze publicatie van BIN NL biedt een overzicht van 18 onderzoeksmethoden die binnen de rijksoverheid veel gebruikt worden om gedrag te onderzoeken.

Voorbeeldstudies

Op de website van BIN NL is verschillende literatuur te vinden die kan helpen bij het uitvoeren van deze onderzoeksmethode.

Mogelijke dataverzamelingsmethodes

Alle dataverzamelingsmethodes kunnen voor deze methodiek worden toegepast. (D1 tot en met D8).

Korte toelichting

Een publieke waardescan (PWS) geeft beleidsmakers inzicht in het verbeterpotentieel binnen bestaande beleidsmatige en budgettaire kaders van een aangewezen beleidsthema. De werkwijze staat dus centraal in deze ex-durante evaluatieaanpak. Met de PWS-systematiek wordt door vier geijkte lenzen gekeken, te weten: (1) Waardecreatie, (2) Uitvoeringscapaciteit (3) Draagvlak en legitimiteit en (4) Toekomstbestendigheid. De gedachte hierachter is dat op een beleidsthema elk van deze vier de lenzen goed zou moeten zijn ingericht, om de kans op maatschappelijk toegevoegde waarde zo groot mogelijk te maken.

De aanpak van de PWS is gebaseerd op de volgende acht uitgangspunten:

1. Continue verbetering van een beleidsthema en het gesprek daarover, binnen een departement en met Financiën en ook de Kamer

2. Breed kijken naar de voornaamste aspecten van de ‘werkwijze’ die van invloed zijn op maatschappelijke toegevoegde waarde

3. Focus op verhoging van toegevoegde waarde binnen bestaande beleidskaders

4. Verbetering binnen bestaande budgettaire kaders

5. Logisch samenhangend beleidsthema als scope

6. Proces van oordeelsvorming met inhoudelijke onderbouwing

7. Ruimte voor maatwerk binnen een gestandaardiseerde aanpak

8. Uitvoering in samenwerking tussen Financiën en beleidsdepartement.

Toepassingsgebieden

De PWS is een ex durante instrument dat op elk betekenisvol beleidsthema kan worden toegepast. De focus ligt op de governance van het beleid binnen dat thema. De PWS kan tussen andere methoden van monitoring & evaluatie een plek krijgen op de SEA (Strategische Evaluatieagenda) van beleidsdepartementen.

In Nederland bevindt de PWS zich nog in de (late) pilotfase; inmiddels zijn 2 PWS-studies gepubliceerd, over het thema Circulaire economie (IenW, 2020) en het thema Verklaring Omtrent Gedrag (VOG; JenV, 2021). Zie voorbeeldstudies.

De PWS-aanpak is geïnspireerd op de Public Value theorie van Mark Moore en de toepassing daarvan in het Verenigd Koninkrijk. Sinds 2018 voeren het Britse ministerie van Financiën en vakdepartementen samen ‘Public Value Reviews’ uit. Ze beogen daarmee een ander type gesprek te voeren: niet primair over de vraag ‘kunnen jullie bewijzen dat het beleid doeltreffend en doelmatig is geweest?’, maar over de vraag ‘doen jullie er alles aan om de verwachte toegevoegde waarde van het beleid zo groot mogelijk te maken?’ De ervaringen met het instrument in het VK zijn positief na toepassing op verscheidene onderwerpen.

Eisen

De PWS kent zowel qua inhoud als proces een uitgewerkte structuur.

Inhoud

De vier voornoemde lenzen van de PWS: waardecreatie, draagvlak & legitimiteit, uitvoeringscapaciteit en toekomstbestendigheid, liggen bij voorbaat vast. Binnen elk van de lenzen zijn binnen het model drie tot vijf hoofdvragen gespecificeerd, om te beoordelen in hoeverre de werkwijze op het beleidsthema goed is ingericht.

Over elk van de hoofdvragen wordt in de PWS een oordeel gevormd, hoe goed binnen het beleidsthema de betreffende activiteit(en) worden uitgevoerd. Dit oordeel is geen doel op zich, maar een middel om scherpte te krijgen in discussies over goede voorbeelden en verbeterpotentieel. De oordelen vinden plaats op een vierpuntsschaal. Over elk van de hoofdvragen en bijbehorende oordelen wordt ook nog een tweede uitspraak op een vierpuntsschaal gedaan, namelijk over de mate van zekerheid in het oordeel. Dit reflecteert de kwaliteit van de onderbouwing en mate waarin meer informatie gewenst zou zijn.

Op basis van de oordelen en mate van zekerheid kunnen uit de PWS drie verschillende typen aanbevelingen resulteren:
1. Goede voorbeelden: welke activiteiten binnen dit beleidsthema zijn een voorbeeld waar andere beleidsthema’s van kunnen leren?
2. Verbeterpotentieel: waar zit in de werkwijze binnen dit beleidsthema het grootste
verbeterpotentieel en wat is er voor nodig om dit te benutten?
3. Vervolgonderzoek: voor welke hoofdvragen is aanvullende informatie nodig om tot een goed oordeel te komen en hoe kan dit worden verzameld?

Proces

De uitvoering van een PWS kent drie fasen. Enkele typerende activiteiten per fase (niet uitputtend):

(1) Voorbereiding & prioritering: stakeholders betrekken, PvA, gezamenlijk bepalen scope en vragen, eerste data verzamelen en interviews/focusgroepen inplannen

(2) Analyse & oordeelsvorming: uitvoeren verdiepende analyse en interviews met deskundigen ter toetsing voorlopig oordeel

(3) Implementatie & opvolging: aanbevelingen oppakken, organisatie vervolgsessie na 6 maanden.

Een leidraad waarin zowel genoemde lenzen maar ook de processtappen verder staan uitgewerkt is beschikbaar op aanvraag. Gebruik daarvoor het contactformulier op deze Toolbox-website.

Beperkingen

De PWS focust op de 'werkwijze' binnen het beleidsthema en niet op uitkomsten of eindresultaten ervan. De PWS is dan ook niet geschikt om de doeltreffendheids-/ doelmatigheidsvraag in directe zin te beantwoorden. Op themaniveau is dan de periodieke rapportage zinvoller. Wel leidt het instrument tot inzicht in de mate waarin voorwaarden die aan doeltreffendheid/doelmatigheid bijdragen - zoals een stevige beleidstheorie, draagvlak en uitvoeringscapaciteit - aanwezig zijn of worden gerealiseerd.

Kosten

De kosten betreffen vooral de tijd en capaciteit gemoeid met het opzetten en uitvoeren van de PWS. De doorlooptijd van een PWS is kort: gemiddeld 3 maanden.

Voor de eerste 2 fases (elk 1-2 maanden) biedt het PWS-instrument een blauwdruk van: tijdsduur, voornaamste activiteiten, eindproducten en indicatieve bemensing. In elke fase vinden 1 of 2 werksessies/stuurgroepbijeenkomsten plaats.

De meeste tijd en capaciteit kost het werkteam van 4 personen (2 per vakdepartement en 2 van bijv. Financiën), dat gedurende fase 2 voor ongeveer 0,7 fte moet worden vrijgemaakt.

Ook fase 3 (implementatie en opvolging) kost tijd en capaciteit. Hoeveel, is afhankelijk van de uitkomsten en verbeterpunten die uit de PWS-analyse resulteren.

Literatuur

Moore, M. (1997). Creating public Value. Strategic management in government. Harvard UP.

Barber, M. (2017). Delivering better outcomes for citizens: practical steps for unlocking public value.

Voorbeeldstudies

Ministerie van Infrastructuur en Waterstaat (2020). Rapport Publieke Waarde Scan: Circulaire Economie September 2020 | Rapport | Rijksoverheid.nl.

Ministerie van Justitie en Veiligheid (2021). Publieke Waardescan naar de Verklaring omtrent het Gedrag. De toegevoegde waarde van de VOG.

Mogelijke dataverzamelingsmethoden

Alle onderstaande dataverzamelingsmethoden (D1-D8) kunnen in de PWS worden toegepast; daar zijn geen restricties op. Maar gelet op de korte doorlooptijd van de PWS wordt in de praktijk vaker gekozen voor D2, D4 en D5.

Onderzoeksmethoden

Ex ante

A1. Business case

A2. Kosteneffectiviteitsanalyse (KEA)

A3. Impact-analyse (scorekaart) en multicriteria-analyse (MCA)

A4. Maatschappelijke kosten-baten analyse (MKBA)

Ex durante en ex post

O1. (Quasi-)experimentele methoden: Randomised Control Trials, Difference-in-Differences, Tijdreeksanalyse

O3. Systematische reviews & meta-analyse

O4. Case studies

O5. Monitoring

O6. Productiviteitsonderzoek: Benchmarking, SFA, DEA, productiviteitsindices

O7. Outcome mapping

O8. Appreciative inquiry en Success Case method

O9. Qualitative Comparative Analysis (QCA)

O10. Simulaties

O11. Lerend evalueren

O12. Mixed methods

O13. Regressieanalyse

O14. Contribution analysis & process tracing