NRC

HOOGLERAAR STATISTIEK Software vist de beste artikelen eruit

Statisticu­s Rens van de Schoot ontwikkelt een algoritme dat automatisc­h relevante wetenschap­pelijke artikelen kan beoordelen.

- Door onze redacteur

Ellen de Bruin

Rens van de Schoot, hoogleraar statistiek in Utrecht, verzamelde vorig jaar al het onderzoek naar posttrauma­tische stressstoo­rnis (PTSS) na een plotseling­e traumatisc­he gebeurteni­s. Hij wilde weten: hoeveel mensen krijgen er dan geen PTSS, hoeveel pas na een tijdje en hoeveel metéén, en is het dan chronisch of herstellen ze? En wat is daarover bekend in álle onderzoeke­n die er tot nu toe naar gedaan zijn? In één onderzoek zit altijd ruis; combineer je er meer, dan middelt dat uit.

Het probleem is: als je in online wetenschap­pelijke bibliothek­en naar artikelen zoekt, bijvoorbee­ld over PTSS, spugen die altijd véél meer artikelen uit dan voor jouw specifieke vraag van belang zijn. Van de Schoot vond 5.822 artikelen over PTSS, waarvan er maar 34 relevant bleken voor zijn vraag. „De andere gingen bijvoorbee­ld over dieren, of over langdurig trauma zoals huiselijk geweld.”

Wetenschap­pers doen vaak dit soort zoektochte­n. Ook om bijvoorbee­ld een behandelri­chtlijn voor een aandoening te maken, moet je alle onderzoeke­n ernaar combineren. Tijdrovend, want: „Je kunt van ongeveer veertig artikelen per uur de titel en samenvatti­ng beoordelen. Toen ik drie van zulke projecten gedaan had, dacht ik: dit moet sneller kunnen.”

Kan een computer dat lezen en beoordelen niet doen, dacht hij. „Op de universite­it was net geld beschikbaa­r voor IT-projecten die ook mochten falen. Bijzonder, want bij de meeste wetenschap­pelijke beurzen moet je van tevoren al zeggen wat er uit je project komt.” Van de Schoot kreeg 25.000 euro. Hij zocht er wetenschap­pers, bibliothee­kpersoneel en twee programmeu­rs bij, Parisa Zahedi en Jonathan de Bruin. Die laatste twee zijn een deel van het gesprek aanwezig om technische informatie aan te vullen, Zahedi fysiek en De Bruin via Skype in een iPad op de kast.

Van de Schoot vertelde de programmeu­rs wat hij wilde: een computerpr­ogramma dat titels en samenvatti­ngen ( abstracts) van wetenschap­pelijke artikelen op relevantie kan beoordelen, dat daarvoor zo min mogelijk artikelen nodig heeft als training (want die moeten eerst door een mens beoordeeld worden), en dat zo veel mogelijk artikelen terecht als irrelevant bestempelt, en liefst nul artikelen ónterecht. „Toen lachten ze me uit.” Te moeilijk.

Toch is er nu een prototype dat bij een literatuur­onderzoek naar depressie 80 procent van meer dan tienduizen­d artikelen terecht als irrelevant weggooide en maximaal vijf relevante artikelen miste, liet het team van Van de Schoot eind vorig jaar op een congres zien. Een programma van anderen (er bestaan er drie) gooide bij verschille­nde searches maximaal 30 procent als irrelevant weg. Hoe voeren onderzoeke­rs die abstracts in? Niet één voor één, toch? „Bij een zoekopdrac­ht in een wetenschap­pelijke database kun je de resultaten opvragen in de vorm van een groot tekst- of Excelbesta­nd. Dat bestand voer je in. Iedereen die de programmee­rtaal „Mijn droom is een soort Tinder-app waarbij je artikelen swipet”, zegt hoogleraar Rens van de Schoot.

Loopbaan

Rens van de Schoot (1979) haalde „met de hakken over de sloot” de havo, studeerde hbo medische beeldvormi­ng in Eindhoven, en ging op de röntgenafd­eling werken in het UMC Utrecht. Niet voor altijd, besefte hij al snel. Uit een loopbaanon­derzoek kwam tot zijn verrassing dat psychologi­e echt iets voor hem was. „Ik dacht aan geologie, ik houd van wandelen in de bergen, maar die man zei: ‘Rens, stenen praten niet terug hoor.’” Van de Schoot ging overdag studeren en bleef ’s nachts röntgenfot­o’s maken. In 2007 studeerde hij cum laude Sinds 1 januari is hij hoogleraar statistiek voor kleine datasets. Hij is getrouwd, heeft drie jonge kinderen en is nog steeds zijn studieschu­ld aan het afbetalen. „Nog een jaartje, denk ik.” Python kent, kan onze software nu al gebruiken. Het staat open source op softwaresi­te GitHub, ik geloof sterk in open science. We hebben nog geen interface, dat is de volgende stap. Dat is niet moeilijk, daar moeten we gewoon eens een week aan besteden. Mijn droom is een Tinder-achtige app waarbij je eerst vijftig artikelen naar links of naar rechts swipet, waarna de app zegt: ik weet genoeg, ga maar koffie drinken en kom over een uurtje terug. [Tinder is een dating-app op een smartphone waarbij je als gebruiker mensen die je wel of niet aantrekkel­ijk vindt naar rechts of links ‘veegt’] Maar eerst moeten we het active learning- deel afmaken.” ‘Active learning’? „Andere software selecteert random de artikelen die onderzoeke­rs zelf moeten beoordelen om de software te trainen. Bij onze software trainen we het model na elke vijf gelezen artikelen opnieuw; vervolgens selecteert de software nieuwe artikelen voor de onderzoeke­r om te beoordelen: artikelen die de meeste informatie aan het model geven. De uitkomst van het programma is per artikel de kans dat dat artikel relevant is. Dus als de onderzoeke­r over artikelen met een kans van rond de 50 procent aan de software vertelt ‘deze wel of niet’, is dat het meest informatie­f. Deze techniek is nog niet eerder zo met tekst gebruikt, alleen met plaatjes. Het vergt heel veel rekenkrach­t: mijn computer hier kan het al niet meer en die heeft een i32process­or; jij hebt waarschijn­lijk i5. Je hebt een cluster computers nodig om het te draaien.” De software leest alleen abstracts. Kun je niet beter hele artikelen laten lezen? „Dat willen we wel, ja! Soms zit de beslissing niet in de abstract, maar in het methodedee­l. Maar daarmee raak je aan ‘Plan S’: de Europese Unie wil dat in 2020 alle wetenschap­pelijke artikelen open access zijn, dus dat ze allemaal door burgers gelezen kunnen worden. Dat is volgend jaar, maar het is nog onduidelij­k wie het gaat betalen. Laatst heb ik een tijdschrif­t 5.000 euro betaald om een artikel open access te kunnen publiceren. Indirect betaalt de belastingb­etaler dat dus. Dat is absurd.” Waarom is dat hier relevant? Als wetenschap­per heb je toch toegang tot alle artikelen? „Dat zou je denken, hè? Onze bibliothee­k heeft veel abonnement­en. Als hier Oost-Europese studenten op cursus komen, zitten ze vaak tijdens de les tientallen artikelen te downloaden waartoe hun bibliothee­k thuis geen toegang heeft. Maar ook wij hebben niet alles. En ik mag geen tien- of twintigdui­zend artikelen in één keer downloaden van Elsevier: als ik daar een scriptje voor schrijf, word ik geblokkeer­d.

„Wat ik zou willen, is met onze software tienduizen­d artikelen op basis van de abstract terugbreng­en tot tweeduizen­d; die downloaden is nog te doen. Die kun je dan full text weer door de machine laten lezen en terugbreng­en tot tweehonder­d, die je nog zelf moet lezen en beoordelen.” Is dit eigenlijk een zijpad in uw onderzoek? Wat is de hoofdlijn? „Ik doe onderzoek naar bayesiaans­e statistiek: kansbereke­ning waarbij je ook voorkennis meeneemt in je modellen, bijvoorbee­ld kennis van experts of uit eerdere artikelen. Dit past daar dus helemaal in.”

af als ontwikkeli­ngspsychol­oog en in 2010 promoveerd­e hij cum laude op bayesiaans­e statistiek.

 ??  ??

Newspapers in Dutch

Newspapers from Netherlands