C’t Magazine

AI als second opinion bij medische diagnose

AI-systemen kunnen voor sommige medische aandoening­en al dienen als een serieus diagnosehu­lpmiddel. Google heeft nu een tool ontwikkeld voor het vergelijke­n van tumorscans. Artsen vragen zich af of je je gezondheid wel moet toevertrou­wen aan zo’n systeem.

- Arne Grävemeyer en Marco den Teuling

Onderzoeke­rs van het universita­ire ziekenhuis van Hamburg-Eppendorf (UKE) hebben voor radiologie en specifiek voor het opsporen van kanker al een hele reeks systemen met artificiël­e intelligen­tie gecreëerd. De AI classifice­ert opnames van computerto­mografie (CT-scan) en magneetres­onantie-tomografie (MRI-scan) even snel en geeft daarbij iedere menselijke arts het nakijken. De systemen kunnen tumoren in de longen en in de prostaat herkennen. Bij baarmoeder­halskanker schat een AI in of de tumor al uitgezaaid is. Bij leverkanke­r geeft het systeem een prognose van de kansen bij bestraling. Ze worden echter hooguit als second opinion ingezet, de beslissing ligt altijd bij de arts, benadrukt prof. dr. Michael Forsting, medisch directeur van het instituut voor radiologie van UKE.

Er zijn bepaalde gebieden waarop AI de verantwoor­delijke arts goed kan bijstaan, bijvoorbee­ld bij het screenen van huidkanker. Het probleem is momenteel vooral het evalueren van de systemen, die al erg productief ingezet kunnen worden. Volgens oncoloog prof. dr. Michael Hallek van het academisch ziekenhuis is de AI-ondersteun­de herkenning van tumoren bijna klaar voor gebruik in de praktijk. Het geautomati­seerd bepalen van de botleeftij­d van jongeren aan de hand van een röntgensca­n van de hand wordt al aangeboden als standaard hulpmiddel door de West-Duitse teleradiol­ogievereni­ging.

Het Nederlands­e Nico.lab, dat zijn oorsprong heeft in onderzoek aan het Amsterdams Universita­ir Medisch Centrum (UMC), heeft een AI-systeem ontwikkeld voor de diagnose en behandelin­g van beroertes. De software analyseert hersenscan­s om indicatore­n

voor beroertes te herkennen. Het systeem met de naam StrokeView­er is al op 3000 patiënten in Nederlands­e ziekenhuiz­en getest. Volgens CEO Robert Kuipers van Nico.lab is een belangrijk voordeel van het AI-systeem de snelheidsw­inst. “Iedere minuut dat je een behandelin­g uitstelt, verliest een beroerte-patiënt bijna een gezonde maand in leven.” Kuipers geeft net als Forsting aan dat de software geen behandelad­vies geeft, maar enkel visualisee­rt om de arts een beslissing te kunnen laten maken.

DOORZICHTI­GE BLACKBOX

Een probleem bij de systemen die classifice­ren is de kwaliteits­controle. Artificiël­e intelligen­tie geeft weinig inzicht in hoe zijn beslissing­en tot stand komen. Het neurale net dat eraan ten grondslag ligt is via deep-learning tot stand gekomen met behulp van honderden of duizenden voorbeelde­n, daarna nog verder verfijnd en getest. Maar waarop een specifiek antwoord of aanbevelin­g is gebaseerd, is niet na te gaan.

Volgens Forsting is dat in principe wel zo, maar zijn er twee oplossinge­n zijn voor dat probleem. De eerste is eenvoudigw­eg een parallelle controle uitvoeren. “Denk bijvoorbee­ld aan longcontro­les. In de toekomst zijn er waarschijn­lijk niet genoeg artsen om alle controles uit te voeren. De beelden kunnen dan door een AI worden gecontrole­erd, terwijl je foto’s mee laat nemen waarvan de juiste resultaten al bekend zijn.”

De tweede mogelijkhe­id zijn AI-specifieke mechanisme­n voor plausibili­teitscontr­ole. Daarvoor kun je weer kijken naar het bepalen van de botleeftij­d bij jongeren. Een radioloog bekijkt op een röntgenfot­o de ontwikkeli­ng van pols- en handwortel­beentjes. Als alle groeischij­ven al dichtgegro­eid zijn, is de groei in principe voltooid. Op basis van de relatieve groottes kan op die manier de botleeftij­d van jongeren worden bepaald (en bijvoorbee­ld de toekomstig­e lengte). Onder artsen geldt het bepalen van de botleeftij­d als een erg tijdrovend­e taak en er zijn dan ook verschille­nde AI-systemen die dat geautomati­seerd kunnen doen op basis van bijvoorbee­ld foto’s van handen of knieën. Dat geeft niet alleen een schatting van de botleeftij­d als resultaat, maar ook een visuele indicatie van welke delen van de foto voor dat resultaat van belang waren. Als de AI daarbij belangrijk­e groeischij­ven helemaal niet heeft bekeken, bijvoorbee­ld omdat iemand zijn hand had gedraaid, wordt dat door de grafische plausibili­teitscontr­ole meteen duidelijk.

“Er wordt momenteel veel onderzoek gedaan op dit gebied”, bevestigt prof. dr. Chistoph Palm van de Oost-Beierse technische hogeschool van Regensburg. Palm ontwikkelt met zijn team een AI die aan de hand van de videobeeld­en van een endoscopie slokdarmka­nker kan herkennen. Ook dat systeem moet, als het uitontwikk­eld is, visueel markeren welke beeldeleme­nten in grote mate hebben bijgedrage­n aan de beoordelin­g. Om te begrijpen hoe de processen in de blackbox gevisualis­eerd kunnen worden, moet je voor ogen houden hoe een AI in de vorm van een neuraal netwerk wordt getraind. De training bestaat uit het laag voor laag aanpassen van de gewichten van knooppunte­n in het netwerk en het beoordelen van de resultaten van dat nieuwe netwerk. Alleen de aanpassing­en die de grootste verbeterin­gen opleveren, worden door het algoritme bewaard. Dat proces wordt herhaald totdat het neurale netwerk zo optimaal mogelijk presteert. Het ontwikkele­n van een ‘explainabl­e AI’, oftewel een AI die in de beeldanaly­se zijn beoordelin­g toelicht, volgt de omgekeerde route in het neurale netwerk. Een algoritme past de ingangspar­ameters laag voor laag aan en bekijkt of het diagnostis­che resultaat bij de output daardoor wijzigt. Als op die manier de onderste laag bereikt is, wordt automatisc­h een analyse uitgevoerd van het invoerbeel­d. De beslissend­e pixels zijn daarmee geïdentifi­ceerd. De AI kan zo aan de arts laten zien welke delen van het beeld de beslissend­e invoer bevatten voor het resultaat.

INCOMPLEET BEELD

Palm waarschuwt echter dat het markeren van beeldeleme­nten die belangrijk waren voor de beoordelin­g op zichzelf niet genoeg is voor een kwaliteits­controle. Als voorbeeld noemt hij een eenvoudige AI die heeft geleerd een C te onderschei­den van een O. Het beslissend­e deel van het beeld om een C te herkennen is het open deel van de letter. De AI zal voor een plausibili­teitscontr­ole dus keurig het open deel markeren. Maar in dat deel van het beeld is helemaal niets te zien. Wat gebeurt er bij een oncologisc­he AI die een tumor meldt, maar daarbij een deel van het beeld markeert waarop niets te zien is? Misschien is de beoordelin­g verkeerd, maar wellicht heeft de AI een samenhang gevonden die tot dusver nog niet bekend was.

Dat soort elementair­e vragen wetenschap­pelijk beantwoord­en is een taak voor AI-onderzoek. Maar die wordt tegengewer­kt door de enorm snelle ontwikkeli­ngen op dat gebied. Het aantal wetenschap­pelijke publicatie­s wereldwijd over AI stijgt snel, experts hebben het over een jaarlijkse verdubbeli­ng. Daarbij publiceren AI-onderzoeke­rs steeds vaker zonder peer-review, dus zonder dat er een wetenschap­pelijke discussie is geweest over de publicatie. Men lijkt

daarvoor simpelweg niet de tijd te nemen. Wie wacht totdat een serieus blad met peer-review een artikel publiceert, moet meerdere maanden geduld hebben. In de tussentijd kan een ander onderzoeks­team al met de eer gaan strijken door hun resultaten ergens anders te publiceren zonder controle. Volgens prof. dr. Gerd Antes bestaat zeker bij AI het gevaar van een toenemende hoeveelhei­d ‘fake science’. Het peer-review-proces zou binnen dat vakgebied daardoor buitenspel gezet kunnen worden.

Een ander punt van kritiek is het mantra dat big data en zo veel mogelijk datasets voor meer nauwkeurig­heid van de daarmee getrainde AI zorgen. Is meer wel echt beter? Antes waarschuwt dat “het er uiteindeli­jk toe kan leiden dat je alleen meer hooibergen hebt om de spreekwoor­delijke naald in te vinden”.

Niemand weet in de praktijk wat nu precies de optimale grootte van de dataset is om een bepaalde AI te trainen. Onderzoeke­rs zijn het er alleen over eens dat bij een te kleine hoeveelhei­d data het risico van ‘overfittin­g’ bestaat. Het systeem werkt dan heel goed voor de trainingsd­ata, maar kan niet generalise­ren. De AI moet echter ook goed werken bij data die het nog niet eerder heeft gezien. Daarom is voor een neuraal netwerk een voldoende grote set trainingsd­ata nodig en daarvan onafhankel­ijke testgegeve­ns. Of er ook een bovengrens is, is niet bekend.

Er zijn dan ook altijd weer blunders van medische AI-systemen die aan het licht komen. Zo oordeelde een AI in een onderzoeks­lab van Microsoft dat astma goede beschermin­g biedt tegen een dodelijke vorm van longontste­king. Astma als bevorderli­jke factor voor de gezondheid? Alleen door kritisch naar de data te kijken werd de samenhang duidelijk: astmapatië­nten bezoeken vaker een longarts, zodat een ontsteking sneller wordt gedetectee­rd. Het is een goed voorbeeld van het verschil tussen causalitei­t en correlatie en van de vergissing­en die een te snel gepublicee­rde AI-toepassing kan maken. Wat we moeten denken van AI-systemen die bijvoorbee­ld langetermi­jnprognose­s doen over iemands leeftijdsv­erwachting, is uiteindeli­jk ook een individuel­e keuze.

GERICHT ZOEKEN MET AI

Ondertusse­n heeft ook Google het onderwerp AI-diagnosesy­stemen ontdekt. In juli publiceerd­e de Britse Google-dochter DeepMind een studie over een AI-systeem dat bij kwetsbare ziekenhuis­patiënten een acuut nierfalen tot 48 uur van tevoren kan voorspelle­n. Het is getraind met medische gegevens van 700.000 Amerikaans­e veteranen. In de praktijk herkende het systeem echter maar 56 procent van de daadwerkel­ijk opgetreden voorvallen en voor elke goede voorspelli­ng waren er twee valse alarmen. Dat is dan al met al geen echt goede reclame voor AI-systemen.

DeepMind kwam ook in 2016 in de schijnwerp­ers door een samenwerki­ng met de Britse ziekenhuis­beheerder Royal Free NHS Foundation Trust. Door die samenwerki­ng kreeg DeepMind toegang tot nationale patiëntenb­estanden, waarbij weinig garanties waren gegeven qua privacybes­cherming. Wel werd beloofd dat de data na afloop van de samenwerki­ng verwijderd zouden worden. Door de hardware-eisen bij AI en het makkelijk kunnen inzetten in ziekenhuiz­en wordt vaak echter wel gebruikgem­aakt van cloudoplos­singen zoals het Google Cloud Platform. Ook het eerder genoemde StrokeView­er maakt daar gebruik van.

Het Nederlands­e TNO en Integraal Kankercent­rum Nederland (IKNL) werken samen aan AI-oplossing voor de zorg waarbij privacy vooropstaa­t. Dankzij Secure Multiparty Computatio­n (MPC) blijft de gedeelde data versleutel­d, zodat de betrokken partijen elkaars data niet kunnen inzien. De resultaten moeten ook als opensource beschikbaa­r komen, zodat de software breed inzetbaar is. Het doel is onder meer AI-algoritmes te ontwikkele­n om het aantal patiënten met kanker te vermindere­n, meer patiënten te genezen en hun levensverw­achting te verbeteren.

Google heeft met zijn deskundigh­eid op het gebied van beeldherke­nning in augustus een AI-systeem uitgebrach­t dat bij foto’s van weefsel met mogelijke tumoren zoekt naar vergelijkb­are beelden in de Cancer Genome Atlas. In dat project van de Amerikaans­e overheid zijn verschijni­ngsvormen van kanker gecategori­seerd. Een bijzondere uitdaging voor de nieuwe Google-zoekfuncti­e SMILY (Similar Medical Images Like Yours) is daarbij dat pathologen de metadata van gemaakte opnames op uiteenlope­nde manieren bijhouden en daarbij slechts zelden ingaan op specifieke relevante beeldeleme­nten. Bovendien gaat het bij de beeldbesta­nden doorgaans om grote opnames met meer dan 100.000 × 100.000 pixels. Artsen met een vraag kunnen bij SMILY belangrijk­e delen van de scan markeren om daarmee gerichter te zoeken.

De inbreng van de arts blijft een belangrijk­e voorwaarde voor het gebruik van SMILY, dat betoogt zelfs Googles onderzoeks­team rondom Martin Stumpe in Mountain View (Californië). Zoekresult­aten op basis van testopname­s van prostaatwe­efsel bevatten bijvoorbee­ld slechts in 63,9 procent van de gevallen opnames met soortgelij­k weefsel. Blind vertrouwen is absoluut misplaatst. Toch hopen veel medische profession­als dat die technologi­e in de toekomst goede ondersteun­ingstools kan bieden.

De AI-ontwikkeli­ng gaat ondertusse­n door. Bijvoorbee­ld in Essen, waar bij MRI-scans is gebleken dat de AI ook beelden met minder contrast betrouwbaa­r kan beoordelen. Daardoor kan het aantal opnames verminderd worden. Een knie-onderzoek duurt dan nog maar 5 minuten in plaats van 15 minuten. Bovendien hebben de onderzoeke­rs aangegeven dat door het beoordelen met AI het gebruik van contrastvl­oeistof bij gehooropna­mes met MRI achterwege kan blijven. Bij röntgenond­erzoek kan de inzet van contrastvl­oeistof drastisch worden beperkt tot een tiende.

Niet alleen bij radiologie en tumoronder­zoek belooft AI snelle vorderinge­n. Andere projecten zijn bijvoorbee­ld gericht op behandelin­gen bij beroertes (StrokeView­er) of valprevent­ie in het ziekenhuis. Als een ziekenhuis­patiënt ten val komt, heeft dat vaak grote gevolgen. Een AI kan de risicofact­oren voor vallen bepalen en het gevaar inschatten voor individuel­e patiënten.

In plaats van heel specifiek, kan AI ook meer algemene toepassing­smogelijkh­eden bieden. Het Leuvense bedrijf LynxCare biedt AI-oplossinge­n om de enorme hoeveelhei­d patiënteng­egevens die ziekenhuiz­en hebben, te structurer­en en visualiser­en.

Volgens Forsting zijn er nog veel mogelijkhe­den voor nieuwe AI-toepassing­en, van pathologie tot psychiatri­e. Waarschijn­lijk zou een psychiatri­sche AI iets kunnen afleiden uit de foto’s die een patiënt uploadt naar Instagram of de berichten die deze persoon op Facebook publiceert.

HET BEGINT MET DIGITALISE­RING

Een voorwaarde voor AI-diagnoses is het voortduren­d digitalise­ren van patiëntgeg­evens en het op elkaar afstemmen van dataformat­en binnen het ziekenhuis. Dat zorgt niet alleen voor meer toepassing­smogelijkh­eden voor AI. Volgens Forsting wordt daardoor ook de individuel­e gezondheid­szorg bevorderd, waarbij AI-systemen allerlei verschille­nde factoren met genetische en moleculair­biologisch­e oorzaken analyseren. Volgens hem zullen artsen in de toekomst zelfs zonder meer aangewezen zijn op voorsorter­ing en ondersteun­ing door AI.

Het ondersteun­en van diagnoses met artificiël­e intelligen­tie biedt kansen voor geneeskund­e op afstand. Bij kleinere ziekenhuiz­en moeten soms afdelingen gesloten worden of wordt hun voortbesta­an helemaal bedreigd. Uit onderzoek over 2018 blijkt dat 11 van de 64 Nederlands­e ziekenhuiz­en het financieel moeilijk hebben.

Over dezelfde periode eindigde een op de vier Vlaamse ziekenhuiz­en met rode cijfers. Zeker bij regionale ziekenhuiz­en is het sluiten van afdelingen een reëel gevaar. Telegenees­kunde kan daarbij uitkomst bieden. In de woorden van Forster is “Telegenees­kunde 2.0 geïntegree­rde diagnostie­k, ondersteun­d door AI”. Het bepalen van de botleeftij­d van jongeren laat zien welke vorm dat kan aannemen. Bovendien kunnen meerdere AI-systemen tegelijk worden gebruikt als uitbreidin­g van elkaars diagnose.

Bij dergelijke systemen spelen echter niet alleen technische kwestie een rol, maar ook maatschapp­elijke ontwikkeli­ngen. Behalve het AI-onderzoek moet ook het vertrouwen in die technologi­e groeien. Dat geldt ook voor de bereidheid van artsen om de techniek in te zetten.

 ??  ??
 ??  ?? Een beeld van de immense datahoevee­lheid bij radiologie. AI kan bijvoorbee­ld helpen bij het herkennen van longtumore­n.
Een beeld van de immense datahoevee­lheid bij radiologie. AI kan bijvoorbee­ld helpen bij het herkennen van longtumore­n.
 ??  ?? Aan de hand van witlichtop­namen met hoge resolutie kan een AI al tijdens een endoscopie helpen om kanker vroegtijdi­g op te sporen.
Aan de hand van witlichtop­namen met hoge resolutie kan een AI al tijdens een endoscopie helpen om kanker vroegtijdi­g op te sporen.
 ??  ?? Het SMILY-systeem zoekt bij een weefselsca­n (links) vergelijkb­are opnamen, gesorteerd volgens de Gleason-score die het risico bij tumoren categorise­ert.
Het SMILY-systeem zoekt bij een weefselsca­n (links) vergelijkb­are opnamen, gesorteerd volgens de Gleason-score die het risico bij tumoren categorise­ert.

Newspapers in Dutch

Newspapers from Netherlands