AI-baserede forskningsprojekter

Tjekliste til AI-baserede forskningsprojekter

Denne tjekliste er udarbejdet som guidance for forskningsprojekter, der omfatter udvikling, anvendelse og/eller afprøvning af AI-baseret sundhedsteknologi. Tjeklisten spænder således bredt gennem alle faser af en udviklingsproces, og det er derfor ikke alle spørgsmål, der er relevante for alle typer af projekter. Tjeklisten er samtidig ikke juridisk bindende, og den erstatter ikke andre relevante tjeklister. Teksten består af en række spørgsmål og noget forklarende tekst, der er beregnet til at understøtte udarbejdelse, projektstyring og vurdering af forskningsprojekter, der vedrører AI. Vigtigheden af de forskellige spørgsmål afhænger i udgangspunktet af AI-modellens udviklingsniveau, kompleksitet og risikoprofil. Generelt gælder det, at jo længere fremme modellen er i sit udviklingsforløb, jo mere kompleks den er, og jo større de potentielle risici er, desto større er også behovet for, at de relevante forhold beskrives og begrundes nærmere i projektmaterialet.

1. Træningsmateriale

Fra et videnskabsetisk perspektiv er det vigtigt, hvilket materiale en model er trænet på, hvordan materialet er indhentet, og hvordan træningsmaterialet kvalitetssikres og dokumenteres. Det er derfor værd at få beskrevet, hvilken form for materiale der er tale om, hvordan materialet er udvalgt, og hvor omfattende materialet er. Det væsentligste i den forbindelse er, at datagrundlaget er relevant og repræsentativt for den population, modellen skal anvendes på i fremtiden. Her er det blandt andet værd at være opmærksom på, om der er forhold i datamaterialet, der afspejler forældede historiske mønstre eller insitutionelle praksisser, der ikke længere reflekterer virkeligheden. Det er også værd at få beskrevet, hvordan data er indsamlet, hvilken kontekst det stammer fra, hvorvidt der er indhentet samtykke (hvis relevant), og hvordan dataindsamlingen tager hensyn til retten til privatliv. Man skal således sikre, at data er indsamlet med tilstrækkelig hjemmel, og at data så vidt muligt ikke anvendes uden en rimelig forventning hos de mennesker, som data oprindeligt stammer fra. Det kræver i nogle tilfælde, at der indhentes et egentligt samtykke, mens det i andre tilfælde er tilstrækkeligt, at man rimeligvis kan forvente, at folk ikke ville modsætte sig brugen af deres data. Endelig er det værd at få beskrevet, hvordan man vil sikre datakvalitet, sporbarhed og dokumentation, så potentielle fejl og skævheder ved modellen kan opdages og spores.

Hvilken type data er der tale om, og hvor omfattende er træningsmaterialet?
Hvordan er træningsdataene blevet indsamlet, og er der indhentet samtykke, hvor det er relevant?
Hvordan dokumenteres og kvalitetssikres træningsmaterialet?

2. Bias

Bias er et andet væsentligt etisk anliggende, da AI-modeller potentielt kan genskabe og opskalere eksisterende uligheder i sundhed. Det gælder især, hvis skævheder i datagrundlaget for modellen er et resultat af historiske uretfærdigheder. Et hensyn til retfædighed kræver derfor opmærksomhed på, hvorvidt modellen potentielt er mindre præcis eller mere skadelig for medlemmer af bestemte grupper – også selvom modellen præsterer godt hen over et gennemsnit. Det vigtige i denne sammenhæng er, at modellen ikke systematisk stiller nogle grupper dårligere end andre. Det er ikke noget, man kun skal sikre sig i forbindelse med udvikling, men også løbende over tid, eftersom bias i modeller nogle gange først viser sig, når modellen møder virkeligheden. Det er derfor vigtigt, at man løbende tester og overvåger for eventuelle skævheder i modellens output, så man mindsker risikoen for, at AI-modellen systematisk leverer en dårlig kvalitet og/eller en højere risiko til medlemmer af bestemte grupper. Endelig er det værd at overveje, om bestemte grupper kunne blive uforholdsmæssigt hårdt ramt ved fx, at brugere lægger for meget vægt på modellens output, overser dens begrænsninger eller anvender modellen ukritisk i bestemte situationer.

Er der taget højde for potentielle skævheder i modellens træningsmateriale?
Hvordan testes og overvåges modellen for eventuelle bias i dens output – både under udvikling og løbende i forbindelse med driften?
Hvordan kan eventuelle bias i modellen påvirke brugernes beslutninger, og hvilke tiltag er implementeret for at reducere eller kompensere for dem i praksis?

3. Risici

Ligesom andre systemer kan AI-modeller medføre skade: hvis de fejler, bruges forkert eller medfører utilsigtede negative konsekvenser. Det er derfor afgørende, at man identificerer potentielle skadesveje og sørger for, at fejl bliver rapporteret og håndteret i praksis. Det er i den sammenhæng værd at være opmærksom på, at (nogle) modeller kan ændre adfærd over tid, ligesom de kan bruges på måder, der ikke var forudset ved udviklingen. Det er yderligere værd at være opmærksom på, at forskellige typer af fejl (som fx falske positiver og falske negativer) kan have meget forskellige etiske implikationer, ligesom de kan have betydning for, hvem der bærer byrden ved en fejl. Endelig er det værd at bemærke, at risiko i denne kontekst ikke kun handler om direkte eller tekniske fejl, men også om hvordan modellen potentielt kan medføre skade gennem utilsigtede ændringer af arbejdsgange eller ved, at brugere tillægger modellen større (eller mindre!) autoritet, end modellen fortjener. Et signal kan hurtigt blive noget, som det forventes, at man reagerer på, uanset om man har en faglig begrundelse for at fravige, eller noget som man systematisk afviger fra på grund af alarmtræthed. Etisk forsvarlig udvikling og implementering af AI-modeller kræver derfor systematisk risikovurdering, klare beredskaber og løbende opmærksomhed på utilsigtede konsekvenser og misbrug.

Under hvilke betingelser kan modellen fejle, og hvordan identificeres, rapporteres og håndteres fejl i praksis?
Hvilke konsekvenser kan forkerte eller misvisende output have for brugere (eller patienter), og hvordan bliver disse risici afbødet?
Hvordan håndteres risici for eventuelt misbrug såvel som utilsigtede konsekvenser ved brug af modellen?

4. Forklarlighed

Hensynet til forklarlighed er på mange måder et hensyn til autonomi eller selvbestemmelse, som er omsat til en kontekst af maskinlæring og AI-modeller. Princippet er dog det samme: at man skal vise respekt for menneskers mulighed for at træffe informerede valg. Det gælder særligt for beslutninger, der har betydelige konsekvenser for menneskers liv og sundhed. Det betyder i denne sammenhæng, at det skal være muligt for de personer, der påvirkes af en models output, at kunne forstå, hvad outputtet bygger på, og hvilke begrænsninger der gælder. Ikke nødvendigvis i tekniske detaljer, men på et niveau, der er meningsfuldt for de berørte parter. Det skal således være muligt for både brugere, fagpersoner og myndigheder at vurdere, om modellen er troværdig og passende til formålet. Det kræver tydelig kommunikation omkring usikkerheder og mulige situationer, hvor modellens output skal anvendes med særlig forsigtighed eller omtanke. Udover at vise hensyn til menneskers autonomi og dømmekraft, gør forklarlighed det også nemmere at kritisere og kontrollere modellens output, så fejl og urimelige resultater lettere kan opdages og udfordres.

Hvordan kan modellens beslutninger, anbefalinger eller output forklares, og på hvilket niveau (teknisk, operationelt, brugerrettet)?
Hvordan kan man (som bruger eller myndighed) efterse, validere eller udfordre modellens output?
Hvilke begrænsninger og usikkerheder kommunikerer modellen sammen med sit output?

5. Ansvar

Ansvar er et centralt etisk anliggende, eftersom AI-modeller ikke i sig selv kan bære et juridisk eller moralsk ansvar. Det er derfor helt afgørende, at der er klarhed omkring, hvem der har det konkrete ansvar for henholdsvis udvikling, implementering, overvågning og anvendelse af modellen. Både så man kan forebygge skade, men også så man kan reagere ordentligt, hvis skade ikke desto mindre skulle opstå. Det kræver, at man tænker ansvar ind fra starten af en udviklingsfase, og at man sikrer tilstrækkelige mekanismer og strukturer for overvågning af modellen. Ellers bliver det svært at forstå, hvorfor en given fejl opstod, og om nogen eventuelt kunne/skulle have grebet ind. Det er i den sammenhæng også værd at være opmærksom på, at AI-modeller kan skabe forskydninger i ansvar ved at flytte rundt på, hvem der har pligt til at gøre hvad. Det kan blandt andet betyde, at der bliver lagt et uforholdsmæssigt stort ansvar på de mennesker, der er tættest på teknologien i dagligdagen, selvom de vigtigste beslutninger allerede er truffet i forbindelse med udvikling og implementering. I praksis er ansvar derfor knyttet tæt sammen med retfærdighed, tillid og organisatorisk ledelse.

Hvem har det endelige ansvar for modellens beslutninger og output?
Hvordan dokumenteres udviklings- og beslutningsprocesser, så det er muligt at spore, hvordan et bestemt output er opstået?
Hvilke mekanismer og governance-strukturer er på plads for at håndtere og tildele ansvar, hvis modellen forårsager skade eller medfører utilsigtede konsekvenser?