banner

Blog

Dec 03, 2023

Entwicklung robuster Benchmarks zur Förderung von KI-Innovationen im Gesundheitswesen

Nature Machine Intelligence Band 4, Seiten 916–921 (2022)Diesen Artikel zitieren

5730 Zugriffe

2 Zitate

21 Altmetrisch

Details zu den Metriken

Technologien des maschinellen Lernens finden zunehmend Anwendung im Gesundheitswesen. Die Haupttreiber sind offen verfügbare Gesundheitsdatensätze und ein allgemeines Interesse der Gemeinschaft, ihre Kräfte zur Wissensentdeckung und zum technologischen Fortschritt in diesem eher konservativen Bereich zu nutzen. Mit diesem zusätzlichen Band gehen jedoch eine Reihe von Fragen und Bedenken einher: Sind die erhaltenen Ergebnisse aussagekräftig und die Schlussfolgerungen korrekt? Woher wissen wir, dass wir den Stand der Technik verbessert haben? Ist das klinische Problem klar definiert und geht das Modell darauf ein? Wir denken über Schlüsselaspekte in der End-to-End-Pipeline nach, die unserer Meinung nach in diesem Bereich am meisten leiden, und schlagen einige bewährte Vorgehensweisen vor, um eine Wiederholung dieser Probleme zu vermeiden.

Unsere Zielgruppe ist jeder, der Benchmarking-Experimente zum maschinellen Lernen (ML) im Gesundheitswesen durchführt und diese Ergebnisse auf Konferenzen oder Fachzeitschriften vorlegt; und alle, die für diese Veranstaltungsorte eine Bewertung abgeben. Unter klinischem Benchmarking verstehen wir die Verfolgung des kombinierten Prozesses.

Auswahl eines Problems im Gesundheitsbereich.

Verwendung oder Erstellung begleitender Datensätze.

Entwicklung einer Suite von ML-Modellen und der entsprechenden Infrastruktur.

Bewerten dieser Modelle anhand einer Reihe von Kriterien, wie gut sie das ursprüngliche Problem lösen.

Das Problem, einen guten Benchmark zu finden, ist im Gesundheitswesen weitaus größer, da keine ausreichende Übereinstimmung darüber besteht, was dieser eigentlich ausmacht1. Wenn in einem typischen Forschungszyklus ML zum ersten Mal auf einen neuen medizinischen Bereich angewendet wird, führt dies zu einer Veröffentlichung, die die Modellleistung misst und die Messlatte für dieses Problem setzt. Der Datensatz, die Grundwahrheit, die Metriken oder der Code werden nicht immer so genau unter die Lupe genommen wie beim herkömmlichen ML, da ein großes Interesse daran besteht, zu sehen, was die neue Technologie tatsächlich in der Praxis leisten kann. Wir würden argumentieren, dass Benchmarking-Papiere noch genauer unter die Lupe genommen werden sollten, da unterschiedliche Definitionen, Aufbauten und Bewertungen zu vielen falschen Darstellungen der Ergebnisse sowie zu Verwirrung bei Neulingen auf dem Gebiet darüber führen können, wie sie ihre Arbeit vergleichen sollen.

In den nächsten vier Abschnitten behandeln wir die Bereiche, in denen unserer Meinung nach die meisten Diskrepanzen zwischen zwei verschiedenen Benchmarking-Veröffentlichungen liegen: Datensätze, Tools und Praktiken, Problemformulierung und Ergebnisse. Unserer Ansicht nach könnten solche Änderungen Auswirkungen auf die gesamte klinische Anwendung haben, da Fortschritte viel einfacher zu quantifizieren wären. Inspiriert von Ref. 2 klassifizieren wir unsere Vorschläge in drei Kategorien: notwendig, empfohlen und ermutigt (Kasten 1–4). Jeder Abschnitt baut auf dem vorherigen auf und wird in einen bestimmten Bereich eingeordnet, indem eine Mischung aus seinen Auswirkungen und der Schwierigkeit der Implementierung berücksichtigt wird. Auch wenn einige der Kategorisierung möglicherweise nicht vollständig zustimmen, gehen wir davon aus, dass wir eine Diskussion über diese Themen beginnen werden, die zu Veränderungen in diesem Bereich führen wird.

In diesem Bereich gibt es bereits Arbeiten, die sich entweder mit der Definition von Berichtsstandards (z. B. STARD-AI3, TRIPOD-AI4) oder der Festlegung von Best Practices für die Modellentwicklung und Technikberichterstattung befassen5. Beide Richtungen fördern die Einbeziehung zusätzlicher Details in die endgültigen Arbeiten, um Unsicherheiten hinsichtlich der verwendeten Methoden zu verringern. Wir glauben, dass unsere Arbeit auf diesen Arbeiten aufbaut und sie erweitert, indem wir die End-to-End-Pipeline betrachten und weniger erforschte Themen wie Tools und Infrastruktur angehen.

Große, qualitativ hochwertige, vielfältige und gut dokumentierte Gesundheitsdatensätze sind schwer zu erhalten, da der Datenaustausch in ML für die Gesundheitsforschung nicht die Norm ist6. Erstens enthalten Gesundheitsdatensätze äußerst sensible Informationen und unterliegen daher strengen Vorschriften, wobei neuere Untersuchungen darauf abzielen, die Einstellung der Patienten zum Austausch von Gesundheitsdaten zu verstehen7,8. Aus diesem Grund werden diese Datensätze in der Regel vor der Veröffentlichung anonymisiert. Dabei werden der Name des Patienten, die Identifikationsnummer sowie das Datum und der Ort der Datenerfassung entfernt. Dennoch wurde kürzlich gezeigt, dass anonymisierte Magnetresonanztomographie- (MRT) oder Computertomographiedaten zur Rekonstruktion des Gesichts eines Patienten verwendet werden können9, was die Frage aufwirft, ob die aktuellen Anonymisierungsstandards für eine sichere öffentliche Datenfreigabe ausreichen. Zweitens erfordern die Sammlung, Pflege und Kuratierung solcher Datensätze erheblichen Aufwand, Zeit und Kosten. Darüber hinaus werden die Datensätze als kommerzieller Wettbewerbsvorteil angesehen, und es gibt Fälle, in denen Unternehmen auf der Grundlage der ausschließlichen Nutzung eines Datensatzes gegründet werden. Daher haben sie tendenziell einen erheblichen geschäftlichen Wert, wodurch es für Datensammler weniger attraktiv ist, ihre Arbeit frei zu teilen. Um jedoch den Einfluss der Veröffentlichung von Forschungsergebnissen auf nicht öffentliche Datensätze zu erweitern und die Reproduzierbarkeit zu fördern, könnten Datenkuratoren eine Infrastruktur einrichten, die es der Community ermöglicht, Modelle zu entwickeln, indem sie datenschutzschonende ML-Techniken wie föderiertes Lernen nutzen10,11,12. In dieser Einstellung definiert der Datenverantwortliche sowohl während der Schulungs- als auch der Validierungsphase seine eigenen Governance-Prozesse, zugehörigen Datenschutzrichtlinien und Zugriffsverwaltungsstrategien. Dadurch wird die Erforschung von Gesundheitsdatensätzen durch externe Forscher unter Wahrung des Datenschutzes ermöglicht, wodurch der Fortschritt beschleunigt wird. Wir sind uns jedoch darüber im Klaren, dass die Einrichtung dieses Systems eine steile Lernkurve erfordert und es schwierig ist, solchen Systemen zu vertrauen, da diese Methoden relativ neu sind. Dann könnte es zu Beginn vorzuziehen sein, dass Datenkuratoren mit geprüften externen Datenwissenschaftlern zusammenarbeiten. Ein weiterer vielversprechender Bereich für die Aufrechterhaltung des Geschäftswerts ist die Rückverfolgung, wann ein Mitglied eines Datensatzes zum Trainieren eines Modells verwendet wird. Beispiele hierfür sind aktuelle Arbeiten zum „Wasserzeichen“ eines bestimmten Datensatzes, um die Identifizierung von darauf trainierten Modellen zu erleichtern13, oder Techniken wie die Zugehörigkeitsinferenz14. Wir weisen jedoch darauf hin, dass dieses Feld noch nicht etabliert ist. Daher ist bei diesem Weg Vorsicht geboten.

Die geringe Verfügbarkeit öffentlicher Gesundheitsdatensätze zwingt die Community oft dazu, sich auf ein oder zwei zugängliche Datensätze zu konzentrieren, wodurch sie sich zu sehr auf einige wenige Anwendungen konzentriert. Beispielsweise enthalten häufig verwendete elektronische Patientenakten wie die MIMIC-X-Serie15,16,17 hauptsächlich Daten von Intensivstationen, die häufig erfasst werden, aber nur einen Bruchteil der in Krankenhäusern aufgenommenen Patientenpopulation ausmachen. Darüber hinaus wird MIMIC-X von einer einzigen Website aus kuratiert und ist daher weniger wahrscheinlich für die Produktion fairer und integrativer ML-Modelle. Daher lassen sich die anhand dieser Datensätze entwickelten Modelle nicht unbedingt auf andere Stationen übertragen oder finden krankenhausweite Anwendungen. Eine gründliche Charakterisierung der Daten ist für externe Forscher und Entwickler erforderlich, um die Datenqualität zu bewerten und zu entscheiden, ob die im Papier vorgeschlagenen Methoden auf ihren Anwendungsfall erweitert werden können. Dies kann auch dazu beitragen, unerwünschte demografische Verzerrungen zu erkennen (z. B. eine verzerrte Verteilung nach Alter, Geschlecht, sozioökonomischem Status). Diese Datencharakterisierung kann durch eine Aufschlüsselung der verschiedenen Merkmale innerhalb des Datensatzes (informell als Daten aus Tabelle 1 bezeichnet) erreicht werden18); Weitere Vorschläge, wie dies erreicht werden kann, finden Sie im Abschnitt „Notwendig“ in Kasten 1.

Ein weiteres Beispiel ist, dass in den Jahren 2020–2021 in verschiedenen Arbeiten Modelle anhand von Datensätzen trainiert wurden, die Röntgenaufnahmen des Brustkorbs für die COVID-19-Modellierung enthielten, wobei Bilder von pädiatrischen Patienten die Kontrollgruppe darstellten. Allerdings werden solche Modelle wahrscheinlich eine überdurchschnittliche Leistung erbringen, da sie lediglich Kinder gegenüber Erwachsenen erkennen und von Natur aus voreingenommen sind19. Die bloße Verfügbarkeit dieses Datensatzes in den frühen Tagen der COVID-19-Pandemie führte dazu, dass die Community überindizierte, ohne sorgfältig zu prüfen, ob er für ihre Forschungsfrage geeignet war oder nicht. Solche Fälle könnten vermieden werden, wenn den Datensätzen zusammen mit dem Papier ein Transparenzartefakt (z. B. Healthsheet20) beigefügt würde. Der Healthsheet-Fragebogen beispielsweise enthält spezifische Fragen zu verschiedenen Aspekten eines Datensatzes wie dem Erhebungsprozess, der Zusammensetzung, der Verteilung, der Reinigung und empfohlenen Anwendungsfällen. Solche Artefakte verbessern die Transparenz und Verantwortlichkeit von Datensätzen und Datenkuratoren erheblich und bringen technische Ungleichgewichte an die Oberfläche (z. B. falsches Erfassungsprotokoll, Gerätehersteller), die sich negativ auf Modellvorhersagen auswirken können. Wir sind uns bewusst, dass die Erstellung eines zusätzlichen Artefakts zusammen mit ihrem Manuskript zeitaufwändig ist, da Forscher oft mit engen Fristen arbeiten. Um die Arbeitsbelastung zu bewältigen, können sich Forscher dafür entscheiden, solche Artefakte nach der Einreichung weiterzugeben.

Notwendig

Geben Sie eine ausführliche Beschreibung der Herkunft, Demografie und des Inhalts des Datensatzes an (z. B. Daten aus Tabelle 1).

Wenden Sie numerische (z. B. Mittelwert-, Varianz-, Min-, Max- und Korrelationsmatrizen) und/oder grafische (z. B. Streudiagramm, Histogramm, Heatmap und Dimensionsreduktion) explorative Datenanalysen an und beziehen Sie diese in die endgültige Arbeit ein.

Geben Sie Einzelheiten dazu an, wie die Qualität des Datensatzes überprüft wurde, indem Sie fehlende Merkmale, unausgeglichene Daten, doppelte Instanzen, Stichprobenverzerrungen und andere datensatzspezifische Probleme beschreiben.

Empfohlen

Geben Sie ein Transparenz-Artefakt frei, indem Sie standardisierte Fragebogenvorlagen (z. B. Healthsheet20) zusammen mit dem Papier verwenden.

Ermutigt (nur private Datensätze)

Nutzen Sie eine robuste Infrastruktur, die von gemeinnützigen Organisationen wie Openmined21 entwickelt wurde, um Gesundheitsdatensätze zu hosten und zu verwalten.

Einer der unsichtbareren und weniger diskutierten Aspekte der ML-Forschung ist die Infrastruktur. Mit dem Begriff „Infrastruktur“ beziehen wir uns auf den Entwurf eines Systems sowie auf den zugrunde liegenden Code, der es bildet, einschließlich der Umgebung, in der es ausgeführt wird, und der verwendeten Softwarebibliotheken. Auch wenn es oft als unspektakulär angesehen wird, ist es absolut notwendig und kann die Qualität und Reproduzierbarkeit des Ergebnisses beeinflussen oder beeinträchtigen.

Während die Rolle guter Codierungs- und Systemdesignpraktiken bereits für Produktions- oder Bereitstellungskonfigurationen untersucht wurde21, fehlen noch immer ausführliche Beschreibungen der für eine Veröffentlichung verwendeten Bibliotheken oder Pipelines. Dies ist im Gesundheitsbereich besonders wichtig, da jede aussagekräftige Erkenntnis schnell von Nachrichtenagenturen aufgegriffen und als fundierte Wahrheit verbreitet oder von anderen Forschern als Grundlage für zukünftige Untersuchungen verwendet wird. Wenn wir die Retraction-Datenbank nach aktuellen ML-Artikeln im Gesundheitswesen durchsuchen, die Fehler enthielten, können wir besorgniserregende Beispiele wie „einen hervorragenden Prädiktor für die Parkinson-Krankheit“ finden, von dem die Autoren behaupten, dass er „das Potenzial hat, die Diagnose der Parkinson-Krankheit und ihre Behandlung zu revolutionieren“. Bei einer späteren Untersuchung wurde festgestellt, dass es Fehler in den Daten, Fehler in den Methoden, Fehler in den Ergebnissen und Fehler in den Analysen aufwies. All dies könnte früher im Überprüfungsprozess erkannt werden, wenn ein detaillierter Abschnitt zur „genutzten Infrastruktur“ Warnsignale auslöst. Wir möchten Autoren ermutigen, ihre Implementierung und ihr Systemdesign ausführlicher zu beschreiben. Das Hinzufügen eines detaillierten Diagramms ihrer Modellierungspipeline oder die Einbeziehung strenger Beschreibungen von Datenverarbeitungsmodulen, wie z. B. Kartierungstools, die möglicherweise entwickelt wurden, sind einige Beispiele für das, was wir erwarten würden. Dabei handelt es sich um einen leichtgewichtigen Vorschlag, der relativ einfach zu übernehmen sein sollte und nur einen geringen Mehraufwand für die Autoren mit sich bringt.

Um dies allgemeiner durchzusetzen, möchten wir Konferenzen dazu ermutigen, die Frage „Wie wurde diese Implementierung überprüft?“ hinzuzufügen. Abschnitt für Einreichungen. Von den Autoren wird verlangt, dass sie beschreiben, welche Schritte sie unternommen haben, um die Korrektheit ihrer Arbeit sicherzustellen. Gegebenenfalls sind Codeüberprüfungen eine hervorragende Möglichkeit, jede Arbeit auf ihre Plausibilität zu überprüfen. Auch wenn sie nicht narrensicher sind, können sie dennoch dabei helfen, Probleme zu erkennen, bevor es zu spät ist. Darüber hinaus möchten wir uns dafür einsetzen, Unit-Tests hinzuzufügen und die Codeabdeckung zu überprüfen. Abgesehen von dem unmittelbaren Vorteil der Validierung des erwarteten Verhaltens ist es auch viel schneller, einen Code zu verstehen, wenn man sich anschaut, wie er in der Praxis verwendet wird, und Tests bieten einen Einblick darin. Während sich unsere Empfehlungen stark auf die Codierung stützen, erkennen wir an, dass bestimmte Techniken vorhandene Implementierungen wiederverwenden. Auch alternative Testmethoden, etwa die Prüfung, ob die Leistung mit der Originalarbeit übereinstimmt, würden abgedeckt. Während die Hinzufügung dieses Abschnitts sowohl für die Gutachter als auch für die Autoren einen Mehraufwand mit sich bringt, trägt sie zum allgemeinen Reproduzierbarkeitsziel bei und verbreitet bewährte Praktiken in der gesamten Community.

Dennoch kostet es Zeit und Ressourcen, die Richtigkeit der gemeldeten Ergebnisse zu überprüfen, nachdem sie öffentlich veröffentlicht wurden, und oft erfordert dies den kompletten Neuaufbau des Papiers von Grund auf. Um dies zu vereinfachen, haben Konferenzen und Zeitschriften damit begonnen, einen Abschnitt über die Codeverfügbarkeit aufzunehmen, um Forscher zu ermutigen, ihre Arbeit als Open Source bereitzustellen. Dies ist ein großer Fortschritt, und auch wenn die Code-Veröffentlichung noch nicht weit verbreitet ist, wird sie von der Forschungsgemeinschaft als wichtig erkannt. Beispielsweise sammelt die Konferenz „Machine Learning for Health“ (ML4H) Statistiken darüber, bei wie vielen Einsendungen der Code veröffentlicht wird. Im Jahr 2020 gaben nur 66 % der Einreichungen an, dass sie dies tun würden. Diese Zahl stieg im Jahr 2021 auf 73 %.

Wir glauben, dass Konferenzen darüber hinaus einen zusätzlichen Abschnitt mit der Bezeichnung „Experimentelle Umgebung“ verlangen sollten, der nicht auf die Seitenbegrenzung angerechnet werden sollte. Dies wäre eine Obermenge des Kontrollkästchens „Codeverfügbarkeit“, die von den Autoren verlangt, auch alle verwendeten öffentlich verfügbaren Bibliotheken und deren Version aufzulisten. Wir glauben, dass dies wichtig ist, da die Vertrautheit mit den verwendeten Tools ein wichtiger Faktor für die Vertrauenswürdigkeit ist. Wir verstehen, dass dies zunächst eine mühsame Aufgabe sein könnte, insbesondere wenn Projekte größer werden und Dutzende, wenn nicht Hunderte von Bibliotheken verwendet werden könnten, aber ohne sie gibt es keine echte Reproduzierbarkeit.

Vor allem bleibt die Open-Source-Veröffentlichung des Codes für die Community die transparenteste Möglichkeit, Ergebnisse zu überprüfen. Dies wird verstärkt, wenn es zusammen mit einem Skript zum Ausführen des Codes und je nach Möglichkeit mit echten oder synthetischen Daten veröffentlicht wird. Im Falle synthetischer Daten verweisen wir für weitere Empfehlungen auch auf den Abschnitt „Datensätze“.

Notwendig

Fügen Sie entweder im Hauptpapier oder im Anhang einen Implementierungsabschnitt hinzu.

Fügen Sie ein „Wie wurde diese Implementierung überprüft?“ hinzu. Abschnitt für Einreichungen.

Empfohlen

Fügen Sie in den endgültigen Arbeiten einen Abschnitt „Experimentelle Umgebung“ hinzu, der nicht auf die Seitenbeschränkung angerechnet werden sollte.

Ermutigt

Stellen Sie Links zum Open-Source-Code und Möglichkeiten zur Ausführung bereit.

Wir konzentrieren uns auf klinische Probleme, die als überwachte Vorhersageprobleme gestellt wurden, da diese den Großteil der ML-Literatur für das Gesundheitswesen ausmachen.

Der wichtigste Schritt beim überwachten Lernen im Gesundheitswesen besteht darin, zu entscheiden, welche klinischen Bezeichnungen vorhergesagt werden sollen. Fehler oder Verzerrungen bei der Kennzeichnung kommen bei ML häufig vor und können zu unterdurchschnittlichen Modellen führen. Es wurde geschätzt, dass Testsätze beliebter Datensätze im Durchschnitt mindestens 3,3 % Beschriftungsfehler enthalten22. Durch die Korrektur dieser Bezeichnungen können Modelle mit geringerer Kapazität die häufig genannten Modelle auf dem neuesten Stand der Technik übertreffen.

Die ordnungsgemäße Annotation von Instanzen in Gesundheitsdatensätzen hängt in der Regel vom Expertenwissen medizinischer Fachkräfte ab. Etiketten werden in der Regel entweder vollständig von Klinikern definiert oder halbautonom mithilfe regelbasierter Methoden unter Einbeziehung klinischer Leitlinien generiert. Beispiele für Ersteres sind die Hautklassifizierung anhand dermatologischer Bildgebung23, die Erkennung von Brustläsionen in Mammographien24, die Überweisungsempfehlung bei der optischen Kohärenztomographie25, die Segmentierung von Lymphknoten im multiparametrischen MRT26 und die Anfallserkennung mithilfe von EEG-Daten27. Von Experten geleitete Etiketten umfassen in der Regel die Entwicklung eines Regelsatzes zur Identifizierung bestimmter Bedingungen und die Verwendung des Regelsatzes zum Kommentieren des gesamten Datensatzes. Beispiele hierfür sind die Vorhersage unerwünschter Ereignisse oder Eingriffe in elektronische Patientenakten wie akute Nierenschäden28, mechanische Beatmung29, Medikamentenverordnungen30 und kontinuierliche Nierenersatztherapie31. In beiden Fällen würden die Etiketten den Arbeitsablauf eines Arztes genau widerspiegeln, wobei das Ziel der Etikettierung darin besteht, den Prozess zu dokumentieren, in dem medizinische Fachkräfte Entscheidungen treffen. Wir empfehlen daher dringend die Verwendung oder Verbesserung bestehender Labels, wie etwa derjenigen in der Phenotype KnowledgeBase32.

Bei von Experten definierten Etiketten ist es zwingend erforderlich, dass das Papier eine detaillierte Beschreibung des verwendeten Etikettierungsprozesses enthält. Beachten Sie, dass selbst wenn die Bezeichnungen vollständig von Experten definiert wurden, es zwischen den medizinischen Fachkräften zu Abweichungen bei der Annotation einer Instanz kommen kann. Forscher sollten berichten, ob ein einzelner Kliniker/Experte oder ein Expertenausschuss die Instanzen gekennzeichnet hat, und wenn letzteres der Fall ist, dann die Vereinbarung zwischen den Bewertern melden. Um die Gründlichkeit zu demonstrieren, sollten Autoren die durchschnittliche Zeit angeben, die zum Kommentieren jeder Instanz benötigt wurde. Forscher können auch einen Maßstab liefern, indem sie die Leistung auf menschlicher Ebene teilen. Beachten Sie, dass diese Vorschläge keinen Anspruch auf Vollständigkeit erheben und als Orientierung für die Forscher dienen. Diese Berichterstattung erfasst die Subjektivität der Kennzeichnung unter den Bewertern und vermittelt einen Eindruck von der Robustheit und Zuverlässigkeit des Kennzeichnungsprozesses. Es legt auch die Messlatte dafür fest, wie nachfolgende Studien die Kennzeichnung für andere in diesem Datensatz definierte Aufgaben angehen sollten.

Bei regelbasierten oder expertengesteuerten Etiketten ist ein robuster Prozess zu deren Validierung erforderlich, da sie in einzelnen Fällen häufig Anomalien aufweisen und/oder unter Etikettenlecks leiden. Wir schlagen vor, eine Analyse der Verteilung für jedes Label durchzuführen, einschließlich der Patientendemografie für Kohorten, die jeder Label-Klasse entsprechen, der Label-Anzahl pro Subjekt oder Instanz und der Verteilungsstatistik (Mittelwert, Median, Perzentile, Varianz). Darüber hinaus sollten für kontinuierliche Markierungen in zeitlichen Daten auch die Verteilung der Markierungsbeginnzeit und die Verteilung der Markierungsdauer angegeben werden. Diese sollten mit erfahrenen Ärzten abgeglichen werden, um etwaige Anomalien in der Etikettenverteilung zu erkennen.

Wir schlagen außerdem vor, dass Forscher untersuchen, ob in ihrer Problemformulierung ein potenzieller Label-Leak vorliegt. Dies führt in der Regel zu einer falsch hohen Leistung und erfordert Domänenkenntnisse zur Identifizierung und Lösung. Label-Lecks können aus verschiedenen Gründen auftreten, wenn Daten aus der Validierung oder dem Testsatz in den Trainingssatz gelangt sind. Dieses Problem kann relativ einfach gelöst werden, indem überprüft wird, ob dieselben Instanzen in mehreren Aufteilungen vorhanden sind und ob eine Duplizierung von Instanzen vorliegt, und indem sichergestellt wird, dass der Blindtestsatz gesperrt bleibt, bis die endgültigen Ergebnisse für die Aufnahme in die Arbeit berechnet werden. Etikettenlecks können auch auftreten, wenn bestimmte Betriebs- oder Beobachtungsmerkmale den Zustand eines Etiketts unerwünscht offenbaren. Forscher sollten eine Merkmalswichtigkeitsanalyse durchführen, um verdächtige Beziehungen zu untersuchen33. Wenn solche Merkmale identifiziert werden, sollten sie mit Ärzten überprüft werden, um festzustellen, ob sie tatsächlich einen unerwünschten Hinweis auf die Grundwahrheit geben.

Idealerweise würde dies in einem mehrstufigen Etikettenqualitätsrahmen kombiniert werden, der aus manueller Merkmalsprüfung, Etikettenstatistiken und Fallüberprüfungen besteht. Ein methodischer Ansatz ermöglicht es den Forschern, die Konsistenz während des gesamten Prozesses sicherzustellen. Dieser Ansatz ist zwar zeitaufwändig, kann jedoch, wenn er als Open-Source-Lösung verwendet wird, von der Community an andere Aufgaben im selben Datensatz oder sogar an Datensätze aus anderen Domänen angepasst werden, wodurch sich auf lange Sicht die Arbeitsbelastung verringert.

Von Experten definierte Etiketten

Notwendig

Fügen Sie eine detaillierte Beschreibung des in der Arbeit verwendeten Etikettierungsprozesses hinzu.

Von Experten geführte Etiketten

Notwendig

Fügen Sie im Hauptpapier einen Abschnitt „Label-Analyse“ hinzu.

Untersuchen Sie „Label Leakage“ in den Daten und nehmen Sie die Ergebnisse im Anhang oder in ergänzenden Informationen auf.

Empfohlen

Implementieren Sie ein mehrstufiges Etikettenqualitäts-Framework, das aus manueller Funktionsprüfung, Etikettenstatistiken und Fallüberprüfungen besteht.

Die Untersuchung und der Vergleich von Modellergebnissen wird zu einem entscheidenden Schritt, da das ultimative Ziel vieler Gesundheitsforschung darin besteht, die klinische Praxis in gewisser Weise zu unterstützen. Damit dies geschieht, müssen wir darauf vertrauen können, dass das Modell keinen Schaden anrichtet – weder durch eine Verschlechterung des aktuellen Zustands noch durch die Einführung neuer Probleme. Darüber hinaus gilt: Je weiter eine vorgeschlagene Methode von der klinischen Praxis entfernt ist, desto mehr Beweise benötigen wir, dass sie tatsächlich funktioniert.

Ein wachsender Bereich befasst sich mit der Bewertung der Fairness und Robustheit von ML im Gesundheitswesen, und eine Reihe von Arbeiten plädiert dafür, mehr Fairness-Metriken in die Modellberichterstattung aufzunehmen. Eine Möglichkeit hierfür wäre der Einsatz von Modellbewertungstools wie TensorFlow Model Analysis. Solche Tools sorgen nicht nur für mehr Konsistenz bei der Analyse, sondern bieten auch den Vorteil, dass sie APIs (Application Programming Interfaces) für Fairnessmessungen bereitstellen. Durch die Verwendung und Berichterstattung dieser Ergebnisse kann es zur gängigen Praxis werden, über die Leistung des gesamten Testsatzes hinauszuschauen. Durch die umfassende Berichterstattung über eine breite Palette von Metriken können verschiedene Aspekte des Modells hinterfragt und verstanden werden. Beispielsweise ist es von entscheidender Bedeutung, sich das Klassenungleichgewicht anzusehen und Metriken basierend auf dem Label-Skew darzustellen (z. B. die Fläche unter der Präzisions-Recall-Kurve neben der Fläche unter der Betriebscharakteristik des Empfängers anzugeben) sowie klinisch relevante Metriken einzubeziehen, wie z Sensitivität und Spezifität34.

Wenn es um Fairness und Robustheit geht, tauchen einige wichtige Probleme immer wieder auf: (1) Die Leistung ist zwischen den Untergruppen unterschiedlich; (2) Modelle mit ähnlicher Leistung verhalten sich auf unerwartete Weise anders, wenn es zu einer Abweichung von der Trainingsverteilung kommt. Jüngste Arbeiten haben gezeigt, dass allgemeine Abhilfemaßnahmen, die für einige Gerechtigkeitsprobleme entwickelt wurden, bei Anwendungen im Gesundheitswesen nicht so gut umgesetzt werden können35. Zusammen mit Ref. 36 zeigt eine Reihe von Stresstests, die während der Modelluntersuchung durchgeführt wurden und die unserer Meinung nach als Teil der üblichen Benchmarking-Routine durchgeführt werden sollten, um solche Probleme an die Oberfläche zu bringen, bevor es zu spät ist. In einer beliebten Benchmarking-Studie zu MIMIC-III1 wurde kürzlich festgestellt, dass es Probleme hinsichtlich Fairness und Generalisierbarkeit gibt37. Wir möchten daher betonen, wie wichtig es ist, dass sich die Community mit der Leistung des Modells in verschiedenen Kontexten vertraut macht und Stresstests einbezieht. Zukünftige Verbesserungen könnten dann nicht nur auf die Leistung des Basismodells im Trainingssatz abzielen, sondern auch prüfen, welche Technik im realen Kontext am belastbarsten ist.

Neben der Betrachtung von Metriken und Tabellen können Visualisierungen auch dabei helfen, die Leistung des Modells zu untersuchen. Einige Vorschläge wären Aktivierungsatlanten38, Aufmerksamkeits-Heatmaps39, Grand Tour40, integrierte Verläufe41 oder Konzeptaktivierungsvektoren42. Diese können dabei helfen, herauszufinden, was das Modell lernt, und diese Techniken in verschiedenen Kontexten zu testen, wodurch wertvolle Daten für zukünftige Forschungsrichtungen bereitgestellt werden. Wir möchten anerkennen, dass Ergebnisse im Bereich der Erklärbarkeit und Interpretierbarkeit von Modellen falsch interpretiert werden können43,44 und fordern die Forscher auf, sich mit den verschiedenen Techniken und ihren Fehlermöglichkeiten vertraut zu machen, um Missbrauch zu vermeiden.

Schließlich sind wir uns darüber im Klaren, dass bei der Fertigstellung einer Forschungsarbeit immer noch viel zu tun bleibt. In den meisten Fällen gibt es anhaltende Experimente, die die Autoren durchführen wollten, aber aufgrund verschiedener Einschränkungen nicht dazu in der Lage waren. Während einige in den Abschnitten zu den Einschränkungen aufgeführt sind, beziehen sich diese in der Regel auf die Fortsetzung bereits erwähnter Experimente. Wir glauben, dass die Aufforderung an die Autoren, die ausgelassenen Experimente weiter aufzuschreiben, dazu beitragen kann, diese Arbeit zu erweitern und das Bewusstsein für wichtige Tests zu schärfen.

Notwendig

Beziehen Sie Fairnessmessungen, Kalibrierungswerte und labelabhängige Metriken in die Modellbewertung ein.

Beziehen Sie Vergleiche mit Basismodellen ein und optimieren Sie den Kompromiss zwischen Bias und Varianz im Hinblick auf die Modellkomplexität.

Empfohlen

Führen Sie eine Fehleranalyse durch – identifizieren Sie Fälle, in denen das Modell ausfällt, und untersuchen Sie deren Gemeinsamkeiten. Für die strukturierte Fehleranalyse empfehlen wir Methoden wie das „Medical Algorithmic Audit“-Framework45.

Ermutigt

Fügen Sie ausführliche Beschreibungen der Experimente bei, die durchgeführt werden müssen, aber nicht durchgeführt wurden.

Fügen Sie der resultierenden Forschung Modellvisualisierungen hinzu.

Obwohl innovative ML-Modelle für das Gesundheitswesen entwickelt wurden, finden nur sehr wenige davon eine praktische Anwendung46,45. Aktuelle Umfragen zu ML-basierten klinischen Instrumenten haben gezeigt, dass gut validierte Modelle, die in der Entwicklungsphase eine gute Leistung erzielen, im Vergleich zur Routineversorgung möglicherweise keinen klinischen Nutzen für Patienten zeigen47.

Wir sind uns bewusst, dass der Einsatz von ML im Gesundheitswesen für Forscher schwierig ist, da zu den Hindernissen für die Umsetzung Regulierung, Anreize, mangelnde Wertschätzung und Bedenken hinsichtlich der Generalisierbarkeit gehören, um nur einige zu nennen. Darüber hinaus erfordern prospektive Validierungsstudien Zeit und Geld, was eine große Herausforderung darstellen kann. Unter diesen Umständen sollten Arbeiten, die einen Schritt weiter gehen47,48 und irgendeine Form von Validierungsstudien aufweisen, positiv hervorgehoben werden.

Arbeiten, die die klinische Wirksamkeit von ML-Tools untersuchen, sollten bei der Berichterstattung über verschiedene Aspekte der Studie streng sein, einschließlich, aber nicht beschränkt auf, Studiensetting, Einschlusskriterien, Mensch-Algorithmus-Interaktion und ihre nachgelagerten Auswirkungen, Methoden für kontinuierliches Lernen und vor allem einen Vergleich mit bestehende klinische Praxis. Um die Qualität der Berichterstattung zu verbessern, empfehlen wir den Autoren, validierte Richtlinien wie Checklisten zu befolgen, die von den Lenkungsgruppen CONSORT-AI und SPIRIT-AI45,49 veröffentlicht wurden.

Während sich aktuelle Benchmarking-Papiere eher auf die Schaffung eines Upstream-Data-Science-Benchmarks für die klinische Forschung im Gesundheitswesen konzentrieren, sind wir fest davon überzeugt, dass in der Zukunft der angewandten Gesundheitsforschung der Aspekt der klinischen Umsetzung viel stärker im Vordergrund stehen wird, da sich das Feld von der Theorie zur Praxis bewegt und die damit verbundenen Herausforderungen werden ausführlicher untersucht50,51.

Harutyunyan, H., Khachatrian, H., Kale, DC, Ver Steeg, G. & Galstyan, A. Multitasking-Lernen und Benchmarking mit klinischen Zeitreihendaten. Wissenschaft. Daten 6, 96 (2019).

Artikel Google Scholar

Heil, B. et al. Reproduzierbarkeitsstandards für maschinelles Lernen in den Biowissenschaften. Nat. Methoden 18, 1132–1135 (2021).

Viknesh, S. et al. Entwicklung spezifischer Berichtsrichtlinien für diagnostische Genauigkeitsstudien zur Bewertung von KI-Interventionen: die STARD-AI-Lenkungsgruppe. Nat. Med. 26, 807–808 (2020).

Collins, GS et al. Protokoll zur Entwicklung einer Berichtsrichtlinie (TRIPOD-AI) und eines Tools zum Risiko von Verzerrungen (PROBAST-AI) für diagnostische und prognostische Vorhersagemodellstudien auf Basis künstlicher Intelligenz. BMJ Open 11, e048008 (2021).

Kakarmath, S. et al. Best Practices für Autoren von Manuskripten zur künstlichen Intelligenz im Gesundheitswesen. npj Ziffer. Med. 3, 134 (2020).

Hulsen, T. Sharing is caring – Initiativen zum Datenaustausch im Gesundheitswesen. Int. J. Umgebung. Res. Öffentliche Gesundheit 17, 3046 (2020).

Artikel Google Scholar

Atkin, C. et al. Wahrnehmung der anonymisierten Datennutzung und Bewusstsein für das NHS-Daten-Opt-out bei Patienten, Betreuern und Gesundheitspersonal. Res. Beteiligen. Engagem. 7, 40 (2021).

Chico, V., Hunn, A. & Taylor, M. Öffentliche Ansichten zum Austausch anonymisierter Daten auf Patientenebene, wenn ein gemischter öffentlicher und privater Nutzen besteht (Univ. Melbourne, 2019).

Schwarz, CG et al. Identifizierung anonymer MRT-Forschungsteilnehmer mit Gesichtserkennungssoftware. Neuengl. J. Med. 381, 1684–1686 (2019).

Rieke, N. et al. Die Zukunft der digitalen Gesundheit mit föderiertem Lernen. npj Ziffer. Med. 3, 119 (2020).

Kaissis, G. et al. End-to-End-Datenschutz unter Wahrung von Deep Learning zur multiinstitutionellen medizinischen Bildgebung. Nat. Mach. Intel. 3, 473–484 (2021).

Ngong, I. Wahrung der Privatsphäre medizinischer Daten mit differenzierter Privatsphäre. OpenMined-Blog https://blog.openmined.org/maintaining-privacy-in-medical-data-with-differential-privacy/ (2020).

Sablayrolles, A., Douze, M., Schmid, C. & Jegou, H. Radioaktive Daten: Rückverfolgung durch Training. Proz. Mach. Lernres. 119, 8326–8335 (2020).

Sablayrolles, A., Douze, M., Schmid, C., Ollivier, Y. & Jegou, H. White-Box vs. Black-Box: Bayes optimale Strategien für die Mitgliedschaftsinferenz. Proz. Mach. Lernres. 97, 5558–5567 (2019).

Johnson, A. et al. MIMIC-IV (Version 1.0) PhysioNet https://doi.org/10.13026/s6n6-xd98 (2021).

Johnson, AEW et al. MIMIC-III, eine frei zugängliche Datenbank für die Intensivpflege. Wissenschaft. Daten 3, 160035 (2016).

Lee, J. et al. Open-Access-MIMIC-II-Datenbank für die Intensivpflegeforschung. Konf. Proz. IEEE Eng. Med. Biol. Soc. 2011, 8315–8318 (2011).

Hayes-Larson, E., Kezios, K., Mooney, S. & Lovasi, G. Wer ist überhaupt in dieser Studie? Richtlinien für eine nützliche Tabelle 1. J. Clin. Epidemiol. 114, 125–132 (2019).

Roberts, M. et al. Häufige Fallstricke und Empfehlungen für den Einsatz von maschinellem Lernen zur Erkennung und Prognose von COVID-19 mithilfe von Röntgenaufnahmen des Brustkorbs und CT-Scans. Nat. Mach. Intel. 3, 199–217 (2021).

Rostamzadeh, N. et al. Healthsheet: Entwicklung eines Transparenzartefakts für Gesundheitsdatensätze. Im Jahr 2022 ACM-Konferenz zu Fairness, Rechenschaftspflicht und Transparenz 1943–1961 (Association for Computing Machinery, 2022).

Sculley, D. et al. Versteckte technische Schulden in maschinellen Lernsystemen. Adv. Neuronale Inf. Verfahren. Syst. 28, 2503–2511 (2015).

Northcutt, C., Athalye, A. & Mueller, J. Allgegenwärtige Beschriftungsfehler in Testsätzen destabilisieren die Benchmarks für maschinelles Lernen. Im 35. Conference on Neural Information Processing Systems (NeurIPS 2021) Track on Datasets and Benchmarks 1 (2021).

Esteva, A. et al. Klassifizierung von Hautkrebs mit tiefen neuronalen Netzen auf Dermatologenebene. Natur 542, 115–118 (2017).

Kooi, T. et al. Groß angelegtes Deep Learning zur computergestützten Erkennung mammografischer Läsionen. Med. Bild Anal. 35, 303–312 (2017).

De Fauw, J. et al. Klinisch anwendbares Deep Learning zur Diagnose und Überweisung bei Netzhauterkrankungen. Nat. Med. 24, 1342–1350 (2018).

Zhao, X. et al. Deep-Learning-basierte vollautomatische Erkennung und Segmentierung von Lymphknoten in der multiparametrischen MRT bei Rektumkarzinom: eine multizentrische Studie. eBioMedicine 56, 102780 (2020).

Roy, S. et al. Evaluierung von Systemen der künstlichen Intelligenz zur Unterstützung von Neurologen bei der schnellen und genauen Annotation von Daten zur Elektroenzephalographie der Kopfhaut. eBioMedicine 66, 103275 (2021).

Tomašev, N. et al. Ein klinisch anwendbarer Ansatz zur kontinuierlichen Vorhersage zukünftiger akuter Nierenschäden. Natur 572, 116–119 (2019).

Wang, S. et al. MIMIC-Extract: eine Datenextraktions-, Vorverarbeitungs- und Darstellungspipeline für MIMIC-III. In Proc. ACM-Konferenz zu Gesundheit, Inferenz und Lernen 222–235 (Association for Computing Machinery, 2020).

Rough, K. et al. Vorhersage stationärer Medikamentenbestellungen anhand elektronischer Patientenakten. Klin. Pharmakol. Dort. 108, 145–154 (2020).

Roy, S. et al. Multitasking-Vorhersage von Organdysfunktionen auf der Intensivstation mittels sequentiellem Subnetzwerk-Routing. Marmelade. Med. Informieren. Assoc. 28, 1936–1946 (2021).

Kirby, JC et al. PheKB: ein Katalog und Workflow zur Erstellung elektronischer Phänotypalgorithmen für die Transportfähigkeit. Marmelade. Med. Informieren. Assoc. 23, 1046–1052 (2016).

Kaufman, S., Rosset, S., Perlich, C. & Stitelman, O. Leckagen im Data Mining: Formulierung, Erkennung und Vermeidung. ACM Trans. Wissen. Entdeckung. Daten 6, 15 (2012).

Hicks, SA et al. Zu Bewertungsmetriken für medizinische Anwendungen künstlicher Intelligenz. Wissenschaft. Rep. 12, 12 (2022).

Schrouff, J. et al. Wahrung der Fairness bei der Verteilungsverschiebung: Haben wir praktikable Lösungen für reale Anwendungen? Vorabdruck bei arXiv https://arxiv.org/abs/2202.01034 (2022).

D'Amour, A. et al. Unterspezifikation stellt eine Herausforderung für die Glaubwürdigkeit des modernen maschinellen Lernens dar. Journal of Machine Learning Research 23, 1–61 (2022).

Röösli, E., Bozkurt, S. & Hernandez-Boussard, T. Ein Blick in eine Blackbox, die Fairness und Generalisierbarkeit eines MIMIC-III-Benchmarking-Modells. Wissenschaft. Daten 9, 24 (2022).

Carter, S., Armstrong, Z., Schubert, L., Johnson, I. & Olah, C. Erforschung neuronaler Netze mit Aktivierungsatlanten. Destillieren https://distill.pub/2019/activation-atlas/ (2019).

Rocktäschel, T., Grefenstette, E., Hermann, KM, Kočiský, T. & Blunsom, P. Überlegungen zur Konsequenz mit neuronaler Aufmerksamkeit. Vorabdruck bei arXiv https://arxiv.org/abs/1509.06664 (2016).

Li, M., Zhao, Z. & Scheidegger, C. Visualisierung neuronaler Netze mit der großen Tour. Destillieren https://distill.pub/2020/grand-tour/ (2020).

Sundararajan, M., Taly, A. & Yan, Q. Axiomatische Zuschreibung für tiefe Netzwerke. Tagungsband der 34. Internationalen Konferenz über maschinelles Lernen, PMLR https://doi.org/10.48550/arXiv.1703.01365 (2017).

Mincu, D. et al. Konzeptbasierte Modellerklärungen zur elektronischen Patientenakte. In Proc. Konferenz über Gesundheit, Inferenz und Lernen 36–46 (Association for Computing Machinery, 2021).

Adebayo, J. et al. Plausibilitätsprüfungen für Ausprägungskarten. In Proceedings of the 32nd International Conference on Neural Information Processing Systems (2018).

Arun, N. et al. Bewertung der Vertrauenswürdigkeit von Salienzkarten zur Lokalisierung von Anomalien in der medizinischen Bildgebung. Radiol. Artif. Intel. 3, e200267 (2021).

Liu, X. et al. Es sind Berichtsrichtlinien für klinische Studien zur Bewertung von Interventionen mit künstlicher Intelligenz erforderlich. Nat. Med. 25, 1467–1468 (2019).

Lu, C. et al. Klinisches maschinelles Lernen einsetzen? Folgendes berücksichtigen…. Vorabdruck bei arXiv https://arxiv.org/abs/2109.06919 (2021).

Zhou, Q., Chen, ZH, Cao, YH & Peng, S. Klinische Wirkung und Qualität randomisierter kontrollierter Studien mit Interventionen zur Bewertung von Vorhersagetools für künstliche Intelligenz: eine systematische Überprüfung. npj Ziffer. Med. 4, 12 (2021).

Biswal, S. et al. SLEEPNET: Automatisiertes Schlaf-Staging-System mittels Deep Learning. Vorabdruck bei arXiv https://arxiv.org/abs/1707.08262 (2017).

Liu, X. et al. Berichtsrichtlinien für klinische Studienberichte für Interventionen mit künstlicher Intelligenz: die CONSORT-AI-Erweiterung. Nat. Med. 26, 1364–1374 (2020).

Ryffel, T. et al. Ein generisches Framework für datenschutzschonendes Deep Learning. Vorabdruck bei arXiv https://arxiv.org/abs/1811.04017 (2018).

Liu, X., Glocker, B., McCradden, MM, Ghassemi, M., Denniston, AK & Oakden-Rayner, L. Das medizinische algorithmische Audit. Lanzettenziffer. Gesundheit 4, e384–e397 (2022).

Artikel Google Scholar

Referenzen herunterladen

Wir danken den Klinikern, die uns bei der Durchsicht dieses Artikels ihre Hilfe und Meinung zur Verfügung gestellt haben: L. Hartsell und M. Seneviratne. Wir danken auch unseren Kollegen und Mitarbeitern, N. Tomasev, K. Heller, J. Schrouff, N. Rostamzadeh, C. Ghate, L. Proleev, L. Hartsel, N. Broestl, G. Flores und S. Pfohl, für ihre Hilfe und Unterstützung bei der Überprüfung und dem Betatest unserer Meinungen.

Google Research, London, Großbritannien

Diana Mincu & Subhrajit Roy

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Korrespondenz mit Diana Mincu oder Subhrajit Roy.

Beide Autoren sind bei Google UK angestellt.

Nature Machine Intelligence dankt den anonymen Gutachtern für ihren Beitrag zum Peer-Review dieser Arbeit.

Anmerkung des Herausgebers Springer Nature bleibt hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten neutral.

Springer Nature oder sein Lizenzgeber (z. B. eine Gesellschaft oder ein anderer Partner) besitzen die ausschließlichen Rechte an diesem Artikel im Rahmen einer Veröffentlichungsvereinbarung mit dem Autor bzw. den Autoren oder anderen Rechteinhabern. Die Selbstarchivierung der akzeptierten Manuskriptversion dieses Artikels durch den Autor unterliegt ausschließlich den Bedingungen dieser Veröffentlichungsvereinbarung und geltendem Recht.

Nachdrucke und Genehmigungen

Mincu, D., Roy, S. Entwicklung robuster Benchmarks zur Förderung von KI-Innovationen im Gesundheitswesen. Nat Mach Intell 4, 916–921 (2022). https://doi.org/10.1038/s42256-022-00559-4

Zitat herunterladen

Eingegangen: 01. Juni 2022

Angenommen: 07. Oktober 2022

Veröffentlicht: 15. November 2022

Ausgabedatum: November 2022

DOI: https://doi.org/10.1038/s42256-022-00559-4

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

AKTIE