Wydajność algorytmów uczenia maszynowego do przewidywania progresji do demencji u pacjentów kliniki pamięci
Mar 20, 2022
Kontakt: Audrey Hu Whatsapp/hp: 0086 13880143964 E-mail:audrey.hu@wecistanche.com
dr Charlotte James; dr Janice M. Ranson; dr Richard Everson; dr David J. Llewellyn
Abstrakcyjny
WAŻNE: Algorytmy uczenia maszynowego mogą służyć jako podstawa pomocy w podejmowaniu decyzji klinicznych w celu usprawnienia praktyki klinicznej. CEL Ocena zdolności algorytmów uczenia maszynowego do przewidywania występowania demencji w ciągu 2 lat w porównaniu z istniejącymi modelami oraz określenie optymalnego podejścia analitycznego i wymaganej liczby zmiennych. PROJEKT, OTOCZENIE I UCZESTNICY: W tym badaniu prognostycznym wykorzystano dane z prospektywnej kohorty 15 307 uczestników bez demencji w punkcie początkowym, aby przeprowadzić wtórną analizę czynników, które można wykorzystać do przewidywania częstości występowania demencji. Uczestnicy wzięli udział w National Alzheimer Coordinating Centrepamięćkliniki w Stanach Zjednoczonych między 2005 a 2015. Analizy przeprowadzono od marca do 2 maja 021. EKSPOZYCJE: 258 zmiennych obejmujących dziedziny pomiarów klinicznych związanych z demencją i czynniki ryzyka. GŁÓWNE WYNIKI I DZIAŁANIA: Głównym wynikiem była incydentalna demencja z jakiejkolwiek przyczyny zdiagnozowana w ciągu 2 lat od oceny wyjściowej. WYNIKI: W próbie 15 307 uczestników (średni wiek [SD], 72,3 [9,8] lat; 9129 [6{0 procent] kobiet i 6178 [4{0} procent] mężczyzn) bez demencji na początku badania, 1568 (10 procent) otrzymało diagnozę demencji w ciągu 2 lat od ich wstępnej oceny. W porównaniu z 2 istniejącymi modelami przewidywania ryzyka otępienia (tj. Czynniki ryzyka sercowo-naczyniowego, Starzenie się i Zapadalność na Otępienie oraz Krótki Wskaźnik Przesiewowego Otępienia), algorytmy uczenia maszynowego były lepsze w przewidywaniu wystąpienia demencji ze wszystkich przyczyn w ciągu 2 lat. Algorytm drzew wzmocnionych gradientem miał średnią (SD) ogólną dokładność 92 procent (1 procent), czułość 0,45 (0,05), swoistość 0,97 (0,01), a obszar pod krzywą 0,92 (0,01) przy użyciu wszystkich 258 zmienne. Analiza zmiennej istotności wykazała, że tylko 6 zmiennych było wymaganych, aby algorytmy uczenia maszynowego osiągnęły dokładność 91% i obszar pod krzywą co najmniej 0,89. Algorytmy uczenia maszynowego zidentyfikowały również do 84 procent uczestników, którzy otrzymali początkową diagnozę demencji, która następnie została zmieniona na łagodne upośledzenie funkcji poznawczych lub zaburzenia poznawcze, co sugeruje możliwą błędną diagnozę. WNIOSKI I ISTOTNOŚĆ: Odkrycia te sugerują, że algorytmy uczenia maszynowego mogą dokładnie przewidywać przypadki demencji w ciągu 2 lat u pacjentów otrzymujących opiekę wpamięćkliniki wykorzystujące tylko 6 zmiennych. Ustalenia te mogą zostać wykorzystane do opracowania i walidacji pomocy w podejmowaniu decyzji w:pamięćkliniki.
Wstęp
Wielu pacjentów ocenianych w placówkach specjalistycznych, takich jak:pamięćkliniki, nie cierpią na demencję w momencie pierwszej wizyty.1 Ważne jest rozróżnienie między pacjentami, u których rozwinie się otępienie w klinicznie istotnym okresie czasu, a tymi, którzy pozostają wolni od demencji, ponieważ ten wgląd można wykorzystać do ustalenia priorytetów pacjentów w badaniach kontrolnych i interwencje. Identyfikacja pacjentów z wysokim ryzykiem rozwoju demencji jest wyzwaniem dla klinicystów. Jednym z podejść jest skoncentrowanie się na osobach z łagodnymi zaburzeniami poznawczymi (MCI) podczas wstępnej oceny i zaproszenie tych pacjentów na dalszą obserwację. Może to jednak skutkować znaczną błędną klasyfikacją pacjentów, którzy nie są przewidziani do obserwacji, ale u których rozwija się demencja, oraz pacjentów, którzy są objęci dalszymi badaniami, ale nie rozwijają demencji.
Większość pacjentów z klinikami pamięci z MCI nie rozwija się w demencję nawet po 10 latach, przy rocznym współczynniku konwersji wynoszącym 9,6 procent.2 Pomoce w podejmowaniu decyzji klinicznych mogą poprawić zdolność klinicystów do oceny początku demencji. Istniejące pomoce w podejmowaniu decyzji klinicznych są dostępne w celu oszacowania średnio- i długoterminowej częstości występowania demencji w różnych populacjach. Na przykład, Cardiovascular Risk Factors, Aging and Incidence of Dementia (CAIDE) Risk Score3 został zaprojektowany, aby przewidzieć ryzyko rozwoju demencji w ciągu 20 lat u osób w średnim wieku, a Brief Dementia Screening Indicator (BDSI)4 ma na celu identyfikację osób starszych pacjentów, których należy kierować do przesiewowych badań poznawczych, określając ryzyko rozwoju demencji w ciągu 6 lat. Jednakże, według naszej wiedzy, nie opracowano pomocy w podejmowaniu decyzji klinicznych w celu przewidywania występowania demencji w klinikach pamięci w krótszym klinicznie istotnym okresie. Uczenie maszynowe (ML) pozwala na wykorzystanie informacji z dużych i złożonych zbiorów danych. Ostatnio zastosowano go do diagnozowania demencji i przewidywania ryzyka.5-9
Jednak modele te często zawierają informacje niedostępne zwykle w rutynowej praktyce klinicznej, takie jak zaawansowane neuroobrazowanie, testy genetyczne i biomarkery płynu mózgowo-rdzeniowego, ograniczając zastosowanie kliniczne do ustawień specjalistycznych lub badawczych. Zbadaliśmy, czy techniki ML mogą być stosowane do przewidywania częstości występowania demencji w ciągu 2-roku przy użyciupamięćdane kliniczne z amerykańskiego National Alzheimer Coordinating Center (NACC). Zbadaliśmy również minimalny zestaw zmiennych wymaganych dla modeli ML do osiągnięcia pełnej wydajności diagnostycznej.
Metody
Badanie NACC uzyskało zgodę etyczną od instytucjonalnych komisji rewizyjnych każdego ośrodka, zanim mogło dostarczyć dane, a wszyscy uczestnicy wyrazili świadomą pisemną zgodę. To badanie prognostyczne zostało uznane za wyłączone z zatwierdzenia przez instytucję etyczną, ponieważ wykorzystaliśmy wcześniej zebrane dane pozbawione elementów identyfikujących. Dane wykorzystane w tym badaniu są dostępne na żądanie danych do NACC. To badanie jest raportowane zgodnie z wytycznymi dotyczącymi raportowania Transparent Reporting of a Multivariable Prediction Model for Individual Prognosis or Diagnosis (TRIPOD). Dane analizowano od marca do maja 2021 r.
Próbka badawcza
Wykorzystaliśmy wcześniej zebrane dane z NACC Uniform Data Set (UDS).10 UDS zawiera prospektywne dane kohortowe z programu Narodowego Instytutu Starzenia się Alzheimera w ramach programu wieloośrodkowego wspólnego badania nad chorobą Alzheimera i innymi zaburzeniami neurodegeneracyjnymi.11 Nasz zbiór danych składa się z danych kliniki pamięci zebranych między wrześniem 2005 a lutym 2015 roku z 30 ośrodków choroby Alzheimera zlokalizowanych w Stanach Zjednoczonych. Zestaw danych obejmuje cechy socjodemograficzne uczestników i współuczestników, historię rodzinną, stan funkcjonalny,12 objawy behawioralne (ocenione na podstawie wyników Kwestionariusza Inwentarza Neuropsychiatrycznego13), baterię testów neuropsychologicznych14 oraz diagnozę demencji klinicznej NACC, przypisaną przez każde Centrum Choroby Alzheimera przy użyciu opublikowanych klinicznych kryteriów diagnostycznych w oparciu o standaryzowaną ocenę kliniczną UDS. Szczegóły kryteriów diagnostycznych przyjętych przez protokół UDS i związane z nimi wytyczne zostały opublikowane wcześniej.15
Wykorzystaliśmy wersje 1 i 2 UDS, które obejmowały 32 573 uczestników kliniki pamięci z oceną wyjściową. Chociaż nasze modele zostały zaprojektowane tak, aby przewidywać występowanie demencji w ciągu 2 lat, aby uwzględnić różnice w czasie między wizytami kontrolnymi, uwzględniliśmy wizytę kontrolną, która miała miejsce w ciągu 29 miesięcy od pierwszej wizyty, aby upewnić się, że wizyta była albo pierwszą, albo druga wizyta kontrolna.
Zmienna wynikowa
Zmienną wyniku była diagnoza incydentalnego otępienia z wszystkich przyczyn w ciągu 29 miesięcy (około 2 lat) od oceny początkowej. Obejmuje to podtypy otępienia, takie jak otępienie Alzheimera, otępienie z ciałami Lewy'ego, otępienie naczyniowe i inne rzadsze podtypy. Otępienie Alzheimera rozpoznawano według kryteriów NINCSD-ADRDA,16 otępienie naczyniowe według kryteriów NINDS-AIREN17, otępienie z ciałami Lewy'ego (LBD) rozpoznawano według trzeciego raportu opracowanego przez konsorcjum Dementia with Lewy Bodies Consortium,18 oraz otępienie czołowo-skroniowe. został zdiagnozowany zgodnie z kryteriami Neary'ego i wsp. z 1998 roku19

Predyktory kandydatów
Uwzględniliśmy wszystkie klinicznie istotne zmienne zebrane podczas wizyty początkowej w wersjach 1 i 2 UDS (eTabela 1 w Suplemencie). Wykluczyliśmy zmienne o dowolnych wartościach tekstowych, takie jak nazwy leków, oraz zmienne, które były stałe dla wszystkich uczestników, takie jak numer wizyty. Wygenerowano cztery zmienne syntetyczne, które miały pomóc w ocenie ważności zmiennej (zmienne te powinny być sklasyfikowane nisko); 3 z tych zmiennych były permutacjami istniejących zmiennych (1 binarna, 1 kategorialna i 1 zmienna liczbowa), a 1 zmienna została losowo wygenerowana z rozkładu normalnego. Dało to w sumie 258 zmiennych.
Zmienne z UDS włączone do naszych modeli obejmują cechy demograficzne uczestników (15 zmiennych), cechy demograficzne współuczestników (7 zmiennych), historię rodzinną (3 zmienne), historię medyczną (47 zmiennych), leki (21 zmiennych), fizyczne (12 zmiennych). ) i neurologicznych (4 zmienne), wyniki badań Unified Parkinson Disease Rating Scale20 (UDPRS) (28 zmiennych), Clinical Dementia Rating (CDR) 21 (8 zmiennych), stan funkcjonalny (10 zmiennych), neuropsychologiczna bateria testów (50 zmiennych) , Geriatryczną Skalę Depresji (17 zmiennych) oraz kliniczną ocenę objawów (32 zmienne). Spośród tych zmiennych brakowało 239 (93 procent) dla co najmniej 1 uczestnika, a wszystkim uczestnikom brakowało co najmniej 1 zmiennej.
Rozwój modelu
Wdrożyliśmy 4 algorytmy ML22: regresję logistyczną (LR),23 maszynę wektorów nośnych (SVM),24 losowy las (RF),25,26 i drzewa wzmocnione gradientem (XGB)27 (eMetody w Dodatku). Algorytmy te wykonują zadanie klasyfikacyjne: określają, czy uczestnik należy do klasy 0 (przewiduje się, że pozostanie wolny od demencji przez 29 miesięcy od linii bazowej) czy klasy 1 (przewiduje się, że doświadczy demencji incydentalnej w ciągu 29 miesięcy od linii bazowej). Klasyfikacja opiera się na zmiennych zarejestrowanych podczas ich pierwszej (podstawowej) wizyty w klinice pamięci. Do implementacji algorytmów ML wykorzystaliśmy bibliotekę Python sci-kit-learn (Python Software Foundation),28 z 5-krotnym sprawdzaniem krzyżowym (eMethods w Dodatku). Brakujące wartości zostały przypisane przez próbkowanie z zamianą wartości bez braków danych. Całe przetwarzanie i analiza danych zostały zaimplementowane w Pythonie w wersji 3.9, NumPy w wersji 1.19.4 i sci-kit-learn w wersji 0.24.0.
Analiza statystyczna
Ocena modelu
Oceniliśmy wydajność wszystkich modeli, porównując ich ogólną dokładność, czułość i swoistość dla progów decyzyjnych określonych w literaturze (istniejące modele) lub progu 0.5 (modele ML), który w równym stopniu waży wyniki fałszywie dodatnie i błędy fałszywie ujemne. Obszar pod krzywą charakterystyki operacyjnej odbiornika (AUC)29 został wykorzystany do podsumowania wydajności modelu we wszystkich możliwych progach, a tym samym ważenia błędów błędnej klasyfikacji.30 Średnie pomiary wydajności i SD uzyskano poprzez ładowanie początkowe (eMetody w Suplemencie).
Porównanie z istniejącymi modelami
BDSI i CAIDE to istniejące modele przewidywania ryzyka demencji, które przypisują pacjentom wynik reprezentujący ich ryzyko rozwoju demencji w dłuższych ramach czasowych. Aby uzyskać oceny ryzyka BDSI i CAIDE, wybraliśmy zmienne z UDS, które najbardziej odpowiadają zmiennym zastosowanym wcześniej (eTabela 2 w Dodatku). Skuteczność naszych modeli ML porównano z wynikami BDSI i CAIDE w celu przewidywania występowania 2-letniej demencji.
Modeluj wydajność w różnych podtypach demencji
Demencja może mieć różne przyczyny, odpowiadające różnym podtypom demencji. Aby ocenić zdolność modeli ML do identyfikacji różnych podtypów otępienia, podzieliliśmy przypadki otępienia na otępienie typu Alzheimera, LBD, otępienie naczyniowe i inne podtypy otępienia. Korzystając z tych 4 stratyfikacji, obliczyliśmy odsetek uczestników prawidłowo sklasyfikowanych (wskaźnik prawdziwie dodatnich) i porównaliśmy krzywe ROC dla każdego modelu ML.
Badanie stabilności diagnostycznej
Wiadomo, że rozpoznanie kliniczne demencji obejmuje pacjentów, którzy są początkowo błędnie zdiagnozowani (efektywnie zarówno błędy fałszywie dodatnie, jak i fałszywie ujemne).31 Definiujemy rewersję jako sytuację, gdy uczestnik, u którego zdiagnozowano demencję do 2 lat po pierwszej wizycie w klinice pamięci a następnie otrzymuje diagnozę braku demencji (albo MCI lub nieupośledzone funkcje poznawcze) w ciągu 2 lat od rozpoznania demencji. Rozumując, że te nawroty są niestabilnymi diagnozami i prawdopodobnie były wynikiem błędnej diagnozy demencji, zbadaliśmy dokładność klasyfikacji modeli ML na próbie uczestników z nawrotami (eMetody w Dodatku). Wykorzystaliśmy funkcję dystrybucji skumulowanej (CDF) wyników klasyfikacji uzyskanych przez każdy model ML, aby porównać uczestników z rewersją z pacjentami, u których rozwinęła się demencja, i pacjentami, którzy pozostali wolni od demencji.

Wyniki
Po wykluczeniu {{0}} uczestników z diagnozą demencji na początku badania, 4557 uczestników, którzy nie mieli żadnych danych kontrolnych i 573 uczestników, którzy mieli pierwszą wizytę kontrolną ponad 29 miesięcy po pierwszej wizycie końcowa próba analityczna obejmowała 15 307 uczestników (średni wiek [SD], 72,3 [9,8] lat; 9129 [60 procent] kobiet i 6178 [40 procent] mężczyzn). Charakterystykę próbki przedstawiono w Tabeli 1. W ciągu 2 lat od rozpoczęcia badania 1568 uczestników (10 procent) otrzymało diagnozę demencji. Spośród 1568 uczestników, którzy otrzymali diagnozę demencji, 273 (17%) zostało zdiagnozowanych przez jednego lekarza, a 1216 (78%) zostało zdiagnozowanych przez panel konsensusowy; dla 79 uczestników (5 proc.) nie określono źródła diagnozy. Kluczowe miary wydajności oceniające moc predykcyjną każdego modelu podano w tabeli 2. W porównaniu z istniejącymi modelami modele ML były lepsze pod względem zdolności do przewidywania, czy dana osoba rozwinie demencję w ciągu 2 lat, i przewyższały istniejące modele we wszystkich miarach. Wszystkie modele ML spisywały się podobnie, przy czym XGB miało największą moc mierzoną przez ogólną dokładność (92%) i AUC (średnia [SD], 0,92 [0,01]). Krzywa charakterystyki działania odbiornika dla każdego modelu pokazuje podobieństwo modeli ML i ich wyższość w porównaniu z 2 istniejącymi modelami ryzyka (Rysunek 1).
Modeluj wydajność w różnych podtypach demencji
Aby ocenić skuteczność modelu ML w różnych podtypach otępienia, podzieliliśmy populację na 4 podtypy otępienia: otępienie typu Alzheimera (1285 uczestników), LBD (82 uczestników), otępienie naczyniowe (21 uczestników) i inne podtypy otępienia (180 uczestników). Model LR był najlepszy w identyfikacji demencji Alzheimera i innych podtypów, prawidłowo klasyfikując 589 uczestników (46%) z demencją Alzheimera i 99 uczestników (55%) z innymi podtypami. Model SVM najlepiej sprawdził się u uczestników z LBD, poprawnie klasyfikując 40 uczestników (49 procent). Wszystkie modele prawidłowo sklasyfikowały 7 uczestników (33 procent) z otępieniem naczyniowym. Krzywe charakterystyczne działania odbiornika pokazują, że wszystkie modele działały w przybliżeniu równie dobrze na każdym podtypie (eRysunek 1 w Dodatku).
Badanie minimalnej liczby zmiennych
Jedną z potencjalnych wad stosowania podejścia ML jest duża liczba zaangażowanych zmiennych. Wraz ze wzrostem liczby zmiennych wymaganych przez model, implementacja w warunkach klinicznych staje się mniej praktyczna, a interpretacja modelu jest osłabiona. Aby ocenić, ile zmiennych wymagał każdy model ML, aby osiągnąć równoważną moc predykcyjną do tego, co znaleźliśmy przy użyciu wszystkich 258 zmiennych (tabela 2), oceniliśmy, jak AUC zmieniało się wraz z liczbą zmiennych zawartych w modelach. W szczególności uszeregowaliśmy zmienne dla każdego modelu, sortując je w porządku malejącym według ważności (tj. moc dyskryminacyjna każdej zmiennej zgodnie z algorytmem; eMetody w Dodatku). Następnie przeszkoliliśmy każdy model z coraz większą liczbą zmiennych, zaczynając od najważniejszych. Odkryliśmy, że wszystkie modele wymagały tylko 22 zmiennych, aby osiągnąć skuteczność diagnostyczną statystycznie nie do odróżnienia od ich optymalnej średniej wydajności (Rysunek 2; eRysunek 2 w Dodatku). Zmienne syntetyczne dodane w celu zapewnienia trafności oceny ważności zmiennej nie znalazły się wśród 22 najważniejszych zmiennych dla żadnego modelu, co odzwierciedla fakt, że po osiągnięciu pełnej sprawności diagnostycznej niewiele było informacji, które mogłyby silnie określić ranking zmiennych.
Identyfikacja kluczowych czynników ryzyka
Spośród 22 najważniejszych zmiennych dla każdego modelu, tylko 5 było wspólnych dla wszystkich modeli (tj. kliniczna ocena pogorszenia pamięci, zdolności poznawczych, zachowania, umiejętność radzenia sobie ze sprawami lub zmiany motoryczne i ruchowe; czas na wykonanie testu tworzenia śladów Część B; CDR: upośledzenie orientacji; CDR: upośledzenie domu i hobby; oraz poziom niezależności). Spośród pozostałych zmiennych była 10 para, która miała korelację większą niż 0,7, co wskazuje, że były to podobne zmienne (eTabela 3 w Dodatku). Uwzględniając tę korelację poprzez zamianę zmiennych, które były silnie skorelowane, stwierdziliśmy, że było 6 wysoce predykcyjnych zmiennych (ocena kliniczna spadku, czas do ukończenia części B testu tworzenia śladów, 3 elementy CDR [orientacja, pamięć, dom i hobby upośledzenie], oraz poziom niezależności), które były wspólne dla wszystkich modeli ML (eTabela 4 w Dodatku). Trenując każdy model przy użyciu tylko tych zmiennych, odkryliśmy, że w przypadku LR i XGB nie było znaczącego spadku wydajności diagnostycznej: przy użyciu tego podstawowego zestawu 6 zmiennych modele te miały średnią (SD) dokładność wynoszącą 91 procent (0 procent ) dla LR i 91 procent (1 procent ) dla XGB i średnia (SD) AUC wynosząca 0.89 (0.01) dla LR i 0,89 (0,02) dla XGB (eTabela 5 w Suplemencie).
Stabilność diagnostyczna
Spośród 1568 uczestników, którzy otrzymali diagnozę demencji w ciągu 2 lat, zidentyfikowaliśmy 13 0 (8 procent) jako doświadczających nawrotu, którzy prawdopodobnie byli początkowo błędnie zdiagnozowani i dlatego błędnie oznaczeni do celów ML. Odkryliśmy, że chociaż rewersje zostały zgłoszone tylko u 0,8 procent uczestników, stanowiły one 92 do 109 uczestników (7 procent -8 procent) błędnie sklasyfikowanych uczestników, z niewielką różnicą między modelami (Tabela 3). Model RF miał najwyższą stabilność diagnostyczną, poprawnie identyfikując 109 ze 130 uczestników z rewersją (84 procent) poprzez klasyfikację ich jako przewidywanych jako bez demencji po 2 latach. Aby zbadać stabilność diagnostyczną modeli ML, usunęliśmy uczestników z rewersją podczas szkolenia (eMetody w Dodatku). Po przeszkoleniu modeli bez powrotów odkryliśmy, że RF zidentyfikował 106 uczestników, którzy doświadczyli powrotów (mediana [IQR], 82 procent [78 procent -82 procent]), SVM zidentyfikował 93 uczestników, którzy doświadczyli powrotów (mediana [IQR], 72 procent [69 procent -74 procent]) oraz LR i XGB zidentyfikowały 92 uczestników, którzy doświadczyli rewersji (mediana [IQR], 71 procent [68 procent -75 procent]). IQR uzyskano przez bootstrapping uczestników, którzy doświadczyli rewersji.
Aby zrozumieć różnicę między błędnie sklasyfikowanymi uczestnikami, uczestnikami z rewersją i uczestnikami, u których rozwinęła się demencja bez rewersji, przeanalizowaliśmy CDF wyników klasyfikacji uzyskanych z każdego modelu ML. Odkryliśmy, że wyniki błędnie sklasyfikowanych uczestników i poszczególnych uczestników z rewersją różniły się od uczestników, u których rozwinęła się demencja i tych, u których nie wystąpiła (eRysunek 3 w Dodatku). CDF wyników klasyfikacji dla uczestników, u których nie rozwinęła się demencja, spadły po lewej stronie każdego wykresu, co wskazuje, że modele ML przypisywały tym uczestnikom niskie prawdopodobieństwo rozwoju demencji. Odwrotnie, w przypadku uczestników, u których rozwinęła się demencja, CDF spadły na prawo od wykresów: przypisano im wysokie prawdopodobieństwo rozwoju demencji. We wszystkich modelach rozkład wyników dla uczestników z rewersją spadł na lewo od tych dla uczestników, u których rozwinęła się demencja, co oznacza, że uczestnicy z rewersją byli oceniani jako mający mniejsze prawdopodobieństwo rozwoju demencji zgodnie z tymi modelami.

Dyskusja
W tym badaniu prognostycznym algorytmy ML miały wyższą dokładność prognostyczną w porównaniu z BDSI i CAIDE w przewidywaniu występowania demencji w ciągu 2 lat od pierwszej oceny klinicznej pacjenta dotyczącej pamięci. Oceniono dwa algorytmy ML, aby osiągnąć dokładność 91 procent i AUC 0.89 tylko z 6 kluczowymi zmiennymi. Analizy wrażliwości sugerują, że modele ML mogą prawidłowo klasyfikować wysoki odsetek uczestników, którzy doświadczyli rewersji, którzy zostali potencjalnie błędnie zdiagnozowani w ciągu 2 lat od ich pierwszej wizyty. Badanie to ma kilka mocnych stron, w tym dużą próbę pacjentów pochodzących z wielu klinik pamięci w Stanach Zjednoczonych, szeroki zakres stosowanych technik ML, porównanie z istniejącymi modelami ryzyka oraz badanie stabilności diagnostycznej i prawdopodobnej błędnej diagnozy.
Wcześniejsze badania nad zastosowaniem ML do przewidywania ryzyka otępienia koncentrowały się na konwersji z nieuszkodzonych funkcji poznawczych do otępienia typu Alzheimera lub MCI,6,8 lub konwersji z MCI do otępienia typu Alzheimera.5 Podejścia te są mniej przydatne w warunkach klinicznych, ponieważ wykluczają inne rodzaje demencji5,6,8 lub pacjenci, którzy początkowo nie mają zaburzeń poznawczych.5 Dane wykorzystane w tych badaniach obejmowały skany pozytonowej tomografii emisyjnej,5,8 oraz biomarkery płynu mózgowo-rdzeniowego8, które nie są powszechnie dostępne w warunkach kliniki pamięci. Badanie przeprowadzone przez Lin i wsp.6 przezwyciężyło ten problem, wykorzystując dane NACC w celu znalezienia zestawu 15 nieinwazyjnych zmiennych klinicznych w celu oceny ryzyka przejścia z prawidłowego poznania na MCI w okresie 4-roku. Jednak konstrukcja MCI pozostaje nieco kontrowersyjna,32, a współczynniki konwersji między MCI a demencją są często niskie.32,33 Nasze modele ML uzupełniają te analizy i mają tę zaletę, że uwzględniają tylko 6 kluczowych zmiennych w klinicznie istotnej skali czasowej i przewidują wynik demencji z jakiejkolwiek przyczyny.
Spośród istniejących modeli badanych w naszym badaniu, model CAIDE był najmniej dokładny w przewidywaniu ryzyka demencji w ciągu 2 lat, co nie jest zaskakujące, biorąc pod uwagę, że został opracowany w celu przewidywania długoterminowego ryzyka demencji u dorosłych w średnim wieku przez znacznie dłuższy okres. okres obserwacji wynoszący 20 lat. BDSI działał lepiej niż CAIDE, co prawdopodobnie odzwierciedla fakt, że został zaprojektowany do stosowania u osób starszych w bardziej umiarkowanym okresie obserwacji wynoszącym 6 lat. Jednak wszystkie modele ML przewyższały te istniejące modele. Wykorzystując wszystkie zmienne, XGB było najpotężniejszym podejściem do ML w przewidywaniu pacjentów, u których prawdopodobnie zdiagnozowano demencję w ciągu 2 lat, co sugeruje, że sposób, w jaki nowe drzewa decyzyjne są szkolone w celu korygowania błędów ostatnich trzech, skutkuje marginalną wydajnością osiągać. Jednak XGB również wydawało się być podejściem najmniej zdolnym do zidentyfikowania uczestników, którzy doświadczyli rewersji, tj. tych, u których początkowo zdiagnozowano demencję w ciągu 2 lat i u których diagnoza została cofnięta w ciągu 2 lat od początkowej diagnozy.
Wydajność modeli ML może zostać znacznie zmniejszona przez błędnie oznakowane dane uczące.34 Wbrew intuicji, wykluczenie błędnie oznakowanych danych uczących nie zawsze poprawia wydajność.35 Wraz ze wzrostem poziomu szumu w danych uczących wartość wykluczenia lub zmniejszenia tego szumu maleje, jeśli ten sam szum jest obecny w danych walidacyjnych.36 W ten sposób filtrowanie danych treningowych może nawet zredukować dane dotyczące walidacji wydajności, jak stwierdzono w tym badaniu. Jeśli jednak poziom błędnych oznaczeń jest niższy niż około 20–40 procent , usunięcie błędnie oznaczonych danych może poprawić dokładność danych walidacyjnych, nawet jeśli obejmują one błędnie oznaczone dane.35,37,38 To ilustruje znaczenie badania stabilności diagnostycznej podczas uczenia i dane do walidacji: nawet dane kryterialne zawierają błędy.
Zaobserwowany wskaźnik rewersji (8 proc.) był podobny do tego, który stwierdzono w badaniu z 2019 r. opartym na innej populacji USA.31 W naszym badaniu odsetek wyników fałszywie dodatnich wahał się od 7 do 19 proc., w zależności od funkcji poznawczych. zastosowana ocena. Według naszej wiedzy jest to pierwsza analiza potencjalnej błędnej diagnozy w NACC UDS i sugeruje, że stosowanie ML jako pomocy w podejmowaniu decyzji klinicznych może zmniejszyć liczbę błędnej diagnozy w przypadku fałszywych alarmów nawet o 84 procent . Biorąc pod uwagę, że pacjenci, którzy doświadczają rewersji, są na granicy w sensie diagnostycznym, z perspektywy klinicznej może być rozsądne, aby mimo to byli obserwowani, biorąc pod uwagę, że istnieją podstawy do obaw klinicznych. Dlatego XGB może być najlepszym modelem pomocy w podejmowaniu decyzji klinicznych. Alternatywnie, podejście zespołowe, które daje wtórne przewidywania dotyczące prawdopodobnej stabilności diagnostycznej i możliwości błędnej klasyfikacji, może okazać się jeszcze bardziej przydatne.
Ograniczenia
To badanie ma kilka ograniczeń. Po pierwsze, zarówno CAIDE, jak i BDSI zostały opracowane przy użyciu różnych populacji niż ta zastosowana w tym badaniu. Nie wszystkie zmienne wykorzystane do opracowania tych modeli miały dokładny odpowiednik w UDS, co mogło mieć wpływ na ich wyniki w tym zbiorze danych. Po drugie, metoda użyta do imputacji danych może skutkować błędem imputacji. W szczególności przypisanie zastępuje wszystkie brakujące wartości wartościami liczbowymi, jednak niektóre wartości są brakujące ze względu na ich związek z inną wartością; dlatego brak wartości ma charakter informacyjny. Jednak podczas gdy uczestnicy mieli średnio 14 procent brakujących danych, 6 zidentyfikowanych kluczowych zmiennych brakowało dla średniej 1 procent uczestników. Po trzecie, chociaż nasze badanie wykorzystywało dużą próbę uczestników kliniki pamięci w Stanach Zjednoczonych, co sprawia, że nasze wyniki mają duże zastosowanie w tym środowisku, stopień, w jakim wyniki te będą uogólniać się na inne populacje, jest nieznany.
Wnioski
To badanie prognostyczne wykazało, że modele ML przewyższają istniejące modele przewidywania ryzyka demencji i mogą potencjalnie poprawić przewidywanie przypadków demencji w ciągu 2 lat w klinikach pamięci. Sześć kluczowych czynników ryzyka demencji zidentyfikowanych w tym badaniu może potencjalnie poprawić praktykę kliniczną w klinikach pamięci, jeśli zostaną włączone do przyszłych pomocy w podejmowaniu decyzji klinicznych.








