Desempeño de algoritmos de aprendizaje automático para predecir la progresión a la demencia en pacientes de clínicas de memoria

Contacto: Audrey Hu Whatsapp/hp: 0086 13880143964 Correo electrónico:audrey.hu@wecistanche.com

Charlotte James, Doctora en Filosofía; Janice M. Ranson, Ph.D.; Richard Everson, Doctor en Filosofía; Dr. David J. Llewellyn

Resumen

IMPORTANCIA: Los algoritmos de aprendizaje automático podrían usarse como base para la toma de decisiones clínicas para mejorar la práctica clínica. OBJETIVO Evaluar la capacidad de los algoritmos de aprendizaje automático para predecir la incidencia de demencia dentro de los 2 años en comparación con los modelos existentes y determinar el enfoque analítico óptimo y la cantidad de variables requeridas. DISEÑO, ESCENARIO Y PARTICIPANTES: este estudio de pronóstico utilizó datos de una cohorte prospectiva de 15 307 participantes sin demencia al inicio del estudio para realizar un análisis secundario de factores que podrían usarse para predecir la incidencia de demencia. Los participantes asistieron al Centro Coordinador Nacional de Alzheimermemoriaclínicas en los Estados Unidos entre 2005 y 2015. Los análisis se realizaron desde marzo hasta el 2 de mayo021. EXPOSICIONES: 258 variables que abarcan dominios de medidas clínicas y factores de riesgo relacionados con la demencia. PRINCIPALES RESULTADOS Y MEDIDAS: El principal resultado fue un incidente de demencia por todas las causas diagnosticado dentro de los 2 años posteriores a la evaluación inicial. RESULTADOS: En una muestra de 15 307 participantes (edad media [SD], 72,3 [9,8] años; 9129 [60 por ciento] mujeres y 6178 [40 por ciento] hombres) sin demencia al inicio, 1568 (10 por ciento) recibieron un diagnóstico de demencia dentro de los 2 años de su evaluación inicial. En comparación con 2 modelos existentes para la predicción del riesgo de demencia (es decir, Factores de riesgo cardiovascular, Envejecimiento e Incidencia de la puntuación de riesgo de demencia, y el Indicador breve de detección de demencia), los algoritmos de aprendizaje automático fueron superiores en la predicción de demencia por cualquier causa incidente en un plazo de 2 años. El algoritmo de árboles potenciados por gradiente tuvo una precisión general media (SD) del 92 por ciento (1 por ciento), la sensibilidad de 0,45 (0,05), la especificidad de 0,97 (0,01) y el área bajo la curva de 0,92 (0,01) usando los 258 variables El análisis de la importancia de las variables mostró que solo se requerían 6 variables para que los algoritmos de aprendizaje automático lograran una precisión del 91 % y un área bajo la curva de al menos 0,89. Los algoritmos de aprendizaje automático también identificaron hasta el 84 por ciento de los participantes que recibieron un diagnóstico inicial de demencia que posteriormente se revirtió a deterioro cognitivo leve o sin deterioro cognitivo, lo que sugiere un posible diagnóstico erróneo. CONCLUSIONES Y RELEVANCIA: Estos hallazgos sugieren que los algoritmos de aprendizaje automático podrían predecir con precisión la demencia incidente dentro de los 2 años en pacientes que reciben atención enmemoriaclínicas utilizando sólo 6 variables. Estos hallazgos podrían usarse para informar el desarrollo y la validación de ayudas para la toma de decisiones enmemoriaclínicas

Introducción

Muchos pacientes evaluados en entornos especializados, comomemoriaclínicas, no tienen demencia cuando asisten por primera vez.1 Es importante diferenciar entre los pacientes que desarrollan demencia dentro de un período de tiempo clínicamente relevante y aquellos que permanecen libres de demencia, ya que esa información puede usarse para priorizar a los pacientes para las investigaciones de seguimiento. e intervenciones. Identificar pacientes con alto riesgo de desarrollar demencia es un desafío para los médicos. Un enfoque es centrarse en aquellos que tienen un deterioro cognitivo leve (DCL) cuando se evalúan inicialmente e invitar a estos pacientes a un seguimiento. Sin embargo, esto puede resultar en una clasificación errónea considerable para los pacientes que no son objeto de seguimiento pero que desarrollan demencia y los pacientes que son objeto de investigaciones adicionales pero que no desarrollan demencia.

La mayoría de los pacientes de la clínica de la memoria con MCI no progresan a la demencia incluso después de 10 años, con una tasa de conversión anual del 9,6 por ciento.2 Las ayudas para la toma de decisiones clínicas pueden mejorar la capacidad de los médicos para estimar el inicio de la demencia. Las ayudas para la toma de decisiones clínicas existentes están disponibles para estimar la incidencia de demencia a mediano y largo plazo en diferentes poblaciones. Por ejemplo, los Factores de Riesgo Cardiovascular, el Envejecimiento y la Incidencia de la Demencia (CAIDE) Risk Score3 fueron diseñados para predecir el riesgo de desarrollar demencia en 20 años para personas de mediana edad, y el Indicador Breve de Detección de Demencia (BDSI)4 tiene como objetivo identificar a los ancianos pacientes a los que deben dirigirse para el cribado cognitivo mediante la determinación de su riesgo de desarrollar demencia en 6 años. Sin embargo, hasta donde sabemos, no se ha desarrollado ninguna ayuda para la toma de decisiones clínicas para predecir la incidencia de demencia en las clínicas de la memoria durante un período clínicamente relevante más corto. El aprendizaje automático (ML) permite aprovechar la información de conjuntos de datos grandes y complejos. Recientemente, se ha aplicado al diagnóstico de demencia y la predicción del riesgo.5-9

Sin embargo, estos modelos a menudo incorporan información que normalmente no está disponible en la práctica clínica habitual, como neuroimágenes avanzadas, pruebas genéticas y biomarcadores de líquido cefalorraquídeo, lo que limita la aplicación clínica a entornos especializados o de investigación. Investigamos si las técnicas de ML se pueden usar para predecir la incidencia de demencia durante un período de 2-años usandomemoriadatos clínicos del Centro Nacional de Coordinación de Alzheimer de EE. UU. (NACC). También examinamos el conjunto mínimo de variables requeridas para que los modelos ML alcancen un rendimiento de diagnóstico completo.

Métodos

El estudio NACC recibió la aprobación ética de la junta de revisión institucional de cada sitio antes de que pudiera aportar datos, y todos los participantes habían dado su consentimiento informado por escrito. Este estudio de pronóstico se consideró exento de aprobación ética institucional porque utilizamos datos anonimizados recopilados previamente. Los datos utilizados en este estudio están disponibles mediante solicitud de datos al NACC. Este estudio se informa de acuerdo con la directriz de informe Informe transparente de un modelo de predicción multivariable para pronóstico o diagnóstico individual (TRIPOD). Los datos se analizaron de marzo a mayo de 2021.

Muestra de estudio

Utilizamos datos recopilados previamente del NACC Uniform Data Set (UDS).10 El UDS contiene datos prospectivos de cohortes del programa del Centro de Enfermedad de Alzheimer del Instituto Nacional sobre el Envejecimiento de EE. UU. para la investigación colaborativa multicéntrica sobre la enfermedad de Alzheimer y otros trastornos neurodegenerativos.11 Nuestro conjunto de datos consiste en de datos de clínicas de memoria recopilados entre septiembre de 2005 y febrero de 2015 de 30 Centros de Enfermedad de Alzheimer ubicados en los Estados Unidos. El conjunto de datos incluye las características sociodemográficas del participante y del coparticipante, los antecedentes familiares, el estado funcional,12 los síntomas conductuales (evaluados con los resultados del Cuestionario del Inventario Neuropsiquiátrico13), la batería de pruebas neuropsicológicas14 y el diagnóstico clínico de demencia NACC, asignado por cada Centro de Enfermedad de Alzheimer utilizando los criterios de diagnóstico clínico publicados. basado en la evaluación clínica estandarizada UDS. Los detalles de los criterios de diagnóstico adoptados por el protocolo UDS y la guía asociada se publicaron anteriormente.15

Utilizamos las versiones 1 y 2 de UDS, que incluyen 32 573 asistentes a la clínica de la memoria con una evaluación inicial. Aunque nuestros modelos están diseñados para predecir la incidencia de demencia dentro de los 2 años, para tener en cuenta la variación en el tiempo entre las citas de seguimiento, incluimos el seguimiento que ocurrió dentro de los 29 meses posteriores a la visita inicial para asegurarnos de que la visita fuera la primera o la siguiente. segunda cita de seguimiento.

Variable de resultado

La variable de resultado fue un diagnóstico incidente de demencia por todas las causas dentro de los 29 meses (aproximadamente 2 años) de la evaluación inicial. Esto incluye subtipos de demencia, como la demencia de Alzheimer, la demencia con cuerpos de Lewy, la demencia vascular y otros subtipos más raros. La demencia de Alzheimer se diagnosticó según los criterios NINCSD-ADRDA16, la demencia vascular se diagnosticó según los criterios NINDS-AIREN17, la demencia con cuerpos de Lewy (DCL) se diagnosticó según el tercer informe de los criterios del Dementia with Lewy Bodies Consortium18 y la demencia frontotemporal fue diagnosticado según los criterios de Neary y colaboradores de 1998.19

Prevent Alzheimer's disease

Predictores de candidatos

Todas las variables clínicamente relevantes recogidas durante la visita inicial se incluyeron en las versiones 1 y 2 de la UDS (eTabla 1 en el Suplemento). Excluimos las variables con valores de texto libre, como los nombres de los medicamentos, y las variables que eran constantes entre todos los participantes, como el número de visitas. Se generaron cuatro variables sintéticas para ayudar con la evaluación de la importancia de las variables (estas variables deben tener una clasificación baja); 3 de estas variables eran permutaciones de variables existentes (1 variable binaria, 1 categórica y 1 numérica), y 1 variable se generó aleatoriamente a partir de una distribución normal. Esto resultó en un total de 258 variables.

Las variables del UDS incorporadas a nuestros modelos incluyen características demográficas de los participantes (15 variables), características demográficas de los coparticipantes (7 variables), antecedentes familiares (3 variables), antecedentes médicos (47 variables), medicamentos (21 variables), físicos (12 variables ) y resultados de exámenes neurológicos (4 variables), la Escala Unificada de Calificación de la Enfermedad de Parkinson20 (UDPRS) (28 variables), escala de Calificación de Demencia Clínica (CDR)21 (8 variables), estado funcional (10 variables), batería de pruebas neuropsicológicas (50 variables) , Escala de Depresión Geriátrica (17 variables), y una evaluación clínica de los síntomas (32 variables). De estas variables, faltaban 239 (93 por ciento) para al menos 1 participante, y a todos los participantes les faltaba al menos 1 variable.

Modelo de desarrollo

Implementamos 4 algoritmos ML22: regresión logística (LR),23 máquina de vectores de soporte (SVM),24 bosque aleatorio (RF)25,26 y árboles potenciados por gradiente (XGB)27 (eMethods en el Suplemento). Estos algoritmos realizan una tarea de clasificación: determinan si un participante cae en la clase 0 (se prevé que permanecerá libre de demencia 29 meses desde el inicio) o en la clase 1 (se prevé que experimentará un incidente de demencia dentro de los 29 meses del inicio). La clasificación se basa en las variables registradas en su primera visita a la clínica de la memoria (línea de base). Para implementar los algoritmos de ML, utilizamos la biblioteca Python sci-kit-learn (Python Software Foundation),28 con validación cruzada 5-fold (eMethods en el Suplemento). Los valores faltantes se imputaron mediante muestreo con reemplazo de valores no faltantes. Todo el procesamiento y análisis de datos se implementaron en Python versión 3.9, NumPy versión 1.19.4 y sci-kit-learn versión 0.24.0.

Análisis estadístico

Evaluación del modelo

Evaluamos el rendimiento de todos los modelos comparando su precisión, sensibilidad y especificidad generales para los umbrales de decisión preespecificados en la literatura (modelos existentes) o un umbral de 0.5 (modelos ML), que pondera por igual los falsos positivos y errores falsos negativos. El área bajo la curva característica de funcionamiento del receptor (AUC)29 se utilizó para resumir el rendimiento del modelo sobre todos los umbrales posibles y, por lo tanto, las ponderaciones erróneas de error de clasificación.30 Las medidas medias de rendimiento y las SD se obtuvieron mediante arranque (eMethods en el Suplemento).

Comparación con modelos existentes

El BDSI y el CAIDE son modelos existentes de predicción del riesgo de demencia que asignan a los pacientes una puntuación que representa su riesgo de desarrollar demencia en escalas de tiempo más largas. Para derivar las puntuaciones de riesgo de BDSI y CAIDE, seleccionamos las variables de la UDS que más se corresponden con las variables utilizadas anteriormente (eTabla 2 en el Suplemento). El rendimiento de nuestros modelos ML se comparó con el de BDSI y CAIDE para predecir la incidencia de demencia durante 2-años.

Desempeño del modelo en los subtipos de demencia

La demencia puede tener una variedad de causas, correspondientes a diferentes subtipos de demencia. Para evaluar la capacidad de los modelos ML para identificar diferentes subtipos de demencia, dividimos los casos de demencia incidentes en demencia de Alzheimer, LBD, demencia vascular y otros subtipos de demencia. Usando estas 4 estratificaciones, calculamos el porcentaje de participantes clasificados correctamente (tasa de verdaderos positivos) y comparamos las curvas ROC para cada modelo de ML.

Investigación de Estabilidad Diagnóstica

Se sabe que el diagnóstico clínico de demencia incorpora pacientes que inicialmente son mal diagnosticados (efectivamente, tanto errores falsos positivos como falsos negativos).31 Definimos reversión como cuando un participante que fue diagnosticado con demencia hasta 2 años después de su primera visita a la clínica de memoria y posteriormente recibe un diagnóstico de ausencia de demencia (ya sea MCI o cognición sin deterioro) dentro de los 2 años de su diagnóstico de demencia. Debido al razonamiento de que estas reversiones son diagnósticos inestables y probablemente hayan sido el resultado de un diagnóstico erróneo de demencia, investigamos la precisión de la clasificación de los modelos de ML en una muestra de participantes con reversión (eMethods en el Suplemento). Utilizamos la función de distribución acumulada (CDF) de las puntuaciones de clasificación generadas por cada modelo de ML para comparar a los participantes con reversión con los pacientes que desarrollaron demencia y los pacientes que permanecieron libres de demencia.

Resultados

Después de excluir a {{0}} asistentes con un diagnóstico de demencia al inicio, 4557 asistentes que no tenían datos de seguimiento y 573 asistentes que tuvieron su primer seguimiento más de 29 meses después de su primera visita , la muestra analítica final contenía 15 307 participantes (edad media [DE], 72,3 [9,8] años; 9129 [60 por ciento] mujeres y 6178 [40 por ciento] hombres). Las características de la muestra se muestran en la Tabla 1. Dentro de los 2 años del inicio, 1568 participantes (10 por ciento) recibieron un diagnóstico de demencia. De 1568 participantes que recibieron un diagnóstico de demencia, 273 (17 por ciento) fueron diagnosticados por un solo médico y 1216 (78 por ciento) fueron diagnosticados por un panel de consenso; para 79 participantes (5 por ciento), no se especificó la fuente del diagnóstico. Las medidas clave de rendimiento que evalúan el poder predictivo de cada modelo se proporcionan en la Tabla 2. En comparación con los modelos existentes, los modelos ML fueron superiores en su capacidad para predecir si un individuo desarrollaría demencia dentro de los 2 años, y superaron a los modelos existentes en todas las medidas. Todos los modelos ML funcionaron de manera similar, con XGB teniendo la mayor potencia cuando se midió por precisión general (92 por ciento) y AUC (media [SD], 0.92 [0.01]). La curva característica operativa del receptor para cada modelo demuestra la similitud entre los modelos ML y su superioridad en comparación con los 2 modelos de riesgo existentes (Figura 1).

Desempeño del modelo en los subtipos de demencia

Para evaluar el rendimiento del modelo ML en diferentes subtipos de demencia, dividimos la población en 4 subtipos de demencia: demencia de Alzheimer (1285 participantes), LBD (82 participantes), demencia vascular (21 participantes) y otros subtipos de demencia (180 participantes). El modelo LR fue mejor para identificar la demencia de Alzheimer y otros subtipos, clasificando correctamente a 589 participantes (46 por ciento) con demencia de Alzheimer y 99 participantes (55 por ciento) con otros subtipos. El modelo SVM funcionó mejor en participantes con LBD, clasificando correctamente a 40 participantes (49 por ciento). Todos los modelos clasificaron correctamente a 7 participantes (33 por ciento) con demencia vascular. Las curvas características operativas del receptor demuestran que todos los modelos funcionaron aproximadamente igual de bien en cada subtipo (eFigura 1 en el Suplemento).

Investigación del Número Mínimo de Variables

Un inconveniente potencial de usar un enfoque de ML es la gran cantidad de variables involucradas. A medida que aumenta el número de variables requeridas por un modelo, la implementación en un entorno clínico se vuelve menos práctica y la interpretabilidad del modelo se ve afectada. Para evaluar cuántas variables requirió cada modelo de ML para lograr el poder predictivo equivalente al que encontramos usando las 258 variables (Tabla 2), evaluamos cómo AUC varió con la cantidad de variables incluidas en los modelos. Específicamente, clasificamos las variables para cada modelo clasificándolas en orden descendente de importancia (es decir, el poder discriminatorio de cada variable según el algoritmo; eMethods en el Suplemento). Posteriormente, volvimos a entrenar cada modelo con un número creciente de variables, comenzando con las más importantes. Descubrimos que todos los modelos requerían solo 22 variables para lograr un rendimiento de diagnóstico estadísticamente indistinguible de su rendimiento medio óptimo (Figura 2; eFigura 2 en el Suplemento). Las variables sintéticas añadidas para garantizar la validez de la evaluación de la importancia de las variables no se encontraban entre las 22 variables principales de ningún modelo, lo que refleja el hecho de que después de alcanzar el rendimiento diagnóstico completo, había poca información para determinar con certeza la clasificación de las variables.

Identificación de factores de riesgo clave

De las 22 variables más importantes para cada modelo, solo 5 eran comunes a todos los modelos (es decir, juicio clínico de disminución de la memoria, habilidades cognitivas, comportamiento, capacidad para manejar asuntos o cambios motores y de movimiento; tiempo para completar la prueba Trail Making Test). Parte B; CDR: deterioro de la orientación; CDR: deterioro del hogar y pasatiempos; y nivel de independencia). De las variables restantes, hubo 10 pares que tuvieron una correlación superior a 0.7, lo que indica que eran variables similares (eTabla 3 en el Suplemento). Teniendo en cuenta esta correlación mediante el intercambio de variables que estaban altamente correlacionadas, encontramos que había 6 variables altamente predictivas (juicio clínico de declive, tiempo para completar la Parte B de Trail Making Test, 3 componentes de la CDR [orientación, memoria y hogar y pasatiempos] deterioro] y el nivel de independencia) que eran comunes a todos los modelos de ML (eTabla 4 en el Suplemento). Entrenando cada modelo usando solo estas variables, encontramos que para LR y XGB, no hubo una disminución significativa en el rendimiento del diagnóstico: usando este conjunto básico de 6 variables, estos modelos tuvieron una precisión media (SD) del 91 por ciento (0 por ciento) para LR y 91 por ciento (1 por ciento) para XGB y AUC media (SD) de 0.89 (0.01) para LR y 0.89 (0.02) para XGB (eTabla 5 en el Suplemento).

Estabilidad diagnóstica

De 1568 participantes que recibieron un diagnóstico de demencia dentro de los 2 años, identificamos a 130 (8 por ciento) que experimentaron una reversión que probablemente inicialmente fueron mal diagnosticados y, por lo tanto, mal etiquetados para propósitos de ML. Descubrimos que, si bien las reversiones solo se informaron en el 0,8 por ciento de los participantes, representaron entre 92 y 109 participantes (7 por ciento -8 por ciento) de participantes mal clasificados, con una pequeña variación entre los modelos (Tabla 3). El modelo RF tuvo la estabilidad diagnóstica más alta, identificando correctamente a 109 de 130 participantes con reversión (84 por ciento) clasificándolos como predichos sin demencia a los 2 años. Para investigar la estabilidad diagnóstica de los modelos ML, eliminamos a los participantes con reversión durante el entrenamiento (eMethods en el Suplemento). Después de volver a entrenar los modelos sin reversiones, encontramos que RF identificó a 106 participantes que experimentaron reversiones (mediana [IQR], 82 por ciento [78 por ciento -82 por ciento]), SVM identificó a 93 participantes que experimentaron reversiones (mediana [IQR], 72 por ciento [69 por ciento -74 por ciento]), y LR y XGB identificaron a 92 participantes que experimentaron reversiones (mediana [IQR], 71 por ciento [68 por ciento -75 por ciento]). Los IQR se obtuvieron mediante el arranque de los participantes que experimentaron reversión.

Para comprender la diferencia entre los participantes mal clasificados, los participantes con reversión y los participantes que desarrollaron demencia sin reversión, analizamos las CDF de las puntuaciones de clasificación obtenidas de cada modelo de ML. Descubrimos que las puntuaciones de los participantes mal clasificados y los participantes específicos con reversión eran diferentes de los participantes que desarrollaron demencia y los que no (eFigura 3 en el Suplemento). Las CDF de las puntuaciones de clasificación de los participantes que no desarrollaron demencia se ubicaron en el extremo izquierdo de cada gráfico, lo que indica que los modelos ML asignaron a estos participantes una baja probabilidad de desarrollar demencia. Por el contrario, para los participantes que desarrollaron demencia, las CDF cayeron a la derecha de las parcelas: se les asignó una alta probabilidad de desarrollar demencia. Para todos los modelos, la distribución de puntajes para los participantes con reversión cayó a la izquierda de la de los participantes que desarrollaron demencia, lo que significa que se evaluó que los participantes con reversión tenían una menor probabilidad de desarrollar demencia de acuerdo con estos modelos.

Discusión

En este estudio de pronóstico, los algoritmos de ML tuvieron una precisión de pronóstico superior en comparación con BDSI y CAIDE para predecir la incidencia de demencia dentro de los 2 años posteriores a la primera evaluación clínica de la memoria de un paciente. Dos de los algoritmos de ML se evaluaron para lograr una precisión del 91 por ciento y un AUC de 0.89 con solo 6 variables clave. Los análisis de sensibilidad sugieren que los modelos de ML podrían clasificar correctamente una alta proporción de participantes que experimentaron reversión y que potencialmente recibieron un diagnóstico erróneo dentro de los 2 años de su visita inicial. Este estudio tiene varias fortalezas, incluida la gran muestra de pacientes derivados de múltiples clínicas de memoria en los Estados Unidos, la amplia gama de técnicas de ML utilizadas, la evaluación comparativa con los modelos de riesgo existentes y la exploración de la estabilidad diagnóstica y el diagnóstico erróneo probable.

Estudios previos sobre el uso de ML para predecir el riesgo de demencia se han centrado en la conversión de cognición sin deterioro a demencia de Alzheimer o MCI,6,8 o conversión de MCI a demencia de Alzheimer.5 Estos enfoques son menos útiles en un entorno clínico, ya que excluyen otros tipos de demencia5,6,8 o pacientes que inicialmente no tienen deterioro cognitivo.5 Los datos utilizados en estos estudios incluyeron tomografías por emisión de positrones,5,8 y biomarcadores de líquido cefalorraquídeo,8 de los cuales no están comúnmente disponibles en un entorno clínico de memoria. Un estudio realizado por Lin et al6 superó esto mediante el uso de datos NACC para encontrar un conjunto de 15 variables clínicas no invasivas para evaluar el riesgo de conversión de la cognición sin alteraciones a MCI en un período de 4-años. Sin embargo, el concepto de DCL sigue siendo algo controvertido,32 y las tasas de conversión entre DCL y demencia suelen ser bajas.32,33 Nuestros modelos de ML complementan estos análisis y tienen la ventaja de incorporar solo 6 variables clave en una escala de tiempo clínicamente relevante y predecir el resultado de la demencia por cualquier causa.

De los modelos existentes investigados en nuestro estudio, el modelo CAIDE fue el menos preciso en la predicción del riesgo de demencia durante 2 años, lo que no sorprende, dado que fue desarrollado para predecir el riesgo de demencia a largo plazo en adultos de mediana edad durante un período mucho más largo. período de seguimiento de 20 años. El BDSI funcionó mejor que el CAIDE, lo que probablemente refleja que fue diseñado para su uso en adultos mayores durante un período de seguimiento más moderado de 6 años. Sin embargo, todos los modelos de ML superaron a estos modelos existentes. Usando todas las variables, XGB fue el enfoque de ML más poderoso para predecir pacientes que probablemente serían diagnosticados con demencia dentro de 2 años, lo que sugiere que la forma en que se entrenan los nuevos árboles de decisión para corregir los errores de los últimos tres resultados en un desempeño marginal ganar. Sin embargo, XGB también pareció ser el enfoque menos capaz de identificar a los participantes que experimentaron reversión, es decir, aquellos a los que inicialmente se les diagnosticó demencia dentro de los 2 años y cuyo diagnóstico se revirtió dentro de los 2 años posteriores al diagnóstico inicial.

El rendimiento de los modelos ML puede reducirse considerablemente con datos de entrenamiento mal etiquetados.34 Contrariamente a la intuición, excluir datos de entrenamiento mal etiquetados no siempre mejora el rendimiento.35 A medida que aumenta el nivel de ruido en los datos de entrenamiento, el valor de excluir o reducir ese ruido disminuye si el mismo ruido está presente en los datos de validación.36 Por lo tanto, filtrar los datos de entrenamiento puede incluso reducir los datos de invalidación del rendimiento, como se encontró en este estudio. Sin embargo, cuando el nivel de etiquetado incorrecto es inferior al 20 % o 40 % aproximadamente, la eliminación de los datos etiquetados incorrectamente puede mejorar la precisión de los datos de validación, incluso si se incorporan datos etiquetados incorrectamente.35,37,38 Esto ilustra la importancia de investigar la estabilidad diagnóstica en el entrenamiento y datos de validación: incluso los datos estándar de criterio incorporan errores.

La tasa de reversión observada (8 por ciento) fue similar a la encontrada en un estudio de 2019 basado en una población estadounidense diferente.31 En nuestro estudio, se encontró que el porcentaje de falsos positivos varió del 7 por ciento al 19 por ciento, según el nivel cognitivo evaluación utilizada. Hasta donde sabemos, este es el primer análisis de posibles diagnósticos erróneos en el NACC UDS y sugiere que el uso de ML como ayuda para la toma de decisiones clínicas tiene el potencial de reducir los diagnósticos erróneos de falsos positivos hasta en un 84 por ciento. Dado que los pacientes que experimentan reversión están en el límite en un sentido diagnóstico, desde una perspectiva clínica, puede ser sensato que se les haga un seguimiento de todos modos, dado que ha habido motivos de preocupación clínica. Por lo tanto, XGB puede ser el mejor modelo para una ayuda en la toma de decisiones clínicas. Alternativamente, un enfoque de conjunto que haga predicciones secundarias sobre la estabilidad diagnóstica probable y el potencial de clasificación errónea puede resultar aún más útil.

Limitaciones

Este estudio tiene varias limitaciones. En primer lugar, tanto CAIDE como BDSI se desarrollaron utilizando poblaciones diferentes a la utilizada en este estudio. No todas las variables utilizadas para el desarrollo de estos modelos tenían un equivalente exacto en el UDS, lo que puede haber afectado su desempeño en este conjunto de datos. En segundo lugar, el método utilizado para imputar los datos puede dar lugar a un error de imputación. Específicamente, la imputación reemplaza todos los valores faltantes con un valor numérico, pero faltan algunos valores debido a su relación con otro valor; por lo tanto, el hecho de que falte un valor es informativo. Sin embargo, mientras que a los participantes les faltaba un promedio del 14 por ciento de datos, faltaban las 6 variables clave identificadas para un promedio del 1 por ciento de los participantes. En tercer lugar, aunque nuestro estudio utilizó una gran muestra de asistentes a la clínica de la memoria en los Estados Unidos, lo que hace que nuestros resultados sean muy aplicables a este entorno, se desconoce hasta qué punto estos resultados se generalizarán a otras poblaciones.

Conclusiones

Este estudio de pronóstico encontró que los modelos ML superaron a los modelos de predicción de riesgo de demencia existentes y pueden tener el potencial de mejorar la predicción de demencia incidente durante 2 años en clínicas de memoria. Seis factores clave para el riesgo de demencia identificados en este estudio pueden tener el potencial de mejorar la práctica clínica en las clínicas de la memoria si se incorporan en futuras ayudas para la toma de decisiones clínicas.

Parte 1: Transferencia del entrenamiento de la memoria de trabajo al control inhibitorio de la distracción auditiva

Parte 2: La información almacenada en la memoria afecta el razonamiento abductivo

Desempeño de algoritmos de aprendizaje automático para predecir la progresión a la demencia en pacientes de clínicas de memoria