Desempeño de algoritmos de aprendizaje automático para predecir la progresión a la demencia en pacientes de clínicas de memoria
Mar 25, 2022
Para más información:ali.ma@wecistanche.com
Resumen
IMPORTANCIA
Los algoritmos de aprendizaje automático podrían usarse como base para la toma de decisiones clínicas para mejorar la práctica clínica.
OBJETIVO
Evaluar la capacidad de los algoritmos de aprendizaje automático para predecir la incidencia de demencia dentro de los 2 años en comparación con los modelos existentes y determinar el enfoque analítico óptimo y la cantidad de variables requeridas.
DISEÑO, ESCENARIO Y PARTICIPANTES
Este estudio de pronóstico usó datos de una cohorte prospectiva de 15 307 participantes sin demencia al inicio del estudio para realizar un análisis secundario de factores que podrían usarse para predecir la incidencia de demencia. Los participantes asistieron al Centro Coordinador Nacional de Alzheimermemoriaclínicas en los Estados Unidos entre 2005 y 2015. Los análisis se realizaron de marzo a mayo de 2021. EXPOSICIONES 258 variables que abarcan dominios de medidas clínicas y factores de riesgo relacionados con la demencia.
PRINCIPALES RESULTADOS Y MEDIDAS
El resultado principal fue un incidente de demencia por todas las causas diagnosticado dentro de los 2 años posteriores a la evaluación inicial.
Charlotte James, Doctora en Filosofía; Janice M. Ranson, Ph.D.; Richard Everson, Doctor en Filosofía; Dr. David J. Llewellyn
RESULTADOS
En una muestra de {{0}} participantes (edad media [SD], 72,3 [9,8] años; 9129 [6{{20}} por ciento] mujeres y 6178 [4{{24 }} por ciento] hombres) sin demencia al inicio, 1568 (10 por ciento) recibieron un diagnóstico de demencia dentro de los 2 años de su evaluación inicial. En comparación con 2 modelos existentes para la predicción del riesgo de demencia (es decir, Factores de riesgo cardiovascular, Envejecimiento e Incidencia de la puntuación de riesgo de demencia, y el Indicador breve de detección de demencia), los algoritmos de aprendizaje automático fueron superiores en la predicción de demencia por cualquier causa incidente en un plazo de 2 años. El algoritmo de árboles potenciados por gradiente tuvo una precisión general media (SD) del 92 por ciento (1 por ciento), la sensibilidad de 0.45 (0.05), especificidad de 0.97 (0.01) y área bajo la curva de 0,92 (0,01) utilizando las 258 variables. El análisis de la importancia de las variables mostró que solo se requerían 6 variables para que los algoritmos de aprendizaje automático lograran una precisión del 91 % y un área bajo la curva de al menos 0,89. Los algoritmos de aprendizaje automático también identificaron hasta el 84 por ciento de los participantes que recibieron un diagnóstico inicial de demencia que posteriormente se revirtió a deterioro cognitivo leve o sin deterioro cognitivo, lo que sugiere un posible diagnóstico erróneo.
CONCLUSIONES Y RELEVANCIA
Estos hallazgos sugieren que los algoritmos de aprendizaje automático podrían predecir con precisión la demencia incidente dentro de los 2 años en pacientes que reciben atención enmemoriaclínicas utilizando sólo 6 variables. Estos hallazgos podrían usarse para informar el desarrollo y la validación de ayudas para la toma de decisiones enmemoriaclínicas

Haga clic para citar DHT para la memoria
Introducción
Muchos pacientes evaluados en entornos especializados, comomemoriaclínicas, no tienen demencia cuando asisten por primera vez.1 Es importante diferenciar entre los pacientes que desarrollan demencia dentro de un período de tiempo clínicamente relevante y aquellos que permanecen libres de demencia, ya que esa información puede usarse para priorizar a los pacientes para las investigaciones de seguimiento. e intervenciones. Identificar pacientes con alto riesgo de desarrollar demencia es un desafío para los médicos. Un enfoque es centrarse en aquellos que tienen un deterioro cognitivo leve (DCL) cuando se evalúan inicialmente e invitar a estos pacientes a un seguimiento. Sin embargo, esto puede resultar en una clasificación errónea considerable para los pacientes que no son objeto de seguimiento pero que desarrollan demencia y los pacientes que son objeto de investigaciones adicionales pero que no desarrollan demencia. La mayoría de los pacientes de la clínica de la memoria con MCI no progresan a la demencia incluso después de 10 años, con una tasa de conversión anual del 9,6 % .2
Las ayudas para la toma de decisiones clínicas pueden mejorar la capacidad de los médicos para estimar el inicio de la demencia. Las ayudas para la toma de decisiones clínicas existentes están disponibles para estimar la incidencia de demencia a mediano y largo plazo en diferentes poblaciones. Por ejemplo, los Factores de Riesgo Cardiovascular, el Envejecimiento y la Incidencia de la Demencia (CAIDE) Risk Score3 fueron diseñados para predecir el riesgo de desarrollar demencia en 20 años para personas de mediana edad, y el Indicador Breve de Detección de Demencia (BDSI)4 tiene como objetivo identificar a los ancianos pacientes a los que deben someterse las pruebas cognitivas mediante la determinación de su riesgo de desarrollar demencia en 6 años. Sin embargo, hasta donde sabemos, no se ha desarrollado ninguna ayuda para la toma de decisiones clínicas para predecir la incidencia de demencia en las clínicas de la memoria durante un período clínicamente relevante más corto.

El aprendizaje automático (ML) permite aprovechar la información de conjuntos de datos grandes y complejos. Recientemente, se ha aplicado al diagnóstico de demencia y la predicción del riesgo.5-9 Sin embargo, estos modelos a menudo incorporan información que normalmente no está disponible en la práctica clínica habitual, como neuroimagen avanzada, pruebas genéticas y biomarcadores del líquido cefalorraquídeo, lo que limita la aplicación clínica a entornos especializados o de investigación.
Investigamos si las técnicas de aprendizaje automático se pueden usar para predecir la incidencia de demencia durante un período de 2-años utilizando datos clínicos de memoria del US NationalAlzhéimerCentro Coordinador (NACC). También examinamos el conjunto mínimo de variables requeridas para que los modelos ML alcancen un rendimiento de diagnóstico completo.

Métodos
El estudio NACC recibió la aprobación ética de la junta de revisión institucional de cada sitio antes de que pudiera aportar datos, y todos los participantes habían dado su consentimiento informado por escrito. Este estudio de pronóstico se consideró exento de aprobación ética institucional porque utilizamos datos anonimizados recopilados previamente. Los datos utilizados en este estudio están disponibles mediante solicitud de datos al NACC. Este estudio se informa de acuerdo con la directriz de informe Informe transparente de un modelo de predicción multivariable para pronóstico o diagnóstico individual (TRIPOD). Los datos se analizaron de marzo a mayo de 2021.
Muestra de estudio
Utilizamos datos recopilados previamente del Conjunto de datos uniformes (UDS) de NACC.10 El UDS contiene datos prospectivos de cohortes del Instituto Nacional sobre el Envejecimiento de EE. UU.AlzhéimerEnfermedadPrograma del centro para la investigación colaborativa multicéntrica enalzheimerenfermedady otros trastornos neurodegenerativos.11 Nuestro conjunto de datos consiste en datos de la clínica de la memoria recopilados entre septiembre de 2005 y febrero de 2015 de 30alzheimerEnfermedadCentros ubicados en los Estados Unidos. El conjunto de datos incluye las características sociodemográficas del participante y del coparticipante, antecedentes familiares, estado funcional,12 síntomas conductuales (evaluados con los resultados del Cuestionario del Inventario Neuropsiquiátrico13), batería de pruebas neuropsicológicas,14 y diagnóstico clínico de demencia NACC, asignado por cadaAlzhéimerEnfermedadCentro que utiliza criterios de diagnóstico clínico publicados basados en la evaluación clínica estandarizada de UDS. Los detalles de los criterios de diagnóstico adoptados por el protocolo UDS y la guía asociada se publicaron anteriormente.15

Utilizamos las versiones 1 y 2 de UDS, que incluyen 32 573 asistentes a la clínica de la memoria con una evaluación inicial. Aunque nuestros modelos están diseñados para predecir la incidencia de demencia dentro de los 2 años, para tener en cuenta la variación en el tiempo entre las citas de seguimiento, incluimos el seguimiento que ocurrió dentro de los 29 meses posteriores a la visita inicial para garantizar que la visita fuera la primera o la siguiente. segunda cita de seguimiento.
Variable de resultado
La variable de resultado fue un diagnóstico incidente de demencia por todas las causas dentro de los 29 meses (aproximadamente 2 años) de la evaluación inicial. Esto incluye subtipos de demencia, como la demencia de Alzheimer, la demencia con cuerpos de Lewy, la demencia vascular y otros subtipos más raros. La demencia de Alzheimer se diagnosticó según los criterios NINCSD-ADRDA16, la demencia vascular se diagnosticó según los criterios NINDS-AIREN17, la demencia con cuerpos de Lewy (DCL) se diagnosticó según el tercer informe de los criterios del Dementia with Lewy Bodies Consortium18 y la demencia frontotemporal fue diagnosticado según los criterios de Neary y colaboradores de 1998.19
Predictores de candidatos
Todas las variables clínicamente relevantes recogidas durante la visita inicial se incluyeron en las versiones 1 y 2 de la UDS (eTabla 1 en el Suplemento). Excluimos las variables con valores de texto libre, como los nombres de los medicamentos, y las variables que eran constantes entre todos los participantes, como el número de visitas. Se generaron cuatro variables sintéticas para ayudar con la evaluación de la importancia de las variables (estas variables deben tener una clasificación baja); 3 de estas variables eran permutaciones de variables existentes (1 variable binaria, 1 categórica y 1 numérica), y 1 variable se generó aleatoriamente a partir de una distribución normal. Esto resultó en un total de 258 variables.
Las variables del UDS incorporadas a nuestros modelos incluyen características demográficas de los participantes (15 variables), características demográficas de los coparticipantes (7 variables), antecedentes familiares (3 variables), antecedentes médicos (47 variables), medicamentos (21 variables), físicos (12 variables ) y resultados de exámenes neurológicos (4 variables), la Escala Unificada de Calificación de la Enfermedad de Parkinson20 (UDPRS) (28 variables), escala de Calificación de Demencia Clínica (CDR)21 (8 variables), estado funcional (10 variables), batería de pruebas neuropsicológicas (50 variables) , Escala de Depresión Geriátrica (17 variables), y una evaluación clínica de los síntomas (32 variables). De estas variables, faltaban 239 (93 por ciento) para al menos 1 participante, y a todos los participantes les faltaba al menos 1 variable.
Modelo de desarrollo
Implementamos 4 algoritmos ML22: regresión logística (LR),23 máquina de vectores de soporte (SVM),24 bosque aleatorio (RF)25,26 y árboles potenciados por gradiente (XGB)27 (eMethods en el Suplemento). Estos algoritmos realizan una tarea de clasificación: determinan si un participante cae en la clase 0 (se prevé que permanecerá libre de demencia 29 meses desde el inicio) o en la clase 1 (se prevé que experimente un incidente de demencia dentro de los 29 meses del inicio). La clasificación se basa en las variables registradas en su primera visita a la clínica de memoria (línea de base). Para implementar los algoritmos de ML, utilizamos la biblioteca Python sci-kit-learn (Python Software Foundation),28 con validación cruzada 5-fold (eMethods en el Suplemento). Los valores perdidos se imputaron mediante muestreo con reemplazo de valores no perdidos. Todo el procesamiento y análisis de datos se implementaron en Python versión 3.9, NumPy versión 1.19.4 y sci-kit-learn versión 0.24.0.
Análisis estadístico
Evaluación del modelo
Evaluamos el rendimiento de todos los modelos comparando su precisión, sensibilidad y especificidad generales para los umbrales de decisión preespecificados en la literatura (modelos existentes) o un umbral de 0.5 (modelos ML), que pondera por igual los falsos positivos y errores falsos negativos. El área bajo la curva característica de funcionamiento del receptor (AUC)29 se utilizó para resumir el rendimiento del modelo sobre todos los umbrales posibles y, por lo tanto, las ponderaciones erróneas de error de clasificación.30 Las medidas medias de rendimiento y las SD se obtuvieron mediante arranque (eMethods en el Suplemento).
Comparación con modelos existentes
El BDSI y el CAIDE son modelos existentes de predicción del riesgo de demencia que asignan a los pacientes una puntuación que representa su riesgo de desarrollar demencia en escalas de tiempo más largas. Para derivar las puntuaciones de riesgo de BDSI y CAIDE, seleccionamos las variables de la UDS que más se corresponden con las variables utilizadas anteriormente (eTabla 2 en el Suplemento). El rendimiento de nuestros modelos ML se comparó con el de BDSI y CAIDE para predecir la incidencia de demencia durante 2-años.
Desempeño del modelo en los subtipos de demencia
La demencia puede tener una variedad de causas, correspondientes a diferentes subtipos de demencia. Para evaluar la capacidad de los modelos ML para identificar diferentes subtipos de demencia, dividimos los casos de demencia incidentes en demencia de Alzheimer, LBD, demencia vascular y otros subtipos de demencia. Usando estas 4 estratificaciones, calculamos el porcentaje de participantes clasificados correctamente (tasa de verdaderos positivos) y comparamos las curvas ROC para cada modelo de ML.
Investigación de Estabilidad Diagnóstica
Se sabe que el diagnóstico clínico de demencia incorpora pacientes que inicialmente son mal diagnosticados (efectivamente, tanto errores falsos positivos como falsos negativos).31 Definimos reversión como cuando un participante que fue diagnosticado con demencia hasta 2 años después de su primera visita a la clínica de memoria y posteriormente recibe un diagnóstico de ausencia de demencia (ya sea MCI o cognición sin deterioro) dentro de los 2 años de su diagnóstico de demencia. Debido al razonamiento de que estas reversiones son diagnósticos inestables y probablemente hayan sido el resultado de un diagnóstico erróneo de demencia, investigamos la precisión de la clasificación de los modelos de ML en una muestra de participantes con reversión (eMethods en el Suplemento). Utilizamos la función de distribución acumulada (CDF) de las puntuaciones de clasificación generadas por cada modelo de ML para comparar a los participantes con reversión con los pacientes que desarrollaron demencia y los pacientes que permanecieron libres de demencia.
Resultados
Después de excluir a {{0}} asistentes con un diagnóstico de demencia al inicio, 4557 asistentes que no tenían datos de seguimiento y 573 asistentes que tuvieron su primer seguimiento más de 29 meses después de su primera visita , la muestra analítica final contenía 15 307 participantes (edad media [DE], 72,3 [9,8] años; 9129 [60 por ciento] mujeres y 6178 [40 por ciento] hombres). Las características de la muestra se muestran en la Tabla 1. Dentro de los 2 años del inicio, 1568 participantes (10 por ciento) recibieron un diagnóstico de demencia. De 1568 participantes que recibieron un diagnóstico de demencia, 273 (17 por ciento) fueron diagnosticados por un solo médico y 1216 (78 por ciento) fueron diagnosticados por un panel de consenso; para 79 participantes (5 por ciento), no se especificó la fuente del diagnóstico. Las medidas clave de rendimiento que evalúan el poder predictivo de cada modelo se proporcionan en la Tabla 2. En comparación con los modelos existentes, los modelos ML fueron superiores en su capacidad para predecir si un individuo desarrollaría demencia dentro de los 2 años, y superaron a los modelos existentes en todas las medidas. Todos los modelos ML funcionaron de manera similar, con XGB teniendo la mayor potencia cuando se midió por precisión general (92 por ciento) y AUC (media [SD], 0.92 [0.01]). La curva característica operativa del receptor para cada modelo demuestra la similitud entre los modelos ML y su superioridad en comparación con los 2 modelos de riesgo existentes (Figura 1).


Desempeño del modelo en los subtipos de demencia
Para evaluar el rendimiento del modelo ML en diferentes subtipos de demencia, dividimos la población en 4 subtipos de demencia: demencia de Alzheimer (1285 participantes), LBD (82 participantes), demencia vascular (21 participantes) y otros subtipos de demencia (180 participantes). El modelo LR fue mejor para identificar la demencia de Alzheimer y otros subtipos, clasificando correctamente a 589 participantes (46 por ciento) con demencia de Alzheimer y 99 participantes (55 por ciento) con otros subtipos. El modelo SVM funcionó mejor en participantes con LBD, clasificando correctamente a 40 participantes (49 por ciento). Todos los modelos clasificaron correctamente a 7 participantes (33 por ciento) con demencia vascular. Las curvas características operativas del receptor demuestran que todos los modelos funcionaron aproximadamente igual de bien en cada subtipo (eFigura 1 en el Suplemento).
Investigación del Número Mínimo de Variables
Un inconveniente potencial de usar un enfoque de ML es la gran cantidad de variables involucradas. A medida que aumenta el número de variables requeridas por un modelo, la implementación en un entorno clínico se vuelve menos práctica y la interpretabilidad del modelo se ve afectada. Para evaluar cuántas variables requirió cada modelo de ML para lograr el poder predictivo equivalente al que encontramos usando las 258 variables (Tabla 2), evaluamos cómo AUC varió con la cantidad de variables incluidas en los modelos. Específicamente, clasificamos las variables para cada modelo clasificándolas en orden descendente de importancia (es decir, el poder discriminatorio de cada variable según el algoritmo; eMethods en el Suplemento). Posteriormente, volvimos a entrenar cada modelo con un número creciente de variables, comenzando con las más importantes. Descubrimos que todos los modelos requerían solo 22 variables para lograr un rendimiento de diagnóstico estadísticamente indistinguible de su rendimiento medio óptimo (Figura 2; eFigura 2 en el Suplemento). Las variables sintéticas añadidas para garantizar la validez de la evaluación de la importancia de las variables no se encontraban entre las 22 variables principales de ningún modelo, lo que refleja el hecho de que después de alcanzar el rendimiento diagnóstico completo, había poca información para determinar con certeza la clasificación de las variables.
Identificación de factores de riesgo clave
De las 22 variables más importantes para cada modelo, solo 5 eran comunes a todos los modelos (es decir, juicio clínico de disminución de la memoria, habilidades cognitivas, comportamiento, capacidad para manejar asuntos o cambios motores y de movimiento; tiempo para completar la prueba Trail Making Test). Parte B; CDR: deterioro de la orientación; CDR: deterioro del hogar y pasatiempos; y nivel de independencia). De las variables restantes, hubo 10 pares que tuvieron una correlación superior a 0.7, lo que indica que eran variables similares (eTabla 3 en el Suplemento). Teniendo en cuenta esta correlación mediante el intercambio de variables que estaban altamente correlacionadas, encontramos que había 6 variables altamente predictivas (juicio clínico de declive, tiempo para completar la Parte B de Trail Making Test, 3 componentes de la CDR [orientación, memoria y hogar y pasatiempos] deterioro] y el nivel de independencia) que eran comunes a todos los modelos de ML (eTabla 4 en el Suplemento). Entrenando cada modelo usando solo estas variables, encontramos que para LR y XGB, no hubo una disminución significativa en el rendimiento del diagnóstico: usando este conjunto básico de 6 variables, estos modelos tuvieron una precisión media (SD) del 91 por ciento (0 por ciento) para LR y 91 por ciento (1 por ciento) para XGB y AUC media (SD) de 0.89 (0.01) para LR y 0.89 (0.02) para XGB (eTabla 5 en el Suplemento).
Estabilidad diagnóstica
De 1568 participantes que recibieron un diagnóstico de demencia dentro de los 2 años, identificamos a 130 (8 por ciento) que experimentaron una reversión que probablemente inicialmente fueron mal diagnosticados y, por lo tanto, mal etiquetados para propósitos de ML. Descubrimos que, si bien las reversiones solo se informaron en el 0,8 por ciento de los participantes, representaron entre 92 y 109 participantes (7 por ciento -8 por ciento) de participantes mal clasificados, con una pequeña variación entre los modelos (Tabla 3). El modelo RF tuvo la estabilidad diagnóstica más alta, identificando correctamente a 109 de 130 participantes con reversión (84 por ciento) clasificándolos como predichos sin demencia a los 2 años. Para investigar la estabilidad diagnóstica de los modelos ML, eliminamos a los participantes con reversión durante el entrenamiento (eMethods en el Suplemento). Después de volver a entrenar los modelos sin reversiones, encontramos que RF identificó a 106 participantes que experimentaron reversiones (mediana [IQR], 82 por ciento [78 por ciento -82 por ciento]), SVM identificó a 93 participantes que experimentaron reversiones (mediana [IQR], 72 por ciento [69 por ciento -74 por ciento]), y LR y XGB identificaron a 92 participantes que experimentaron reversiones (mediana [IQR], 71 por ciento [68 por ciento -75 por ciento]). Los IQR se obtuvieron mediante el arranque de los participantes que experimentaron reversión.

Para comprender la diferencia entre los participantes mal clasificados, los participantes con reversión y los participantes que desarrollaron demencia sin reversión, analizamos las CDF de las puntuaciones de clasificación obtenidas de cada modelo de ML. Descubrimos que las puntuaciones de los participantes mal clasificados y los participantes específicos con reversión eran diferentes de los participantes que desarrollaron demencia y los que no (eFigura 3 en el Suplemento). Las CDF de las puntuaciones de clasificación de los participantes que no desarrollaron demencia se ubicaron en el extremo izquierdo de cada gráfico, lo que indica que los modelos ML asignaron a estos participantes una baja probabilidad de desarrollar demencia. Por el contrario, para los participantes que desarrollaron demencia, las CDF cayeron a la derecha de las parcelas: se les asignó una alta probabilidad de desarrollar demencia. Para todos los modelos, la distribución de puntajes para los participantes con reversión cayó a la izquierda de la de los participantes que desarrollaron demencia, lo que significa que se evaluó que los participantes con reversión tenían una menor probabilidad de desarrollar demencia de acuerdo con estos modelos.
Discusión
En este estudio de pronóstico, los algoritmos de ML tuvieron una precisión de pronóstico superior en comparación con BDSI y CAIDE para predecir la incidencia de demencia dentro de los 2 años posteriores a la primera evaluación clínica de la memoria de un paciente. Dos de los algoritmos de ML se evaluaron para lograr una precisión del 91 por ciento y un AUC de 0.89 con solo 6 variables clave. Los análisis de sensibilidad sugieren que los modelos de ML podrían clasificar correctamente una alta proporción de participantes que experimentaron reversión y que potencialmente recibieron un diagnóstico erróneo dentro de los 2 años de su visita inicial. Este estudio tiene varias fortalezas, incluida la gran muestra de pacientes derivados de múltiples clínicas de memoria en los Estados Unidos, la amplia gama de técnicas de ML utilizadas, la evaluación comparativa con los modelos de riesgo existentes y la exploración de la estabilidad diagnóstica y el diagnóstico erróneo probable.
Estudios previos sobre el uso de ML para predecir el riesgo de demencia se han centrado en la conversión de cognición sin deterioro a demencia de Alzheimer o MCI,6,8 o conversión de MCI a demencia de Alzheimer.5 Estos enfoques son menos útiles en un entorno clínico, ya que excluyen otros tipos de demencia5,6,8 o pacientes que inicialmente no tienen deterioro cognitivo.5 Los datos utilizados en estos estudios incluyeron tomografías por emisión de positrones,5,8 y biomarcadores de líquido cefalorraquídeo,8 de los cuales no están comúnmente disponibles en un entorno clínico de memoria. Un estudio realizado por Lin et al6 superó esto mediante el uso de datos NACC para encontrar un conjunto de 15 variables clínicas no invasivas para evaluar el riesgo de conversión de la cognición sin alteraciones a MCI en un período de 4-años. Sin embargo, el concepto de DCL sigue siendo algo controvertido,32 y las tasas de conversión entre DCL y demencia suelen ser bajas.32,33 Nuestros modelos de ML complementan estos análisis y tienen la ventaja de incorporar solo 6 variables clave en una escala de tiempo clínicamente relevante y predecir el resultado de la demencia por cualquier causa.
De los modelos existentes investigados en nuestro estudio, el modelo CAIDE fue el menos preciso en la predicción del riesgo de demencia durante 2 años, lo que no sorprende, dado que fue desarrollado para predecir el riesgo de demencia a largo plazo en adultos de mediana edad durante un período mucho más largo. período de seguimiento de 20 años. El BDSI funcionó mejor que el CAIDE, lo que probablemente refleja que fue diseñado para su uso en adultos mayores durante un período de seguimiento más moderado de 6 años. Sin embargo, todos los modelos de ML superaron a estos modelos existentes. Usando todas las variables, XGB fue el enfoque de ML más poderoso para predecir pacientes que probablemente serían diagnosticados con demencia dentro de 2 años, lo que sugiere que la forma en que se entrenan los nuevos árboles de decisión para corregir los errores de los últimos tres resultados en un desempeño marginal ganar. Sin embargo, XGB también pareció ser el enfoque menos capaz de identificar a los participantes que experimentaron reversión, es decir, aquellos a los que inicialmente se les diagnosticó demencia dentro de los 2 años y cuyo diagnóstico se revirtió dentro de los 2 años posteriores al diagnóstico inicial.
El rendimiento de los modelos ML puede reducirse considerablemente con datos de entrenamiento mal etiquetados.34 Contrariamente a la intuición, excluir datos de entrenamiento mal etiquetados no siempre mejora el rendimiento.35 A medida que aumenta el nivel de ruido en los datos de entrenamiento, el valor de excluir o reducir ese ruido disminuye si el mismo ruido está presente en los datos de validación.36 Por lo tanto, filtrar los datos de entrenamiento puede incluso reducir los datos de invalidación del rendimiento, como se encontró en este estudio. Sin embargo, cuando el nivel de etiquetado incorrecto es inferior al 20 % o 40 % aproximadamente, la eliminación de los datos etiquetados incorrectamente puede mejorar la precisión de los datos de validación, incluso si se incorporan datos etiquetados incorrectamente.35,37,38 Esto ilustra la importancia de investigar la estabilidad diagnóstica en el entrenamiento y datos de validación: incluso los datos estándar de criterio incorporan errores.
La tasa de reversión observada (8 por ciento) fue similar a la encontrada en un estudio de 2019 basado en una población estadounidense diferente.31 En nuestro estudio, se encontró que el porcentaje de falsos positivos varió del 7 por ciento al 19 por ciento, según el nivel cognitivo evaluación utilizada. Hasta donde sabemos, este es el primer análisis de posibles diagnósticos erróneos en el NACC UDS y sugiere que el uso de ML como ayuda para la toma de decisiones clínicas tiene el potencial de reducir los diagnósticos erróneos de falsos positivos hasta en un 84 por ciento. Dado que los pacientes que experimentan reversión están en el límite en un sentido diagnóstico, desde una perspectiva clínica, puede ser sensato que se les haga un seguimiento de todos modos, dado que ha habido motivos de preocupación clínica. Por lo tanto, XGB puede ser el mejor modelo para una ayuda en la toma de decisiones clínicas. Alternativamente, un enfoque de conjunto que haga predicciones secundarias sobre la estabilidad diagnóstica probable y el potencial de clasificación errónea puede resultar aún más útil.
Limitaciones
Este estudio tiene varias limitaciones. En primer lugar, tanto CAIDE como BDSI se desarrollaron utilizando poblaciones diferentes a la utilizada en este estudio. No todas las variables utilizadas para el desarrollo de estos modelos tenían un equivalente exacto en el UDS, lo que puede haber afectado su desempeño en este conjunto de datos. En segundo lugar, el método utilizado para imputar los datos puede dar lugar a un error de imputación. Específicamente, la imputación reemplaza todos los valores faltantes con un valor numérico, pero faltan algunos valores debido a su relación con otro valor; por lo tanto, el hecho de que falte un valor es informativo. Sin embargo, mientras que a los participantes les faltaba un promedio del 14 por ciento de datos, faltaban las 6 variables clave identificadas para un promedio del 1 por ciento de los participantes. En tercer lugar, aunque nuestro estudio utilizó una gran muestra de asistentes a la clínica de la memoria en los Estados Unidos, lo que hace que nuestros resultados sean muy aplicables a este entorno, se desconoce hasta qué punto estos resultados se generalizarán a otras poblaciones.
Conclusiones
Este estudio de pronóstico encontró que los modelos ML superaron a los modelos de predicción de riesgo de demencia existentes y pueden tener el potencial de mejorar la predicción de demencia incidente durante 2 años en clínicas de memoria. Seis factores clave para el riesgo de demencia identificados en este estudio pueden tener el potencial de mejorar la práctica clínica en las clínicas de la memoria si se incorporan en futuras ayudas para la toma de decisiones clínicas.
REFERENCIAS
1. Hejl A, Høgh P, Waldemar G. Condiciones potencialmente reversibles en 1000 pacientes consecutivos de la clínica de memoria. J Neurol Neurocirugía Psiquiatría.
2. Mitchell AJ, Shiri-Feshki M. Tasa de progresión del deterioro cognitivo leve a la demencia: un metanálisis de 41 estudios sólidos de cohorte de inicio. Acta Psychiatr Scand. 2009;119(4):252-265.
3. Barnes DE, Beiser AS, Lee A, et al. Desarrollo y validación de un indicador breve de cribado de demencia para atención primaria. Demencia de Alzheimer. 2014;10(6):656-665.e1. doi:10.1016/j.jalz.2013.11.006
4. Kivipelto M, Ngandu T, Laatikainen T, Winblad B, Soininen H, Tuomilehto J. Puntuación de riesgo para la predicción del riesgo de demencia en 20 años entre personas de mediana edad: un estudio longitudinal basado en la población. Lancet Neurol. 2006;5(9):735-741. doi:10.1016/S1474-4422(06)70537-3
5. Cui Y, Liu B, Luo S, et al; Iniciativa de neuroimagen de la enfermedad de Alzheimer. Identificación de conversión de deterioro cognitivo leve a enfermedad de Alzheimer mediante predictores multivariados. Más uno.
6. Lin M, Gong P, Yang T, Ye J, Albin RL, Dodge HH. Enfoques analíticos de big data para el conjunto de datos NACC: ayudar al enriquecimiento de ensayos preclínicos. Trastorno de Alzheimer Dis Assoc. 2018;32(1):18-27.
7. Parque JH, Cho HE, Kim JH, et al. Predicción de aprendizaje automático de la incidencia de la enfermedad de Alzheimer utilizando datos de salud administrativos a gran escala. NPJ Dígito Med. 2020;3(1):46.
8. Zhan Y, Chen K, Wu X, et al; Iniciativa de neuroimagen de la enfermedad de Alzheimer. Identificación de la conversión de la cognición anciana normal a la enfermedad de Alzheimer utilizando una máquina de vectores de soporte multimodal. J Alzheimers Dis. 2015; 47(4):1057-1067.
9. Burgos N, Colliot O. Aprendizaje automático para la clasificación y predicción de enfermedades cerebrales: avances recientes y próximos desafíos. Curr Opin Neurol. 2020;33(4):439-450.
10. Beekly DL, Ramos EM, Lee WW, et al; Centros de la enfermedad de Alzheimer del NIA. La base de datos del Centro Nacional de Coordinación de Alzheimer (NACC): el conjunto de datos uniforme. Trastorno de Alzheimer Dis Assoc. 2007;21(3):249-258.
11. Instituto Nacional sobre el Envejecimiento. Centros de Investigación de la Enfermedad de Alzheimer. Consultado el 21 de mayo de 2021.
12. Pfeffer RI, Kurosaki TT, Harrah CH Jr, Chance JM, Filos S. Medición de actividades funcionales en adultos mayores en la comunidad. J Gerontol. 1982;37(3):323-329.
13. Kaufer DI, Cummings JL, Ketchel P, et al. Validación del NPI-Q, una forma clínica breve del Inventario Neuropsiquiátrico. J Neuropsiquiatría Clin Neurosci. 2000;12(2):233-239.
14. Weintraub S, Salmón D, Mercaldo N, et al. Conjunto de datos uniformes (UDS) de los Centros de la enfermedad de Alzheimer: la batería de pruebas neuropsicológicas. Trastorno de Alzheimer Dis Assoc. 2009;23(2):91-101.
15. Morris JC, Weintraub S, Chui HC, et al. The Uniform Data Set (UDS): variables clínicas y cognitivas y datos descriptivos de los Centros de Enfermedad de Alzheimer. Trastorno de Alzheimer Dis Assoc. 2006;20(4):210-216.
16. McKhann G, Drachman D, Folstein M, Katzman R, Price D, Stadlan EM. Diagnóstico clínico de la enfermedad de Alzheimer: informe del Grupo de Trabajo NINCDS-ADRDA bajo los auspicios del Grupo de Trabajo sobre la Enfermedad de Alzheimer del Departamento de Salud y Servicios Humanos. Neurología. 1984;34(7):939-944.
17. Román GC, Tatemichi TK, Erkinjuntti T, et al. Demencia vascular: criterios de diagnóstico para estudios de investigación: informe del Taller Internacional NINDS-AIREN. Neurología. 1993;43(2):250-260.
18. McKeith IG, Dickson DW, Lowe J, et al; Consorcio en DLB. Diagnóstico y manejo de la demencia con cuerpos de Lewy: tercer informe del Consorcio DLB. Neurología.
19. Neary D, Snowden JS, Gustafson L, et al. Degeneración lobar frontotemporal: un consenso sobre los criterios de diagnóstico clínico. Neurología. 1998;51(6):1546-1554.
20. Martínez-Martín P, Gil-Nagel A, Gracia LM, Gómez JB, Martínez-Sarriés J, Bermejo F; El Grupo Cooperativo Multicéntrico. Características y estructura de la escala unificada de calificación de la enfermedad de Parkinson. Trastorno de movimiento. 1994;9 (1):76-83.
21. Morris JC. Clinical Dementia Rating: una medida de diagnóstico y estadificación fiable y válida para la demencia de tipo Alzheimer. Int Psychogeriatr. 1997;9(S1)(suplemento 1):173-176.
22. Hastie T, Tibshirani R, Friedman J. Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción. Medios de comunicación de ciencia y negocios de Springer; 2009.
23. Hosmer Jr. DW, Lemeshow S, Sturdivant RX. Regresión Logística Aplicada. John Wiley e hijos; 2013.
24. Cortes C, Vapnik V. Redes de vectores de soporte. Aprender Mach. 1995;20(3):273-97. doi:10.1007/BF00994018
25. Breiman L. Bosques aleatorios. Aprender Mach. 2001;45(1):5-32. doi:10.1023/A:1010933404324
26. Ho TK. Bosques de decisión aleatoria. En: Actas de la 3ra Conferencia Internacional sobre Análisis y Reconocimiento de Documentos. IEEE; 1995:278-282.
27. Friedman JH. Aumento de gradiente estocástico. Análisis de datos estadísticos computacionales. 2002; 38(4):367-78.
28. Pedregosa F, Varoquaux G, Gramfort A, et al, Scikit-learn: aprendizaje automático en Python. J Mach Aprenda Res. 2011; 12:2825-2830.
29. Krzanowski WJ, DJ de mano. Curvas ROC para datos continuos. Prensa CRC; 2009.
30. Fawcett, T. Introducción al análisis ROC. Reconocimiento de patrones Lett. 2006;27(8):861-874. doi:10.1016/j. Patric.2005.10.010
31. Ranson JM, Kuźma E, Hamilton W, Muniz-Terrera G, Langa KM, Llewellyn DJ. Predictores de clasificación errónea de demencia cuando se utilizan evaluaciones cognitivas breves. Práctica Neurol Clin. 2019;9(2):109-117.
32. Bruscoli M, Lovestone S. ¿El MCI es realmente solo una demencia temprana: una revisión sistemática de los estudios de conversión? Int Psychogeriatr. 2004;16(2):129-140.
33. Farias ST, Mungas D, Reed BR, Harvey D, DeCarli C. Progresión del deterioro cognitivo leve a demencia en las cohortes clínicas versus comunitarias. Arco Neurol. 2009;66(9):1151-1157.
34. Guan D, Yuan W, Ma T, Khattak AM, Chow F. Eliminación sensible al costo de datos de entrenamiento mal etiquetados. Ciencia Inf. 2017; 402:170-81.
35. Brodley CE, Friedl MA. Identificación de datos de entrenamiento mal etiquetados. J Artif Intelligence Res.
36. Quinlan JR. Inducción de árboles de decisión. Aprender Mach. 1986;1(1):81-106.
37. Brodley CE, Friedl MA. Identificar y eliminar instancias de entrenamiento mal etiquetadas. En: AAAI '96: Actas de la Decimotercera Conferencia Nacional sobre Inteligencia Artificial. AAAI; 1996:799-805.
38. Brodley CE, Friedl MA. Mejorar el mapeo automatizado de la cobertura terrestre al identificar y eliminar las observaciones mal etiquetadas de los datos de entrenamiento. En: IGARSS '96: Simposio Internacional de Geociencias y Teledetección de 1996. IEEE;1996:1379-1381.
