Reconocimiento del habla de vocales a partir de electroencefalografía de ratas utilizando una red neuronal de memoria a largo plazo, parte 1
Dec 27, 2023
Abstracto
A lo largo de los años, se han realizado considerables investigaciones para investigar los mecanismos de percepción y reconocimiento del habla.
Existe una relación inseparable entre la percepción del habla y la memoria. La percepción del habla es una capacidad importante para que podamos ser conscientes de las señales de audio, y la memoria es una forma importante que utilizamos para almacenar y recuperar información. Cuando somos más capaces de percibir el habla, también podemos recordar mejor la información que escuchamos.
Las investigaciones muestran que la relación entre la percepción del habla y la memoria es bidireccional. Por un lado, una mala percepción del habla puede provocar problemas de memoria. Esto se debe a que cuando no podemos oír el habla con claridad, no podemos recordar con precisión la información que escuchamos. Por otro lado, una fuerte percepción del habla puede mejorar nuestra memoria. Cuando podemos percibir y comprender correctamente el habla, también podemos recordar más fácilmente lo que escuchamos.
Por lo tanto, debemos centrarnos en cultivar nuestras habilidades de percepción del habla para mejorar nuestra memoria. Esto se puede lograr entrenando nuestras habilidades de comprensión auditiva y del habla. Podemos mejorar nuestra percepción del habla y nuestra memoria con actividades como escuchar grabaciones, ver películas y asistir a clases de idiomas.
En resumen, existe una estrecha relación entre la percepción del habla y la memoria, y deberíamos centrarnos en cultivar nuestras habilidades de percepción del habla para mejorar nuestra memoria. A través del entrenamiento y la práctica activos, podemos mejorar continuamente nuestro nivel de percepción del habla y comprender y recordar mejor lo que escuchamos. Se puede ver que necesitamos mejorar la memoria, y Cistanche deserticola puede mejorar significativamente la memoria, porque Cistanche deserticola también puede regular el equilibrio de los neurotransmisores, como aumentar los niveles de acetilcolina y factores de crecimiento. Estas sustancias son muy importantes para la memoria y el aprendizaje. Además, la carne también puede mejorar el flujo sanguíneo y promover el suministro de oxígeno, lo que puede garantizar que el cerebro reciba suficientes nutrientes y energía, mejorando así la vitalidad y la resistencia del cerebro.

Haga clic en Saber para mejorar la memoria a corto plazo
La electroencefalografía (EEG) es una poderosa herramienta para identificar la actividad cerebral; por lo tanto, se ha utilizado ampliamente para determinar las bases neuronales del reconocimiento de voz.
En particular, para la clasificación del reconocimiento de voz, los enfoques basados en el aprendizaje profundo están en el centro de atención porque pueden aprender y extraer automáticamente características representativas a través del aprendizaje de un extremo a otro.
Este estudio tuvo como objetivo identificar componentes particulares que están potencialmente relacionados con la representación de fonemas en el cerebro de rata y discriminar la actividad cerebral para cada estímulo vocal en un solo ensayo utilizando una red bidireccional de memoria a corto plazo (BiLSTM) y métodos clásicos de aprendizaje automático.
Se utilizaron diecinueve ratas macho Sprague-Dawley sometidas a cirugía de implantación de microelectrodos para registrar señales EEG de los campos auditivos anteriores bilaterales. Se eligieron cinco estímulos vocales diferentes, /a/, /e/, /i/, /o/ y /u/, que tienen frecuencias de formantes muy diferentes. El EEG registrado bajo estímulos vocales dados al azar fue mínimamente preprocesado y normalizado mediante una transformación de puntuación z para ser utilizado como entrada para la clasificación del reconocimiento de voz.
La red BiLSTM mostró el mejor rendimiento entre los clasificadores al lograr una precisión general, puntuación f{{0}} y valores κ de Cohen de 75,18%, 0.75 y 0,68, respectivamente. utilizando un enfoque de validación cruzada 10-veces.
Estos resultados indican que las capas LSTM pueden modelar eficazmente datos secuenciales, como EEG; por lo tanto, las características informativas se pueden derivar a través de BiLSTM entrenado con aprendizaje de un extremo a otro sin ningún método adicional de extracción de características hecho a mano.
Introducción
El habla transporta grandes cantidades de información al cerebro, y una de las características típicas del cerebro es reconocer y categorizar los sonidos del comportamiento de los animales.
Dada su importancia, durante más de 100 años se han realizado intentos de investigar los mecanismos del reconocimiento de sonidos del habla. Uno de los primeros estudios neurolingüísticos del reconocimiento del habla se llevó a cabo a través de un estudio observacional realizado en la década de 1870 por un neuropsiquiatra alemán que encontró el papel crucial de la circunvolución temporal superior en la percepción del habla, deduciendo que los déficits en el reconocimiento del habla estaban asociados con daños en la circunvolución temporal superior izquierda. 1].
Ahora se sabe que el reconocimiento del habla se basa predominantemente en los lóbulos temporales dorsolaterales, incluida la circunvolución temporal superior, que contiene la corteza auditiva primaria (A1) y el campo auditivo anterior (AAF) [2].

Aunque la manera en que se codifican e interpretan los fonemas en el cerebro sigue siendo controvertida, se ha aceptado ampliamente que el reconocimiento del sonido es categórico. Es decir, la discriminación es mejor para estímulos que pertenecen a diferentes categorías fonéticas que para estímulos que pertenecen a la misma categoría, incluso si las diferencias acústicas son equivalentes [3, 4].
No sólo los sistemas de percepción de los humanos, sino también de los animales, clasifican los estímulos sonoros que varían continuamente en un conjunto de categorías discretas [5].
Con los avances en los estudios neurofisiológicos, la electroencefalografía (EEG) se ha utilizado ampliamente en investigaciones relacionadas con la neurociencia y la ingeniería neuronal [6].
La alta resolución temporal y la sensibilidad a diferentes estados funcionales del cerebro hacen del EEG una poderosa herramienta para investigar la actividad cerebral en tiempo real, y ha habido un interés creciente en esclarecer las bases neuronales de la percepción categórica. Tradicionalmente, las señales EEG se registran de forma no invasiva desde el cuero cabelludo en estudios en humanos. A nivel de percepción del sonido o del habla, la negatividad de desajuste (MMN), un componente del potencial evocado auditivo (PEA), que se provoca mediante sonidos extraños, se utiliza ampliamente para estudiar los correlatos neuronales de la percepción categórica [7, 8]. Naatanen et al. encontró evidencia de representaciones vocales dependientes del lenguaje en el cerebro humano [9].
Otro estudio examinó la percepción categórica de los tonos léxicos y encontró que el contraste entre categorías provocaba un MMN mayor que la distinción dentro de la categoría [10]. En experimentos con animales, se obtuvieron señales EEG más precisas mediante procedimientos invasivos.
Por ejemplo, se han estudiado las correlaciones neuronales de la percepción categórica y las representaciones neuronales de diversos sonidos mediante el registro extracelular del potencial de acción.
Las neuronas de los pájaros cantores que proyectan el cuerpo estriado muestran respuestas auditivas categóricas y son muy sensibles a los cambios en la duración de las notas [11]. Además, Kilgard et al.estudiaron distintas representaciones neuronales de sonidos de consonantes y vocales mediante grabación intraparenquimatosa en el cerebro de rata. Al registrar las respuestas de unidades múltiples y unitarias del colículo inferior y A1, sugirieron que el conteo de picos codifica los sonidos de las vocales, mientras que la sincronización del pico codifica los sonidos de las consonantes [12, 13].
Los efectos del entrenamiento de discriminación de sonidos en un modelo de autismo en ratas también se investigaron basándose en hallazgos previos que correlacionan las respuestas neuronales a estímulos sonoros con la capacidad de percepción del sonido [14].
Además, un estudio reciente demostró que la electrocorticografía registrada con una matriz multicanal se correlaciona con la exposición pasiva a un sonido específico incluso en la corteza auditiva de ratas anestesiadas [15].
Se han utilizado enfoques de aprendizaje automático para hacer un uso práctico del EEG en una amplia variedad de estudios. La utilización de métodos de aprendizaje automático permite la investigación de información rica que es inherente y difícil de descubrir a partir de señales de EEG [6].
Por lo tanto, la clasificación basada en EEG se puede realizar en los siguientes campos a través de algoritmos de aprendizaje automático convencionales (por ejemplo, máquina de vectores de soporte (SVM), k-vecinos más cercanos (KNN) y Bayes ingenuo (NB)): imágenes motoras, reconocimiento de emociones, detección de enfermedades mentales, detección de potenciales relacionados con eventos (ERP), etc. [16, 17].

Además, en los últimos años, debido a los crecientes avances en las unidades de procesamiento gráfico y la disponibilidad de grandes conjuntos de datos, se ha hecho posible realizar una clasificación basada en EEG utilizando varias redes de aprendizaje profundo [6, 18, 19]. En comparación con los métodos convencionales de aprendizaje automático , las redes de aprendizaje profundo pueden detectar y extraer automáticamente representaciones apropiadas de los datos de entrada [20, 21].
Por lo tanto, incluso con un conocimiento experto previo insuficiente, se pueden obtener resultados prometedores a través de algoritmos de aprendizaje profundo que no requieren un proceso adicional de extracción de características artesanal [22, 23].
Por ejemplo, en los campos del habla, las imágenes y el vídeo, los resultados mejoraron significativamente al aplicar algoritmos de aprendizaje profundo [24-26]. Sin embargo, no está claro si estos resultados sobresalientes siempre acompañan al dominio de clasificación basado en EEG cuando se utilizan enfoques de aprendizaje profundo en lugar de métodos tradicionales de aprendizaje automático [27].
Roy et al. demostraron que en la mayoría de los estudios (excluyendo cuatro de 102 estudios), el enfoque de aprendizaje profundo condujo a un mayor rendimiento que el enfoque tradicional de aprendizaje automático, y la mayor mejora en la precisión fue del 35,3% [18, 28].
Además, entre los diversos campos de los estudios de clasificación basados en EEG, los estudios de clasificación de ERP se llevan a cabo activamente aplicando métodos tanto de aprendizaje automático convencional como de aprendizaje profundo.
En un estudio inicial, se utilizó el método tradicional de gran promedio para mejorar la baja relación señal-ruido (SNR), una de las limitaciones de las señales de EEG, y para obtener señales de ERP.
En estos estudios, varios componentes del ERP fueron tratados como conjuntos de características para su clasificación [29, 30]. En estudios con animales, las características del ERP, como la amplitud máxima y la latencia, también se utilizan para discriminar las señales del ERP [31, 32].
Sin embargo, la clasificación basada en EEG de prueba única también ha recibido mucha atención, ya que se sabe que los datos de EEG en el nivel de prueba única poseen información más rica y funcional que las señales ERP obtenidas mediante el método tradicional de gran promedio [33, 34].
Por lo tanto, en estudios posteriores, las características extraídas por varios algoritmos como los algoritmos basados en wavelets [35], modelos de mezcla gaussiana [36] y filtrado espacial [37] para la clasificación utilizando métodos convencionales de aprendizaje automático [38, 39]. Las funciones elaboradas a mano a partir del EEG de prueba única requieren mucho tiempo y trabajo porque se deben ejecutar pasos de procesamiento adicionales. En este contexto, los métodos de aprendizaje profundo pueden aliviar este problema al permitir el aprendizaje de un extremo a otro.
La arquitectura de aprendizaje profundo más frecuente es una red neuronal convolucional (CNN), seguida de una red neuronal recurrente (RNN). La CNN es un tipo especial de arquitectura de aprendizaje profundo ampliamente utilizada para la clasificación basada en EEG de prueba única [6]. Las entradas de CNN se derivan de datos de EEG sin procesar o preprocesados, principalmente en la siguiente forma: número de canales × número de puntos de tiempo en una sola prueba.
Además, se han demostrado resultados de clasificación considerables y se sabe que funciona mejor cuando se utilizan imágenes de espectrograma como entradas [40-44]. A diferencia de CNN, RNN es una arquitectura muy preferida, especialmente cuando se manejan datos secuenciales (como en aplicaciones de procesamiento de lenguaje natural) porque la conexión recurrente de la arquitectura de aprendizaje RNN hace posible utilizar la información previa de la red de forma recursiva como los datos de entrada actuales [45 ].
La memoria a largo plazo (LSTM) es un tipo de arquitectura RNN propuesta por Hochreiter y Schmidhuber para superar los problemas de gradiente de explosión y desaparición de RNN [46]. LSTM bidireccional (BiLSTM) es un desarrollo posterior de LSTM que combina las capas ocultas hacia adelante y hacia atrás para acceder a la información anterior y posterior.
Aunque el modelo BiLSTM es mucho más complejo y podría necesitar potencia computacional adicional, se espera que resuelva la tarea de clasificación y modelado secuencial mejor que LSTM [47].
Anteriormente intentamos clasificar las señales de EEG en un solo ensayo para tres sonidos vocálicos, /a/, /o/ y /u/, utilizando técnicas de aprendizaje automático para el cerebro humano.
Después de la aplicación de algoritmos de procesamiento de señales apropiados, incluida la descomposición de modo empírico multivariado (MEMD), las respuestas del EEG se clasificaron efectivamente de acuerdo con cada sonido vocálico utilizando un clasificador de análisis discriminante lineal (LDA). A partir de la representación tiempo-frecuencia (TFR) de las señales de EEG, también se determinó que los componentes de la banda alfa eran las respuestas neuronales más relacionadas con la percepción de los sonidos vocálicos [48].
Sin embargo, debido a la baja relación señal-ruido de las señales EEG humanas, es necesario evaluar más a fondo la representación de los fonemas en el cerebro con una técnica de registro más invasiva, que permita la adquisición de señales EEG más fiables.
Además, es necesario realizar más estudios sobre el rendimiento de clasificación de cada algoritmo de aprendizaje automático para clasificar las respuestas del EEG a diferentes fonemas.
El objetivo principal de este estudio fue determinar componentes específicos del EEG que podrían estar relacionados con la representación del habla en el cerebro de rata para iluminar aún más las respuestas cerebrales al reconocimiento de sonidos del habla.
Para adquirir señales de EEG más precisas, las señales de EEG epidurales en respuesta a estímulos auditivos se registraron en AAF, que se sabe que desempeña un papel esencial en la percepción y categorización auditiva [2]. Además, este estudio intentó discriminar diferentes respuestas cerebrales para cada sonido del habla en una sola prueba utilizando redes LSTM y otras técnicas convencionales de aprendizaje automático.
Se planteó la hipótesis de que la red BiLSTM sería apropiada para clasificar las respuestas de EEG a estímulos vocálicos y superaría a otros clasificadores clásicos porque la red puede funcionar de manera sólida en el modelado de dependencias a largo plazo de datos secuenciales como el EEG. Hasta donde sabe el autor, las redes LSTM no se han aplicado a la clasificación de respuestas de EEG a estímulos auditivos, y este es el primer estudio que utiliza un algoritmo de aprendizaje profundo para analizar señales de EEG epidurales de AAF.

Además, utilizando el algoritmo de aprendizaje profundo, las respuestas de EEG se clasificaron como estímulos auditivos utilizando un aprendizaje de extremo a extremo con señales de EEG mínimamente preprocesadas sin métodos de extracción de características adicionales.
For more information:1950477648nn@gmail.com






