Novedoso reconocimiento de lenguaje de señas continuo espacio-temporal mediante una red atenta de funciones múltiples(1)
Jun 01, 2023
Abstracto: Dadas las transmisiones de video, nuestro objetivo es detectar correctamente los signos no segmentados relacionados con el reconocimiento continuo del lenguaje de señas (CSLR). A pesar del aumento de los métodos de aprendizaje profundo propuestos en esta área, la mayoría de ellos se centran principalmente en usar solo una función RGB, ya sea la imagen de fotograma completo o los detalles de las manos y la cara. La escasez de información para el proceso de capacitación de CSLR restringe en gran medida la capacidad de aprender múltiples funciones utilizando cuadros de entrada de video. Además, explotar todos los fotogramas de un video para la tarea CSLR podría conducir a un rendimiento subóptimo, ya que cada fotograma contiene un nivel diferente de información, incluidas las características principales en la inferencia de ruido. Por lo tanto, proponemos un novedoso reconocimiento de lenguaje de señas continuo espaciotemporal utilizando la red atenta de funciones múltiples para mejorar CSLR al proporcionar funciones de puntos clave adicionales. Además, explotamos la capa de atención en los módulos espacial y temporal para enfatizar simultáneamente múltiples características importantes. Los resultados experimentales de ambos conjuntos de datos CSLR demuestran que el método propuesto logra un rendimiento superior en comparación con los métodos de vanguardia actuales por 0.76 y 20.56 para la puntuación WER en los conjuntos de datos CSL y PHOENIX, respectivamente.

Superman hierbas cistanche
Palabras clave: lengua de señas continua; espacial; temporal; multifunciones; puntos clave; atención propia
1. Introducción
El lenguaje de señas prioriza la comunicación manual utilizando gestos con las manos, el lenguaje corporal y los movimientos de los labios en lugar del sonido para comunicarse [1,2]. Por lo general, el lenguaje de señas es utilizado por personas sordas o con problemas de audición, pero también se puede usar en situaciones en las que es imposible o difícil escuchar los sonidos. Por lo tanto, se necesita un sistema de reconocimiento de lenguaje de señas (SLR), ya que ayuda a conectar a las personas con problemas de audición y las que no.
En los últimos años, los investigadores han centrado mucha atención en SLR debido a la rica información visual que proporciona. Los estudios recientes de SLR generalmente se agrupan en reconocimiento de lenguaje de señas aislado (ISLR) o reconocimiento de lenguaje de señas continuo (CSLR). Varios trabajos abordan solo ISLR [3,4], mientras que otros solo analizan tareas más sencillas, como gestos estáticos para el reconocimiento del alfabeto [5]. Mientras tanto, los métodos más recientes suelen ser más complicados, ya que resuelven tareas de CSLR [6–8]. En comparación con ISLR, CSLR es un problema más desafiante, ya que implica la reconstrucción de oraciones.

te de cistanche
Haga clic aquí para ver los productos de té Cistanche deserticola
【Pregunte por más】 Correo electrónico:cindy.xue@wecistanche.com / Whats App: 0086 18599088692 / Wechat: 18599088692
La investigación de CSLR todavía tiene una gran demanda porque su implementación está estrechamente relacionada con las condiciones cotidianas en el mundo real. Este enfoque tiene como objetivo reconocer la serie de glosas que ocurren en una serie de videos sin una segmentación clara o incluso sin ninguna. Además, incorpora una gran cantidad de investigación de aprendizaje automático y una comprensión profunda del comportamiento humano. Por ejemplo, implica el seguimiento del movimiento humano [9], el reconocimiento de gestos [10] y el reconocimiento facial [11]. Sin embargo, existen varios desafíos para realizar tareas de CSLR.
Primero, la recopilación y anotación de datos son costosas para CSLR [12]. Este es quizás uno de los desafíos que enfrenta en su desarrollo ya que el CSLR está involucrado en una red grande y la cantidad de datos afecta fuertemente el rendimiento [13]. Además, varios conjuntos de datos disponibles para el lenguaje de señas están débilmente anotados [12,14,15]. Para resolver este problema, numerosos estudios han utilizado un enfoque de supervisión débil, junto con la aplicación de un módulo extractor de características y alineación a la arquitectura de la red [12].
En segundo lugar, en comparación con ISLR, CSLR es más complicado. Se adquiere suficiente información mediante el uso de varias funciones; se ha demostrado que esto logra un mejor rendimiento que el uso de una sola característica como se informó en trabajos anteriores [16–18]. Estas características múltiples consisten en la característica principal, que es una imagen corporal que logra la mayor precisión, y características adicionales, como la pose, la cabeza, la mano izquierda y la mano derecha, que tienen menor precisión para el desempeño individual [17,18]. Entrenar una red grande con una gran cantidad de datos lleva mucho tiempo [13]. Agregar el flujo de entrada también aumenta el tiempo de entrenamiento, mientras que el uso de funciones adicionales basadas en imágenes aumenta el costo [19]. Por lo tanto, debemos elegir características importantes para que podamos entrenar de manera eficiente.

Cistanche de hierbas chinas
Tercero, la entrada de video tiene una gran cantidad de imágenes en la secuencia. Algunas imágenes tienen una forma de mano poco clara debido al movimiento rápido, lo que posiblemente genere información incorrecta. Por lo tanto, nuestro modelo propuesto utiliza la autoatención basada en [20] para ayudar a seleccionar información importante. Además, la autoatención demostrada por [21,22] tiene un impacto en la mejora del rendimiento.
Por lo tanto, proponemos un modelo novedoso llamado novedoso espaciotemporal atento multifunciones (STAMF) para manejar todos los problemas. Seguimos trabajos anteriores [17,23], que han demostrado que funcionan para CSLR con problemas de anotación débiles. Construyen el modelo utilizando tres componentes principales: el primero es el módulo espacial, el segundo es el módulo temporal y el tercero es el módulo de aprendizaje de secuencias. Proponemos una entrada de funciones múltiples eficiente y efectiva utilizando la función de fotograma completo junto con funciones de punto clave para realizar tareas de CSLR. La función de fotograma completo representa la imagen del cuerpo como la función principal y las funciones de puntos clave como la función adicional. La característica clave es la pose del cuerpo, incluido el detalle de la pose de la mano. Esta pose del cuerpo es la función adicional más efectiva, ya que en algunos trabajos se ha demostrado que logra la mayor precisión después de la función de fotograma completo [17,18]. También utilizamos un módulo de atención que utiliza la autoatención basado en [20] para capturar la función importante y ayudar al aprendizaje de secuencias para mejorar el rendimiento.
La contribución de este manuscrito se resume de la siguiente manera: • Introducimos atención temporal novedosa en el módulo de secuencia para capturar los puntos de tiempo importantes que contribuyen al resultado final; • Presentamos la función múltiple que consiste en la función de fotograma completo a partir del valor RGB del fotograma como función principal y funciones de punto clave que incluyen la pose del cuerpo con el detalle de la forma de la mano como una función adicional para mejorar el rendimiento del reconocimiento del modelo; • Usamos la métrica WER para mostrar que nuestro modelo STAMF propuesto supera a los modelos de última generación en ambos conjuntos de datos de referencia CSLR a través de los experimentos.

Cistanche suplemento cerca de mí-Mejorar la memoria
2. Trabajos relacionados
Ha habido varios avances en la tecnología y se ha investigado mucho sobre SLR. Estudios previos [24–27] exploraron la posibilidad de usar ISLR que tiene una segmentación para cada palabra. En los últimos años, se han utilizado métodos basados en el aprendizaje profundo para extraer características utilizando redes convolucionales, ya sea 2D [28,29] o 3D [30,31], por su fuerte representación visual. La mayoría de las primeras investigaciones sobre el reconocimiento del lenguaje de señas se centró en ISLR con características multimodales [30–32], como RGB, mapas de profundidad y esqueletos, que brindan un mejor rendimiento.
Hoy en día, CSLR se ha vuelto más popular, aunque no se ha segmentado claramente entre cada palabra. Los primeros trabajos utilizan un extractor de características CNN [6,33] y HMM [34] para construir el objetivo de secuencia. Algunas investigaciones recientes para los sistemas CSLR [17,23] han incluido tres pasos principales para realizar la tarea de reconocimiento de problemas. Primero, realizaron la extracción de características espaciales, luego la segmentación temporal y finalmente la síntesis de oraciones con un modelo de lenguaje [35], o utilizaron el aprendizaje secuencial [17,23]. Este aprendizaje de secuencias utilizó Bi-LSTM y CTC para extraer la relación entre el brillo de los signos en las secuencias de video. Aunque utiliza una anotación débil que tiene secuencias de video no segmentadas para definir los brillos de los signos, estos enfoques han mostrado resultados prometedores.
Sin embargo, el estudio CLSR relacionado más reciente que implementó un enfoque de funciones múltiples [17] usó cinco funciones simultáneamente. El enfoque de funciones múltiples es más pesado en comparación con el uso de menos funciones [19]. Este enfoque tampoco puede manejar los cuadros ruidosos de la secuencia de video que tienen información poco clara, como una forma de mano borrosa debido a un movimiento rápido. Además, confiar en el aprendizaje de secuencias basado en RNN puede encontrar problemas con secuencias largas y puede perder el contexto global [20].

Cistanche suplemento cerca de mí-Mejorar la memoria
La investigación actual tiene como objetivo mejorar el rendimiento al agregar un mecanismo de autoatención [21,22] que puede manejar secuencias más largas para aprender el contexto global. La autoatención se basa en investigaciones preliminares [20] que demostraron que la autoatención tiene la ventaja de poder manejar dependencias prolongadas. Sin embargo, esta autoatención es más fácil de aprender en un camino más corto en comparación con un camino más largo con dependencias largas. En los trabajos anteriores de CLSR [21,22], la autoatención podría ayudar a la red a aprender la característica de manera más efectiva.
Por lo tanto, en este artículo presentamos un novedoso modelo atento espaciotemporal de múltiples características. Este modelo propuesto extrae de manera efectiva las características importantes y aprende mejor la secuencia al brindar información importante utilizando un mecanismo de autoatención de múltiples funciones. Todos los procesos se ejecutan en un enfoque de extremo a extremo.
3. Método propuesto
Esta sección detalla las técnicas centrales de nuestro modelo propuesto para CSLR. Por lo tanto, comenzamos esta sección explicando la descripción general de nuestro modelo propuesto. Además, proporcionamos más detalles sobre cada componente clave, incluido el módulo espacial, el módulo temporal y el módulo de aprendizaje de secuencias. Además, también explicamos nuestro módulo de atención propuesto para ayudar al modelo a aprender mejor. Finalmente, podemos integrar el marco para entrenamiento e inferencia en nuestro modelo propuesto.
3.1. Descripción general del marco
Dada una entrada de video, nuestro modelo propuesto tiene como objetivo predecir el signo correspondiente en una oración de brillo correcta. El primer módulo genera múltiples funciones espaciales, como funciones de fotograma completo y puntos clave para cada fotograma T del video. Luego, el módulo temporal nos permite extraer correlaciones temporales de las características espaciales entre fotogramas para ambos flujos. Como paso final, las redes espaciales y temporales se han vinculado a la memoria bidireccional a largo y corto plazo (Bi-LSTM) y CTC para el aprendizaje de secuencias y la inferencia. A continuación, explicamos nuestros principales componentes con más detalle y de forma consecutiva. La descripción general de nuestra arquitectura propuesta se muestra en la Figura 1.

Figura 1. La arquitectura general del método propuesto consta de tres componentes: un módulo espacial, un módulo temporal y un módulo de aprendizaje de secuencias. El módulo espacial primero toma la secuencia de imágenes para extraer características por fotogramas y luego aplica el módulo temporal para extraer las características temporales. Luego, las características temporales se envían al módulo de aprendizaje de secuencias para realizar la predicción de palabras y construirlas en una oración.
3.2. Módulo Espacial
El módulo espacial explota una función de fotograma completo y funciones de puntos clave, como se muestra en la Figura 2. Este módulo utiliza la arquitectura de red 2D-CNN como columna vertebral, y se elige ResNet50 para capturar las funciones múltiples. ResNet50 es más eficaz en comparación con la arquitectura ResNet reciente en términos de tiempo y tiene un resultado comparable [36,37]. El RGB usa ResNet50 directamente, mientras que HRNet [38] obtiene el punto clave del cuadro de video y se extrae usando ResNet50 para obtener las características del punto clave.

Figura 2. La arquitectura del módulo espacial usa entrada de flujo múltiple. Flujo RGB como función de fotograma completo y flujo de puntos clave como función de punto clave.
3.2.1. Función de fotograma completo
Aplicamos nuestros pasos de preprocesamiento a los datos RGB y luego ingresamos nuestros datos en el modelo. Luego los ponemos como una entrada de fotograma completo en nuestra arquitectura. La Figura 3 muestra la ilustración de la imagen RGB original en el lado izquierdo y la imagen recortada en el lado derecho. La imagen recortada es utilizada como entrada por el modelo. Esto ilustra el paso de preprocesamiento que reduce las partes menos importantes de la imagen y se enfoca más en el firmante. Este recorte utiliza un método de recorte aleatorio de [12] para aumentar el conjunto de datos. La función de fotograma completo se extrae de la imagen recortada para cada fotograma de la secuencia mediante ResNet50.

Figura 3. Característica de fotograma completo usando una imagen RGB, la (imagen de la izquierda) es la imagen original y la (imagen de la derecha) es la imagen recortada para ajustar con el modelo propuesto
3.2.2. Funciones de punto clave
Extrajimos las características de puntos clave en el módulo espacial de los datos RGB para cada cuadro en la entrada de video. La calidad de las características clave tiene un papel importante en nuestro modelo propuesto, por lo que debemos utilizar un enfoque sólido, como HRNet [38]. Empleamos HRNet previamente capacitado [38] para estimar todos los 133 puntos clave del cuerpo y utilizamos 27 de los 133 puntos clave de su resultado. Como se muestra en la Figura 4, el lado izquierdo es el punto clave original de la parte superior del cuerpo, y el lado derecho son los 27 puntos clave seleccionados de la parte superior del cuerpo. Estos 27 puntos clave incluyen muñecas, codos, hombros, cuello, manos y dedos.

Figura 4. Características de los puntos clave del conjunto de datos PHOENIX-RWTH [33,39], (imagen de la izquierda) extracción de la imagen RGB, y (imagen de la derecha) es el punto clave seleccionado utilizado por el modelo propuesto.
3.3. Módulo Temporal
El módulo temporal tiene como objetivo aprender información espaciotemporal del módulo espacial. Los módulos temporales se construyen mediante agrupación temporal apilada para cada flujo. Como se muestra en la Figura 5, el módulo de agrupación temporal consta de una capa de convolución temporal y una capa de agrupación para extraer características de entradas secuenciales.

Figura 5. La arquitectura del módulo temporal consta de una 1D-CNN apilada y una capa de agrupación integrada con un módulo de atención. Trabaje en paralelo para ambos flujos de características concatenados al final de las capas apiladas y produzca una única característica temporal con una longitud de secuencia cuatro veces menor.
La entrada es una lista de características múltiples espaciales de la etapa anterior. La característica temporal se obtiene utilizando la capa de convolución temporal, que es una única capa convolucional 1D con las mismas longitudes de entrada y salida, seguida de una única capa de agrupación que reduce el tamaño a la mitad. El uso de estas dos capas de agrupación temporal apiladas es la mejor configuración, según los trabajos anteriores [12]. Después de cada agrupación temporal, incorporamos un módulo de atención que se explicará en detalle en la Sección 3.4. Al final, concatenamos la salida de la agrupación temporal de ambos flujos.
3.4. Módulo de Atención
El video tiene varios cuadros en los que algunas partes de la imagen a veces están borrosas. El conjunto de datos RTWH-PHOENIX [33,39] tiene más tramas defectuosas que el conjunto de datos CSL [8,40,41]. Esto sucede cuando el movimiento es demasiado rápido, creando una imagen borrosa y dando como resultado una ubicación incorrecta del punto clave. Este marco se considera defectuoso y puede dar lugar a una mala interpretación de las funciones RGB y de puntos clave. La Figura 6 muestra una ilustración de tramas defectuosas en el conjunto de datos RTWH-PHOENIX [33]. Para solucionar este problema, agregamos una capa de atención.

Figura 6. Ilustración de marcos defectuosos en el conjunto de datos RWTH-PHOENIX [33,39]. Algunos de los puntos clave en el área de la mano están en la posición incorrecta debido a las imágenes borrosas.
Usando el algoritmo CTC, la alineación de la ruta junto con su etiquetado se realiza usando una etiqueta en blanco y eliminando las etiquetas repetidas. CTC prefiere predecir etiquetas en blanco en lugar de límites de brillo cuando no puede distinguir el límite de brillo, pero ninguno de los resultados es convincente. Esto lleva a la red a usar CTC para producir picos en los resultados al analizar, aprender y predecir [42,43]. Generalmente, la pérdida de CTC busca los fotogramas clave, y el último resultado es la predicción de un fotograma clave particular que tiene una alta probabilidad de ser una etiqueta en blanco o una etiqueta que no está en blanco. Si el brillo predice la misma etiqueta o etiqueta en blanco consecutivamente, da como resultado el mismo resultado. Sin embargo, si hay una etiqueta de inserción entre la misma etiqueta, incluso si solo hay un error, la pérdida es mucho mayor. Aquí, la adición de una capa de atención ayuda a seleccionar la secuencia temporal importante antes de utilizarla para el aprendizaje secuencial.
El módulo de atención utiliza un mecanismo de autoatención de varios cabezales [20]. El módulo multicabezal se utiliza para ejecutar varios mecanismos de atención en paralelo al mismo tiempo. La atención de múltiples cabezas se ejecuta de forma independiente para centrarse en las dependencias a corto plazo o las dependencias a largo plazo en una cabeza separada. Luego, cada salida se concatena linealmente y se transforma en la forma deseada.
Al mismo tiempo, el mecanismo de autoatención de múltiples cabezales se ocupa de la información de múltiples subespacios de representación, según el historial de observaciones. Para simplificar, denotamos las secuencias de entrada como X. Matemáticamente, para el modelo de atención de una sola cabeza, dada la entrada X t − T más 1:t=[X t − T más 1, · · ·, X t ] ∈ RT × N × P, se obtienen tres subespacios, a saber, el subespacio de consulta Q ∈ RN ×dq, el subespacio clave K ∈ RN × dk, y el subespacio de valor V ∈ RN × dv. El proceso de aprendizaje subespacial latente se puede formular como [20]:
Q=XWQ, K=XWK, V=XWV,
Luego, la atención del producto punto escalado se usa para calcular la salida de atención como [20]:
Atención(Q, K, V)=así que f tmaxQKT/ p dkV,
Además, si tenemos múltiples cabezas que siguen simultáneamente las múltiples representaciones de la entrada, podemos obtener resultados más relevantes al mismo tiempo. El paso final es concatenar todas las cabezas y proyectarlas nuevamente para calcular la puntuación final [20]:
MultiHead(Q,K,V)=Concat(head1,... , cabezas )WO,
cabeza=Atención (Qi, Ki, Vi),
donde Qi=XWQ i , Ki=XWVi y WO ∈ R hd × dmodel. Finalmente, puede seleccionar la parte importante de la secuencia de características porque no toda la información en la secuencia es importante.
Como se muestra en la Figura 7, usamos el módulo de atención en varias configuraciones. El primer módulo de atención se ubica al final del módulo espacial, mientras que el segundo y tercer módulo de atención se ubican en el módulo temporal. El segundo módulo de atención, denominado módulo temporal temprano, se coloca después del primer bloque de agrupación temporal como entrada, mientras que el tercer módulo de atención temporal, denominado módulo de atención temporal tardía, se coloca después del segundo bloque de agrupación temporal.

Figura 7. Los módulos de atención están integrados en módulos espaciales y temporales en diferentes configuraciones.






