Explorando transformadores de visión autosupervisados ​​para el reconocimiento de la marcha en la naturaleza, parte 1

Nov 24, 2023

Abstracto:

La forma de caminar (marcha) es un poderoso biométrico que se utiliza como método único de toma de huellas dactilares, lo que permite realizar análisis de comportamiento discretos a distancia sin la cooperación del sujeto.

Todos sabemos que el ejercicio ayuda a la buena salud. Además de esto, el ejercicio también ayuda a mejorar la memoria. Caminar es la forma de ejercicio más sencilla y fácil de practicar, y muchas personas disfrutan relajarse mientras caminan o corren. Ahora, más investigaciones muestran que caminar tiene efectos poderosos para el cerebro.

En primer lugar, caminar estimula el sistema nervioso del cerebro, lo que ayuda a fortalecer la función cerebral. Cuando el cuerpo se mueve, nuestra frecuencia cardíaca y nuestro flujo sanguíneo aumentan, lo que también estimula al cerebro a producir más neuronas y sinapsis. Las conexiones entre estas neuronas y las sinapsis pueden crear nuevas redes neuronales y procesos de pensamiento más rápidos.

En segundo lugar, caminar puede aliviar el estrés y la ansiedad, lo cual es muy importante para mejorar la memoria. Cuando la mente y el cuerpo están en un estado de tensión, depresión o ansiedad, el cerebro libera una hormona llamada cortisol. El cortisol daña las neuronas y las sinapsis del cerebro, lo que puede provocar pérdida de memoria. Caminar alivia el estrés y la ansiedad, reduce la producción de cortisol en el cuerpo y ayuda a mantener neuronas y sinapsis saludables.

Finalmente, caminar aumenta la circulación sanguínea al cerebro. Algunos estudios muestran que una buena circulación sanguínea puede ayudar a mejorar la memoria. A medida que envejecemos, los vasos sanguíneos del cerebro se obstruyen gradualmente, lo que resulta en un suministro insuficiente de oxígeno al cerebro. Caminar puede mejorar la salud del corazón, permitiéndole entregar oxígeno y nutrientes al cerebro de manera más efectiva, promoviendo así la memoria y la función cerebral.

Por lo tanto, caminar es una excelente forma de ejercicio tanto para jóvenes como para mayores. Además de mejorar la salud física, caminar también puede ayudar a mejorar la memoria. ¡Caminemos una distancia cada día para estar más sanos y mejores! Se puede ver que necesitamos mejorar la memoria, y Cistanche deserticola puede mejorar significativamente la memoria porque Cistanche deserticola es un material medicinal tradicional chino que tiene muchos efectos únicos, uno de los cuales es mejorar la memoria. La eficacia de la carne picada proviene de los diversos ingredientes activos que contiene, incluidos ácidos, polisacáridos, flavonoides, etc. Estos ingredientes pueden promover la salud del cerebro de varias maneras.

improve memory

Haz clic en conocer 10 formas de mejorar la memoria

A diferencia de los métodos de autenticación biométrica más tradicionales, el análisis de la marcha no requiere la cooperación explícita del sujeto y se puede realizar en entornos de baja resolución, sin necesidad de que la cara del sujeto esté despejada/visible. La mayoría de los enfoques actuales se desarrollan en un entorno controlado, con datos limpios y anotados, lo que impulsó el desarrollo de arquitecturas neuronales para el reconocimiento y la clasificación.

Sólo recientemente el análisis de la marcha se ha aventurado a utilizar conjuntos de datos más diversos, de gran escala y realistas para preentrenar redes de manera autosupervisada. El régimen de entrenamiento autosupervisado permite aprender representaciones de la marcha diversas y sólidas sin costosas anotaciones humanas manuales. Impulsado por el uso ubicuo del modelo transformador en todas las áreas del aprendizaje profundo, incluida la visión por computadora, en este trabajo exploramos el uso de cinco arquitecturas transformadoras de visión diferentes aplicadas directamente al reconocimiento de la marcha autosupervisado.

Adaptamos y reentrenamos los simples ViT, CaiT, CrossFormer, Token2Token y TwinsSVT en dos conjuntos de datos de marcha diferentes a gran escala: GREW y DenseGait. Proporcionamos resultados extensos para el disparo cero y el ajuste fino en dos conjuntos de datos de referencia de reconocimiento de la marcha, CASIA-B y FVG, y exploramos la relación entre la cantidad de información espacial y temporal de la marcha utilizada por el transformador visual.

Nuestros resultados muestran que el diseño de modelos de transformadores para procesar el movimiento utiliza un enfoque jerárquico (es decir, modelos CrossFormer) en ferias de movimiento más detalladas comparativamente mejor que los enfoques anteriores de esqueleto completo.

Palabras clave:

reconocimiento de la marcha; autenticación biométrica; transformador de visión; estimación de pose; aprendizaje autosupervisado; aprendizaje contrastivo.

1. Introducción

La forma en que nos movemos contiene pistas importantes sobre nosotros mismos. En particular, nuestra forma de andar ha sido estudiada detenidamente en medicina [1], psicología [2] y ciencias del deporte [3]. Recientemente, el análisis de la marcha ha recibido una mayor atención [4,5] por parte de la comunidad informática, coincidiendo con el progreso exponencial del aprendizaje profundo y la disponibilidad generalizada de hardware informático.

Los sistemas de análisis de la marcha impulsados ​​por IA han podido reconocer con éxito sujetos [6-10], estimar datos demográficos como el género y la edad [11] y estimar atributos externos como la ropa [12], sin utilizar ninguna señal de apariencia externa. Estos resultados no son sorprendentes, dada la gran cantidad de diferencias individuales en la marcha, que se deben a diferencias en la estructura musculoesquelética, factores genéticos y ambientales, así como al estado emocional y la personalidad del caminante [13].

Los sistemas actuales sólo se entrenan y prueban realmente en ambientes interiores controlados. La mayoría de los métodos utilizan el conjunto de datos CASIA-B [6] como punto de referencia estándar para los modelos de reconocimiento de la marcha, que contiene 124 sujetos caminando en interiores de manera estrictamente controlada y capturados con múltiples cámaras. La complejidad del mundo real no puede modelarse completamente mediante escenarios tan restringidos. Sólo recientemente la atención se ha centrado en modelar la marcha "en la naturaleza", con conjuntos de datos como DenseGait [12], GREW [7] y Gait3D [14].

short term memory how to improve

Recopilar un conjunto de datos a gran escala que esté limpio y completamente anotado representa un esfuerzo tremendo tanto en términos de recursos financieros como de tiempo asignado. Según se informa, el conjunto de datos GREW [7] requirió 3 meses de trabajo continuo para recopilarlo y anotarlo. Si bien estos enfoques han sido útiles en el desarrollo de arquitecturas neuronales para procesar la marcha [8,9], no son lo suficientemente diversos como para usarse adecuadamente en entornos más relajados del mundo real.

La comunidad de IA se ha ido alejando lentamente de este enfoque en otras áreas, y los métodos de aprendizaje autosupervisado tanto para la visión [15] como para el lenguaje [16] están ganando un impulso significativo y a menudo superando los métodos supervisados ​​tradicionales. Los avances recientes en el aprendizaje autosupervisado demostraron que los modelos autosupervisados ​​son más sólidos y exhiben comportamientos emergentes, no definidos explícitamente durante el entrenamiento.

Por ejemplo, DINO [17], un transformador de visión entrenado en un régimen autosupervisado, aprendió características específicas de su clase que le permitían la segmentación de objetos sin supervisión sin utilizar dichas etiquetas durante el entrenamiento. Cosmaand Radoi [10] propusieron el primer método contrastivo para el aprendizaje autosupervisado para el análisis de gaita, entrenando un ST-GCN [18] en una versión más pequeña de DenseGait [12]. Su método obtuvo resultados razonables en tareas posteriores de reconocimiento de la marcha y demostró que existe una fuerte correlación entre el tamaño del conjunto de datos previamente entrenado y el rendimiento de la transferencia de disparo cero.

Si bien muchos enfoques para el análisis de la marcha han utilizado siluetas extraídas de la resta de fondo [6,8,9], extraer siluetas en escenarios de vigilancia reales implica el uso de técnicas más avanzadas, como la segmentación de instancias [19], que tienen un alto costo computacional. Las secuencias de siluetas ocupan un espacio de almacenamiento significativo y no son lo suficientemente flexibles para usarse en otras tareas adyacentes, como el reconocimiento de actividades. Además, las siluetas codifican señales sutiles de apariencia, lo que no deja claro hasta qué punto se utiliza el movimiento en la identificación [20].

Por otro lado, los modelos de estimación de poses 2D se han vuelto cada vez más precisos y computacionalmente eficientes [21,22]. Los esqueletos son baratos de extraer y actualmente más confiables que las mallas y las poses 3D, especialmente a distancia. Además, los esqueletos 2D son significativamente más livianos que las siluetas en términos de almacenamiento a largo plazo.

Las arquitecturas actuales para procesar secuencias de esqueletos utilizan la estructura gráfica espacial natural presente en el esqueleto humano, introduciendo un sesgo inductivo en el diseño del modelo. Modelos como el popular ST-GCN [18] y MS-G3D [23] han obtenido resultados impresionantes para el reconocimiento de acciones basado en esqueletos.

Al mismo tiempo, ha habido una explosión en el uso de modelos transformadores en casi todas las áreas del aprendizaje profundo desde su aplicación inicial para el procesamiento del lenguaje natural.

Los transformadores se consideran una arquitectura más general, con pocos sesgos inductivos. Inicialmente, los transformadores han tenido dificultades para igualar los modelos CNN para la clasificación de imágenes [24], pero actualmente están superando a otros modelos y están mostrando resultados prometedores en escenarios autosupervisados, más que otros tipos de arquitecturas, los transformadores han mostrado una impresionante capacidad de aprendizaje y comportamientos emergentes bajo autocontrol. -supervisión [17].

Cosma y Radoi [12] fueron los primeros en proponer GaitFormer, una adaptación directa del modelo de codificador transformador de visión para el reconocimiento de la marcha, utilizando esqueletos individuales como "parches" de entrada, esencialmente solo realizando atención temporal, ignorando las relaciones de atención espacial.

GaitFormer se entrenó de forma autosupervisada y superó otros métodos de reconocimiento de la marcha incluso sin ningún ajuste fino. Este trabajo previo es alentador y allana el camino para un estudio más profundo de la posible aplicación de arquitecturas transformadoras para el análisis de la marcha. ¿Se pueden adaptar los modelos de transformadores de visión para el aprendizaje autosupervisado de las representaciones de la marcha del esqueleto?

La principal cuestión arquitectónica en los transformadores de visión es definir las relaciones adecuadas entre los parches de imágenes, que definen la información local y global. Cuando se aplica a la marcha, la elección de las dimensiones del parche corresponde a la cantidad de información temporal y espacial codificada de la secuencia del esqueleto.

En este trabajo presentamos un extenso estudio de cinco transformadores de visión diferentes, adaptados para el reconocimiento de la marcha. Exploramos el modelo ViT clásico [24], CaiT [25], CrossFormer [26], TwinsSVT [27] y ViT token a token [28].

ways to improve memory

Cada arquitectura se entrena por separado de una manera contrastante y autosupervisada en dos conjuntos de datos "en estado salvaje" a gran escala de secuencias de esqueletos de marcha en 2D: DenseGait, un conjunto de datos recopilado automáticamente a partir de flujos de vigilancia sin procesar, y GREW, un conjunto de datos más pequeño que contiene anotaciones humanas limpias.

Exploramos capacidades de transferencia a través de dos conjuntos de datos controlados para el reconocimiento de la marcha, CASIA [6] y FVG [29]. Para cada conjunto de datos, analizamos la transferencia directa (disparo cero) y la eficiencia de los datos durante el ajuste fino mediante el entrenamiento con subconjuntos progresivamente más grandes de los conjuntos de datos. Además, llevamos a cabo un estudio de ablación sobre la relación entre las dimensiones espaciales y temporales para los tamaños de parche para SimpleViT y CaiT. , la columna vertebral estándar para la mayoría de los transformadores de visión hasta la fecha.

El resto del documento está organizado de la siguiente manera. Realizamos una descripción general de alto nivel de trabajos relacionados sobre modelos de reconocimiento de la marcha y transformadores de visión. Observamos que los modelos de representación de la marcha se benefician enormemente del entrenamiento autosupervisado para tener incorporaciones más robustas y generales, y los modelos transformadores han mostrado una gran capacidad de modelado en regímenes de entrenamiento autosupervisados.

Además, describimos matemáticamente las cinco arquitecturas que comparamos y describimos el preprocesamiento de datos y las transformaciones de esqueleto que deben realizarse, de modo que los transformadores de visión tengan que operar sin problemas en secuencias de esqueleto. También describimos aumentos de datos, conjuntos de datos de entrenamiento y evaluación comparativa, y configuraciones experimentales.

Mostramos resultados en CASIA-B y FVG para cada una de las cinco arquitecturas y los dos conjuntos de datos de "entrenamiento previo en la naturaleza". Finalmente, realizamos un estudio de ablación sobre la relación entre los tamaños de parche espacial y temporal y proporcionamos una breve discusión de nuestros resultados. Hacemos que nuestro código fuente esté disponible públicamente en GitHub (https://github.com/cosmaadrian/gait-vit, consultado el 28 de febrero de 2023) para garantizar transparencia y reproducibilidad.

2. Trabajo relacionado

En esta sección, hacemos una breve descripción de los métodos existentes para el reconocimiento de la marcha en entornos controlados y "en la naturaleza". Además, describimos los principales desarrollos de los modelos de transformadores y, en particular, su aplicación en el dominio de la visión.

2.1. Reconocimiento de la marcha

De manera similar a la identificación basada en rostros, el reconocimiento de la marcha se basa en el aprendizaje métrico. A diferencia de los métodos tradicionales de autenticación biométrica, que se basan en una única imagen (p. ej., reconocimiento facial) y requieren una amplia cooperación (p. ej., autenticación biométrica basada en el iris), las características de la marcha se procesan como una secuencia de instantáneas de movimiento. Esta dinámica de gestos requiere más complejidad para determinar la subsecuencia más informativa, pero permite el uso de una autenticación discreta a distancia.

En este contexto, la tarea implica entrenar una red de codificadores para mapear secuencias de caminata en un espacio de incrustación donde la similitud de incrustación corresponde a la similitud de la marcha. Las incrustaciones de paseos que pertenecen a la misma persona deben estar cerca del espacio de incrustación y aquellos que provienen de diferentes identidades deben estar más distantes. En este espacio de incrustación, se puede hacer inferencia obteniendo la incrustación de la secuencia de marcha y utilizando el vecino más cercano. enfoque en una base de datos de paseos conocidos.

Los enfoques actuales en el reconocimiento basado en la marcha se dividen en dos categorías: basados ​​en la apariencia [8,9] y basados ​​en modelos [10,12,30]. Los métodos basados ​​en la apariencia obtienen primero las siluetas de los sujetos que caminan con algoritmos de segmentación o resta de fondo de cada cuadro de video.

Luego, la secuencia de siluetas se introduce en arquitecturas basadas en CNN que extraen características espaciales y temporales que se agregan en una incorporación final para su reconocimiento. Los enfoques basados ​​en modelos extraen los esqueletos de videos RGB con modelos de estimación de pose [21,22]. Las secuencias de esqueletos generalmente se procesan mediante modelos que se basan en convoluciones de gráficos [10,30] para obtener la integración de la marcha.

GaitSet, el trabajo de Chao et al. [8], considera la marcha como un conjunto desordenado de siluetas. Los autores sostienen que esta representación es más flexible que una secuencia de siluetas porque es resistente a diferentes disposiciones de marcos o a la combinación de múltiples direcciones y variaciones de la marcha. Utilizan capas de convolución para cada silueta para obtener características a nivel de imagen y combinarlas en una característica a nivel de conjunto con Set Pooling. Obtienen el resultado final empleando su versión de HorizontalPyramid Matching [31].

Fan et al. [9] notaron el hecho de que partes específicas de la silueta humana deben tener su expresión espaciotemporal ya que cada una tiene un patrón único. Su arquitectura, GaitPart, utiliza capas de convolución focal (FConvs), que son un tipo especializado de convolución con un campo receptivo más restringido. Los autores sostienen que los FConv ayudan a su arquitectura a aprender características más detalladas para diferentes partes del cuerpo en movimiento. También introducen los módulos de captura de micromovimiento, que se emplean para extraer las características de pequeñas secuencias temporales.

Teepe et al. [30] proponen GaitGraph, que aprovecha una red convolucional de gráficos adaptada llamada ResGCN [32] para codificar las características espaciotemporales obtenidas de la secuencia de esqueletos. Li y col. [33] proponen PTP, que es una estructura que agrega múltiples características temporales de un ciclo de la marcha basándose en su análisis de las etapas más importantes de la marcha.

También utilizan una red convolucional de gráficos para la extracción de características espaciales, que funciona junto con PTP. Los autores presentan un novedoso método de aumento de datos que modifica la marcha para tener múltiples ritmos en un ciclo más realista.

Sin embargo, a diferencia de trabajos anteriores, nuestro objetivo es explorar el rendimiento de las arquitecturas de reconocimiento de la marcha en escenarios autosupervisados. Inspirándonos en el tremendo progreso en el dominio de la visión por computadora, proponemos adaptar las arquitecturas transformadoras de visión existentes para operar en secuencias esqueléticas en lugar de imágenes y probar su capacidad de modelado en escenarios autosupervisados. La mayoría de los demás trabajos [8,9,30] centran sus esfuerzos en desarrollar arquitecturas neuronales que logran resultados impresionantes en el reconocimiento de la marcha en conjuntos de datos controlados.

Sin embargo, pretendemos eliminar la necesidad de anotaciones manuales altamente costosas para conjuntos de datos de la marcha y explorar formas en las que el aprendizaje autosupervisado sea apropiado para el análisis de la marcha.

memory enhancement

Trabajos anteriores en este dominio [10,12] mostraron potencial para aprender buenas representaciones de la marcha a partir de conjuntos de datos débilmente anotados. Cosma y Radoi [12] propusieron GaitFormer, la primera arquitectura basada en transformadores para procesar secuencias de esqueletos, inspirada en el modelo ViT [24]. De manera similar a [12], intentamos explorar el rendimiento de otros modelos de transformadores de visión, con diferentes dinámicas espaciales y temporales en el mecanismo de procesamiento de parches. En el pasado se han propuesto conjuntos de datos a gran escala para el reconocimiento de la marcha [7,12], lo que permite el desarrollo de arquitecturas generales para el aprendizaje de la representación.


For more information:1950477648nn@gmail.com


También podría gustarte