LSTM de memoria dual con red neuronal de atención dual para predicción espaciotemporal
Mar 21, 2022
Contacto:joanna.jia@wecistanche.com/ WhatsApp: 008618081934791
Resumen
La predicción espaciotemporal es un desafío debido a que la extracción de representaciones es ineficiente y la falta de dependencias contextuales ricas. Se propone un enfoque novedoso para la predicción espaciotemporal utilizando un sistema dualmemoriaLSTM con red neuronal de atención dual (DMANet). Se propone una nueva unidad LSTM de memoria dual (DMLSTM) para extraer las representaciones aprovechando las operaciones de diferenciación entre las imágenes consecutivas y adoptando una doblememoriamecanismo de transición. Para hacer un uso completo de las representaciones históricas, se diseña un mecanismo de atención dual para capturar las dependencias espacio-temporales a largo plazo mediante el cálculo de las correlaciones entre las representaciones actualmente ocultas y las representaciones históricas ocultas desde las dimensiones temporal y espacial, respectivamente. Luego, la atención dual se integra en la unidad DMLSTM para construir una DMANet, que habilita el modelo con mayor poder de modelado para dinámicas a corto plazo y representaciones contextuales a largo plazo. En este documento se propone un conjunto de datos de mapa de resistividad aparente (mapa AR). El método de interpolación B-spline se utiliza para mejorar el conjunto de datos del mapa AR y hace que la curva de tendencia de resistividad aparente sea una derivada continua en la dimensión del tiempo. Los resultados experimentales demuestran que el método desarrollado tiene un excelente rendimiento de predicción en comparación con algunos métodos de última generación.
Palabras clave: predicción espaciotemporal; doblememoriaLSTM; atención dual; representaciones históricas
1. Introducción
La predicción espaciotemporal consiste en aprender representaciones sin supervisión a partir de datos de video sin etiquetar y utilizarlos para ejecutar una tarea de predicción, que es una tarea típica de visión por computadora. Actualmente, la predicción espaciotemporal se ha aplicado con éxito a algunas tareas, como la predicción futura de ubicaciones de objetos [1,2], la detección de anomalías [3] y la conducción autónoma [4]. Los modelos basados en aprendizaje profundo dan un salto sobre los enfoques tradicionales porque han aprendido representaciones adecuadas de datos de alta dimensión. Los métodos de aprendizaje profundo encajan perfectamente en la tarea de predicción espaciotemporal, que podría extraer correlaciones espaciotemporales de los datos de video de forma autosupervisada. Sin embargo, la predicción espaciotemporal sigue siendo una tarea desafiante debido al problema de extraer representaciones de manera ineficiente y la falta de dependencias a largo plazo. Por ejemplo, el LSTM convolucional (ConvLSTM) [5] se ha desarrollado para extraer más representaciones temporales pero ignora las representaciones espaciales. Algunos métodos [6,7] han logrado resultados de predicción precisos, pero causan pérdida de representación. El método de confrontación ha sido aplicado en tareas de predicción [8,9]. Sin embargo, [8,9] dependen significativamente del proceso de entrenamiento inestable.
1 Facultad de Ingeniería de la Información y la Comunicación, Universidad de Shanghái, Shanghái 200444, China
2 Laboratorio clave de visualización avanzada y aplicación de sistemas, Ministerio de Educación, Shanghái 200072, China
Una novela dualmemoriaLSTM con red neuronal de atención dual (DMANet) se ha propuesto para la predicción espaciotemporal en este documento para resolver los problemas mencionados. Se ha desarrollado una unidad LSTM de memoria dual (DMLSTM) basada en ConvLSTM [5] para que DMANet realice predicciones espaciotemporales. Se puede aplicar para obtener representaciones de movimiento al diferenciar estados ocultos adyacentes o imágenes en bruto de manera adecuada. Además, cuenta con estructuras de memoria dual para almacenar información espacial e información temporal. Se propone un mecanismo de atención dual y se integra en la unidad DMLSTM para extraer dependencias de características a largo plazo de dimensiones temporales y espaciales, respectivamente, lo que permite que el modelo desarrollado capture dinámicas de video complejas más largas. En comparación con los métodos de predicción espaciotemporal anteriores, las principales contribuciones de este artículo son las siguientes. En primer lugar, se ha propuesto una nueva unidad DMLSTM para realizar representaciones de extractos, que se puede aplicar para la predicción espaciotemporal aprovechando las operaciones de diferenciación entre las imágenes consecutivas y adoptando un sistema dual.memoriamecanismo de transición. En segundo lugar, se desarrolla un mecanismo de atención dual para obtener las interacciones del marco a largo plazo. Las interacciones del marco a largo plazo se capturan calculando la correlación entre las representaciones ocultas actualmente y las representaciones ocultas históricas de las dimensiones temporal y espacial, respectivamente. Finalmente, una contribución importante es que DMANet combina ambas ventajas. Dicho diseño arquitectónico permite que el modelo tenga un mayor poder de modelado para dinámicas a corto plazo y representaciones contextuales a largo plazo. El método propuesto se evalúa en algunos conjuntos de datos desafiantes con diferentes métodos. Logra un rendimiento excelente en comparación con algunos métodos de última generación. Los resultados experimentales muestran que el método propuesto tiene un excelente rendimiento de predicción espaciotemporal.

beneficios de la cistancheenmemoria
El resto de este artículo se organiza como sigue. El trabajo relacionado se discute en la Sección 2. El doblememoriaEl LSTM con mecanismo de atención dual se describe en la Sección 3. Los resultados y análisis experimentales se discuten en la Sección 4 y siguen las conclusiones en la Sección 5.
2. Revisión de la literatura
Durante la última década, se han propuesto muchos métodos para la predicción espaciotemporal. Red neuronal recurrente (RNN) [10] con el largo a corto plazomemoria(LSTM) [11] se ha aplicado cada vez más a tareas de predicción debido a sus capacidades para aprender representaciones de una secuencia de video. En los últimos años, el marco LSTM basado en un modelo de secuencia a secuencia [12] se ha adaptado a la predicción de video. Aún así, la precisión de la predicción es limitada debido al hecho de que estos métodos marco [12] solo capturan variaciones temporales. Con el fin de extraer aún más las representaciones de video, ConvLSTM [5] reemplaza las operaciones totalmente conectadas con operaciones de convolución en transiciones de estado recurrentes. Se propone un marco basado en el aprendizaje profundo [13] para reconstruir los datos faltantes para facilitar el análisis con series espaciotemporales. Sin embargo, aumentará el costo computacional adicional y disminuirá la eficiencia de predicción. La unidad recurrente con compuerta biyectiva se presenta en [14], que aprovecha los codificadores automáticos recurrentes para predecir el siguiente cuadro en algunos casos. Se propone un método de múltiples salidas y múltiples índices de aprendizaje supervisado [15] con LSTM [11] para la predicción espaciotemporal, que puede modelar la dinámica a largo plazo. En la búsqueda de aliviar la desaparición del gradiente, el LSTM convolucional extendido por [6,7] introduce un flujo de memoria en zigzag y una unidad de carretera de gradiente (GHU). Se ha utilizado un método actualizado basado en el aprendizaje profundo para mejorar la capacidad de predicción. En [16] se propone una versión de ASAP denominada "ASAP deep system". Los algoritmos de deformación de flujo óptico y de síntesis de píxeles RGB [17] se han aprovechado para realizar predicciones espaciotemporales. Se propone una red de memoria en memoria (MIM) para las tareas de predicción en [18]. Su diferencia con los modelos recurrentes mencionados anteriormente es que MIM [18] se aplica a la diferencia en las transiciones de memoria para transformar el polinomio variable en el tiempo en una constante, lo que permite que el componente determinista sea predecible. Sin embargo, estos métodos [14–18] siguen siendo un desafío para realizar predicciones a largo plazo, ya que las transiciones de puerta excesivas provocarían la pérdida de representaciones.

beneficios de la cistanche deserticaenmemoria
Además de los modelos recurrentes, también se emplean otros modelos para la predicción espaciotemporal. En [19] se propone una red de retrospección, que introduce pérdida de retrospección para hacer que los fotogramas de retrospección sean coherentes con los fotogramas observados. Para manejar el desequilibrio en los datos, se desarrolla un algoritmo de limpieza de vecindad en [20]. Un algoritmo de bosque aleatorio extrae las características óptimas para realizar la tarea de predicción. Se adopta un codificador automático variacional para extraer características dinámicas no lineales en [21]. Este modelo analiza las correlaciones entre variables y las relaciones entre muestras históricas y muestras actuales. En [22] se utilizan un módulo de atención amplia y un módulo compuesto profundo para extraer características clave globales y características clave locales. Sin embargo, estos métodos [19-22] dependen en cierta medida de las representaciones locales, que no pueden obtener un rendimiento excelente en las tareas de predicción. Se ha propuesto una red neuronal artificial [23] para modelar las propiedades únicas de los datos espaciotemporales y obtener una capacidad de modelado más potente para los datos espaciotemporales. Se ha desarrollado un sistema de predicción espaciotemporal [24] para centrarse en el modelado espacial y la reconstrucción de la señal espaciotemporal completa. Este método muestra la efectividad de modelar campos espacio-temporales coherentes. Se ha propuesto la red neuronal mixta para modelar el patrón dinámico y aprender representaciones de apariencia basadas en cuadros de video dados en [25]. Una CNN 3D se utiliza en RNN en [26], que extiende las representaciones en dimensión temporal y hace que lamemoriatienda de unidades mejores representaciones a largo plazo. Sin embargo, las operaciones convolucionales [24–26] dan cuenta de las dependencias intratrama de corto alcance debido a sus campos receptivos limitados y la falta de capacidades explícitas de modelado entre tramas. Las redes adversariales generativas [8] son otro enfoque para la predicción espaciotemporal. En [9] se ha propuesto un método de autocodificador variacional condicional mediante la producción de futuras trayectorias humanas condicionadas a observaciones previas y futuras acciones del robot. Los métodos de predicción [8,9] tienen como objetivo generar cuadros menos borrosos, pero su desempeño depende significativamente del proceso de entrenamiento inestable.
En [27] se propone un mecanismo de autoatención, que se puede aplicar para capturar dependencias de largo alcance y ha demostrado ser eficaz para agregar características destacadas entre todas las posiciones espaciales en tareas de visión artificial [28–30]. En [28] se propone un bloque de atención doble, que combina las características de todo el espacio en un conjunto compacto, y luego selecciona y asigna características de forma adaptativa a cada ubicación. Para explotar la información contextual de manera más efectiva, una red entrecruzada [29] introdujo un módulo de atención entrecruzada para obtener la información contextual de todos los píxeles, lo cual es útil para los problemas de comprensión visual. Además, a diferencia de los métodos de fusión de características multiescala, se propone una red de atención dual [30] para combinar características locales con dependencias globales de forma adaptativa. Sin embargo, no pueden usarse para hacer frente a tareas de predicción debido a la falta de dependencias espaciotemporales.
En resumen, los modelos de predicción anteriores presentan diferentes inconvenientes. A diferencia del trabajo anterior, diseñamos una variante novedosa de ConvLSTM [5] para almacenar representaciones de estado y extender el mecanismo de atención en la tarea de predicción espaciotemporal. Esta arquitectura captura ricas relaciones contextuales para mejores representaciones de características con compacidad intraclase.
La Tabla 1 muestra las siglas utilizadas en el artículo con una definición del concepto.

3. Red neuronal DMA
En la Figura 1 se muestra un diagrama de flujo de DMANet. Las representaciones se extraen de DMANet dados los marcos de entrada. Las representaciones indican resultados de predicción y se pueden usar para predecir las siguientes representaciones.

En esta sección se darían los detalles de la DMANet. En primer lugar, se presenta una nueva unidad DMLSTM en la Sección 3.1. Posteriormente, se propone un mecanismo de atención dual en la Sección 3.2, que permite que el modelo pueda beneficiarse de las representaciones relevantes anteriores. Finalmente, se agregan para construir DMANet para la predicción espaciotemporal, que se detalla en la Sección 3.3.
3.1.LSTM de memoria dual
Está iluminado por PredRNN plus plus [7], que agrega más capas no lineales para aumentar la profundidad de la red y fortalecer la capacidad de modelado para las correlaciones espaciales y la dinámica temporal. Sin embargo, el problema de la propagación de gradientes se vuelve cada vez más difícil con el aumento de la profundidad de la red, incluso si GHU [7] lo alivia hasta cierto punto. Algunos trabajos [6,7,14] no funcionan bien en la extracción de representaciones de secuencias espaciotemporales a través de transiciones de puerta excesivas, ya que inevitablemente pueden causar la pérdida de representaciones. Por lo tanto, las dependencias espaciales de largo alcance pueden capturarse mediante capas de convolución apiladas. Sin embargo, la efectividad de la capacidad de modelado para la dinámica espaciotemporal es limitada debido a la compleja transición de capa a capa.
Se desarrolla una nueva unidad recurrente denominada DMLSTM para realizar predicciones espaciotemporales a fin de superar las limitaciones mencionadas anteriormente, como se muestra en la Figura 2. En primer lugar, se agrega una unidad de memoria adicional basada en ConvLSTM[5]; esta unidad se utiliza para almacenar estados espaciales, lo que permite que la unidad aprenda más representaciones espaciotemporales. El nuevo mecanismo de transición está diseñado descartando estructuras de puertas redundantes, como las puertas de entrada. Las diversas estructuras no lineales perderían las poderosas representaciones internas en la predicción a nivel de píxel. Por otro lado, las operaciones de diferenciación de representaciones se han aplicado eficazmente para capturar las representaciones de objetos en movimiento. Por lo tanto, la diferenciación se puede utilizar para tareas de predicción para complementar los detalles de representación de objetos en movimiento. En la unidad DMLSTM, la operación de diferenciación se desarrolla para obtener representaciones de movimiento mediante la diferenciación de estados ocultos adyacentes o imágenes en bruto, lo que hace que la unidad tenga una capacidad de modelado más potente para la dinámica espaciotemporal.

3.2. Mecanismo de atención dual
La predicción espaciotemporal puede predecir fotogramas futuros mediante la observación de representaciones anteriores. Sin embargo, el modelo de predicción debería centrarse más en las representaciones históricas que están relacionadas con el contenido predicho. El mecanismo de atención [27] puede capturar dependencias de largo alcance entre representaciones locales y globales en algunas tareas prácticas [32,33]. Además, la predicción espaciotemporal es un desafío debido a la compleja dinámica y los cambios de apariencia, que requieren dependencias en los dominios temporal y espacial. Se propone una nueva variante del mecanismo de atención denominada mecanismo de atención dual. Esta arquitectura captura la interacción espaciotemporal a largo plazo de las dimensiones temporal y espacial, respectivamente, y luego las representaciones obtenidas se agregan para la predicción futura.

venta de cistancheen memoria
El módulo de atención dual se muestra en la Figura 3, incluidos los estados ocultos de la marca de tiempo actual Ht ∈ RH × W × C y los históricos {H1. . . Ht−1} ∈ Rn × H × W × C, donde H y W son tamaños espaciales, C es el número de canales y n denota el número de representaciones ocultas que se concatenan a lo largo de la dimensión temporal, respectivamente

4. Conclusiones
En este artículo se ha propuesto una DMANet para la predicción espaciotemporal. Se utiliza una unidad DML-STM para extraer de manera eficiente las representaciones aprovechando las operaciones de diferenciación entre las imágenes consecutivas y adoptando un mecanismo de transición de memoria dual. Un mecanismo de atención dual está diseñado para capturar dependencias espaciotemporales a largo plazo mediante el cálculo de las correlaciones entre las representaciones actualmente ocultas y las representaciones ocultas históricas de las dimensiones temporal y espacial, respectivamente. DMANet combina ambas ventajas y dicho diseño arquitectónico permite que el modelo tenga un mayor poder de modelado para dinámicas a corto plazo y representaciones contextuales a largo plazo. Los resultados experimentales demuestran que nuestro método tiene un excelente rendimiento en la predicción espaciotemporal.

donde comprar cistanche en memoria
La predicción espaciotemporal es una vía prometedora para el aprendizaje autosupervisado de ricas correlaciones espaciotemporales. Para trabajos futuros, investigaremos cómo separar los objetos en movimiento del fondo y poner más atención en los objetos en movimiento. También intentaremos construir un sistema de predicción inmediata de resistividad aparente para proteger las grutas chinas del agua.
Referencias
1. Yao, Y.; Atkins, E.; Johnson-Roberson, M.; Vasudevan, R.; Du, X. Bitrap: Predicción de trayectoria peatonal bidireccional con estimación de objetivo multimodal. Robot IEEE. automático Letón. 2021, 2, 1463–1470. [Referencia cruzada]
2. Canción, Z.; Sui, H.; Li, H. Un método de detección de objetos jerárquicos en imágenes satelitales de teledetección óptica a gran escala utilizando detección de prominencia y CNN. En t. J. Remote Sens. 2021, 42, 2827–2847. [Referencia cruzada]
3. Li, Y.; Cai, Y.; Li, J.; Lang, S.; Zhang, X. Redes de unidad espacio-temporal para la detección de anomalías de video. Acceso IEEE 2019, 1, 172425–172432. [Referencia cruzada]
4. Yurtsever, E.; Lambert, J.; Carballo, A.; Takeda, K. Una encuesta sobre la conducción autónoma: prácticas comunes y tecnologías emergentes. Acceso IEEE 2020, 8, 58443–58469. [Referencia cruzada]
5. Shi, X.; Chen, Z.; Wang, H.; Yeung, DY Red LSTM convolucional: un enfoque de aprendizaje automático para el pronóstico inmediato de precipitaciones. En las Actas de la 29.ª Conferencia sobre Sistemas de Procesamiento de Información Neural, Montreal, QC, Canadá, del 7 al 12 de junio de 2015; págs. 802–810.
6. Wang, Y.; Li, M.; Wang, J.; Gao, Z.; Yu, P. PredRNN: Redes neuronales recurrentes para el aprendizaje predictivo utilizando LSTM espaciotemporales. En las Actas de la 31.ª Conferencia sobre Sistemas de Procesamiento de Información Neural, Long Beach, BC, Canadá, del 4 al 9 de diciembre de 2017; págs. 879–888.
7. Wang, Y.; Gao, Z.; Largo, M.; Wang, J.; Yu, P. PredRNN plus plus: Hacia una resolución del dilema profundo en el tiempo en el aprendizaje predictivo espaciotemporal. En Actas de la 35.ª Conferencia Internacional sobre Aprendizaje Automático, Estocolmo, Suecia, 10–15 de abril de 2019; págs. 5123–5132.
8. Goodfellow, IJ; Pouget-Abadie, J.; Mirza, M.; Xu, B.; Warde-Farley, D. Redes antagónicas generativas. En Actas de la 28.ª Conferencia sobre Sistemas de Procesamiento de Información Neural, Montreal, QC, Canadá, 8–13 de diciembre de 2014; págs. 2672–2680.
9. Ivanovic, B.; Karen, L.; Eduardo, S.; Pavone, M. Modelos generativos profundos multimodales para la predicción de trayectorias: un enfoque de autocodificador variacional condicional. Robot IEEE. automático Letón. 2021, 2, 295–302. [Referencia cruzada]
10. Rumelhart, D.; Hinton, G.; Williams, R. Representaciones de aprendizaje por errores de propagación hacia atrás. Naturaleza 1986, 1, 533–536. [Referencia cruzada]
11. Hochreiter, S.; Schmidhuber, J. Memoria larga a corto plazo. Cómputo neuronal. 1997, 8, 1735–1780. [Referencia cruzada]
12. Sutskever, I.; Vinyals, O.; Le, Q. Aprendizaje de secuencia a secuencia con redes neuronales. En Proceedings of the Advances in Neural Information Processing Systems, Montreal, QC, Canadá, 8–13 de diciembre de 2014; págs. 3104–3112.
13. Das, M.; Ghosh, S. Un conjunto de pronóstico basado en el aprendizaje profundo para predecir los datos que faltan para el análisis de detección remota. IEEE J. Sel. Parte superior. aplicación Observador de la Tierra Sensores remotos 2017, 12, 5228–5236. [Referencia cruzada]
14. Oliú, M.; Selva, J.; Escalera, S. Redes neuronales recurrentes plegadas para predicción de video futuro. En Actas de la 15.ª Conferencia Europea sobre Visión por Computador, Múnich, Alemania, del 8 al 14 de diciembre de 2018; págs. 716–731.
15. Seng, D.; Zhang, Q.; Zhang, X.; Chen, G.; Chen, X. Predicción espaciotemporal de la calidad del aire basada en la red neuronal LSTM. Alex. Ing. J. 2021, 60, 2021–2032. [Referencia cruzada]
16. Abed, A.; Ramín, Q.; Abed, A. La predicción automatizada de erupciones solares a partir de imágenes SDO utilizando aprendizaje profundo. Adv. Resolución de espacio 2021, 67, 2544–2557. [Referencia cruzada]
17. Li, S.; Colmillo, J.; Xu, H.; Xue, J. Predicción de fotogramas de video mediante una red profunda de máscara de múltiples ramas. Trans. IEEE. Sistema de circuitos Tecnología de vídeo. 2020, 4, 1–12. [Referencia cruzada]
18. Wang, Y.; Zhang, J.; Zhu, H.; Largo, M.; Wang, J.; Yu, P. Memoria en la memoria: una red neuronal predictiva para aprender la no estacionariedad de orden superior a partir de la dinámica espaciotemporal. En Actas de la Conferencia IEEE sobre visión artificial y reconocimiento de patrones, Long Beach, BC, Canadá, 16 al 20 de junio de 2020; págs. 9146–9154.
19. Chen, X.; Xu, C.; Yang, X.; Yang, X.; Tao, D. Predicción de video a largo plazo a través de la crítica y la retrospección. Trans. IEEE. Proceso de imagen. 2020, 29, 7090–7103. [Referencia cruzada]
20. Neda, E.; Reza, F. AptaNet como un enfoque de aprendizaje profundo para la predicción de la interacción aptámero-proteína. ciencia Re. 2021, 11, 6074–6093.
21. Shen, B.; Ge, Z. Sistema dinámico no lineal ponderado para extracción profunda de variables latentes dinámicas no lineales y aplicación industrial. Trans. IEEE. Ind. Informar. 2021, 5, 3090–3098. [Referencia cruzada]
22. Zhou, J.; Dai, H.; Wang, H.; Wang, T. Modelo de atención amplia y compuesto profundo para la predicción del flujo de tráfico en sistemas ciberfísicos de transporte. Trans. IEEE. Ind. Informar. 2021, 17, 3431–3440. [Referencia cruzada]
23. Patil, K.; Deo, M. Predicción a escala de cuenca de la temperatura de la superficie del mar con redes neuronales artificiales. J. Atmos. Océano. Tecnología 2018, 7, 1441–1455. [Referencia cruzada]
24. Amato, F.; Guinard, F.; Roberto, S.; Kanevski, M. Un marco novedoso para la predicción espacio-temporal de datos ambientales utilizando el aprendizaje profundo. ciencia Rep. 2020, 10, 22243–22254. [Referencia cruzada]
25. Yan, J.; Qin, G.; Zhao, R.; Liang, Y.; Xu, Q. Mixpred: predicción de video más allá del flujo óptico. Acceso IEEE 2019, 1, 185654–185665. [Referencia cruzada]
26. Wang, Y.; Jiang, L.; Yang, M.; Pequeño.; Largo, M.; Li, F. Eidetic 3D LSTM: un modelo para la predicción de video y más allá. En Actas de la Conferencia Internacional sobre Representaciones de Aprendizaje, Nueva Orleans, LA, EE. UU., 6–9 de mayo de 2019; págs. 1 a 14.
27. Vaswani, A.; Shazier, N.; Parmar, N.; Uszkoreit, J.; Jones, L. Atención es todo lo que necesita. En las Actas de la 31.ª Conferencia sobre Sistemas de Procesamiento de Información Neural, Long Beach, BC, Canadá, del 4 al 9 de diciembre de 2017; págs. 5998–6008.
28. Chen, Y.; Kalantidis, Y.; Li, J.; Feng, J. A2 redes: Redes de doble atención. En las Actas de la 32.ª Conferencia sobre Sistemas de Procesamiento de Información Neural, Montreal, QC, Canadá, del 2 al 8 de diciembre de 2018; págs. 352–361.
29. Huang, Z.; Wang, X.; Wei, Y.; Huang, L.; Shi, H. Ccnet: Atención entrecruzada para la segmentación semántica. Trans. IEEE. Patrón Anal. Mach. Intel. 2020, 1, 1–11. [Referencia cruzada]
30. Fu, J.; Liu, J.; Tian, H.; Li, Y. Red de atención dual para segmentación de escenas. En Actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones, Long Beach, BC, Canadá, 16 al 20 de junio de 2019; págs. 3146–3154.
31. Wang, Z.; Bovik, A.; Sheikh, H. Evaluación de la calidad de la imagen: de la visibilidad del error a la similitud estructural. Trans. IEEE. Proceso de imagen. 2004, 4, 600–612. [Referencia cruzada]
32. Liu, Q.; Lu, S.; Lan, L. Yolov3 detector de cara de atención con alta precisión y eficiencia. compensación sist. ciencia Ing. 2021, 37, 283–295.
33. Li, X.; Xu, F.; Xin, L. Redes de segmentación semántica de fusión profunda de atención dual de imágenes satelitales de teledetección a gran escala. En t. J. Remote Sens. 2021, 42, 3583–3610. [Referencia cruzada]
34. Srivastava, N.; Mansimov, E.; Salakhutdinov, R. Aprendizaje no supervisado de representaciones de video utilizando LSTM. En Actas de la 32.ª Conferencia Internacional sobre Aprendizaje Automático, Lille, Francia, del 6 al 11 de junio de 2015; págs. 843–852.
35. Geiger, A.; Lenz, P.; Stiller, C.; Urtasun, R. La visión se encuentra con la robótica: el conjunto de datos KITTI. En t. J.Robot. Res. 2013, 32, 1231–1237. [Referencia cruzada]
36. Dólar, P.; Wojek, C.; Schiele, B.; Perona, P. Detección de peatones: Un referente. En Actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones, Miami, FL, EE. UU., 20 al 25 de junio de 2009; págs. 304–311.
37. Liu, J.; Jin, B.; Yang, J.; Xu, L. Predicción de la temperatura de la superficie del mar mediante interpolación B-spline cúbica y mecanismo de atención espaciotemporal. Sensor remoto Lett. 2021, 12, 12478–12487. [Referencia cruzada]
