AttentionMNIST: un conjunto de datos de seguimiento de la atención con un clic del mouse para el reconocimiento de números y alfabetos escritos a mano
Feb 22, 2024
Múltiples modelos basados en la atención que reconocen objetos a través de una secuencia de vislumbres han informado resultados sobre el reconocimiento de números escritos a mano. Sin embargo, no hay datos disponibles de seguimiento de la atención para el reconocimiento de números o alfabetos escritos a mano. La disponibilidad de dichos datos permitiría evaluar modelos basados en la atención en comparación con el desempeño humano. Recopilamos datos de seguimiento de la atención al hacer clic con el mouse de 382 participantes que intentaban reconocer números y alfabetos escritos a mano (mayúsculas y minúsculas) a partir de imágenes mediante un muestreo secuencial. Las imágenes de conjuntos de datos de referencia se presentan como estímulos. El conjunto de datos recopilado, llamado AttentionMNIST, consta de una secuencia de ubicaciones de muestra (clic del mouse), pretiquetas de clase dictadas en cada muestreo y la duración de cada muestreo. En promedio, nuestros participantes observan sólo el 12,8% de una imagen para su reconocimiento. Proponemos un modelo de referencia para predecir la ubicación y las clases que seleccionará un participante en el próximo muestreo. Cuando se expone a los mismos estímulos y condiciones experimentales que nuestros participantes, un modelo de refuerzo basado en la atención muy citado no alcanza la eficiencia humana.

cistanche chinohierba- Productos para prevenir la enfermedad de Alzheimer
Los modelos de aprendizaje automático (ML) que reconocen objetos mediante una secuencia de vistazos han ganado interés en los últimos años debido a su escalabilidad y eficiencia. Muchos de estos modelos, como el 1 al 7, han informado resultados experimentales en el conjunto de datos de referencia MNIST para el reconocimiento de números escritos a mano. Desafortunadamente, no hay datos disponibles sobre el seguimiento de la atención para el MNIST. Esto impide la evaluación de modelos basados en la atención en comparación con el desempeño humano. Caímos en esa brecha al recopilar un conjunto de datos de participantes adultos que intentaban reconocer números y alfabetos escritos a mano a partir de imágenes mediante un muestreo secuencial. A diferencia del seguimiento de la atención mediante el movimiento ocular (emAT), un participante hace clic en la ubicación de la imagen que desea ver (una forma de seguimiento de la atención con el clic del mouse (mcAT)). Inmediatamente después de eso, selecciona las clases a las que predice que podría pertenecer el objeto en función de sus observaciones hasta el momento. Por lo tanto, en cada episodio de muestreo, nuestros datos consisten en la ubicación de la imagen seleccionada, las etiquetas de clase previstas y el tiempo transcurrido desde el último episodio por parte del participante. Después de cada imagen, el participante recibe una recompensa en función de su desempeño (precisión y eficiencia).

Beneficios de la cistanche tubulosa-Anti Alzheimer
Ventajas de mcAT sobre emAT para el reconocimiento de números y alfabetos escritos a mano.
(1) la carne contiene una variabilidad intra e interpersonal significativa en la ubicación de la fijación, especialmente para estímulos estáticos (imágenes)8,9. Por lo tanto, se necesita una gran cantidad de datos sobre la fijación ocular para llegar a conclusiones estadísticamente significativas. mcAT no es susceptible a algunas de las fuentes de ruido técnico comunes a los datos de seguimiento ocular10. (2) Los movimientos oculares pueden deberse a mecanismos tanto voluntarios como involuntarios11. Para facilitar la toma de decisiones dependiente de la tarea, presentamos a los participantes el tiempo, el contexto y las señales de refuerzo adecuados, que también se pueden presentar a un modelo de ML. (3) La precisión y exactitud de los datos emAT dependen del rastreador ocular, mientras que los mismos de mcAT son independientes de cualquier dispositivo. (4) Es un desafío sincronizar los movimientos oculares con su selección de clase. Para superar esto, en nuestro caso, el lugar de muestreo y las clases se seleccionan en el mismo episodio. (5) Finalmente, nuestro método permite la recopilación de datos utilizando Amazon Mechanical Turk (MTurk), como en 12,13, que es rentable y rentable, y fácilmente reproducible.
Contribuciones.
Recopilamos un conjunto de datos mcAT, llamado AttentionMNIST, utilizando MTurk de 382 participantes, recompensados por reconocer de manera precisa y eficiente números y alfabetos escritos a mano (mayúsculas y minúsculas) a partir de imágenes mediante muestreo secuencial. Las imágenes de conjuntos de datos de referencia (MNIST, EMNIST) se presentan como estímulos. En promedio, se registran 169,1 respuestas por clase de números/alfabeto. Usando este conjunto de datos, mostramos lo siguiente: • En promedio, los participantes requieren 4,2, 4,7 y 4,9 muestras para reconocer un alfabeto numérico, mayúscula y minúscula, que corresponden a sólo el 11,3%, 13,4% y 13,7% del área de la imagen respectivamente. . La precisión de la clasificación aumenta con varias muestras. • Un modelo, presentado como línea de base, puede predecir las clases y la ubicación que un participante seleccionará en el siguiente episodio de muestreo con una precisión del 74,4% y 67,7% respectivamente, ambos promediados sobre todos los muestreos y conjuntos de datos. La precisión de la predicción de clases aumenta y la precisión de la predicción de ubicación disminuye con un aumento en las muestras. • Cuando se exponen a los mismos estímulos y condiciones que nuestros participantes, un modelo de atención recurrente (RAM)3 basado en refuerzo muy citado requiere 3,7, 8,5 y 7,6 muestras para reconocer un alfabeto numérico, mayúsculas y minúsculas, que corresponden al 8,9% , 21,0%, 18,7% del área de la imagen respectivamente. Otros modelos de refuerzo basados en la atención (p. ej., 1,2,4,5,7,14) pueden evaluarse de manera similar en comparación con el desempeño humano.

Suplemento Cistanche cerca de mí: mejora la memoria
【Pregunte por más】 Correo electrónico:cindy.xue@wecistanche.com / Whats App: 0086 18599088692 / Wechat: 18599088692
Trabajo relacionado
La secuencia temporal de los clics del mouse en mcAT es análoga a la ruta de exploración del movimiento ocular10. La mcAT puede sustituir eficazmente a la emAT, ya que están significativamente correlacionadas10,12,13,15–17. En los estudios de mcAT se han utilizado diferentes tipos de estímulos, como imágenes de objetos animados e inanimados10, imágenes de escenas naturales12,13, páginas web estáticas13, diseños de páginas de búsqueda16 y dos listas de cadenas alfanuméricas para comparación visual17. Sin embargo, mcAT no se ha utilizado para tareas de clasificación de números/alfabetos escritos a mano ni para la evaluación de modelos de clasificación basados en la atención. Los estudios de mcAT han utilizado características como el tiempo de contacto, la frecuencia relativa de fijación en áreas de interés (AOI), la proporción relativa de sujetos que hicieron clic al menos una vez en un AOI10, el número de fijaciones por prueba, la refijación dentro de las pruebas, los tiempos de permanencia y las rutas de exploración17. , mapas de fijación12,13, AOI y patrón de flujo de información16. La secuencia de ubicaciones de clics con marca de tiempo y etiquetas de clases previstas constituyen los datos sin procesar necesarios para evaluar la eficiencia y precisión de los modelos basados en la atención o de los humanos en las tareas de clasificación. De estos datos se pueden derivar diferentes características. Nuestro conjunto de datos mcAT, con múltiples beneficios sobre los datos de seguimiento ocular, llena un vacío crucial en la investigación de modelos basados en la atención en IA, aprendizaje automático y otras áreas. Nuestro conjunto de datos permitirá evaluar modelos basados en la atención en comparación con el desempeño humano. Entre otras cosas, esto facilitará el desarrollo de sistemas de reconocimiento óptico de caracteres eficientes y en tiempo real que tienen un amplio uso en la práctica (ver, por ejemplo, 18-20). Los principios que guían las fijaciones visuales pueden formularse hipótesis y probarse utilizando nuestro conjunto de datos. Los principios exitosos se pueden trasladar al desarrollo de sistemas para tareas de reconocimiento visual del mundo real donde la eficiencia es una preocupación clave, como en la conducción autónoma.
Datos
Nuestros datos consisten en una secuencia de episodios T para cada participante. Los datos de cada episodio consisten en (1) la ubicación en la imagen en la que el participante hizo clic (un clic en la imagen por episodio), (2) las clases seleccionadas por el participante y (3) el tiempo que tomó el participante registre la muestra actual (es decir, el tiempo transcurrido entre el último clic y el actual en la imagen). Esta sección explicará nuestro proceso de recopilación de datos, incluida la selección de estímulos, participantes, tareas visuales, puntuación del desempeño y filtrado de datos.
Selección de estímulos. Los estímulos se seleccionan a partir de imágenes en dos conjuntos de datos de referencia: (1)
El conjunto de datos MNIST21 consta de 70,000 imágenes etiquetadas (28 × 28 píxeles) de 10 números escritos a mano {0, 1, ..., 9}. (2)
El conjunto de datos EMNIST22 consta de 145.600 imágenes (28×28 píxeles) de alfabetos ingleses escritos a mano en mayúsculas y minúsculas, formando una clase equilibrada. Todas las imágenes están etiquetadas con una de las 26 clases {a, b, ..., z}. Sin embargo, la etiqueta en mayúsculas o minúsculas no está asociada a ninguna imagen. De cada categoría, seleccionamos 15 números bien formados de MNIST y 15 alfabetos bien formados cada uno de los conjuntos de datos EMNIST en mayúsculas y EMNIST en minúsculas. Un número o alfabeto bien formado es similar a la norma de su clase. Así, presentamos estímulos de un conjunto de 15(10 + 26 + 26)=930 imágenes únicas, con 15 imágenes pertenecientes a cada una de las 62 clases. Las 930 imágenes bien formadas se seleccionan de la siguiente manera:
Paso 1: Normalice cada imagen usando min-max para escalar la intensidad entre 0 y 1.
Paso 2: Etiquete las imágenes EMNIST bien formadas en mayúsculas o minúsculas. Para cada clase de alfabeto, se selecciona y etiqueta manualmente un alfabeto bien formado a partir de imágenes en mayúsculas y minúsculas. Se calcula la similitud del coseno de todas las imágenes que pertenecen a esa clase con las dos imágenes etiquetadas. A las imágenes que están por encima del umbral de similitud del coseno (elegidas empíricamente como 0.8) se les asigna la etiqueta de mayúscula o minúscula.
Paso 3: Calcula la media de las imágenes pertenecientes a cada clase. La imagen media de una clase constituye su norma. Una imagen es elegible para ser un estímulo si su similitud coseno con la imagen media de su clase es mayor que un umbral determinado empíricamente (0.7 para MNIST, 0.75 para EMNIST).
Paso 4: Entre las imágenes elegibles, se seleccionan manualmente 15 imágenes de cada clase en función de su formato. Cada imagen, originalmente de 28×28 píxeles, se reduce a 27×25 eliminando los píxeles cercanos a los límites, ya que no tienen variación de intensidad. La media de estas 15 imágenes se calcula para cada una de las 62 clases. Denotamos estas imágenes medias como I1, I2, ..., In para n clases en cada conjunto de datos.
Participantes.
En nuestro estudio participaron un total de 382 individuos adultos distintos. No se utilizaron criterios de selección. Un participante podría responder a múltiples imágenes. Para cada una de las 62 clases, se registró un promedio de 169,1 respuestas.

Beneficios de la cistanche tubulosa-Enfermedad contra el Alzheimer
Tarea visual.
La interfaz MTurk para nuestra tarea visual se muestra en la Fig. 1. Un lienzo de tamaño 270 × 250 muestra una imagen de fondo de baja intensidad en todo momento. Las imágenes de fondo y de estímulo se muestrean diez veces a 270×250. El centro del lienzo está alineado con el centro de las imágenes. Fondo Inicialmente, el fondo es la media de todas las imágenes del conjunto de datos del que se extrae el estímulo. Después del primer episodio, el fondo es la media de todas las imágenes del conjunto de clases seleccionadas por el participante en el último episodio. En el mundo real, el contexto para la ubicación, tamaño y orientación de un número o alfabeto se obtiene de la escritura en su entorno, que aquí falta. Cuando nuestros experimentos se realizaron con un fondo en blanco, los participantes a menudo tomaron muestras de ubicaciones de la imagen que no contenían ninguna parte del objeto. Este comportamiento se contuvo presentando la imagen media de las clases seleccionadas en un fondo de baja intensidad y reduciendo el tamaño de todas las imágenes MNIST y EMNIST de 28 × 28 píxeles a 27 × 25. Cada vez que el participante selecciona una ubicación en el lienzo haciendo clic en él, se revela un parche de 50 × 50 píxeles centrado en esa ubicación de la imagen del estímulo. Un parche una vez revelado continúa mostrándose hasta el episodio final. La tarea de un participante consta de tres pasos en cada episodio t (t=1, ..., T):
Paso 1: haga clic en cualquier parte del lienzo de 270 × 250 para revelar el parche que desea probar. Sólo se acepta el primer clic.
Paso 2: Reconocer el número/alfabeto de todas las muestras observadas hasta el momento. El participante puede seleccionar varias clases y deberá elegir al menos una clase de la lista de clases que se muestra debajo del lienzo.
Paso 3: haga clic en "Siguiente" en la parte inferior de la pantalla para continuar. Para inferir la clase de forma precisa y rápida, el jugador deberá seleccionar las ubicaciones con prudencia teniendo en cuenta sus observaciones hasta el episodio actual. No hay límite de tiempo para un episodio. Sin embargo, limitamos el tiempo total de T episodios de una imagen a seis minutos. Elegimos T=12 ya que trabajos muy citados sobre generación o reconocimiento de escritura a mano basados en la atención han utilizado menos de 12 vistazos (por ejemplo, RAM3 podría reconocer números MNIST en 7 vistazos, DRAW23 podría generar números MNIST en 11 vistazos), y los humanos pueden reconocer números y alfabetos escritos a mano en mucho menos de 12 vistazos.
Puntuación de desempeño. Se asigna una puntuación al participante en función de su precisión y eficiencia en cuanto al número de muestras observadas. Sea el conjunto de clases que eligió en cualquier episodio t. Diez, su puntuación en t es:

Figura 1. Nuestra interfaz MTurk vista por un participante. Se muestra la segunda muestra de un alfabeto en mayúsculas EMNIST.

donde |.| denota la cardinalidad de un conjunto. La puntuación total otorgada en T episodios es h {{0}} T t=1 Pt. Por lo tanto, lo máximo que uno puede puntuar en T episodios es T si siempre elige sólo la clase correcta. La puntuación mínima que uno puede obtener en T episodios es cero si siempre elige un conjunto de clases que no incluye la clase correcta. Entonces, 0 Menor o igual a h Menor o igual a T. Cuanto antes un participante seleccione la clase correcta, mayor será su puntuación. Por tanto, este mecanismo de puntuación tiene en cuenta la precisión del reconocimiento y la eficiencia del muestreo. Intentar maximizar la puntuación eligiendo solo una clase del primer episodio será arriesgado ya que se otorgará una puntuación de cero si no es la clase correcta, mientras que se otorgará una puntuación mayor que cero si el participante elige varias clases ( incluso todas las clases) que incluyen la clase correcta. Esto motivará al participante a responder en función de las clases probables que tenga en mente en cualquier episodio. La puntuación otorgada en cada episodio se divulga únicamente al finalizar los episodios T para evitar dar pistas al participante. En MTurk, la remuneración que recibe un participante por una imagen es proporcional a su puntuación total, h.
Filtrado de datos.
Si la puntuación de un participante en el episodio final (es decir, T-ésimo) para una imagen de estímulo es cero, sus datos registrados para esa imagen se descartan. Los datos también se descartan si un participante deja la tarea incompleta. Con este criterio de selección, obtuvimos respuestas sobre 1736 estímulos de MNIST, 4431 estímulos de EMNIST en mayúsculas y 4315 estímulos de EMNIST en minúsculas; es decir, 169,1 respuestas por clase en promedio.
Modelos y métodos para utilizar datos.
En esta sección, ilustramos la utilidad de los datos recopilados al (4.1) proporcionar un modelo de referencia para predecir el comportamiento de un participante y (4.2) mostrar cómo un modelo de refuerzo basado en la atención existente puede compararse con el reconocimiento humano de números y alfabetos. actuación. La línea de base para la predicción del comportamiento. El comportamiento en cualquier episodio t consiste en la selección de ubicación y selección de clase. Dado que una muestra contiene diferentes cantidades de información para diferentes observadores, o incluso para el mismo observador en diferentes momentos9, la predicción del comportamiento de cada participante es un problema difícil. Sea n el número de clases en un conjunto de datos, ηt sea el conjunto único que contiene la clase verdadera para la imagen de estímulo en t, ct sea el conjunto de clases y lt sea la ubicación seleccionada por un participante en t, para ser su observación en t, y 1:t denota la secuencia 1, 2, ..., t. Hasta cualquier t, las observaciones de un participante son o1:t y las ubicaciones que seleccionó son l1:t. Formulamos el problema de la predicción del comportamiento de un participante de la siguiente manera: Predicción de clase Estimar la probabilidad de i∈ct (i=1, 2, ..., n) dados sus o1:t y l1:t, es decir, P( i ∈ ct|o1:t, l1:t). Predicción de ubicación Calcule la probabilidad de lt+1 dados sus o1:t, l1:t y ct, es decir, P(lt+1|o1:t, l1:t,ct). Predicción de clase. Para predecir la clase que elegirá un participante en el episodio t, calculamos la probabilidad de que el estímulo de imagen en t pertenezca a la clase I dadas las ubicaciones seleccionadas por el participante l1:t y las observaciones correspondientes o1:t, de la siguiente manera:

donde Ii es la media de las imágenes de estímulo (27×25) que pertenecen a la clase i, I′ es una imagen de 27×25 que contiene o1:t en l1:t, · denota producto escalar y .denota norma euclidiana. Todas las intensidades de píxeles no son negativas. En cualquier episodio t, las k clases probables más altas de la distribución de creencias P(i|o1:t, l1:t) constituyen el conjunto de clases, ˆct, predichas por nuestro modelo, donde k=|ct|. La precisión de la clasificación se mide mediante el índice de Jaccard (JI). JI mide la similitud entre dos conjuntos, X e Y, como: J(X, Y) {{10}} |X ∩ Y|/|X ∪ Y|. JI está limitado entre 0 y 1; si X=Y, J(X, Y)=1. En cualquier episodio t, la precisión de la clasificación de un participante es J(ηt,ct) mientras que la de nuestro modelo es J(ηt, ˆct). Debido a su denominador, JI penaliza más a medida que aumenta el número de elementos en el conjunto predicho (ct o ˆct) que no están en ηt, lo cual es una propiedad deseable para nuestro caso. La similitud entre la clasificación de un participante y la de nuestro modelo se mide por J(ct, ˆct). Nuestro modelo también se evalúa en términos de precisión de selección y rechazo de clase con respecto a cada participante. Sea st=ct − ct−1 el conjunto de nuevas clases seleccionadas y rt=ct−1 − ct el conjunto de clases rechazadas por un participante en t. De manera similar, ˆst=ˆct − ct−1 es el conjunto de nuevas clases seleccionadas, y ˆrt=ct−1 − ˆct es el conjunto de clases rechazadas por nuestro modelo en t. Entonces, la selección y el rechazo de clase del modelo se pueden comparar con los de un participante mediante J(st, ˆst) cuando |st| > 0 y J(rt, ˆrt) cuando |rt| > 0, respectivamente. Predicción de ubicación. Hipótesis Idealmente, la distribución de creencias en todas las clases debería ser unimodal (es decir, un solo pico) y una forma gaussiana delgada (es decir, una pequeña desviación estándar) que indique que un participante tiene confianza en la clase (estado) del estímulo (entorno). Sin embargo, como se desprende de nuestros datos (ref. Fig. 2), un participante a menudo se confunde entre varias clases, especialmente durante los primeros episodios. En estos casos, su distribución de creencias tiene múltiples picos o es una gruesa gaussiana. Nuestra hipótesis es que el objetivo de un participante es converger a un gaussiano unimodal y delgado, para lograrlo muestrea selectivamente ubicaciones que reducen la probabilidad de todas las clases excepto una. Esta hipótesis conduce a la minimización de la incertidumbre sobre las clases (estados ambientales), que es un principio bien conocido que guía la acción24, incluidos los movimientos oculares25.

Figura 2. Duración y distribución de clases entre todos los participantes y estímulos pertenecientes a las categorías '0', 'a' y 'A'.
Te observations at certain locations in a stimulus image can discriminate between certain classes. Te observation at a location l might indicate that the numeral/alphabet belongs to class I and not to class j. Such locations are more salient than others in achieving a participant's goal. To sample such locations, a saliency map, Dij, is computed such that if l is salient, the observation at l is evidence to increase the probability of class I and decrease that of j. Mathematically, Dij = N (., σ ) ∗ g(.), where ∗ is the convolution operator, g(.) is a saliency scoring function, and N (., σ ) is a 5×5 Gaussian kernel with standard deviation σ = 6 to smooth the saliency scores. We denote the set of all saliency maps as D = {Dij: i, j ∈ {1, 2, ..., n}, i �= j}. A location l in a stimulus image is salient for class i with respect to class j if Dij(l)>θ, donde el umbral θ=0.5 × max(D) es una cantidad escalar determinada empíricamente.
Consideramos dos métricas asimétricas, la divergencia y la diferencia de Kullback-Leibler (KL), como candidatas para la función g. Divergencia de KL Dadas dos imágenes medias normalizadas, Ii e Ij, la divergencia de KL KL(Ii, Ij) mide la pérdida de información cuando se utiliza Ij para aproximar Ii. Esto se calcula para cada píxel k como26: KL(Ii,k, Ij,k)=Ii,k log δ + Ii,k Ij,k+δ, donde Ij,k es la intensidad del k-ésimo píxel de Ij, y δ es una constante de regularización. Cuando Ii,k=Ij,k, KL(Ii,k,Ij,k) → 0. Diferencia Dadas dos imágenes medias normalizadas, Ii e Ij, la diferencia para cada píxel k es Diff (Ii,k, Ij,k)=Ii,k − Ij,k. Cuando Ii,k=Ij,k, Diff (Ii,k, Ij,k)=0. Un participante no está seguro del conjunto de clases, ct, que seleccionó en el episodio actual. Por lo tanto, para la predicción de ubicación, consideramos sólo aquellos mapas de prominencia en D que involucran las clases en ct. Se predice una ubicación si es destacada en función de estos mapas de prominencia y si el participante nunca la seleccionó. Así, dados o1:t, l1:t y ct, la ubicación lt+1 se predice de la siguiente manera:

donde Ŵ es el conjunto de 3-tuplas que contienen la ubicación predicha ˆl, la clase para la que destaca (i) y con respecto a qué clase (j). La ubicación se predice correctamente si existe un �ˆl, i, j� ∈ Ŵ tal que �ˆl − lt+1� < ǫ, I ∈ ct+1 y j /∈ ct{{3} }, donde ǫ es la distancia euclidiana máxima entre el píxel central y cualquier píxel en un parche de observación. El pseudocódigo para la predicción de ubicación se muestra en el Algoritmo 1. Se incluye una explicación detallada del pseudocódigo en la Sección S1 del material complementario. (La distribución de probabilidad, P(lt+1|o1:t, l1:t,ct), se puede calcular suponiendo que la puntuación de prominencia de las ubicaciones que no están en Ŵ sea cero, y luego normalizando la puntuación de prominencia de todas ubicaciones para sumar la unidad. Sin embargo, esta probabilidad no se ha utilizado, ya que la ecuación (3) es suficiente para los propósitos de este documento).

Evaluación de modelos basados en la atención.
Como representante de los modelos basados en la atención, consideramos el muy citado modelo de atención recurrente (RAM)3 que informa resultados experimentales en el conjunto de datos MNIST. Este modelo de refuerzo muestrea secuencialmente una imagen y decide dónde muestrear a continuación en cada instante de muestreo, lo que lo hace apropiado para la evaluación utilizando los datos recopilados.
RAM
Clasifica imágenes utilizando una secuencia de vislumbres. La siguiente ubicación se elige estocásticamente a partir de una distribución parametrizada por una red de ubicaciones. El modelo se entrena de un extremo a otro maximizando el siguiente objetivo3:

donde M es el número de episodios, T es el número de observaciones, xi 1:t son las secuencias de interacción obtenidas al ejecutar el agente actual hasta I episodios, ui t es la acción actual, θ es el conjunto de parámetros entrenables, Ri t es la recompensa acumulativa, bt es una línea de base y π(ui t|xi 1:t; θ ) es la política. El comportamiento de RAM se puede comparar con el de los participantes comparando los mapas de fijación obtenidos de la secuencia de ubicaciones predichas por RAM y los elegidos por los participantes. Un mapa de fijación se calcula asignando a cada ubicación un valor igual a la frecuencia de su selección y luego normalizando esos valores para crear una distribución sobre todas las ubicaciones.
Métricas para comparar mapas de fijación. Para las métricas que comparan dos mapas de fijación, P y Q, seguimos de cerca 26. Usamos tres métricas basadas en la distribución: divergencia KL (KL), coeficiente de correlación de Pearson (CC) y similitud (SIM), para comparar la distribución de las ubicaciones de muestreo. de un modelo con el de los participantes según lo registrado en los datos recopilados.
KL (definido anteriormente) es muy sensible a los valores cero.
CC puede evaluar la relación lineal entre dos mapas como26: CC(P, Q)=σ (P, Q) σ (P)σ (Q), donde σ es la varianza o covarianza. Dado que CC es simétrico, no permite inferir si las diferencias entre los mapas de fijación se deben a falsos positivos o falsos negativos.
SIM se mide como 26: SIM(P, Q)=k min(Pk, Qk), donde k Pk=k Qk=1. Al igual que CC, la SIM es simétrica y hereda el mismo inconveniente. Además, SIM es muy sensible a los valores faltantes y penaliza las predicciones que no tienen en cuenta la densidad de la verdad fundamental.
Investigación en humanos y animales.
La Junta de Revisión Institucional de la Universidad de Memphis ha determinado que este estudio no cumple con la definición de investigación con sujetos humanos de la Oficina de Protección de la Investigación con Sujetos Humanos y 45 CFR parte 46 no se aplica. Por lo tanto, este estudio no requiere aprobación ni revisión del IRB.
Resultados experimentales Análisis de datos.
Los datos recopilados se pueden visualizar en términos de la secuencia de distribución de ubicaciones seleccionadas (Fig. 3), clases seleccionadas (Fig. 2) y duración entre episodios consecutivos (Fig. 2). Estas distribuciones son muy similares para los tres conjuntos de datos. Para cualquier número o alfabeto, la distribución de las ubicaciones seleccionadas después del episodio final se asemeja a la distribución de intensidades de píxeles de su clase en el conjunto de datos. Sin embargo, la secuencia de ubicaciones seleccionadas es de naturaleza estocástica. La distribución de clases indica confusión entre categorías con estructuras similares en los primeros episodios cuando los participantes eligen varias clases. Esta confusión se reduce con más muestreo. Existe una correlación positiva significativa entre el grado de confusión (# clases seleccionadas/# clases totales) y la duración del muestreo (ver Fig. 4). Si el número de clases seleccionadas es alto (bajo), la duración entre episodios consecutivos es alta (baja). El CC de la secuencia de ubicaciones seleccionadas por un participante para una clase no es significativo (Tabla 1). Esto es de esperarse debido a la variabilidad entre sujetos en el muestreo de imágenes estáticas. El número promedio de muestreos requeridos por un participante para predecir con precisión una clase es bastante bajo. En promedio, se necesitan 4,2, 4,7 y 4,9 muestras correspondientes a 36, 44,1 y 48,1 segundos para clasificar con precisión las imágenes MNIST, EMNIST en mayúsculas y minúsculas, respectivamente. En promedio, los participantes vieron solo el 11,3%, el 13,4% y el 13,7% del área de la imagen para clasificar con precisión una imagen del alfabeto numérico, mayúscula y minúscula (consulte la Fig. S2 en el material complementario). Estos resultados resaltan la eficiencia del sistema de razonamiento visual humano, aunque con una resolución más baja que los datos de seguimiento ocular pero con menos ruido y variabilidad. Estos resultados empíricos pueden resultar útiles para diseñar modelos basados en la atención para aplicaciones del mundo real. Predicción de comportamiento. En esta sección, el rendimiento de nuestro modelo de referencia se evalúa en términos de la precisión con la que puede predecir la ubicación y la selección de clase de cada participante. Dado que nuestros resultados experimentales utilizando las dos funciones de puntuación de prominencia, divergencia y diferencia de KL, son bastante similares, los resultados se informan utilizando únicamente la diferencia, a menos que se indique lo contrario. Predicción de clase. La predicción de clases y sus métodos de evaluación de precisión se describen en la sección "Predicción de clases". La precisión de la predicción de clases, que se muestra en la Fig. 5, se calcula para todas las clases para todos los muestreos. La precisión media de la predicción de clases en todos los muestreos y conjuntos de datos es del 74,4 % (desviación estándar de 26,5). Las Figuras 5a yb muestran que el conjunto de clases seleccionadas por los participantes y por nuestro modelo de referencia (Ec. 2) es bastante inexacto en los episodios iniciales y mejora con el aumento de las muestras. La Figura 5c muestra que, durante los episodios iniciales, estos dos conjuntos, ct y ˆct, son bastante diferentes; La similitud aumenta con el aumento de muestras. Lo mismo se aplica a las nuevas selecciones de clases (ref. Fig. 5f). Sin embargo, los rechazos de clase son similares en los episodios iniciales; la similitud aumenta aún más con más muestras (ref. Fig. 5e). Dado que J(st, ˆst)=|(ct ∩ ˆct) − ct−1| |(ct ∪ ˆct) − ct−1| y J(rt, ˆrt)=|ct−1 − (ct ∪ ˆct)| |ct−1 − (ct ∩ ˆct)|, se puede inferir de la Fig. 5e, f que en los episodios iniciales, la intersección entre ct−1 y ct ∪ ˆct es pequeña, lo que indica que inicialmente los participantes y nuestro modelo de referencia hacer muchos cambios en su selección de clases entre episodios consecutivos. Por lo tanto, inicialmente, el proceso de selección de clases es altamente estocástico. Si bien existen algunas diferencias entre la predicción de clase de los participantes y la de nuestro modelo durante los episodios iniciales, los comportamientos se vuelven cada vez más similares con más muestras. Durante los primeros episodios (normalmente de 4 a 7), se revelan partes muy destacadas de un estímulo. Esto ayuda a seleccionar solo la clase correcta en los muestreos posteriores, lo que aumenta la precisión de la predicción. Dado que hay muchas clases cuyas plantillas medias coinciden con las partes observadas del estímulo durante los primeros episodios, el proceso de selección de clases es significativamente más estocástico, lo que lleva a una baja precisión de clasificación por parte de los participantes y de nuestro modelo.

Figura 3. Distribución de los lugares de muestreo entre todos los participantes para cada clase de números/alfabeto y cada episodio de muestreo. Cada fila corresponde a una clase, cada columna corresponde a un episodio de muestreo que aumenta de izquierda a derecha.
Predicción de ubicación. La precisión de predicción de la ubicación de nuestro modelo de referencia (Ecuación 3), promediada sobre todos los muestreos y conjuntos de datos, es del 67,7% (desv. estándar 14.1) (ref. Fig. 5d). La tendencia de esta precisión de predicción es opuesta a la de la precisión de predicción de clase. Sin embargo, la explicación sigue siendo la misma. La precisión de la predicción de la ubicación es alta durante los muestreos iniciales porque durante estos episodios, se seleccionan las ubicaciones más destacadas, dejando que las ubicaciones menos destacadas se seleccionen en los episodios posteriores. Dado que hay muchas ubicaciones con baja prominencia, su proceso de selección es altamente estocástico y, por lo tanto, difícil de predecir, lo que lleva a una disminución en la precisión de la predicción con un aumento en los muestreos. La tendencia decreciente es única para cada conjunto de datos (consulte la Fig. 5d), ya que el número de clases y el número de ubicaciones altamente destacadas útiles para la discriminación varían entre los conjuntos de datos. Cuanto menor sea el número de clases y ubicaciones discriminativas altamente destacadas, más rápida será la disminución en la precisión de la predicción de la ubicación con un aumento en los muestreos.

Figura 4. (Izquierda) Gráfico de barra de error de la diferencia de tiempo (segundos) entre muestras consecutivas promediadas en todas las clases. Es decir, el valor mostrado en el episodio de muestreo t es el tiempo transcurrido entre los clics de un participante en la imagen en t − 1 y t. (Derecha) Gráfico de confusión de la barra de error promediado para todas las clases en cada episodio. Las barras de error indican estándar. desarrollador

Figura 5. Evaluación de nuestro modelo de referencia (ref. Sección "Línea de base para la predicción del comportamiento"). (a) Precisión de clasificación (según) de los participantes y (b) la de nuestro modelo de referencia con etiquetas reales como verdad fundamental. (c) Similitud de clasificación (J(ct, ˆct)), (d) precisión de la predicción de la ubicación, (e) precisión del rechazo de clase y (f) precisión de la selección de clase de nuestro modelo de referencia con los datos de los participantes como verdad fundamental. Consulte la sección "Predicción de comportamiento" para obtener más detalles.

Tabla 1. Coeficiente de correlación de Pearson promedio (corr.) para secuencias de fijación para la misma clase. Para cualquier fijación, la distancia es euclidiana y la dirección se mide como el ángulo polar con respecto al centro del estímulo como origen. Estándar desarrollador se incluyen entre paréntesis.
Evaluación de la RAM.
Para cada clase y muestreo, se comparan los mapas de fijación de RAM (utilizamos la implementación de RAM de github.com/hehefan/Recurrent-Attention-Model) y los datos recopilados para los mismos estímulos presentados en MTurk. Para una comparación justa con los participantes, en RAM fijamos la longitud de la secuencia en T=12, la primera ubicación de muestreo en el centro de la imagen, la observación de entrada en un parche de 5 × 5 con la ubicación seleccionada como centro, y modificó la función de recompensa mediante la ecuación. (1). La recompensa acumulativa, Rt en la ecuación. (4,) se reemplaza por la puntuación acumulada t τ=1 Pτ obtenida de la ecuación. (1). Como un participante puede seleccionar múltiples clases en cualquier episodio, para el modelo RAM, en lugar de predecir una sola clase basada en la probabilidad más alta, consideramos la probabilidad media de todas las clases como un umbral y predecimos el conjunto de clases ct con probabilidades mayores que la límite. Este ct se utiliza para calcular la puntuación utilizando la ecuación. (1). En estas condiciones, la RAM requiere 3,7, 8,5 y 7,6 muestras para reconocer los números MNIST y los alfabetos EMNIST en mayúsculas y minúsculas, que corresponden al 8,9%, 21,0% y 18,7% del área de la imagen, respectivamente. Por lo tanto, en comparación con nuestros participantes (consulte la sección "Análisis de datos"), la RAM es menos eficiente. Consulte la Tabla 2. Los resultados de la comparación de los mapas de fijación de RAM y los datos recopilados se muestran en la Tabla 3. KL es mayor debido a su sensibilidad a valores cero. Esto implica que los participantes muestrean varias ubicaciones, pero no RAM. Estos experimentos se pueden utilizar como base para evaluar ubicaciones muestreadas mediante un modelo de atención.

Beneficios de cistanche - Mejora la memoria
Discusiones
El paradigma mcAT, tal como se utiliza en este artículo, tiene ciertos puntos de diferencia con aquellos que se basan principalmente en los movimientos oculares y las miradas para estudiar los mecanismos de reconocimiento de objetos. En este último, las partes destacadas de la escena atraen primero la atención, seguidas de movimientos oculares sacádicos que dirigen la mirada hacia los lugares destacados27. La mirada es impulsada por señales de abajo hacia arriba y de arriba hacia abajo que, junto con la información de prominencia, forman mapas de prioridad que guían los movimientos oculares para el reconocimiento de objetos. Dado que los participantes en el presente estudio observaron las imágenes estáticas en condiciones de visualización libre y con suficiente tiempo disponible (seis minutos para muestras T=12), probablemente realizaron una serie de movimientos oculares sacádicos o razonamiento visual28 para explorar la imagen antes de hacer clic en un AOI. Estos movimientos oculares podrían haberse capturado en emAT (mediante un rastreador ocular) pero no en mcAT. Sin embargo, estos movimientos oculares se ven afectados por la distracción mental. Si bien la mcAT también se ve afectada por la distracción mental29, el efecto puede reducirse siempre que los participantes respondan después de un razonamiento visual. Dado que los movimientos oculares en respuesta a un estímulo están influenciados por la tarea en cuestión30, los patrones de movimiento ocular de los participantes probablemente estuvieron influenciados por la tarea de tres pasos asignada en cada muestreo (consulte la sección "Tarea visual"). Si se hubiera utilizado un rastreador ocular, los movimientos oculares de los participantes para explorar la muestra se habrían entremezclado con movimientos oculares para hacer clic en las clases elegidas, lo que habría complicado la interpretación de la exploración visual de la muestra. Hacer clic en las clases es un paso necesario ya que revela, aunque sea de forma introspectiva, las clases previstas en la mente de un participante. Es probable que las miradas inmediatamente antes y después de la selección del AOI, quizás también ayudadas por movimientos oculares de fijación,31-contribuyeran más al reconocimiento de números y alfabetos. De hecho, suponemos que los participantes seleccionaron áreas de diagnóstico de la imagen para distinguir entre clases, y esas áreas probablemente contengan una mezcla de información de diagnóstico de abajo hacia arriba (p. ej., contraste visual) y de arriba hacia abajo (plantilla numérica/alfabeta). Esto es consistente con nuestro hallazgo de que los participantes rápidamente (dentro de 5 muestras en promedio) distinguieron entre clases de estímulos aparentemente seleccionando parches de diagnóstico.

Tabla 2. Comparación de la eficiencia entre nuestros participantes y el modelo RAM en términos del número promedio de muestras necesarias para reconocer un número/alfabeto. El porcentaje del área de la imagen observada se incluye entre paréntesis.

Tabla 3. Evaluación de mapas de fijación de RAM para los estímulos presentados en los experimentos de MTurk promediados en todas las clases y muestreos. Estándar desarrollador se incluyen entre paréntesis.
Conclusiones
Introdujimos un conjunto de datos mcAT para reconocer números y alfabetos escritos a mano mediante muestreo secuencial. Los datos se recopilan de 382 participantes a los que se les presentaron imágenes seleccionadas de conjuntos de datos de referencia (MNIST, EMNIST). En promedio, se registran 169,1 respuestas por clase de números/alfabeto. Los datos se analizan rigurosamente para revelar la eficiencia del reconocimiento visual humano. Los participantes observaron sólo el 12,8% de una imagen para su reconocimiento. Propusimos un modelo de referencia para predecir la ubicación y las clases que un participante seleccionaría en el siguiente muestreo. Mostramos cómo nuestras condiciones y datos experimentales pueden usarse para evaluar un modelo de refuerzo basado en la atención en comparación con el desempeño humano. Este conjunto de datos mcAT, con múltiples beneficios sobre los datos de seguimiento ocular, llena un vacío crucial en la investigación de modelos basados en la atención en IA, aprendizaje automático y otras áreas.
Referencias
1. Ranzato, MA Sobre cómo aprender dónde buscar. arXiv:1405.5488, (2014).
2. Ba, J., Salakhutdinov, RR, Grosse, RB y Frey, BJ Aprendizaje de modelos de atención recurrente durante la vigilia y el sueño. En NIPS, 2593–2601 (2015).
3. Mnih, V. et al. Modelos recurrentes de atención visual. En NIPS, 2204-2212 (2014).
4. Ba, J., Mnih, V. y Kavukcuoglu, K. Reconocimiento de objetos múltiples con atención visual. arXiv:1412.7755 (2014).
5. Dutta, JK y Banerjee, B. Variación en la precisión de la clasificación con el número de vislumbres. En IJCNN, 447–453 (IEEE, 2017).
6. Larochelle, H. & Hinton, GE Aprendiendo a combinar vislumbres foveales con una máquina de Boltzmann de tercer orden. En NIPS, 1243-1251 (2010).
7. Elsayed, G., Kornblith, S. & Le, QV Saccader: Mejora de la precisión de los modelos de atención intensa para la visión. En NIPS, 702–714 (2019).
8. van Beers, RJ Las fuentes de variabilidad en los movimientos oculares sacádicos. J. Neurosci. 27(33), 8757–8770 (2007).
9. Itti, L. & Baldi, P. La sorpresa bayesiana atrae la atención humana. Vis. Res. 49(10), 1295–1306 (2009).
10. Egner, S. et al. Atención y adquisición de información: comparación del clic del mouse con el seguimiento de la atención por el movimiento ocular. J. ojo mov. Res. 11(6), (2018).
11. Peterson, MS, Kramer, AF e Irwin, DE Los cambios encubiertos de atención preceden a los movimientos oculares involuntarios. Percepción. Psicofisía. 66(3), 398–405 (2004).
12. Jiang, M. et al. Silicio: prominencia en contexto. En CVPR, 1072–1080 (2015).
13. Kim, NW y cols. BubbleView: una interfaz para la creación colectiva de mapas de importancia de imágenes y el seguimiento de la atención visual. Transmisión ACM. Computadora. Tararear. Interactuar. 24(5), 1–40 (2017).
14. Sermanet, P., Frome, A. & Real, E. Atención para una categorización detallada. arXiv:1412.7054 (2014).
15. Egner, S., Itti, L. y Scheier, C. Comparación de modelos de atención con diferentes tipos de datos de comportamiento. Investigando. Oftalmol. Vis. Ciencia. 41(4), S39 (2000).
16. Navalpakkam, V. et al. Medición y modelado del comportamiento ojo-ratón en presencia de diseños de página no lineales. En Proc. En t. Conf. WWW, 953–964 (2013).
17. Matzen, LE, Stites, MC y Gastelum, ZN Estudio de la búsqueda visual sin rastreador ocular: una evaluación de la foveación artificial. Cogn. Res. Príncipe. Implícito. 6(1), 1–22 (2021).
18. Tafí, AP et al. OCR como servicio: una evaluación experimental de Google Docs OCR, Tesseract, ABBYY FineReader y Transym. En Int. Síntoma. Vis. Computadora, 735–746 (Springer, 2016).
19. Memon, J., Sami, M., Khan, RA y Uddin, M. Reconocimiento óptico de caracteres escritos a mano (OCR): una revisión sistemática exhaustiva de la literatura (SLR). Acceso IEEE 8, 142642–142668 (2020).
20. Chaudhuri, A., Mandaviya, K., Badelia, P. y Ghosh, SK Sistemas de reconocimiento óptico de caracteres. En Sistemas de reconocimiento óptico de caracteres para diferentes idiomas con Sof Computing, 9–41 (Springer, 2017).
21. LeCun, Y. et al. Aprendizaje basado en gradientes aplicado al reconocimiento de documentos. Proc. IEEE 86(11), 2278–2324 (1998).
22. Cohen, G., Afshar, S., Tapson, J. y van Schaik, A. EMNIST: una extensión de MNIST para cartas escritas a mano. arXiv:1702.05373, (2017).
23. Gregor, K., Danihelka, I., Graves, A., Rezende, D. & Wierstra, D. DRAW: Una red neuronal recurrente para la generación de imágenes. En ICML, 1462-1471 (2015).
24. Friston, K. El principio de energía libre: ¿una guía aproximada para el cerebro? Tendencias Cogn. Ciencia. 13(7), 293–301 (2009).
25. Mirza, MB, Adams, RA, Friston, K. y Parr, T. Introducción de un modelo bayesiano de atención selectiva basado en inferencia activa. Ciencia. Rep. 9(1), 1-22 (2019).
26. Bylinskii, Z., Judd, T., Oliva, A., Torralba, A. y Durand, F. ¿Qué nos dicen las diferentes métricas de evaluación sobre los modelos de prominencia? Traducción IEEE. Patrón Anal. Mach. Intel. 41(3), 740–757 (2018).
27. Itti, L. y Koch, C. Modelado computacional de la atención visual. Nat. Rev. Neurociencias. 2(3), 194–203 (2001).
28. Lamme, VAF Funciones visuales que generan visión consciente. Frente. Psicólogo, 11, (2020).
29. da Silva, MRD y Postma, M. Mentes errantes, ratones errantes: el seguimiento del mouse de la computadora como método para detectar la distracción mental. Computadora. Tararear. Comportamiento. 112, 106453 (2020).
30. Schütz, AC, Braun, DI y Gegenfurtner, KR Percepción y movimientos oculares: una revisión selectiva. J. Vis. 11(5), 9–9 (2011).
31. Intoy, J. & Rucci, M. Los movimientos oculares finamente afinados mejoran la agudeza visual. Nat. Comunitario. 11(1), 1–11 (2020).






