AttentionMNIST: zestaw danych umożliwiający śledzenie uwagi po kliknięciu myszką w celu rozpoznawania odręcznych cyfr i alfabetów

Feb 22, 2024

Wiele modeli opartych na uwadze, które rozpoznają obiekty na podstawie sekwencji spojrzeń, zgłosiło wyniki w zakresie rozpoznawania cyfr odręcznych. Nie są jednak dostępne żadne dane dotyczące śledzenia uwagi w zakresie rozpoznawania odręcznie pisanych cyfr lub alfabetu. Dostępność takich danych umożliwiłaby ocenę modeli opartych na uwadze w porównaniu z wynikami człowieka. Zbieramy dane dotyczące śledzenia uwagi po kliknięciu myszą od 382 uczestników próbujących rozpoznać odręcznie zapisane cyfry i alfabety (duże i małe litery) z obrazów poprzez próbkowanie sekwencyjne. Obrazy z porównawczych zbiorów danych są prezentowane jako bodźce. Zebrany zbiór danych, nazwany AttentionMNIST, składa się z sekwencji przykładowych lokalizacji (kliknięcie myszką), prnarzucone etykiety klasy przy każdym pobieraniu próbek oraz czas trwania każdego pobierania próbek. Nasi uczestnicy obserwują średnio tylko 12,8% obrazu w celu rozpoznania. Proponujemy model bazowy do przewidywania lokalizacji i klas, które uczestnik wybierze podczas następnego pobierania próbek. Wystawiony na te same bodźce i warunki eksperymentalne, co nasi uczestnicy, często cytowany model wzmocnienia opartego na uwadze nie jest w stanie zapewnić ludzkiej wydajności.

Chinese herb cistanche

Chiński cistancheziele- Zapobiegaj produktom choroby Alzheimera

Modele uczenia maszynowego (ML), które rozpoznają obiekty na podstawie sekwencji przebłysków, zyskały w ostatnich latach zainteresowanie ze względu na ich skalowalność i wydajność. Wiele z tych modeli, np. 1–7, przedstawiło wyniki eksperymentów na wzorcowym zbiorze danych MNIST dotyczącym rozpoznawania cyfr pisanych odręcznie. Niestety, nie są dostępne żadne dane dotyczące śledzenia uwagi dla MNIST. Uniemożliwia to ocenę modeli opartych na uwadze w porównaniu z wynikami człowieka. Wypełniliśmy tę lukę, zbierając zbiór danych od dorosłych uczestników próbujących rozpoznać odręcznie zapisane cyfry i alfabety na obrazach za pomocą próbkowania sekwencyjnego. W przeciwieństwie do śledzenia uwagi za pomocą ruchu oczu (emAT), uczestnik klika miejsce na obrazie, które chce zobaczyć (forma śledzenia uwagi poprzez kliknięcie myszą (mcAT)). Zaraz potem na podstawie swoich dotychczasowych obserwacji wybiera klasę(y), do której, jak przewiduje, może należeć obiekt. Zatem w każdym odcinku próbkowania nasze dane obejmują wybraną lokalizację obrazu, przewidywane etykiety zajęć i czas, jaki upłynął od ostatniego odcinka przez uczestnika. Po każdym obrazie uczestnik otrzymuje nagrodę uzależnioną od jego osiągnięć (dokładność i skuteczność).

Anti Alzheimer's disease

Korzyści z cistanche tubulosa-przeciw chorobie Alzheimera

Zalety mcAT w porównaniu z emAT w zakresie rozpoznawania odręcznych cyfr/alfabetów.

(1) mięso charakteryzuje się znaczną zmiennością wewnątrz- i interpersonalną w zakresie miejsca utrwalenia, szczególnie w przypadku bodźców statycznych (obrazów)8,9. Zatem do wyciągnięcia statystycznie istotnych wniosków potrzebna jest duża ilość danych dotyczących fiksacji wzroku. mcAT nie jest podatny na niektóre źródła szumu technicznego typowego dla danych śledzenia wzroku10. (2) Ruchy oczu mogą wynikać zarówno z mechanizmów dobrowolnych, jak i mimowolnych11. Aby ułatwić podejmowanie decyzji w zależności od zadania, zapewniamy uczestnikom odpowiedni czas, kontekst i sygnały wzmacniające, które można również przedstawić modelowi ML. (3) Precyzja i dokładność danych emAT zależy od urządzenia śledzącego wzrok, podczas gdy to samo w przypadku mcAT jest niezależne od jakiegokolwiek urządzenia. (4) Wyzwaniem jest zsynchronizowanie ruchów oczu z wyborem klasy. Aby temu zaradzić, w naszym przypadku miejsce pobierania próbek i klasa (klasy) są wybierane w tym samym odcinku. (5) Wreszcie nasza metoda umożliwia gromadzenie danych przy użyciu Amazon Mechanical Turk (MTurk), jak w 12,13, co jest opłacalne i czasochłonne, a także łatwo powtarzalne.

Składki.

Zbieramy zbiór danych mcAT o nazwie AttentionMNIST, korzystając z MTurk od 382 uczestników, nagrodzonych za dokładne i skuteczne rozpoznawanie odręcznie zapisanych cyfr i alfabetów (wielkich i małych liter) z obrazów poprzez próbkowanie sekwencyjne. Jako bodźce prezentowane są obrazy z porównawczych zbiorów danych (MNIST, EMNIST). Średnio rejestruje się 169,1 odpowiedzi na klasę cyfr/alfabetów. Korzystając z tego zbioru danych, pokazujemy, co następuje: • Uczestnicy potrzebują średnio 4,2, 4,7 i 4,9 próbek, aby rozpoznać cyfry, wielkie i małe litery, które odpowiadają odpowiednio tylko 11,3%, 13,4% i 13,7% obszaru obrazu . Dokładność klasyfikacji wzrasta wraz z liczbą próbek. • Model przedstawiony jako punkt odniesienia może przewidzieć klasę(y) i lokalizację, którą uczestnik wybierze w następnym etapie pobierania próbek z dokładnością odpowiednio 74,4% i 67,7%, w obu przypadkach uśrednioną ze wszystkich prób i zbiorów danych. Dokładność przewidywania klas wzrasta, a dokładność przewidywania lokalizacji maleje wraz ze wzrostem próbek. • Często cytowany model uwagi nawracającej (RAM) oparty na wzmocnieniu, poddawany działaniu tych samych bodźców i warunków, co nasi uczestnicy, wymaga 3,7, 8,5 i 7,6 próbek, aby rozpoznać cyfry, wielkie i małe litery, co odpowiada 8,9% , odpowiednio 21,0% i 18,7% obszaru obrazu. Inne modele wzmocnienia opartego na uwadze (np. 1,2,4,5,7,14) można podobnie ocenić w porównaniu z wynikami człowieka.

Cistanche supplement near me-Improve memory2

Cistanche suplement blisko mnie-poprawiający pamięć

Kliknij tutaj, aby wyświetlić produkty Cistanche poprawiające pamięć i zapobiegające chorobie Alzheimera

【Zapytaj o więcej】 E-mail:cindy.xue@wecistanche.com / Aplikacja Whats: 0086 18599088692 / Wechat: 18599088692

Powiązana praca

Czasowa sekwencja kliknięć myszą w mcAT jest analogiczna do ścieżki skanowania ruchu gałek ocznych10. mcAT może skutecznie zastąpić emAT, ponieważ są one istotnie skorelowane10,12,13,15–17. W badaniach mcAT wykorzystano różne rodzaje bodźców, takie jak obrazy obiektów ożywionych i nieożywionych10, obrazy scen naturalnych12,13, statyczne strony internetowe13, układy stron wyszukiwania16 i dwie listy ciągów alfanumerycznych do wizualnego porównania17. Jednakże mcAT nie był używany do odręcznych zadań klasyfikacji liczb/alfabetów ani do oceny modeli klasyfikacji opartych na uwadze. W badaniach mcAT wykorzystano takie cechy, jak czas kontaktu, względna częstotliwość fiksacji w obszarach zainteresowania (AOI), względny odsetek pacjentów, którzy kliknęli przynajmniej raz w AOI10, liczba fiksacji na próbę, ponowna fiksacja w próbach, czas przebywania i ścieżki skanowania17 , mapy fiksacji12,13, AOI i wzorzec przepływu informacji16. Sekwencja miejsc kliknięć ze znacznikiem czasu i przewidywane etykiety klas stanowią surowe dane niezbędne do oceny wydajności i dokładności modeli opartych na uwadze lub ludzi w zadaniach klasyfikacyjnych. Z tych danych można wyprowadzić różne funkcje. Nasz zbiór danych mcAT, oferujący wiele korzyści w porównaniu z danymi wynikającymi ze śledzenia wzroku, wypełnia kluczową lukę w badaniach modeli opartych na uwadze w obszarach sztucznej inteligencji, uczenia maszynowego i innych obszarach. Nasz zbiór danych umożliwi ocenę modeli opartych na uwadze w porównaniu z wydajnością człowieka. Umożliwi to między innymi rozwój wydajnych i działających w czasie rzeczywistym systemów optycznego rozpoznawania znaków, które znajdą szerokie zastosowanie w praktyce (patrz przykład 18–20). Za pomocą naszego zbioru danych można postawić hipotezę i przetestować zasady kierujące fiksacją wzrokową. Udane zasady można zastosować do opracowania systemów do zadań rozpoznawania wizualnego w świecie rzeczywistym, gdzie kluczową kwestią jest wydajność, np. w przypadku jazdy autonomicznej.

Dane

Nasze dane składają się z sekwencji T epizodów dla każdego uczestnika. Dane z każdego odcinka obejmują (1) lokalizację na obrazie klikniętym przez uczestnika (jedno kliknięcie obrazu na odcinek), (2) wybrane przez uczestnika zajęcia oraz (3) czas potrzebny uczestnika do zarejestrowania aktualnej próbki (tj. czasu, jaki upłynął od ostatniego do bieżącego kliknięcia w obraz). W tej sekcji wyjaśnimy nasz proces gromadzenia danych, w tym wybór bodźców, uczestników, zadania wzrokowe, punktację wydajności i filtrowanie danych.

Wybór bodźców. Bodźce wybiera się z obrazów w dwóch wzorcowych zbiorach danych: (1)

Zbiór danych MNIST21 składa się z 70,000 oznaczonych obrazów (28×28 pikseli) zawierających 10 odręcznie zapisanych cyfr {0, 1, ..., 9}. (2)

Zbiór danych EMNIST22 składa się ze 145 600 obrazów (28 × 28 pikseli) odręcznie pisanych alfabetów angielskich, pisanych wielkimi i małymi literami, tworząc zrównoważoną klasę. Wszystkie obrazy są oznaczone jedną z 26 klas {a, b, ..., z}. Jednakże etykieta z wielkimi lub małymi literami nie jest powiązana z żadnym obrazem. Z każdej kategorii wybieramy 15 dobrze uformowanych cyfr z MNIST i 15 dobrze uformowanych alfabetów, każdy ze zbiorów danych EMNIST wielkich i małych liter. Dobrze uformowana cyfra lub alfabet jest podobna do normy w swojej klasie. W ten sposób prezentujemy bodźce z zestawu 15(10 + 26 + 26)=930 unikalnych obrazów, po 15 obrazów należących do każdej z 62 klas. Dobrze uformowane obrazy 930 są wybierane w następujący sposób:

Krok 1: Normalizuj każdy obraz za pomocą wartości min-max, aby skalować intensywność w zakresie od 0 do 1.

Krok 2: Oznacz dobrze sformułowane obrazy EMNIST wielkimi lub małymi literami. Dla każdej klasy alfabetu ręcznie wybierany i opisywany jest dobrze uformowany alfabet z obrazów zawierających wielkie i małe litery. Obliczane jest cosinusowe podobieństwo wszystkich obrazów należących do tej klasy do dwóch oznaczonych obrazów. Obrazom, które przekraczają próg podobieństwa cosinus (wybrany empirycznie jako 0.8), przypisuje się etykietę z dużą lub małą literą.

Krok 3: Oblicz średnią obrazów należących do każdej klasy. Zły obraz klasy stanowi jej normę. Obraz kwalifikuje się jako bodziec, jeśli jego cosinus podobieństwa do średniego obrazu swojej klasy jest większy niż ustalony empirycznie próg (0,7 dla MNIST, 0,75 dla EMNIST).

Krok 4: Spośród kwalifikujących się obrazów ręcznie wybieranych jest 15 obrazów z każdej klasy na podstawie ich prawidłowego formatu. Każdy obraz, pierwotnie o wymiarach 28 × 28 pikseli, jest zmniejszany do 27 × 25 poprzez usunięcie pikseli w pobliżu granic, ponieważ nie mają one różnic w intensywności. Dla każdej z 62 klas obliczana jest średnia z tych 15 obrazów. Oznaczamy te średnie obrazy jako I1, I2, ..., In dla n klas w każdym zbiorze danych.

Uczestnicy.

W naszym badaniu wzięło udział łącznie 382 różne dorosłe osoby. Nie zastosowano żadnych kryteriów wyboru. Uczestnik mógł odpowiedzieć na wiele obrazów. Dla każdej z 62 klas odnotowano średnio 169,1 odpowiedzi.

man-5989553_960_720

Korzyści z cistanche tubulosa-Przeciw chorobie Alzheimera

Zadanie wizualne.

Interfejs MTurka do naszego zadania wizualnego pokazano na rys. 1. Płótno o wymiarach 270×250 przez cały czas wyświetla obraz tła o niskiej intensywności. Obrazy tła i bodźców są dziesięciokrotnie zwiększane do rozdzielczości 270×250. Środek płótna pokrywa się ze środkiem obrazów. Tło Początkowo tło jest średnią wszystkich obrazów w zbiorze danych, z którego pobierany jest bodziec. Po pierwszym odcinku tłem jest średnia wszystkich obrazków z zestawu zajęć wybranych przez uczestnika w ostatnim odcinku. W prawdziwym świecie kontekst położenia, rozmiaru i orientacji cyfry lub alfabetu uzyskuje się z pisma w ich sąsiedztwie, którego tutaj brakuje. Kiedy nasze eksperymenty przeprowadzaliśmy na pustym tle, uczestnicy często próbowali miejsc obrazu, które nie zawierały żadnej części obiektu. To zachowanie zostało powstrzymane poprzez przedstawienie średniego obrazu wybranych klas na tle o niskiej intensywności i zmniejszenie rozmiaru wszystkich obrazów MNIST i EMNIST z 28 × 28 pikseli do 27 × 25. Za każdym razem, gdy uczestnik wybiera lokalizację na płótnie, klikając ją, ujawnia się plama o wymiarach 50 × 50 pikseli wyśrodkowana w tym miejscu z obrazu bodźcowego. Raz ujawniona łatka będzie wyświetlana aż do ostatniego odcinka. Zadanie uczestnika składa się z trzech kroków w każdym odcinku t (t=1, ..., T):

Krok 1: Kliknij w dowolnym miejscu obszaru roboczego o wymiarach 270 × 250, aby odsłonić łatkę, którą chce pobrać. Akceptowane jest tylko pierwsze kliknięcie.

Krok 2: Rozpoznaj cyfrę/alfabet ze wszystkich zaobserwowanych do tej pory próbek. Uczestnik może wybrać wiele zajęć i będzie musiał wybrać co najmniej jedną klasę z listy zajęć pokazanej pod kanwą.

Krok 3: Kliknij „Dalej” u dołu ekranu, aby kontynuować. Aby szybko i dokładnie wywnioskować przebieg zajęć, uczestnik będzie musiał rozsądnie wybrać lokalizacje, biorąc pod uwagę swoje obserwacje aż do bieżącego odcinka. Nie ma limitu czasu na odcinek. Jednakże ograniczamy całkowity czas T odcinków obrazu do sześciu minut. Wybraliśmy T=12, ponieważ często cytowane prace dotyczące rozpoznawania lub generowania pisma ręcznego w oparciu o uwagę wykorzystywały mniej niż 12 przebłysków (np. RAM3 mógł rozpoznać cyfry MNIST w ciągu 7 przebłysków, DRAW23 mógł wygenerować cyfry MNIST w ciągu 11 przebłysków) oraz ludzie potrafią rozpoznać odręcznie zapisane cyfry i alfabety w znacznie mniej niż 12 rzutach oka.

Punktacja wydajności. Uczestnikowi przypisuje się punktację na podstawie jego dokładności i efektywności w zakresie liczby zaobserwowanych próbek. Niech będzie to zbiór klas, które wybrał w dowolnym odcinku t. Dziesięć, jego wynik w t to:

Figure 1. Our MTurk interface as seen by a participant. Te second sampling for an EMNIST uppercase alphabet is shown.

Rysunek 1. Nasz interfejs MTurk widziany przez uczestnika. Pokazano drugą próbkę dla wielkich liter alfabetu EMNIST.

image


gdzie |.| oznacza liczność zbioru. Całkowita liczba punktów przyznanych w odcinkach T wynosi h {0}} T t=1 pkt. Zatem maksymalna liczba punktów, jaką można zdobyć w odcinkach T, to T, jeśli zawsze wybiera się tylko właściwą klasę. Minimalna liczba punktów, jaką można uzyskać w odcinkach T, wynosi zero, jeśli zawsze wybiera się zestaw zajęć, który nie zawiera właściwej klasy. Zatem 0 Mniejsze lub równe h Mniejsze lub równe T. Im szybciej uczestnik wybierze właściwą klasę, tym wyższy będzie jego wynik. Zatem ten mechanizm punktacji uwzględnia dokładność rozpoznawania i efektywność próbkowania. Próba maksymalizacji wyniku poprzez wybranie tylko jednej klasy z pierwszego odcinka będzie ryzykowna, gdyż w przypadku nieprawidłowej klasy zostanie przyznany wynik zerowy, zaś w przypadku wybrania wielu zajęć przez uczestnika zostanie przyznany wynik większy od zera ( nawet wszystkie klasy), które zawierają właściwą klasę. Zmotywuje to uczestnika do zareagowania w oparciu o prawdopodobne zajęcia, które przychodzą mu do głowy w dowolnym odcinku. Punktacja przyznana w każdym odcinku jest ujawniana dopiero po ukończeniu odcinków T, aby nie dawać uczestnikowi żadnych wskazówek. W MTurk wynagrodzenie otrzymywane przez uczestnika za zdjęcie jest proporcjonalne do jego łącznej punktacji, h.

Filtrowanie danych.

Jeżeli wynik uczestnika w ostatnim (tzn. T-tym) odcinku dla obrazu bodźcowego wynosi zero, jego dane zapisane dla tego obrazu są odrzucane. Dane są również usuwane, jeśli uczestnik pozostawi zadanie nieukończone. Stosując te kryteria selekcji, uzyskaliśmy odpowiedzi na 1736 bodźców z MNIST, 4431 bodźców z wielkich liter EMNIST i 4315 bodźców z małych liter; czyli średnio 169,1 odpowiedzi na klasę.

Modele i metody wykorzystania danych

W tej sekcji ilustrujemy użyteczność zebranych danych poprzez (4.1) dostarczenie podstawowego modelu przewidywania zachowania uczestnika oraz (4.2) pokazanie, jak istniejący model wzmacniania opartego na uwadze można porównać z rozpoznawaniem cyfr/alfabetów ludzkich wydajność. Podstawa przewidywania zachowań. Zachowanie w dowolnym odcinku t składa się z wyboru lokalizacji i wyboru klasy. Ponieważ próbka zawiera różną ilość informacji dla różnych obserwatorów, a nawet dla tego samego obserwatora w różnym czasie9, przewidywanie zachowania każdego uczestnika jest trudnym problemem. Niech n będzie liczbą klas w zbiorze danych, ηt będzie zbiorem singletonów zawierającym prawdziwą klasę dla obrazu bodźcowego w t, ct będzie zbiorem klas i lt będzie lokalizacją wybraną przez uczestnika w t, która będzie jego obserwacją w t i 1:t oznacza sekwencję 1, 2, ..., t. Do dowolnego t obserwacje uczestnika wynoszą o1:t, a wybrane przez niego lokalizacje to l1:t. Problem przewidywania zachowania uczestnika formułujemy w następujący sposób: Przewidywanie klas Oszacuj prawdopodobieństwo i∈ct (i=1, 2, ..., n) biorąc pod uwagę jego o1:t i l1:t, tj. P( i ∈ ct|o1:t, l1:t). Przewidywanie lokalizacji Oszacuj prawdopodobieństwo lt+1 biorąc pod uwagę jego o1:t, l1:t i ct, tj. P(lt+1|o1:t, l1:t,ct). Przewidywanie klas. Aby przewidzieć klasę, którą uczestnik wybierze w odcinku t, obliczamy prawdopodobieństwo, że bodziec obrazowy w t należy do klasy I, biorąc pod uwagę wybrane przez uczestnika lokalizacje l1:t i odpowiadające im obserwacje o1:t, w następujący sposób:

image

gdzie Ii jest średnią obrazów bodźców (27×25) należących do klasy i, I′ jest obrazem 27×25 zawierającym o1:t przy l1:t, · oznacza iloczyn skalarny, a . oznacza normę euklidesową. Wszystkie intensywności pikseli są nieujemne. W dowolnym odcinku t k najwyższych prawdopodobnych klas z rozkładu przekonań P(i|o1:t, l1:t) stanowi zbiór klas ˆct przewidywanych przez nasz model, gdzie k=|ct|. Dokładność klasyfikacji mierzy się za pomocą wskaźnika Jaccarda (JI). JI mierzy podobieństwo między dwoma zbiorami, X i Y, jako: J(X, Y) {{10}} |X ∩ Y|/|X ∪ Y|. JI jest ograniczony pomiędzy 0 a 1; jeśli X=Y, J(X, Y)=1. W dowolnym odcinku t dokładność klasyfikacji uczestnika wynosi J(ηt,ct), podczas gdy dokładność naszego modelu wynosi J(ηt, ˆct). Ze względu na swój mianownik JI karze bardziej, gdy liczba elementów w przewidywanym zbiorze (ct lub ˆct), które nie znajdują się w ηt, wzrasta, co jest pożądaną właściwością w naszym przypadku. Podobieństwo pomiędzy klasyfikacją uczestnika a klasyfikacją naszego modelu mierzy się za pomocą J(ct, ˆct). Nasz model jest również oceniany pod kątem trafności doboru klasy i odrzucenia w odniesieniu do każdego uczestnika. Niech st=ct − ct−1 będzie zbiorem nowych wybranych klas, a rt=ct−1 − ct będzie zbiorem klas odrzuconych przez uczestnika w t. Podobnie ˆst=ˆct − ct−1 to zbiór nowych wybranych klas, a ˆrt=ct−1 − ˆct to zbiór klas odrzuconych przez nasz model w t. Następnie wybór i odrzucenie klasy modelu można porównać z wyborem uczestnika za pomocą J(st, ˆst) gdy |st| > 0 i J(rt, ˆrt) gdy |rt| > 0, odpowiednio. Przewidywanie lokalizacji. Hipoteza W idealnym przypadku rozkład przekonań we wszystkich klasach powinien być jednomodalny (tj. tylko jeden pik) i mieć kształt cienkiego Gaussa (tj. małe odchylenie standardowe), co wskazuje, że uczestnik ma pewność co do klasy (stanu) bodźca (środowiska). Jednakże, jak wynika z naszych danych (patrz ryc. 2), uczestnik często jest mylony z wieloma zajęciami, szczególnie podczas kilku pierwszych odcinków. W takich przypadkach rozkład jego przekonań ma wiele szczytów lub jest grubym Gaussem. Stawiamy hipotezę, że celem uczestnika jest uzyskanie zbieżności do jednomodalnego i cienkiego Gaussa, aby to osiągnąć, selektywnie próbkuje lokalizacje, które zmniejszają prawdopodobieństwo wszystkich klas z wyjątkiem jednej. Hipoteza ta prowadzi do minimalizacji niepewności co do klas (stanów środowiska), co jest dobrze znaną zasadą kierującą działaniami24, w tym także ruchami oczu25.

Figure 2. Duration and class distribution over all participants and stimuli belonging to categories '0', 'a', and 'A'.


Rysunek 2. Czas trwania i rozkład zajęć na wszystkich uczestników oraz bodźce należące do kategorii „0”, „a” i „A”.

Te observations at certain locations in a stimulus image can discriminate between certain classes. Te observation at a location l might indicate that the numeral/alphabet belongs to class I and not to class j. Such locations are more salient than others in achieving a participant's goal. To sample such locations, a saliency map, Dij, is computed such that if l is salient, the observation at l is evidence to increase the probability of class I and decrease that of j. Mathematically, Dij = N (., σ ) ∗ g(.), where ∗ is the convolution operator, g(.) is a saliency scoring function, and N (., σ ) is a 5×5 Gaussian kernel with standard deviation σ = 6 to smooth the saliency scores. We denote the set of all saliency maps as D = {Dij: i, j ∈ {1, 2, ..., n}, i �= j}. A location l in a stimulus image is salient for class i with respect to class j if Dij(l)>θ, gdzie próg θ=0,5 × max(D) jest wielkością skalarną określoną empirycznie.

Rozważamy dwie metryki asymetryczne, dywergencję i różnicę Kullbacka-Leiblera (KL), jako kandydatów na funkcję g. Rozbieżność KL Biorąc pod uwagę dwa znormalizowane obrazy średnich, Ii i Ij, rozbieżność KL KL(Ii, Ij) mierzy utratę informacji, gdy Ij stosuje się do przybliżenia Ii. Oblicza się to dla każdego piksela k as26: KL(Ii,k, Ij,k)=Ii,k log δ + Ii,k Ij,k+δ, gdzie Ij,k to intensywność k-tego piksela Ij, a δ jest stałą regularyzacyjną. Gdy Ii,k=Ij,k, KL(Ii,k,Ij,k) → 0. Różnica Biorąc pod uwagę dwa znormalizowane średnie obrazy, Ii i Ij, różnica dla każdego piksela k wynosi Różnica (Ii,k, Ij,k)=Ii,k − Ij,k. Gdy Ii,k=Ij,k, Różn. (Ii,k, Ij,k)=0. Uczestnik nie jest pewien co do zestawu zajęć, ct, który wybrał na bieżącym odcinku. Dlatego do przewidywania lokalizacji bierzemy pod uwagę tylko te mapy istotności w D, które obejmują klasy w ct. Lokalizacja jest przewidywana, jeśli jest istotna na podstawie tych map istotności i nigdy nie została wybrana przez uczestnika. Zatem, biorąc pod uwagę o1:t, l1:t i ct, położenie lt+1 jest przewidywane w następujący sposób:

image

gdzie Ŵ jest zbiorem 3-krotek zawierających przewidywaną lokalizację ˆl, klasę, dla której jest ona istotna (i) i w odniesieniu do której klasy (j). Lokalizacja jest przewidywana poprawnie, jeśli istnieje a �ˆl, i, j� ∈ Ŵ takie, że �ˆl − lt+1� < ǫ, I ∈ ct+1 i j /∈ ct{{3} }, gdzie ǫ jest maksymalną odległością euklidesową pomiędzy środkowym pikselem a dowolnym pikselem w polu obserwacyjnym. Pseudokod do przewidywania lokalizacji jest pokazany w Algorytmie 1. Szczegółowe wyjaśnienie pseudokodu znajduje się w Sekcji S1 materiału dodatkowego. (Rozkład prawdopodobieństwa Te, P(lt+1|o1:t, l1:t,ct), można obliczyć zakładając, że wynik istotności lokalizacji spoza Ŵ wynosi zero, a następnie normalizując wynik istotności wszystkich lokalizacje, aby zsumować je do jedności. Jednakże prawdopodobieństwo to nie zostało wykorzystane, ponieważ równanie (3) jest wystarczające dla celów tej pracy.)

image

Ocena modeli opartych na uwadze.

Jako przedstawiciel modeli opartych na uwadze bierzemy pod uwagę często cytowany model uwagi nawracającej (RAM)3, który przedstawia wyniki eksperymentów na zbiorze danych MNIST. Ten model wzmocnienia sekwencyjnie próbkuje obraz i decyduje, gdzie dalej próbkować w każdym momencie próbkowania, dzięki czemu jest on odpowiedni do oceny na podstawie zebranych danych.

Baran

klasyfikuje obrazy na podstawie sekwencji przebłysków. Kolejna lokalizacja jest wybierana stochastycznie z rozkładu sparametryzowanego przez sieć lokalizacji. Model jest szkolony kompleksowo, maksymalizując następujący cel3:

image


gdzie M to liczba odcinków, T to liczba obserwacji, xi 1:t to sekwencje interakcji uzyskane w wyniku uruchomienia bieżącego agenta do I odcinków, ui t to bieżące działanie, θ to zbiór parametrów, które można trenować, Ri t to skumulowana nagroda, bt to linia bazowa, a π(ui t|xi 1:t; θ ) to polityka. Zachowanie RAM można porównać z zachowaniem uczestników, porównując mapy fiksacji uzyskane z sekwencji lokalizacji przewidywanych przez RAM i wybranych przez uczestników. Mapę fxation oblicza się, przypisując każdej lokalizacji wartość równą częstotliwości jej wyboru, a następnie normalizując te wartości w celu uzyskania rozkładu na wszystkie lokalizacje.

Metryki do porównywania map fiksacji. W przypadku metryk porównujących dwie mapy fiksacji, P i Q, ściśle przestrzegamy 26. Używamy trzech metryk opartych na dystrybucji: rozbieżności KL (KL), współczynnika korelacji Pearsona (CC) i podobieństwa (SIM), aby porównać rozkład lokalizacji próbkowania z modelu z modelem uczestników zarejestrowanym w zebranych danych.

KL (zdefiniowany wcześniej) jest bardzo wrażliwy na wartości zerowe.

CC może ocenić liniową zależność pomiędzy dwoma mapami jako26: CC(P, Q)=σ (P, Q) σ (P)σ (Q), gdzie σ jest wariancją lub kowariancją. Ponieważ CC jest symetryczne, nie pozwala na wywnioskowanie, czy różnice między mapami fiksacji wynikają z fałszywie pozytywnych, czy fałszywie negatywnych wyników.

SIM mierzy się jako 26: SIM(P, Q)=k min(Pk, Qk), gdzie k Pk=k Qk=1. Podobnie jak CC, karta SIM jest symetryczna i ma tę samą wadę. Ponadto karta SIM jest bardzo wrażliwa na brakujące wartości i karze przewidywania, które nie uwzględniają podstawowej gęstości prawdy.

Badania na ludziach i zwierzętach.

Instytucjonalna Komisja Rewizyjna na Uniwersytecie w Memphis ustaliła, że ​​to badanie nie spełnia definicji badań z udziałem ludzi opracowanej przez Biuro ds. Ochrony Badań nad Osobami Ludzkimi i część 46 45 CFR nie ma zastosowania. Dlatego też niniejsze badanie nie wymaga zatwierdzenia ani przeglądu przez IRB.

Wyniki eksperymentów Analiza danych.

Zebrane dane można wizualizować pod względem kolejności rozmieszczenia wybranych lokalizacji (ryc. 3), wybranych zajęć (ryc. 2) oraz czasu trwania pomiędzy kolejnymi epizodami (ryc. 2). Rozkłady te są bardzo podobne dla trzech zbiorów danych. Dla dowolnej cyfry lub alfabetu rozkład wybranych lokalizacji po ostatnim odcinku przypomina rozkład intensywności pikseli swojej klasy ze zbioru danych. Kolejność wybranych lokalizacji ma jednak charakter stochastyczny. Rozkład klas wskazuje na pomieszanie kategorii o podobnej strukturze w pierwszych kilku odcinkach, gdy uczestnicy wybierają wiele klas. To zamieszanie zmniejsza się dzięki większej liczbie próbek. Istnieje istotna dodatnia korelacja pomiędzy stopniem pomyłki (# wybranych klas/łącznie # klas) a czasem trwania próbkowania (patrz rys. 4). Jeśli liczba wybranych zajęć jest wysoka (niska), czas trwania pomiędzy kolejnymi epizodami jest wysoki (niski). CC kolejności wybranych przez uczestnika zajęć lokalizacji nie jest istotny (tab. 1). Jest to oczekiwane ze względu na zmienność międzyosobniczą w próbkowaniu obrazów statycznych. Średnia liczba próbek wymagana przez uczestnika, aby dokładnie przewidzieć zajęcia, jest dość niska. Do dokładnego sklasyfikowania obrazów MNIST, EMNIST, odpowiednio wielkich i małych, potrzeba średnio 4,2, 4,7 i 4,9 próbek, co odpowiada 36, ​​44,1 i 48,1 sekundy. Uczestnicy oglądali średnio tylko 11,3%, 13,4% i 13,7% obszaru obrazu w celu dokładnej klasyfikacji obrazu alfabetu zawierającego cyfry, wielkie i małe litery (patrz rys. S2 w materiale dodatkowym). Wyniki te podkreślają skuteczność ludzkiego systemu wnioskowania wzrokowego, aczkolwiek przy niższej rozdzielczości niż dane pochodzące ze śledzenia wzroku, ale przy mniejszym szumie i zmienności. Te wyniki empiryczne mogą być przydatne przy projektowaniu modeli opartych na uwadze do zastosowań w świecie rzeczywistym. Przewidywanie zachowań. W tej sekcji skuteczność naszego modelu bazowego ocenia się pod kątem tego, jak dokładnie może on przewidzieć lokalizację każdego uczestnika i wybór klasy. Ponieważ nasze wyniki eksperymentalne przy użyciu dwóch funkcji punktacji istotności, rozbieżności KL i różnicy, są dość podobne, wyniki są podawane wyłącznie przy użyciu różnic, chyba że zaznaczono inaczej. Przewidywanie klas. Przewidywanie klas i metody oceny ich dokładności opisano w sekcji „Przewidywanie klas”. Dokładność przewidywania klas, pokazana na rys. 5, jest obliczana dla wszystkich klas dla wszystkich prób. Średnia dokładność przewidywania klasy dla wszystkich próbek i zbiorów danych wynosi 74,4% (odchylenie standardowe 26,5). Ryciny 5a i b pokazują, że zestaw zajęć wybrany przez uczestników i nasz model bazowy (Równanie 2) jest dość niedokładny w początkowych epizodach i poprawia się wraz ze wzrostem próbek. Rycina 5c pokazuje, że w początkowych epizodach te dwa zbiory, ct i ˆct, są zupełnie odmienne; podobieństwo wzrasta wraz ze wzrostem liczby próbek. To samo dotyczy nowych wyborów klas (patrz ryc. 5f). Jednak odrzucenia zajęć są podobne w początkowych odcinkach; podobieństwo wzrasta dalej wraz z większą liczbą próbek (patrz ryc. 5e). Ponieważ J(st, ˆst)=|(ct ∩ ˆct) − ct−1| |(ct ∪ ˆct) − ct−1| i J(rt, ˆrt)=|ct−1 − (ct ∪ ˆct)| |ct−1 − (ct ∩ ˆct)|, z rys. 5e można wywnioskować, że w początkowych epizodach przecięcie pomiędzy ct−1 i ct ∪ ˆct jest małe, co wskazuje, że początkowo uczestnicy i nasz model bazowy wprowadzać wiele zmian w wyborze klasy pomiędzy kolejnymi odcinkami. Dlatego początkowo proces selekcji klas jest wysoce stochastyczny. Chociaż istnieją pewne różnice między przewidywaniami klas uczestników i przewidywaniami naszego modelu podczas początkowych epizodów, zachowania stają się coraz bardziej podobne w miarę zwiększania się liczby próbek. Podczas pierwszych kilku (zwykle od 4 do 7) epizodów ujawniają się bardzo istotne części bodźca. Pomaga to w późniejszym pobieraniu próbek wybrać tylko właściwą klasę, co zwiększa dokładność predykcji. Ponieważ istnieje wiele klas, których szablony średnich odpowiadają obserwowanym częściom bodźca podczas kilku pierwszych epizodów, proces wyboru klasy jest znacznie bardziej stochastyczny, co prowadzi do niskiej dokładności klasyfikacji zarówno ze strony uczestników, jak i naszego modelu.

Figure 3. Distribution of sampling locations over all participants for each numeral/alphabet class and each sampling episode. Each row corresponds to a class, each column corresponds to a sampling episode which increases from left to right.


Rysunek 3. Rozkład miejsc pobierania próbek wśród wszystkich uczestników dla każdej klasy cyfr/alfabetów i każdego odcinka pobierania próbek. Każdy wiersz odpowiada klasie, każda kolumna odpowiada epizodowi próbkowania, który rośnie od lewej do prawej.

Przewidywanie lokalizacji. Dokładność przewidywania lokalizacji naszego modelu bazowego (Równanie 3), uśredniona dla wszystkich próbek i zbiorów danych, wynosi 67,7% (odchylenie standardowe 14.1) (patrz ryc. 5d). Trend tej dokładności predykcji jest przeciwny do tendencji dokładności predykcji klasowej. Jednakże wyjaśnienie pozostaje takie samo. Dokładność przewidywania lokalizacji jest wysoka podczas początkowego pobierania próbek, ponieważ podczas tych odcinków wybierane są najbardziej widoczne lokalizacje, pozostawiając do wyboru mniej widoczne lokalizacje w późniejszych odcinkach. Ponieważ istnieje wiele lokalizacji o niskiej istotności, proces ich selekcji jest wysoce stochastyczny, a przez to trudny do przewidzenia, co prowadzi do spadku dokładności predykcji wraz ze wzrostem liczby próbek. Tendencja spadkowa jest unikalna dla każdego zbioru danych (patrz ryc. 5d), ponieważ liczba klas i liczba bardzo istotnych lokalizacji przydatnych do dyskryminacji różni się w zależności od zbioru danych. Im mniejsza liczba klas i silnie wyróżniające się lokalizacje, tym szybszy będzie spadek dokładności przewidywania lokalizacji wraz ze wzrostem próbkowania.

imageFigure 4. (Lef) Errorbar plot of time diference (seconds) between consecutive samples averaged over all classes. Tat is, value shown at sampling episode t is the time elapsed between a participant's clicks in image at t − 1 and t. (Right) Errorbar plot of confusion averaged over all classes at each episode. Errorbars indicate std. dev.

Rysunek 4. (Lef) Wykres słupkowy błędów różnicy czasu (w sekundach) pomiędzy kolejnymi próbkami uśrednionej dla wszystkich klas. Tat to wartość pokazywana w odcinku próbkowania t to czas, jaki upłynął pomiędzy kliknięciami obrazu przez uczestnika w chwili t - 1 i t. (Po prawej) Wykres błędów przedstawiający zamieszanie uśredniony dla wszystkich klas w każdym odcinku. Paski błędów wskazują std. rozw.

Figure 5. Evaluation of our baseline model (ref.

Rysunek 5. Ocena naszego modelu bazowego (patrz sekcja „Linia bazowa przewidywania zachowań”). (a) Dokładność klasyfikacji (wg.) uczestników oraz (b) dokładność naszego modelu bazowego z rzeczywistymi etykietami jako podstawową prawdą. (c) podobieństwo klasyfikacji (J(ct, ˆct)), (d) dokładność przewidywania lokalizacji, (e) dokładność odrzucenia klas i (f) dokładność wyboru klasy naszego modelu bazowego z danymi uczestników jako podstawową prawdą. Aby uzyskać szczegółowe informacje, zobacz sekcję „Przewidywanie zachowań”.

Table 1. Average Pearson correlation coefficient (corr.) for fxation sequences for the same class. For any fixation, distance is Euclidean and direction is measured as the polar angle with respect to the center of stimuli as the origin. Std. dev. are included in parenthesis.


Tabela 1. Średni współczynnik korelacji Pearsona (kor.) dla sekwencji utrwalania dla tej samej klasy. W przypadku dowolnej fiksacji odległość jest euklidesowa, a kierunek jest mierzony jako kąt biegunowy w stosunku do środka bodźca będącego początkiem. standardowe rozw. są zawarte w nawiasach.

Ocena pamięci RAM.

Dla każdej klasy i próbkowania porównywane są mapy fiksacji z RAM (użyliśmy implementacji RAM z github.com/hehefan/Recurrent-Attention-Model) i zebrane dane dla tych samych bodźców prezentowane w MTurk. Dla rzetelnego porównania z uczestnikami, w pamięci RAM ustaliliśmy długość sekwencji w T=12, pierwsze miejsce próbkowania w środku obrazu, obserwację wejściową w obszarze 5×5 z wybraną lokalizacją jako środkiem, oraz zmodyfikował funkcję nagrody za pomocą równania. (1). Te skumulowana nagroda, Rt w równaniu. (4,) zastępuje się skumulowanym wynikiem t τ=1 Pτ uzyskanym z równania. (1). Ponieważ uczestnik może wybrać wiele klas w dowolnym odcinku, w modelu RAM zamiast przewidywać pojedynczą klasę na podstawie najwyższego prawdopodobieństwa, traktujemy średnie prawdopodobieństwo dla wszystkich klas jako próg i przewidujemy zbiór klas ct z prawdopodobieństwami większymi niż próg. Ten ct służy do obliczenia wyniku za pomocą równania. (1). W tych warunkach pamięć RAM wymaga 3,7, 8,5 i 7,6 próbek do rozpoznania cyfr MNIST oraz wielkich i małych liter alfabetu EMNIST, które odpowiadają odpowiednio 8,9%, 21,0% i 18,7% obszaru obrazu. Zatem w porównaniu do naszych uczestników (patrz sekcja „Analiza danych”) pamięć RAM jest mniej wydajna. Patrz Tabela 2. Wyniki porównania map fiksacji z RAM i zebranych danych przedstawiono w Tabeli 3. KL jest wyższy ze względu na jego wrażliwość na wartości zerowe. Oznacza to, że uczestnicy próbkują kilka lokalizacji, ale nie według pamięci RAM. Eksperymenty te można wykorzystać jako punkt odniesienia do oceny lokalizacji wybranych za pomocą modelu uwagi.

cistanche-Improve memory2

korzyści Cistanche - Popraw pamięć

Dyskusje

Paradygmat mcAT zastosowany w tym artykule różni się w pewnym stopniu od paradygmatu, który opiera się głównie na ruchach oczu i spojrzeniu w celu badania mechanizmów rozpoznawania obiektów. W tym drugim przypadku uwagę przyciągają najpierw istotne fragmenty sceny, po czym następują sakadyczne ruchy oczu, kierujące wzrok w stronę najistotniejszych miejsc27. Spojrzenie jest sterowane sygnałami skierowanymi od dołu do góry i od góry do dołu, które wraz z informacjami o istotności tworzą mapy priorytetów, które kierują ruchami oczu w celu rozpoznawania obiektów. Ponieważ uczestnicy niniejszego badania oglądali statyczne obrazy w warunkach swobodnego oglądania i mając do dyspozycji wystarczającą ilość czasu (sześć minut w przypadku próbek T=12), prawdopodobnie wykonali serię sakadycznych ruchów oczu lub rozumowania wizualnego28 w celu zbadania obraz przed kliknięciem na AOI. Te ruchy oczu można było uchwycić w emAT (za pomocą urządzenia do śledzenia wzroku), ale nie w mcAT. Jednakże na te ruchy oczu wpływa błądzenie umysłu. Chociaż na mcAT wpływa również wędrówka umysłu29, efekt może zostać zmniejszony, gdy uczestnicy odpowiedzą po rozumowaniu wizualnym. Ponieważ wykonywane zadanie ma wpływ na ruchy gałek ocznych w odpowiedzi na bodziec30, na wzorce ruchów gałek ocznych uczestników prawdopodobnie wpływało trzyetapowe zadanie przypisane im przy każdym pobieraniu próbki (patrz sekcja „Zadanie wizualne”). Gdyby zastosowano eyetracker, ruchy oczu uczestników w celu zbadania próbki zostałyby zmieszane z ruchami oczu w celu kliknięcia wybranych klas, co skomplikowałoby interpretację wizualnej eksploracji próbki. Kliknięcie zajęć jest niezbędnym krokiem, ponieważ ujawnia, aczkolwiek introspekcyjnie, przewidywane zajęcia w umyśle uczestnika. Jest prawdopodobne, że spojrzenia bezpośrednio przed i po wyborze AOI – być może także wspomagane fiksacyjnymi ruchami oczu31-w największym stopniu przyczyniły się do rozpoznawania cyfr/alfabetów. Rzeczywiście przypuszczamy, że uczestnicy wybrali obszary diagnostyczne obrazu w celu rozróżnienia klas, a obszary te prawdopodobnie zawierają mieszankę informacji diagnostycznych od dołu do góry (np. Kontrast wizualny) i od góry do dołu (szablon liczb/alfabetów). Jest to zgodne z naszym odkryciem, że uczestnicy szybko (średnio w ciągu 5 próbek) rozróżniali klasy bodźców, rzekomo poprzez wybór łatek diagnostycznych.

Table 2. Comparison of efficiency between our participants and the RAM model in terms of the average number of samples required to recognize a numeral/alphabet. The percentage of the image area observed is included in parentheses.

Tabela 2. Porównanie wydajności naszych uczestników z modelem RAM pod względem średniej liczby próbek potrzebnych do rozpoznania cyfry/alfabetu. W nawiasach podano procent obserwowanego obszaru obrazu.

Table 3. Evaluation of fixation maps from RAM for the stimuli presented in the MTurk experiments averaged over all classes and samplings. Std. dev. are included in parenthesis.


Tabela 3. Ocena map fiksacji z pamięci RAM dla bodźców prezentowanych w eksperymentach MTurk uśredniona dla wszystkich klas i próbek. standardowe rozw. są zawarte w nawiasach.

Wnioski

Wprowadziliśmy zbiór danych mcAT do rozpoznawania odręcznie pisanych cyfr i alfabetów poprzez próbkowanie sekwencyjne. Dane zebrano od 382 uczestników, którym przedstawiono obrazy wybrane z porównawczych zbiorów danych (MNIST, EMNIST). Średnio rejestruje się 169,1 odpowiedzi na klasę cyfr/alfabetów. Dane są rygorystycznie analizowane, aby wykazać skuteczność ludzkiego rozpoznawania wzrokowego. Uczestnicy obserwowali jedynie 12,8% obrazu pod kątem rozpoznania. Zaproponowaliśmy model bazowy do przewidywania lokalizacji i klas, które uczestnik wybierze przy następnym pobieraniu próbek. Pokazaliśmy, jak nasze warunki eksperymentalne i dane mogą zostać wykorzystane do oceny modelu wzmocnienia opartego na uwadze w porównaniu z wynikami człowieka. Ten zbiór danych mcAT, oferujący wiele korzyści w porównaniu z danymi dotyczącymi śledzenia wzroku, wypełnia kluczową lukę w badaniach modeli opartych na uwadze w obszarach sztucznej inteligencji, uczenia maszynowego i innych obszarach.

Bibliografia

1. Ranzato, MA O uczeniu się, gdzie szukać. arXiv:1405.5488, (2014).

2. Ba, J., Salakhutdinov, RR, Grosse, RB i Frey, BJ Uczenie się modeli nawracającej uwagi w czasie czuwania i snu. W NIPS, 2593–2601 (2015).

3. Mnih, V. i in. Powtarzające się modele uwagi wzrokowej. W NIPS, 2204–2212 (2014).

4. Ba, J., Mnih, V. i Kavukcuoglu, K. Rozpoznawanie wielu obiektów za pomocą uwagi wzrokowej. arXiv:1412.7755 (2014).

5. Dutta, JK i Banerjee, B. Różnice w dokładności klasyfikacji w zależności od liczby przebłysków. W IJCNN, 447–453 (IEEE, 2017).

6. Larochelle, H. i Hinton, GE Nauka łączenia przebłysków dołkowych z maszyną Boltzmanna trzeciego rzędu. W NIPS, 1243–1251 (2010).

7. Elsayed, G., Kornblith, S. & Le, QV Saccader: Poprawa dokładności modeli twardej uwagi dla wzroku. W NIPS, 702–714 (2019).

8. van Beers, RJ Te źródła zmienności sakadycznych ruchów gałek ocznych. J. Neurosci. 27(33), 8757–8770 (2007).

9. Itti, L. i Baldi, P. Bayesowska niespodzianka przyciąga ludzką uwagę. Wisz. Rozdzielczość 49(10), 1295–1306 (2009).

10. Egner, S. i in. Uwaga i pozyskiwanie informacji: porównanie kliknięcia myszą ze śledzeniem uwagi w ruchu oczu. J. Eye Mov. Rozdzielczość 11 ust. 6, (2018).

11. Peterson, MS, Kramer, AF i Irwin, DE Ukryte przesunięcia uwagi poprzedzają mimowolne ruchy oczu. Postrzeganie. Psychofizyka. 66(3), 398–405 (2004).

12. Jiang, M. i in. Krzem: istotność w kontekście. W CVPR, 1072–1080 (2015).

13. Kim, NW i in. BubbleView: interfejs do pozyskiwania map znaczenia obrazów i śledzenia uwagi wizualnej. ACM Trans. Oblicz. Szum. Oddziaływać. 24 ust. 5, 1–40 (2017).

14. Sermanet, P., Frome, A. i Real, E. Uwaga dla szczegółowej kategoryzacji. arXiv:1412.7054 (2014).

15. Egner, S., Itti, L. i Scheier, C. Porównanie modeli uwagi z różnymi typami danych behawioralnych. Badanie. Oftalmol. Wisz. Nauka. 41(4), S39 (2000).

16. Navalpakkam, V. i in. Pomiar i modelowanie zachowania oko-mysz w obecności nieliniowych układów stron. w proc. Wewnętrzne Konf. WWW, 953–964 (2013).

17. Matzen, LE, Stites, MC i Gastelum, ZN Badanie przeszukiwania wizualnego bez urządzenia do śledzenia wzroku: ocena sztucznej foveacji. poznanie Rozdzielczość Książę. domniemane. 6 ust. 1, 1–22 (2021).

18. Tafi, AP i in. OCR jako usługa: eksperymentalna ocena OCR Dokumentów Google, Tesseract, ABBYY FineReader i Transym. w Int. Symp. Wisz. Oblicz., 735–746 (Springer, 2016).

19. Memon, J., Sami, M., Khan, RA i Uddin, M. Odręczne optyczne rozpoznawanie znaków (OCR): kompleksowy systematyczny przegląd literatury (SLR). Dostęp IEEE 8, 142642–142668 (2020).

20. Chaudhuri, A., Mandaviya, K., Badelia, P. i Ghosh, SK Optyczne systemy rozpoznawania znaków. W systemach optycznego rozpoznawania znaków dla różnych języków za pomocą miękkiego przetwarzania danych, 9–41 (Springer, 2017).

21. LeCun, Y. i in. Uczenie się metodą gradientową stosowane do rozpoznawania dokumentów. Proc. IEEE 86(11), 2278–2324 (1998).

22. Cohen, G., Afshar, S., Tapson, J. & van Schaik, A. EMNIST: Rozszerzenie MNIST na listy pisane odręcznie. arXiv:1702.05373, (2017).

23. Gregor, K., Danihelka, I., Graves, A., Rezende, D. i Wierstra, D. DRAW: Rekurencyjna sieć neuronowa do generowania obrazu. W ICML, 1462–1471 (2015).

24. Friston, K. Te zasada darmowej energii: przybliżony przewodnik po mózgu?. Trendy Cogn. Nauka. 13(7), 293–301 (2009).

25. Mirza, MB, Adams, RA, Friston, K. i Parr, T. Wprowadzenie bayesowskiego modelu uwagi selektywnej opartej na aktywnym wnioskowaniu. Nauka. Rep. 9(1), 1–22 (2019).

26. Bylinskii, Z., Judd, T., Oliva, A., Torralba, A. i Durand, F. Co różne metryki ewaluacji mówią nam o modelach istotności? IEEE Trans. Wzór Analny. Mach. Intel. 41 ust. 3, 740–757 (2018).

27. Itti, L. i Koch, C. Modelowanie obliczeniowe uwagi wzrokowej. Nat. Ks. Neurosci. 2(3), 194–203 (2001).

28. Lamme, VAF Funkcje wizualne generujące świadome widzenie. Przód. Psychol., 11, (2020).

29. da Silva, MRD i Postma, M. Wędrujące umysły, wędrujące myszy: Śledzenie myszy komputerowej jako metoda wykrywania wędrówek umysłów. Oblicz. Szum. Zachowaj się. 112, 106453 (2020).

30. Schütz, AC, Braun, DI i Gegenfurtner, KR Ruchy oczu i percepcja: przegląd selektywny. J. Vis. 11 ust. 5, 9–9 (2011).

31. Intoy, J. i Rucci, M. Precyzyjnie dostrojone ruchy oczu poprawiają ostrość wzroku. Nat. komuna. 11 ust. 1, 1–11 (2020).

Może ci się spodobać również