Bez kategorii

obliczanie podobieństwa w sieci neuronowej (1)

Ostatnio odkryto własności percepcji wzrokowej polegające na rozmytej naturze reprezentacji wewnętrznej sygnałów pobudzających top-down. Jest to zasadnicze dla procesów rozumienia. Na niższych szczeblach, takich jak percepcja dotyczy to rozpoznawania obiektów, a na wyższych piętrach dot. pojęć abstrakcyjnych: emocji, estetyki oraz ich roli w rozpoznawaniu, wyobraźni intuicji etc. Na niższym poziomie proces „od rozmycia do ostrości” (rozmycie-ostrość; RO) ma zasadnicze znaczenia dla szybkiej percepcji. Matematycznie, redukuje złożoność obliczeń z poziomu kombinatorycznej mnogości do poziomu liniowego. W tym celu należy wykazać jak stany logiczne wyłaniają się z ze stanów rozmytych w ciągłym procesie rozmycie-ostrość RO.

Ponadto konieczne jest wprowadzenia neuronowych pól modelujących (NMF) do opisu funkcjonalnego percepcji biologicznej. Opisują one nie pojedyncze neurony ale agregaty odpowiadające mikrokolumnom i kolumnom kory mózgowej. Jest to system semihierarchiczny, wielopoziomowy. W trakcie percepcji następuje asocjacja podzbioru sygnałów odnoszących się do obiektów pochodzących od zmysłów (bottom-up) z reprezentacją tych obiektów przywoływaną z pamięci (top-down). Dopasowanie tych reprezentacji skutkuje rozpoznaniem obiektu. Mamy więc proces asocjacja-rozpoznanie-rozumienie, który powinien być opisany matematycznie. Logika Arystotelesowska nie jest przydatna do tego celu, konieczna jest inna logika.

Znane algorytmy dopasowywania modeli do ich parametrów i danych rzeczywistych prowadzą do kombinatorycznej mnogości obliczeń dla algorytmów zupełnych klasy N i NP. Także logika rozmyta jest tu nieprzydatna, ponieważ mechanizmy samouczenia polegające na takiej logice w ich treningu lub procedurze uczenia i samouczenia zmuszają do traktowania każdego przykładu lub cyklu treningowego jako odrębnego zdania logicznego. Prowadzi to do mnogości kombinatorycznej uniemożliwiającej efektywne rozpoznanie złożonych obiektów, ponieważ musi ona polegać na operacjach logicznych w celu ustalenia stopnia rozmycia, co prowadzi do wewnętrznej niespójności.

W celu opisania agregatu umożliwiającego wskazaną wyżej asocjację, wyodrębnijmy grupę N neuronów n ponumerowanych n = 1,… N. Sygnały bottom-up oznaczamy X(n). X(n) jest konfiguracją pobudzeń synaps bottom-up przychodzącą z neuronów z niższego poziomu.

Każdy neuron ma pewną liczbę synaps. Pobudzenie każdego neuronu zapiszemy jako zestaw liczb:

X(n) = {Xd(n), d = 1,… D}

Pobudzający sygnał top-down przysyłany jest od neuronów z wyższego poziomu jako reprezentacja mentalna (modelu lub pojęcia) Mm(Sm,n) gdzie m = 1,… M, to oznaczenie modelu lub reprezentacji. Każdy model m opisywany jest przez zespół parametrów Sm. . W neuronowej strukturze mózgu są one kodowane przez siłę połączeń synaptycznych , którą matematycznie możemy oznaczyć jako zestaw liczb Sm = {Sa m, a = 1… A}.

Reprezentacje są porównywane z sygnałami w następujący sposób: powiedzmy, że sygnał X(n) przychodzi z neuronu sensorycznego n aktywowanego przez obiekt m charakteryzowany przez parametry Sm . Te parametry mogą obejmować położenie, kierunek, rozmiar obiektu m. Model Mm(Sm,n) przewiduje wartość sygnału X(n) w neuronie n , co oznacza, że neuron n jest aktywowany przez oba sygnały, przychodzący z wejść dolnego poziomu (bottom-up) X(n) i sygnał pobudzający Mm reprezentujący model-pojęcie-obiekt t.j. ich reprezentację mentalną z wyższych poziomów (pamięci).

Różne modele konkurują o zarejestrowanie z sygnałem bottom-up dostosowując swe parametry w celu uzyskania lepszego dopasowania do wejściowego sygnału. NMF zakłada, że te same reguły dopasowania stosowane są do opisu procesu percepcji i rozpoznanie obiektów jak również do uświadomienia sobie złożonych pojęć abstrakcyjnych na wyższych poziomach . Ta sama dynamiczna interakcja sygnałów odnosi się do dopasowania modelu do obiektu w przypadku percepcji oraz reprezentacji do sytuacji i relacji między obiektami, w przypadku procesu zrozumienia. Według NMF sygnały bottom-up to dane nieustrukturyzowane {X(n)} a sygnały wyjściowe są rozpoznane i formują pojęcie {m}. Sygnały wyjściowe stają się sygnałami bottom-up dla kolejnej, wyższej warstwy.

Percepcja i rozumienie wymaga uczenia, które motywowane jest instynktem wiedzy. Potrzeba wiedzy, która dla stanów świadomych odpowiada ciekawości przejawia się jako dążenie do dopasowania sygnałów top-down i bottom-up na każdym poziomie struktury hierarchicznej. Matematycznie jest to realizowane jako poszukiwanie miary podobieństwa pomiędzy zestawem modeli i sygnałów wejściowych: L({X},{M})

L({X},{M}) = PI l(X(n)). (1)

n € N

Jak sformułować l(X(n)) ?

Według Bayesa równanie (1) zawiera iloczyn cząstkowych podobieństw l(X(n)). Zanim zajdzie proces percepcji, umysł nie wie który neuron siatkówki odpowiada któremu obiektowi. Dlatego miara cząstkowego podobieństwa określona jest w taki sposób, że traktuje każdy model jako alternatywa (suma po wszystkich modelach) dla każdego sygnału z wejścia neuronowego. Elementy składowe są warunkowymi cząstkowymi podobieństwami pomiędzy sygnałem X(n) i modelem Mm, l(X(n)|m), lub w skrócie l(m|n). Ich miara jest uwarunkowana obiektem m, który jest prezentowany zmysłom. Zatem składając te wartości w uogólnioną marę podobieństwa L, muszą one być pomnożone przez miarę obiektu m, którą oznaczamy przez r(m). Wstawiając tę sumę do wzoru (1) otrzymujemy miarę podobieństwa w postaci:

L({X},{M}) = PI SIGMA r(m) l(X(n) | m). (2)

n€N m€M

Wygodniej jest rozpatrywać jej logarytm,

LL({X},{M}) = SIGMA ln [SIGMA r(m) l(X(n) | m) ]. (3)

n € N m € M

Częściowe podobieństwa l(n|m)mogą być uznawane za funkcje gęstości prawdopodobieństwa (pdf) lub możliwość wystąpienia sygnału X(n) pochodzącego od obiektu m. Jeżeli model odpowiada dokładnie obiektowi dla pewnych wartości parametrów, wówczas instynkt pozyskiwania wiedzy (ciekawość), dla pojedynczego poziomu NMF, jest równoważny wyliczeniu maksymalnego podobieństwa do parametrów modelu.

Jednakże , kiedy model jest jest tylko w przybliżeniu najlepszy, ta interpretacja jest niewystarczająca. Wówczas korzystniej będzie rozważyć podobieństwo opierające się na obopólnej informacji. W tym celu można zastąpić wyrażenie (3) równaniem (4):

LL =SIGMA abs(X(n)) • ln [SIGMA r(m) l(X(n)|m) ]. (4)

n € N m € M

Równanie (4) daje przybliżenie wzajemnej informacji o sygnałach opisujących modele, nawet jeśli te nie są idealne.

Proces uczenia polega na wyliczeniu parametrów modelu S i skojarzeniu sygnałów z modelem (jego mglistą, nieostrą wizją) poprzez maksymalizację podobieństwa wg wzoru (1). Niestety, można zauważyć, że w kolejnych wyrażeniach (2,3,4) należy przemnożyć wszystkie możliwe kombinacje sygnałów i modeli (suma wyrażona w (2) przemnożona przez N). Da to MN wyrażeń, co odpowiada kombinacji N sygnałów i wszystkich M modeli. Jest to źródło wspomnianej złożoności kombinatorycznej, która na pewno nie jest obsługiwana przez ludzki mózg.

Nie mam dostatecznej wiedzy, żeby przewidzieć, czy elektroniczne komputery sobie z tym kiedykolwiek poradzą. Dotychczasowe algorytmy załamują się w tym miejscu. Np. algorytmy testowania wielokrotnych hipotez próbują maksymalizować podobieństwo L poprzez wszystkie modele i asocjacje pomiędzy sygnałami i modelami w dwóch krokach. W pierwszym wybierają jedną szczególną asocjację z M^N i maksymalizują ją poprzez wszystkie modele. Następnie dokonywany jest wybór maksymalnej tzn. najlepszej dla najlepszego zestawu parametrów. W oczywisty sposób stajemy znów przed barierą mnogości kombinatorycznej, ponieważ liczba niezbędnych obliczeń jest rzędu M^n.