Title: A1262611012ixRqv
1APRENDIZAJE HEBBIANO SUPERVISADO Â Objetivo
Explicar por qué trabaja el aprendizaje de
Hebb. Â La regla de Hebb fue una de las primeras
reglas de aprendizaje de las ANN. Propuesta en
1949 por Donald Hebb como un mecanismo para
realizar modificación sináptica en el cerebro y
desde entonces se usó para el entrenamiento de
las ANN. Â La regla de Hebb se puede usar en
reconocimiento de patrones. Según este sicólogo,
el comportamiento se podrÃa explicar por la
acción de las neuronas (The Organization of
Behavior, 1949). Â El Postulado de Hebb se
convirtió posteriormente en el Aprendizaje de
Hebb Cuando el axón de una célula A está lo
suficiente cerca para excitar a una célula B y
repetidamente o persistentemente toma parte en la
alimentación o disparo de ésta, ocurre algún
proceso de crecimiento o cambio metabólico en una
o las dos células tal que la eficiencia de A,
como una de la células que alimenta a B, se
incrementa.
2Este postulado sugiere la presencia de un
mecanismo fÃsico para el aprendizaje a nivel
celular (la TeorÃa de Hebb ha tenido gran
influencia en la investigación en el campo de la
neurociencia). Â Asociador Lineal La regla de
aprendizaje de Hebb se usa en combinación con una
variedad de arquitecturas de redes
neurales. Para el aprendizaje de Hebb se usará
una red muy sencilla llamada asociador lineal,
esta red fue propuesta independientemente por
James Anderson y Teuvo Kohonen.
El vector a de salida está determinado por a Wp
ó
ai wijpj
3Memoria asociativa El asociador lineal es un
ejemplo de un tipo de red neural llamado memoria
asociativa. Â La tarea de una memoria asociativa
es aprender Q pares de vectores entrada/salida
Prototipos p1,t1, p2,t2, ....,pQ,tQ Â Si
la entrada es p pq se producirÃa una salida a
tq . Si la entrada se modifica ligeramente, p
pq d, entonces la salida deberÃa cambiar solo
ligeramente a tq e.Â
La Regla de Hebb Rescribiendo el postulado de
Hebb si dos neuronas a ambos lados de una
sinápsis se activan simultáneamente, la función
de la sinápsis se reforzará.  La conexión
(sinápsis) entre la entrada pj y la salida ai es
el peso wij. Por lo tanto, el Postulado de Hebb
implicarÃa que si un pj positivo produce un ai
positivo, entonces peso wij deberÃa incrementarse.
4Una interpretación matemática del postulado
podrÃa ser Wijnuevo Wijviejo
afi(aiq)gj(pjq)  pjq es el j-ésimo elemento del
vector de entrada pq. aiq es el i-ésimo elemento
del vector de salida aq (salida de la red),
cuando el q-ésimo vector de entrada se le
presenta a la red. a es una constante positiva
llamada la tasa de aprendizaje. La expresión
dice que el cambio en el peso es proporcional a
un producto de funciones de las actividades a los
lados de la sinápsis.  En forma simplificada, se
puede escribir Wijnuevo Wijviejo
aaiqpjq Esta expresión extiende el Postulado de
Hebb a El cambio en el peso es proporcional al
producto de la actividad en cualquiera de los
lados de la sinápsis. Se incrementa el peso
cuando pj y ai son ambas positivas o negativas y
se decrementa cuando tienen signos opuestos.
5Aprendizaje supervisado de Hebb La regla de
aprendizaje de Hebb presentada en la ecuación
anterior es del tipo no supervisado. Sin embargo,
vamos a revisar la Regla de Hebb para aprendizaje
Supervisado primero. Se conoce la salida para
cada entrada vector de entrada prototipo. Para el
aprendizaje supervisado, se sustituye la salida
calculada por la salida esperada. Wijnuevo
Wijviejo tiqpjq  tiq es el i-ésimo elemento de
la salida esperada tq cuando la entrada es pq (a
es 1 seleccionado por simplicidad). En forma
matricial o vectorial (todas las
neuronas) Wnuevo Wviejo tqpTq
6Suponiendo que la matriz de pesos se inicializa
en cero y se aplican cada uno de los Q pares
entrada/salida una vez
W t1pT1 t2pT2 ... tqpTq tqpTq
En forma matricial
Análisis de rendimiento del aprendizaje Hebbiano
para el asociador lineal Supongamos el caso de pq
vectores ortonormales (ortogonales y de longitud
unitaria). Si pk es la entrada a la red, entonces
la salida de la red se calcula como
a Wpk ( tqpTq)pk tq(pTqpk)
7Como los pq son ortonormales
Re-escribimos a Wpk tk La salida de la red,
es igual a la salida esperada. Esto significa,
que si los vectores de entrada prototipos son
ortonormales, la regla de Hebb producirá la
salida correcta para cada entrada.  Cálculo de
la salida para vectores prototipos no
ortogonales Supongamos que los vectores de
entrada pq son de longitud unitaria no
ortogonales.
8Debido a que los vectores de entrada no son
ortogonales, la red no produce la salida
correcta. La magnitud del error dependerá del
grado de correlación entre los patrones
prototipos de entrada. Â Ejemplo Supongamos los
dos pares de vectores entrada/salida prototipos.
(los vectores de entrada están normalizados pero
no son ortogonales)
9Regla de Hebb (matriz de pesos)
Si aplicamos los dos vectores de entrada
prototipos
0.5774
W
p
0.5774
0.6668
1.1548
0 0
2
0.5774
Los valores de las salidas se aproximan a las
esperadas pero no iguales.
Regla seudo-inversa Cuando los patrones de
entrada no son ortogonales, la regla de Hebb
produce algunos errores. Hay varios
procedimientos para reducir esos errores. La
Regla seudo-inversa es uno de ellos.
10Recordemos que la tarea del asociador lineal es
producir la salida tq para una entrada pq.
Si no es posible escoger una matriz de pesos tal
que esas ecuaciones sean satisfechas en forma
exacta, entonces interesa encontrar una solución
aproximada. Un enfoque es escoger una matriz de
pesos con la que se minimice el siguiente Ãndice
de rendimiento
Si los vectores de entrada prototipos son
ortonormales y usamos la regla de Hebb para
encontrar W, entonces F(W) 0 y diferente de
cero cuando, esos vectores no sean
ortonormales. La matriz de pesos que minimizará
F(W) se obtiene usando la matriz seudo-inversa.
11Con
y en forma matricial WP T
E T-WP
(eij es el error por cada componente i del vector
tq y cada vector de pesos por el vector de
entrada pj).
Si se puede resolver WP T, entonces F(W) será
cero. Si P tiene inversa, entonces la solución
es W T P-1
12Esto es posible rara vez. Normalmente los
vectores pq (columnas de P) son independientes,
pero R (la dimensión de pq) es más grande que Q
(el número de vectores pq). Por lo tanto P no
será una matriz cuadrada y su inversa exacta no
existirá. La matriz de pesos que minimiza a F(W)
está dada por la regla seudo-inversa Â
(matriz seudo inversa de
Moore-Penrose). La seudo inversa de una matriz
real P, es la matriz única que satisface PPP
P PP P P PP (PP)T P P (P P)T Cuando
el número R de filas de P es mayor que el número
de columnas Q de P, y las columnas de P son
independientes, entonces la seudo-inversa se
puede calcular como
13Si los patrones prototipos son ortonormales
Ejemplo (No necesitamos normalizar los vectores
de entrada cuando se usa la regla seudoinversa.)
Cálculo de la matriz de pesos
14Las salidas de la red son iguales a las salidas
deseadas. Diferente es el caso cuando se usa la
Regla de Hebb, donde las salidas son solo
cercanas a las deseadas, mientras que exactas
cuando se usa la regla seudoinversa.
Aplicación práctica de la regla de Hebb aunque
de manera simplificada para reconocimiento de
patrones. Para este problema se utilizará un
tipo de memoria asociativa.
Memoria Auto-asociativa En una memoria
autoasociativa el vector de salida deseado es
igual al vector de entrada. Se usa una memoria
asociativa para almacenar un conjunto de patrones
y recordarlos incluso cuando se suministren como
entrada patrones corrompidos. Supongamos que los
patrones que queremos almacenar son
15(Esos patrones representan los vectores de
entrada y de salida deseadas para la memoria
asociativa que se quiere diseñar). Se muestran
los dÃgitos 0, 1 y 2 en digamos 6x5 30 puntos
de un panel electrónico. Cada cuadrito blanco lo
representamos por un 1 y cada cuadrito negro por
un 1. El patrón prototipo número 1 (trabajando
con las columnas)será
P1 corresponde al dÃgito 0, P2 al 1 y P3 al
2. Â Usando la regla de Hebb se calcula la matriz
de pesos W TPT
16(pq reemplaza a tq debido a que se trata de una
memoria asociativa). Como los elementos de los
vectores prototipos toman solo valores 1 ó 1,
se modifica el asociador lineal tal que su salida
pueda ser solo 1 ó 1 (se reemplaza la función de
transferencia lineal por un escalón simétrico)
a hardlims(Wp)  Operación de la red Le
suministramos a la red versiones corrompidas de
los patrones prototipos y chequeamos su
respuesta  Prueba 1
17Prueba 2
Prueba 3 (ruidosos)
Este es el comportamiento de las memorias
asociativas. SerÃa deseable diseñar una red de
tal manera que el número de patrones erróneos sea
mÃnimo, (las redes o memorias asociativas
recurrentes).
Variaciones del aprendizaje de Hebb Hay muchas
variantes o versiones de esta regla de Hebb. Uno
de los problemas de la regla de Hebb es que puede
dar origen a matrices de pesos de muchos
elementos si hay muchos patrones prototipos de
entrenamiento.
18Consideremos la regla básica Wnuevo Wviejo
tqpTq  Se puede utilizar un parámetro a positivo
para limitar los valores de los elementos de la
matriz de pesos. Si la tasa de aprendizaje es
menor que 1 Â Wnuevo Wviejo atqpTq
Se puede lograr que la regla de aprendizaje se
comporte como un filtro suavisador, si se
recuerdan las entradas más recientes Wnuevo
Wviejo atqpTq ?Wviejo (1-?)Wviejo atqpTq
? es una constante positiva menor que 1. Si ? es
cero entonces se tiene la regla estandar, si ?
se aproxima a 1, el aprendizaje olvida las
entradas menos recientes (los pesos nuevos van a
depender más del último término). Esto evita que
los elementos de la matriz de pesos crezcan sin
lÃmites.
19Si en la ecuación Wnuevo Wviejo atqpTq se
reemplazan las salidas deseadas por la diferencia
entre las salidas deseadas y las salidas
obtenidas, se obtiene otra regla de aprendizaje
Wnuevo Wviejo a(tq - aq)pTq  Esta regla se
conoce como la regla Delta, puesto que usa la
diferencia entre la salida deseada y la obtenida.
También conocida, como el algoritmo
Widrow-Hoff. La regla Delta, ajusta los pesos y
minimiza el error cuadrático medio, razón por la
cual produce los mismos resultados que la regla
seudoinversa que minimiza la suma del cuadrado de
los errores. La ventaja de la regla Delta es
que minimiza los errores después que se presenta
cada nuevo patrón de entrada, mientras que la
regla seudoinversa calcula los pesos en un paso,
después que todos los pares entradas/salidas
deseadas son vistos. Este tipo de funcionamiento
le permite a la regla Delta adaptarse a un
ambiente cambiante.Â
20Regla de Hebb no supervisada La forma no
supervisada de la regla de Hebb, que no requiere
conocimiento de la salida deseada, es una
interpretación más directa del postulado de Hebb
Wnuevo Wviejo aaqpTq