Anil Ananthaswamy
El algoritmo de aprendizaje al que se debe el incontenible éxito de las redes neuronales profundas no vale en los cerebros biológicos, pero se han encontrado alternativas que puede que sí.
En 2007, algunos de los pensadores que más se habían destacado en la ideación de las redes neuronales profundas organizaron una reunión «satélite» no oficial, por los bordes de un prestigioso congreso internacional dedicado a la inteligencia artificial (IA). El congreso había rechazado su propuesta de que se celebrase un seminario oficial; aún faltaban unos años para que las redes neuronales dominasen el mundo de la IA. El último ponente en la reunión pirata fue Geoffrey Hinton, de la Universidad de Toronto, el psicólogo cognitivo y científico de la computación al que se deben algunos de los mayores avances de las redes profundas. Empezó con una ocurrencia: «Entonces, hará un año, fui a casa a cenar, y dije 'creo que por fin me he hecho una idea de cómo funciona el cerebro', y mi hija, que tenía 15 años, me dijo '¡oh, papá!, ¡otra vez no!». Los asistentes se rieron y Hinton prosiguió: «Pues bien, funciona así». Más risas.
Tras las bromas de Hinton se esconde un propósito serio: valerse de la IA para entender el cerebro. Que las redes profundas manden hoy en la IA se debe, al menos en parte, a un algoritmo, el algoritmo de retropropagación. Gracias a él, las redes profundas aprenden de los datos, lo que les da la capacidad de clasificar imágenes, reconocer el lenguaje, hacer que los coches autónomos entiendan lo que pasa en la carretera, realizar muchas otras tareas.
Pero es muy improbable que los cerebros de verdad se basen en ese algoritmo. No es solo que «los cerebros pueden generalizar y aprender mejor y más deprisa que los mejores sistemas de IA actuales», dice Yoshua Bengio, científico de la computación de la Universidad de Montreal, director científico del Instituto de Inteligencia Artificial de Quebec y uno de los organizadores del seminario de 2007. Por diversas razones, la retropropagación no es compatible con la anatomía y fisiología del cerebro, en particular de la corteza.
Bengio y muchos otros inspirados por Hinton han estado pensando en mecanismos de aprendizaje más verosímiles biológicamente. Tres de ellos (el alineamiento por retroalimentación, la propagación de equilibrio y la codificación predictiva) resultan particularmente prometedores. Algunos investigadores han incorporado además en sus modelos las propiedades de ciertos tipos de neuronas corticales y determinados procesos, la atención por ejemplo. Todos estos trabajos nos acercan a saber qué algoritmos podrían estar funcionando en el cerebro.
«El cerebro es un misterio enorme. Se tiene la impresión general de que, si pudiésemos desentrañar algunos de sus principios, sería útil para la IA», dice Bengio. «Pero también tiene valor por sí mismo».
Aprender por medio de la retropropagación
Durante muchos años, las teorías de los neurocientíficos sobre cómo aprende el cerebro se guiaban básicamente por una regla introducida en 1949 por el psicólogo canadiense Donald Hebb y que se sintetiza a menudo de esta forma: «las neuronas que se disparan juntas, se conectan juntas». Es decir: cuanto más correlacionada esté la actividad de neuronas adyacentes, más fuertes serán las conexiones sinápticas entre ellas. Este principio, con algunas modificaciones, logró explicar ciertos tipos limitados de aprendizaje y de tareas clasificatorias visuales.
Pero iba mucho peor con las grandes redes de neuronas que habían aprendido de sus errores; no había una forma, orientada directamente a un objetivo, de que las neuronas de las profundidades de la red aprendiesen sobre los errores descubiertos, se actualizasen por sí mismas y cometiesen menos errores. «La regla hebbiana es una forma muy estrecha, particular y no muy sensible de usar la información de los errores», dice Daniel Yamins, neurocientífico computacional de la Universidad Stanford.
Pero los neurocientíficos no contaban con una regla mejor para el aprendizaje; hacia finales de la década de 1950, antes incluso de su hegemonía en la neurociencia, había inspirado ya el desarrollo de las primeras redes neuronales artificiales. Cada una de las neurones artificiales que componen estas redes recibe múltiples entradas y produce una salida, como sus homólogas biológicas. La neurona multiplica cada entrada con un factor de ponderación, o «peso», llamado «sináptico» (un número que expresa la importancia asignada a esa entrada) y luego suma las entradas así ponderadas. Esta suma es la señal de salida de la neurona. Para los años sesenta estaba ya claro que esas neuronas podían organizarse en una red con una capa de entrada y otra de salida, y que se podía «entrenar» la red neuronal artificial para resolver cierta determinada clase de problemas sencillos. Durante el entrenamiento, una red neuronal establecía los mejores pesos para sus neuronas con el fin de eliminar o minimizar los errores.
Sin embargo, hasta en los años sesenta era evidente que la resolución de problemas más complicados requería una o más capas «ocultas» de neuronas intercaladas entre la de entrada y la de salida. Pero no se sabía cómo entrenar de una forma eficaz las redes neuronales artificiales con capas ocultas, hasta que en 1986 Hinton, David Rumelhart, ya fallecido, y Ronald Williams (ahora de la Universidad del Nordeste) publicaron el algoritmo de retropropagación.
Actúa por medio de dos fases. En la fase «hacia delante», cuando la red recibe una entrada infiere una salida, que puede ser errónea. La segunda fase, «hacia atrás», actualiza los pesos sinápticos, de modo que la salida se ajuste mejor a un valor propuesto como meta.
Para entender este proceso, piénsese en una «función de pérdida» que describa la diferencia entre las salidas inferidas y las deseadas en la forma de un paisaje con colinas y valles. Cuando una red hace una inferencia a partir de un conjunto determinado de pesos sinápticos, termina en algún sitio determinado del paisaje de pérdidas. Para aprender, necesita bajar la cuesta, o gradiente, hacia algún valle, donde la pérdida se minimizará en la medida de lo posible. La retropropagación es un método que actualiza los pesos sinápticos para ir gradiente abajo.
En esencia, la fase «hacia atrás» del algoritmo calcula cuánto contribuye el peso sináptico de cada neurona al error y lo actualiza para mejorar el rendimiento de la red. Este cálculo procede secuencialmente, hacia atrás, de la capa de salida a la de entrada: de ahí el nombre de retropropagación. Si se hace esto una y otra vez para conjuntos de entradas y salidas deseadas, se llegará al final a un conjunto aceptable de pesos para toda la red neuronal.
Imposible para el cerebro
Cundo se ideó la retropropagación hubo neurocientíficos que pusieron el grito en el cielo: de ninguna de las maneras podían funcionar así los cerebros de verdad, decían. El más notable de los detractores fue Francis Crick, el codescubridor de la estructura del ADN y ganador del Premio Nobel, que más tarde se convirtió en neurocientífico. Escribía Crick en 1989: «En lo que respecta al proceso de aprendizaje, no es muy probable que el cerebro utilice realmente la retropropagación».
Se cree que la retropropagación es biológicamente inverosímil por varias razones importantes. La primera es que los ordenadores pueden ejecutar sin dificultades el algoritmo en dos fases, pero para las redes neuronales biológicas no sería fácil. La segunda es el problema del «transporte de pesos», como lo llaman los neurocientíficos computacionales: el algoritmo retropropagador copia o «transporta» la información referente a los pesos sinápticos que intervienen en una inferencia y actualiza esos pesos para mayor precisión. Pero en una red biológica las neuronas solo ven las salidas de otras neuronas, no los pesos sinápticos ni los procesos internos que configuran esa salida. Desde el punto de vista de una neurona, «lo bueno es conocer sus propios pesos sinápticos», dice Yamins, «no el conjunto de pesos sinápticos de otra neurona».
Para que una regla de aprendizaje sea biológicamente verosímil tiene que respetar esta limitación: las neuronas solo acceden a la información de las neuronas vecinas. En cambio, la retropropagación puede requerir información aportada por neuronas remotas. Por lo tanto, dice Bengio, «si se toma la retropropagación al pie de la letra, no parecerá posible que los cerebros computen».
No obstante, Hinton y unos pocos más se enfrentaron inmediatamente al problema de elaborar variaciones biológicamente verosímiles de la retropropagación. «El primer artículo en sostener que los cerebros hacían [algo parecido] a la retropropagación es casi tan viejo como la retropropagación», afirma Konrad Kording, neurocientífico computacional de la Universidad de Pensilvania. En los últimos diez años, más o menos, a medida que los éxitos de las redes neuronales artificiales les han llevado a dominar la investigación en inteligencia artificial, se ha intentado cada vez con más ahínco encontrar un equivalente biológico de la retropropagación.
Más como la vida
Fijémonos, por ejemplo, en una de las soluciones más extrañas al problema del transporte de pesos, obra en 2016 de Timothy Lillicrap, de Google DeepMind, en Londres, y sus colaboradores. Su algoritmo, en lugar de basarse en una matriz de pesos registrada en la pasada hacia adelante, usa una matriz inicializada para la fase de retroceso con valores aleatorios. Estos, una vez asignados, no cambian, por lo que no hay que transportar pesos en cada pasada hacia atrás.
Para sorpresa de casi todos, la red aprendió. Como los pesos hacia adelante utilizados para la inferencia se actualizan con cada pasada hacia atrás, la red sigue descendiendo por el gradiente de la función de pérdida, pero por un camino diferente. Va habiendo un lento alineamiento de los pesos hacia delante con los pesos hacia atrás seleccionados al azar, para acabar dando las respuestas correctas, lo que da al algoritmo su nombre: alineamiento por retroalimentación.
«Pues resulta que eso no funciona tan mal como podría pensarse», dice Yamins, al menos en problemas sencillos. Para los problemas a gran escala y para las redes más profundas, con más capas ocultas, la coincidencia por retroalimentación no funciona tan bien como la retropropagación: como las actualizaciones de los pesos hacia delante son menos precisas en cada pasada que las que se obtendrían de la información realmente retropropagada, se necesitan muchos más datos para entrenar la red.
Los investigadores también han explorado formas de llegar al rendimiento de la retropropagación que respeten la premisa del aprendizaje hebbiano clásico de que las neuronas respondan solo a sus vecinas locales. Puede concebirse la retropropagación como un conjunto de neuronas que realiza la inferencia y otro que hace los cálculos para actualizar los pesos sinápticos. La idea de Hinton era trabajar en algoritmos en los que cada neurona realizara ambos conjuntos de cálculos. «De eso trataba en esencia la charla de Geoff de 2007», recuerda Bengio.
Basándose en el trabajo de Hinton, el equipo de Bengio propuso en 2017 una regla de aprendizaje para la que se requiere una red neuronal con conexiones recurrentes (es decir, si la neurona A activa la neurona B, entonces la neurona B a su vez activa la neurona A). Cuando una red de este tipo recibe una entrada, reverbera, ya que cada neurona responde al tira y afloja de sus vecinas inmediatas.
Finalmente, la red alcanza un estado donde las neuronas están en equilibrio con la entrada y entre sí, y produce una salida, que puede ser errónea. El algoritmo impulsa entonces un poco a las neuronas de salida hacia el resultado deseado. Esto hace que otra señal se propague hacia atrás a través de la red, poniendo en marcha una dinámica similar. La red encuentra un nuevo equilibrio.
«Lo bueno de las matemáticas es que si se comparan estas dos configuraciones, antes y después del pequeño impulso, se obtiene toda la información que hace falta para encontrar el gradiente», dice Bengio. El entrenamiento de la red consiste simplemente en repetir este proceso de «propagación de equilibrio» de forma iterativa con muchos datos etiquetados.
Predicción de percepciones
La restricción de que las neuronas solo aprendan reaccionando a su entorno local se expresa también en las nuevas teorías sobre cómo percibe el cerebro. Beren Millidge, estudiante de doctorado de la Universidad de Edimburgo e investigador visitante de la Universidad de Sussex, y sus colaboradores han conciliado esta nueva visión de la percepción, la llamada codificación predictiva, con los requisitos de la retropropagación. «La codificación predictiva, si se configura de determinada manera, dará una regla de aprendizaje biológicamente verosímil», afirma Millidge.
La premisa de la codificación predictiva es que el cerebro hace constantemente predicciones sobre las causas de las entradas sensoriales. En el proceso participan capas jerárquicas de procesamiento neuronal. Para producir un determinado resultado, cada capa tiene que predecir la actividad neuronal de la capa inferior. Si la capa más alta espera ver una cara, predice la actividad de la capa inferior que justificaría esa percepción. La capa inferior hace predicciones similares sobre lo que espera de la capa inferior, y así sucesivamente. La capa más baja hace predicciones sobre la entrada sensorial real: sobre los fotones, digamos, que inciden en la retina. Así, las predicciones fluyen de las capas superiores a las inferiores.
Pero puede haber errores en cada nivel de la jerarquía: diferencias entre la predicción que hace una capa sobre la entrada que espera y la entrada real. La capa más baja ajusta sus pesos sinápticos para minimizar su error, basándose en la información sensorial que recibe. Este ajuste da lugar a un error entre la capa inferior recién actualizada y la superior, por lo que esta tiene que reajustar sus pesos sinápticos para minimizar su error de predicción. Estas señales de error se difunden hacia arriba. La red va y viene, hasta que cada capa minimiza su error de predicción.
Millidge ha demostrado que, con la configuración adecuada, las redes de codificación predictiva convergen en los mismos gradientes de aprendizaje que la retropropagación. «Se acerca mucho, mucho, mucho a los gradientes de la retropropagación», afirma.
Sin embargo, por cada pasada hacia atrás de un algoritmo de retropropagación ordinario en una red neuronal profunda, una red de codificación predictiva tiene que iterar múltiples veces. Que esto sea biológicamente verosímil depende del tiempo exacto que pueda llevarle a un cerebro de verdad. Lo decisivo es que la red tiene que converger en una solución antes de que cambien las entradas del mundo exterior.
Como dice Millidge: «Lo que no puede pasar es esto: 'Tengo un tigre que se me echa encima, déjame hacer cien iteraciones de ida y vuelta, arriba y abajo de mi cerebro'». Aun así, añade, si se acepta cierta inexactitud la codificación predictiva puede llegar rápidamente a respuestas por lo general útiles.
Neuronas piramidales
Algunos científicos han ido al grano y se han propuesto la tarea de construir modelos parecidos a los de la retropropagación basándose en las propiedades conocidas de las neuronas individuales. Las neuronas corrientes tienen dendritas que toman información de los axones de otras neuronas. Las dendritas transmiten señales al cuerpo celular de la neurona, donde se produce su integración en una sola señal. Esto puede dar lugar, o no, a un pico de activación, o potencial de acción, que sale por el axón de la neurona hacia las dendritas de las neuronas postsinápticas.
Pero no todas las neuronas tienen exactamente esa estructura. En particular, las neuronas piramidales (el tipo más abundante en la corteza) son muy diferentes. Las neuronas piramidales tienen una estructura arbórea con dos conjuntos distintos de dendritas. El tronco se alza y ramifica en las llamadas dendritas apicales. La raíz se ramifica en dendritas basales.
Los modelos que elaboraron, por separado, Kording, en 2001, y, más recientemente, Blake Richards, de la Universidad McGill y el Instituto de Inteligencia Artificial de Quebec, y sus colaboradores, han demostrado que las neuronas piramidales podrían formar las unidades básicas de una red de aprendizaje profundo al hacer a la vez cálculos hacia delante y hacia atrás. La clave está en la separación de las señales que entran en la neurona para la inferencia hacia adelante y los errores que fluyen hacia atrás; de aquellas y de estos se encargarían en el modelo, respectivamente, las dendritas basales y las apicales. La información de ambas señales puede codificarse con los picos de actividad eléctrica que la neurona emite como salida por su axón.
En el último trabajo del equipo de Richards, «hemos llegado al punto de poder demostrar que, mediante simulaciones bastante realistas de las neuronas, se pueden entrenar redes de neuronas piramidales para que realicen diversas tareas», explica Richards. «Y luego, con versiones algo más abstractas de estos modelos, podemos conseguir que las redes de neuronas piramidales aprendan tareas difíciles del tipo de las que se abordan en el aprendizaje automático».
El papel de la atención
Un requisito implícito para una red profunda que utilice retropropagación es la presencia de un «maestro»: algo que pueda calcular el error cometido por una red neuronal. Pero «no hay un maestro en el cerebro que le diga a cada neurona de la corteza motora: «'Debes estar encendida, debes estar apagada'», dice Pieter Roelfsema, del Instituto Holandés de Neurociencia, en Ámsterdam.
Roelfsema cree que la solución del cerebro al problema está en el proceso de la atención. A finales de la década de 1990, demostró con sus colaboradores que cuando los monos fijan su mirada en un objeto, las neuronas que representan ese objeto en la corteza se vuelven más activas. El acto del mono de centrar la atención produce una señal de retroalimentación para las neuronas responsables. «Se trata de una señal de retroalimentación muy selectiva», dice Roelfsema. «No es una señal de error. No es más que un decirles a todas esas neuronas que van a ser responsables [de una acción]».
A Roelfsema se le ocurrió que esta señal de retroalimentación podría permitir un aprendizaje similar al de la retropropagación si se la combina con procesos descubiertos por otros logros neurocientîcos. Por ejemplo, Wolfram Schultz, de la Universidad de Cambridge, y otros han mostrado que cuando los animales realizan una acción que da mejores resultados de los esperados, el sistema de dopamina del cerebro se activa. «Inunda todo el cerebro con moduladores neuronales», dice Roelfsema. Los niveles de dopamina actúan como una señal global de refuerzo.
En teoría, la señal de retroalimentación atencional solo podría cebar a las neuronas responsables de una acción para que respondan a la señal de refuerzo global mediante la actualización de sus pesos sinápticos, explica Roelfsema. Sus colaboradores y él se han valido de esta idea para construir una red neuronal profunda y estudiar sus propiedades matemáticas. «Se obtiene la retropropagación de errores. Se obtiene básicamente la misma ecuación», cuenta. «Solo que ahora se vuelve biológicamente verosímil».
El equipo presentó este trabajo en el congreso Sistema de Procesamiento de la Información Neuronal, celebrado en diciembre. «Podemos entrenar redes profundas», sostiene Roelfsema. «Es solo entre dos y tres veces más lento que la retropropagación». Así, dice, «supera a los demás algoritmos que se han propuesto como biológicamente verosímiles».
Sin embargo, sigue sin haberse dado con pruebas empíricas concretas de que los cerebros vivos utilizan estos mecanismos verosímiles. «Creo que todavía nos falta algo», dice Bengio. «Según mi experiencia, podría ser una cosita, tal vez darle alguna vuelta más a uno de los métodos existentes, lo que marcará de verdad la diferencia».
Mientras tanto, Yamins y sus colegas de Stanford ofrecen sugerencias para determinar cuál de las reglas de aprendizaje propuestas es la correcta, si es que lo es alguna de ellas. Al analizar 1056 redes neuronales artificiales que ejecutan diferentes modelos de aprendizaje, descubrieron que el tipo de regla de aprendizaje que gobierna una red puede hallarse gracias a la actividad de un subconjunto de neuronas a lo largo del tiempo. Es posible que se pueda registar esa información con el cerebro de los monos. Según Yamins, «si se tuviese la colección debida de observables quizá sería posible elaborar un esquema bastante sencillo que permitiese hallar las reglas de aprendizaje».
Estos logros confieren a los neurocientíficos computacionales un optimismo sin alharacas. «Hay muchas formas diferentes en las que el cerebro podría hacer retropropagación», comenta Kording. «Y la evolución es pero que muy asombrosa. La retropropagación es útil. Presumo que la evolución nos lleva más o menos a ella».