Javier Vélez Reyes - Artículos
Data & Inteligencia Artificial

Arquitecturas del Dato IA & ML

Redes Neuronales Radiales

Inteligencia Artificial Conexionista II
Javier Vélez Mayo 2024 13 mins

Introducción

El modelo de neurona artificial de McCullock y Pitts en el año 1943 primero, y la reinterpretación que Rosemblatt haría del mismo como clasificador geométrico lineal 15 años después, habían supuesto un hito fundamental para el desarrollo de la Inteligencia Artificial Conexionista tal y como la conocemos hoy. Sin embargo, la euforia inicial de todos esos avances se vio francamente atenuada por las críticas que Minsky y Papert harían al respecto allá por el año 1969 señalando las limitaciones en capacidad inherentes al modelo de neurona única para resolver problemas no linealmente separables. Esta crítica, lejos de ser un mero ejercicio académico, tuvo un profundo impacto en la comunidad científica que desencadenaría un período de escepticismo y reducción conocido como el Invierno de la Inteligencia Artificial Conexionista.

Durante la década de los 70, la investigación en redes neuronales disminuiría significativamente, y muchos investigadores optarían por explorar otras vías dentro de este campo. No obstante, todo este período sirvió como un balón de oxigeno para la introspección y búsqueda de alternativas que sentaría las bases para el resurgimiento del conexionismo en la década siguiente, impulsado por la invención del modelo clasificador multicapa cuya descripción ya abordamos en el articulo anterior.

Como ya explicamos, el modelo multicapa demostraría la capacidad de las redes neuronales para superar las limitaciones señaladas por Minsky y Papert, al introducir capas ocultas que permitían aprender representaciones no lineales de los datos. Esta innovación supondría un avance crucial, abriendo la puerta a una nueva generación de aplicaciones de inteligencia artificial.

Sin embargo, a pesar del éxito del modelo multicapa, la búsqueda de nuevas aproximaciones y arquitecturas neuronales seguia muy activa. Los investigadores exploraban diferentes funciones de activación, estructuras de red y algoritmos de aprendizaje, con el objetivo último de mejorar la eficiencia, la robustez y la capacidad de generalización de las redes neuronales.

Y fue precisamente dentro de este contexto donde surgieron las redes neuronales con base radial que exploraremos a lo largo de este artículo. Si bien no se trata de un modelo de solución ampliamente utilizado en nuestros días - y que de hecho tampoco pueden ser consideradas en sentido estricto arquitecturas de red profundas - sí que es punto fijo de paso en el recorrido evolutivo de las propuestas de solución que estamos haciendo a lo largo de esta serie.

Redes Neuronales Radiales

La propuesta que Minsky y Papert habían hecho en el año 1969, había resultado en una crítica demoledora sobre las limitaciones de linealidad del modelo de clasificación de Rosenblatt. Su trabajo había demostrado que los perceptrones simples, tal y como los concebía este autor, resultaban claramente incapaces de responder a escenarios de clasificación no lineales lo que restringía drásticamente su aplicabilidad a problemas habituales del mundo real.

Pese a la posterior ideación de su extensión multicapa, que como ya describimos en el artículo anterior, permitiría superar estas limitaciones mediante la introducción de una o más capas ocultas entre la capa de entrada y la capa de salida, la crítica de Minsky y Papert generó un profundo escepticismo en la comunidad científica lo que la sumiría en el Invierno de la Inteligencia Artificial Conexionista. De hecho, durante este período, muchas aproximaciones conexionistas fueron abandonadas o relegadas a un segundo plano, y la investigación en inteligencia artificial se centró en otros enfoques, como la inteligencia artificial simbólica.

Sin embargo, la búsqueda de soluciones alternativas al problema de la clasificación y la regresión continuó, y fue dentro de este contexto presisamente donde surgieron las redes neuronales con base radial que abordamos hoy a lo largo de este articulo. Estas redes, propuestas por Park y Sandberg en 1981, ofrecían una aproximación diferente a las redes de múltiples capas, a partir del uso de funciones de activación con base radial en la capa oculta. De acuerdo a esta idea, la estructura de este tipo de redes permite discriminar entre tres capas dentro de la red.

  • Capa de Entrada. Esta es la capa inicial de la red, y su función primordial es la de recibir los datos brutos que serán procesados por el sistema. Esencialmente, actúa como el punto de entrada de la información. Los datos se organizan y se presentan a la red en esta capa en una estructura vectorial. Cada elemento del vector representa una característica o atributo de la entrada, codificando la información relevante para el problema en cuestión. La capa de entrada no realiza transformaciones complejas. Su papel es simplemente el de transmitir la información a la siguiente capa para su posterior análisis.

  • Capa Oculta. Situada entre la capa de entrada y la capa de salida, la capa oculta es donde reside la mayor parte del procesamiento de la red. Cada neurona dentro de esta capa lleva a cabo un cálculo crucial. Determina la distancia entre el vector de entrada y un vector de centro específico que es único para esa neurona. Esta distancia es una medida de similitud o proximidad entre la entrada y el conocimiento local de la neurona. Una vez calculada la distancia, se aplica una función de base radial. Esta función, típicamente una función gaussiana, produce una respuesta que es máxima cuando la entrada es idéntica al centro y disminuye a medida que la distancia aumenta. Por lo tanto, cada neurona en la capa oculta responde selectivamente a ciertas regiones del espacio de entrada.

  • Capa de Salida. Como capa final de la red, la capa de salida tiene la responsabilidad de generar la predicción o el resultado final del modelo. Para lograr esto, realiza una combinación lineal de las activaciones, o salidas, de las neuronas en la capa oculta. Cada neurona de la capa oculta contribuye a la salida final con un peso específico. Estos pesos son los parámetros que se ajustan durante el entrenamiento de la red para optimizar su rendimiento. La combinación lineal ponderada produce un único valor o un vector de valores que representan la respuesta de la red a la entrada dada. En problemas de clasificación, estos valores pueden representar probabilidades de pertenencia a diferentes clases, mientras que en problemas de regresión, pueden representar una estimación de una variable continua.

En comparación con el modelo multicapa de Minsky y Papert de 1969, las redes con funciones de activacióm de base radial presentaban, de esta manera, diferencias significativas en su arquitectura y funcionamiento. Mientras que las redes multicapa utilizaban funciones de activación convencionales en sus capas ocultas, este tipo de redes empleaban funciones de base radial, como la función gaussiana, que miden la similitud entre la entrada y los centros de las neuronas. Las funciones de activación en estas redes serían, por tanto, fundamentalmente diferentes de las funciones utilizadas en las redes multicapa. En lugar de calcular una suma ponderada de las entradas y aplicar una función no lineal, las neuronas de su capa oculta calcularían la distancia entre la entrada y un centro, y luego aplicarían una función que alcanzara su máximo valor cuando la distancia es cero y disminuye a medida que la distancia aumenta.

En contraposición con las funciones convencionales, que son funciones globales que afectan a todas las entradas de la neurona, las funciones de base radial son funciones locales, lo que significa que la salida de una neurona solo se ve influenciada significativamente por las entradas que están cerca de su centro. Todo ello perseguía el objetivo claro de explotar las propiedades de aproximación universal de las funciones de base radial para diseñar clasificadores y regresores eficientes y con una buena capacidad de generalización.

Las ventajas de esta aproximación eran varias. En primer lugar, las redes con base radial tendían a converger más rápidamente que las redes multicapa, ya que el aprendizaje se centraba en ajustar los centros y los pesos de la capa de salida, en lugar de ajustar los pesos de todas las capas. En segundo lugar, este tipo de redes eran menos susceptibles a quedar atrapadas en mínimos locales, lo que mejoraría la calidad de la solución encontrada. Sin embargo, si bien las ventajas de estas redes eran notables, también presentaban algunas desventajas. La principal desventaja es que el número de neuronas en la capa oculta puede crecer exponencialmente con la dimensión de la entrada, lo que puede hacer que las redes sean computacionalmente costosas y difíciles de entrenar para problemas de alta dimensión.

Redes Neuronales Radiales en Acción

Las capacidades del clasificador multicapa, tal como fueron analizadas por Misky y Papert en 1969, habían demostrado ser un avance significativo en el campo de la inteligencia artificial. Al introducir capas ocultas, estas redes podían aprender funciones no lineales y, por lo tanto, resolver una gama mucho más amplia de problemas que los perceptrones simples.

Muchas de las necesidades de clasificación no lineal quedaban cubiertas con esta aproximación. Problemas como el reconocimiento de imágenes, el procesamiento del lenguaje natural y el control de sistemas complejos se habían vuelto abordables gracias a la capacidad de las redes multicapa para aprender representaciones abstractas de los datos.

Sin embargo, tal arquitectura mostraba ciertos problemas prácticos. El entrenamiento de redes multicapa, especialmente con muchas capas, podía ser computacionalmente costoso y requerir grandes cantidades de datos. Además, la elección de la arquitectura de la red, como el número de capas y el número de neuronas por capa, a menudo se basaba en la experimentación y el conocimiento experto, en lugar de en principios teóricos sólidos.

Las arquitecturas con base radial parecían soslayar algunos de estos problemas. Su estructura más simple y el uso de funciones de base radial locales permitían un entrenamiento más rápido y eficiente en ciertos tipos de problemas. Por ejemplo, en problemas de interpolación y aproximación de funciones, las redes co funciones de base radial a menudo superaban a las redes multicapa en términos de precisión y velocidad de entrenamiento. Esto se debía a que este tipo de funciones eran capaces de capturar mejor las variaciones locales en los datos, mientras que las funciones de activación convencionales tendían a suavizar las representaciones. En concreto es posible destacar las siguientes ventajas en este tipo de arquitecturas.

  • Entrenamiento Rápido. El proceso de entrenamiento de las redes neuronales con base radial tiende a ser significativamente más eficiente en términos de tiempo en comparación con las redes multicapa. Esta mayor velocidad de entrenamiento se debe fundamentalmente a la naturaleza del ajuste de parámetros en este tipo de redes. Mientras que las redes multicapa requieren un ajuste iterativo de los pesos sinápticos en todas las capas de la red, las redes con basse radial simplifican este proceso. En estas redes, el entrenamiento se centra principalmente en determinar los centros de las funciones de base radial en la capa oculta y en ajustar los pesos de la capa de salida, lo que reduce la complejidad computacional y acelera la convergencia del modelo.

  • Tolerancia a Mínimos Locales. Uno de los desafíos comunes en el entrenamiento de redes neuronales es el riesgo de quedar atrapado en mínimos locales del espacio de error. Estos mínimos locales representan soluciones subóptimas donde el algoritmo de entrenamiento se estanca, impidiendo que la red alcance su máximo potencial de rendimiento. Las redes con base radial, gracias a su arquitectura y a la naturaleza de las funciones de base radial, demuestran una menor propensión a caer en estos mínimos locales. Esta característica robusta permite que el proceso de optimización explore de manera más efectiva el espacio de soluciones, aumentando la probabilidad de encontrar una solución global o al menos una solución de mayor calidad.

  • Capacidad de Aproximación. Las redes neuronales con base radial poseen una destacada capacidad de aproximación, lo que las convierte en herramientas poderosas para modelar relaciones complejas entre variables. Formalmente, se las considera aproximadores universales, lo que implica que tienen la capacidad teórica de aproximar cualquier función continua con un grado de precisión arbitrario. Esta propiedad es fundamental en una amplia gama de aplicaciones, ya que permite a este tipo de redes capturar patrones no lineales y realizar predicciones precisas incluso en escenarios donde la relación entre las entradas y las salidas es intrincada y difícil de modelar con métodos tradicionales.

  • Interpretación Sencilla. La interpretabilidad es un aspecto crucial en muchos problemas de inteligencia artificial, especialmente en dominios donde la transparencia y la comprensión de las decisiones del modelo son fundamentales. En este sentido, las redes con base radial ofrecen una ventaja significativa sobre las redes multicapa, que a menudo se perciben como “cajas negras” debido a la complejidad de sus interconexiones. La estructura de este tipo de redes, con sus funciones de base radial de naturaleza local, facilita una interpretación más intuitiva de los resultados. Al analizar la activación de las neuronas en la capa oculta, es posible identificar qué regiones del espacio de entrada contribuyen de manera más significativa a la salida de la red, lo que proporciona información valiosa sobre el comportamiento del modelo.

De acuerdo con lo anterior, las redes neuronales con funciones de activación de base radial han demostrado ser particularmente adecuadas para abordar un conjunto específico de desafíos. En primer lugar, destacan en el manejo de datos que exhiben relaciones no lineales complejas. Este tipo de relaciones, donde la salida no varía de manera proporcional a la entrada, son comunes en muchos fenómenos del mundo real. Por ejemplo, en el reconocimiento de imágenes, la intensidad de los píxeles no se relaciona linealmente con la categoría del objeto presente en la imagen. Las redes con base radial, gracias a su capacidad para aproximar funciones no lineales, pueden capturar estas complejidades de manera efectiva, permitiendo clasificar objetos con alta precisión. Otro ejemplo lo encontramos en el modelado de series temporales financieras, donde las fluctuaciones del mercado están influenciadas por múltiples factores no lineales.

Además, este tipo de redes se revelan como una opción ventajosa cuando se prioriza la velocidad y eficiencia en el entrenamiento. En escenarios donde el tiempo de desarrollo es crítico, o cuando se trabaja con grandes conjuntos de datos, la capacidad de entrenar una red rápidamente puede marcar la diferencia. Por ejemplo, en aplicaciones de control en tiempo real, como la robótica, donde las decisiones deben tomarse en fracciones de segundo, la eficiencia computacional de las redes con base radial es crucial. Asimismo, la interpretabilidad de los resultados es un factor clave en muchos dominios. En el diagnóstico médico, por ejemplo, es fundamental no solo obtener un resultado preciso, sino también comprender qué factores contribuyeron a ese resultado. Estas redes, con su estructura más transparente en comparación con las redes multicapa profundas, facilitan esta interpretación, permitiendo a los médicos identificar los indicadores más relevantes para una enfermedad. Finalmente, las redes con funciones de base radial sobresalen en problemas de interpolación y aproximación de funciones. En ingeniería, por ejemplo, pueden utilizarse para construir modelos precisos de sistemas físicos a partir de un conjunto limitado de mediciones, permitiendo predecir el comportamiento del sistema en condiciones no medidas.

Conclusiones

A lo largo de este artículo, hemos descrito en detalle las redes neuronales con base radial, una arquitectura alternativa a las redes multicapa tradicionales. Hemos analizado su estructura, su funcionamiento y sus ventajas y desventajas en comparación con otros modelos neuronales.

Este tipo de redes supuso un importante punto de contribución en pleno invierno de la Inteligencia Artificial Conexionista. Al ofrecer una nueva forma de abordar el problema de la clasificación y la regresión, las redes neuronales con funciones de activación de base radial ayudaron a revitalizar el campo de las redes neuronales y a sentar las bases para el desarrollo de arquitecturas más complejas.

Aunque a día de hoy esta arquitectura neuronal no tiene una aplicación muy extendida en comparación con las redes neuronales profundas, su estudio sigue siendo relevante desde un punto de vista teórico. De hecho, sí que puede ser considerado punto fijo de paso en el recorrido histórico que venimos haciendo en esta serie de artículos. Comprender las fortalezas y debilidades de este tipo de redes nos permite apreciar mejor los avances logrados en el campo de las redes neuronales y las razones por las que ciertas arquitecturas han demostrado ser más exitosas que otras.

Y es que el valor diferencial de este tipo de soluciones radica en su capacidad para ofrecer una alternativa a las redes multicapa en ciertos tipos de problemas, especialmente aquellos que requieren un entrenamiento rápido, una buena capacidad de aproximación y una mayor interpretabilidad. En los siguientes artículos de esta serie, exploraremos otras formas de arquitectura de redes neuronales que nutren el espacio de arquitecturas conexionistas profundas, como las redes convolucionales o las soluciones auto-organizativas neuronales.