Javier Vélez Reyes - Artículos
Data & Inteligencia Artificial

Arquitecturas del Dato IA & ML

Redes Neuronales Estructurales

Inteligencia Artificial Conexionista III
Javier Vélez Junio 2024 9 mins

Introducción

Las redes neuronales convolucionales habían representado un avance significativo en el campo de la Inteligencia Artificial Conexionista, transformando la manera en que podía abordarse la resolución de problemas de complejidad creciente. Este tipo de redes ofrecían una nueva perspectiva para hacer frente a escenarios complejos donde los datos poseen una estructura espacial inherente. Su capacidad para detectar patrones jerárquicos y extraer características relevantes de manera automática las habría convertido en una herramienta fundamental en numerosas aplicaciones prácticas.

Pero, tal vez lo más relevante, es que estos avances habían supuesto un soplo de aire fresco que permitía alejarse de las arquitecturas tradicionales de redes neuronales densamente conectadas. La capacidad de estas redes para aprender representaciones directamente de los ejemplos, sin necesidad de ingeniería de características manual, habría significado un cambio de paradigma. Los desarrolladores podrían centrarse en diseñar la arquitectura de la red y proporcionar grandes cantidades de información, dejando que el modelo se encargue de extraer el conocimiento relevante.

En los próximos años se desarrollarían nuevos enfoques y arquitecturas dentro del campo de las redes neuronales lo que nos permitiría abordar nuevos tipos de problemas mas complejos. Unos centrados en datos estructurados, donde las relaciones espaciales o temporales entre los elementos son cruciales. Esto daría lugar al sugimiento de nuevas ideas, patrones de diseño neuronal y arquitecturas de red que serían punto fijo de paso en el desarrollo de esta disciplina.

A lo largo de esta serie, describiremos en sucesivos artículos, estos nuevos enfoques en detalle, presentando cuáles son las principales arquitecturas de red que nacieron de este espacio de problemas y discutiendo sus características fundacionales y sus aplicaciones prácticas. Este bloque de conocimiento se pondrá en valor en próximas series donde hablaremos de los modelos de lenguaje y aproximaciones generativas que han dado lugar a la Inteligencia Artificial Conexionista tal como lo conocemos hoy.

Redes Neuronales Estructurales

Las arquitecturas profundas y densamente pobladas habrían sido el enfoque predominante en los primeros días de las redes neuronales. Estos modelos, donde cada neurona está conectada a todas las neuronas de la capa anterior, habían demostrado su capacidad para aprender funciones complejas y resolver una amplia variedad de problemas. Sin embargo, este tipo de soluciones, presentaban sus limitaciones significativas cuando se aplicaban a datos de alta dimensionalidad debido al gran número de parámetros a entrenar y la dificultad para capturar su estructura espacial.

Por su parte, las arquitecturas convolucionales, ofrecerían una alternativa más eficiente y efectiva para el procesamiento de información organizada espacialmente. Al aplicar filtros convolucionales locales, estos modelos podrían detectar patrones y características relevantes en los datos sin necesidad de procesar el volumen completo de una sola vez. Esta aproximación reduciría drásticamente el número de parámetros y permitiría que la red aprendiera representaciones jerárquicas, desde características simples hasta otras más complejas y compuestas.

Los éxitos alcanzados en este sentido ofrecían nuevos enfoques inspiradores para hacer frente a ciertos tipos de problemas que no se habían abordado hasta la fecha. La pregunta que parecía estar en el aire ahora era cómo se podían crear modelos de solución basados en redes neuronales capaces de procesar información caracterizada por la presencia de dependencias fuertemente estructuradas ya fuera en el plano espacial o en la dimensión temporal.

Era necesario, por tanto, idear nuevas arquitecturas de red que miraran a procesar información con una marcada estructura caracteristica. Y hacerlo de manera eficiente y efectiva de forma que fuera posible encontrar modelos capaces de capturar las dependencias y relaciones inherentes. Esto permitiría distinguir en los proximos años 3 tipos de arquitecturas de red que enfrentarían sendos tipos de problemas.

  • Redes Neuronales Recurrentes. En escenarios donde el orden de los elementos es importante, las redes neuronales recurrentes se presentarían como una solución natural e idionea para hacer frente a este tipo de problemas. Estas redes procesarían la información de forma secuencial, manteniendo un estado interno que les permitiría recordar en todo momento la información pasada y capturar dependencias a medio y largo plazo.

  • Redes Neuronales Jerárquicas. En aquellas situaciones donde los datos tienen una estructura jerárquica, las redes neuronales jerárquicas o redes en árbol ofrecerían una forma de procesar la información de manera eficiente. Estas redes organizarían las neuronas en una estructura de árbol, permitiendo que la información fluya de forma jerárquica y se capturen las relaciones entre los diferentes niveles de la estructura.

  • Redes Neuronales Relacionales. Para los escenarios donde los datos mantienen relaciones complejas entre si en forma de grafos y no pueden representarse fácilmente con estructuras secuenciales o jerárquicas, las redes neuronales relacionales o redes en grafo se presentarían como una herramienta poderosa. Estas redes operarían directamente sobre la estructura del grafo, permitiendo que la información se propague a través de las conexiones y se capturen las dependencias entre los nodos.

Dentro de este marco, las soluciones que se habían alcanzado hasta la fecha no habrían dado una respuesta satisfactoria a este tipo de desafíos. Y es que precisamente las redes neuronales recurrentes, las redes en árbol y las redes en grafo demostrarían su eficacia para hacer frente a este nuevo tipo de problemas basado en dependencias estructuradas de la información. A lo largo de esta serie profundizaremos precisamente en este tipo de problemas y modelos de solución, explorando las diferentes arquitecturas de red y técnicas de procesamiento. Analizaremos las ventajas y desventajas de cada enfoque, así como sus aplicaciones en diversos campos de la Inteligencia Artificial.

Redes Neuronales Estructurales en Acción

Como decíamos, tras la llegada de las redes neuronales convolucionales, el área de la Inteligencia Artificial Conexionista gozaba de buena salud y, de hecho, experimentaría un crecimiento exponencial en los próximos años. Los modelos de redes neuronales habían demostrado su capacidad para aprender de los datos y resolver problemas complejos en diversas áreas. Sin embargo, era momento de mirar a nuevos tipos de problemas caracterizados por una presencia fuerte de dependencias en los datos

La necesidad de desarrollar nuevas arquitecturas y técnicas que permitieran superar las limitaciones de las arquitecturas de red neuronal presentes hasta la fecha e introdujeran este factor dimrnsional se volvería cada vez más evidente. El espacio de problemas de procesamiento de datos secuenciales se trazaba como un desafío central.

En el reconocimiento de voz, por ejemplo, se requería que el modelo fuera capaz de campturar las dependencias temporales entre los diferentes sonidos para poder transcribir el habla con precisión. En el ámbito de la traducción automática, por otro lado, el orden de las palabras en una oración resultaba fundamental para capturar su significado, lo que también demandaría modelos capaces de procesar secuencias de manera efectiva. Incluso en escenarios de predicción como los precios de las acciones o los patrones climáticos, se requeriría la capacidad de modelar las dependencias temporales de los datos a largo plazo. Para hacer frente a este tipo de problemas las Redes Neuronales Recurrentes se presentarían como una solución ideal.

Otro tipo de problemas también presentaban una organización de la información donde los elementos están organizados de acuerdo a una jerarquía. Este tipo de escenarios también plantearían desafíos específicos importantes que serían objeto de estudio en aquellos años. Dentro del procesamiento lingüistico por ejemplo, el análisis sintáctico de oraciones, donde se busca identificar la estructura gramatical de una frase, requeriría modelos capaces de procesar la información de forma jerárquica. La clasificación de documentos, donde los textos se organizan en categorías según su contenido, también podría beneficiarse de modelos que capturen las relaciones jerárquicas entre los diferentes temas y subtemas. E incluso la modelización de estructuras moleculares en la química o las relaciones genealógicas en la biología serían tipos de problemas donde los datos tienen una marcada estructura arborea inherente. Para este tipo de situaciones las Redes Neuronales Jerárquicas se presentarían como una solución.

Finalmente, un último tipo de problemas de procesamiento con información estructurada era aquél caracterizado por conjuntos de datos dispuestos en forma de grafos relacionales. En estos casos, los datos mantendrían una marcada estructura de grafo, donde los elementos están conectados por relaciones arbitrarias presentando aún más complejidad. Por ejemplo, Las redes sociales, donde las personas están conectadas por amistades o seguidores, requerirían modelos capaces de capturar las complejas interacciones entre los usuarios. Las ontologías o mapas de conocimiento, donde los conceptos están conectados por relaciones semánticas, también demandarían modelos de esta naturaleza para poder razonar sobre la información de forma adecuada. Inluso la modelización de redes de transporte, redes de energía o redes de comunicación serían ejemplos de problemas que se beneficiarían de las Redes Neuronales Relacionales o en grafo.

Conclusiones

A lo largo de este artículo, hemos presentado los principales tipos de problemas que se abordarían dentro del área de la Inteligencia Artificial Conexionista en los proximos años tras la llegada y consolidación de las arqutecturas de red convolucionales y que fueron objeto de estudio en una serie anterior. Era momento de mirar hacia lo construcción de nuevos modelos de solución que fueran capaces de realizar actividades de procesamiento de datos de naturala estructurada ya fuera sobre la dimenión espacial y temporal,

Cada uno de estos tipos de problemas presentaría desafíos únicos sobre las arquitecturas de red neuronal e impondría técnicas de procesamiento innovadoras y específicas. Las redes neuronales recurrentes, jerárquicas y relacionales demostrarían, en este sentido, su eficacia para hacer frente a este tipo de problemas que nosotros hemos querido abordar dentro de esta serie como un bloque cohesionado. Somos conscientes de que su desarrollo historico no vincula este tipo de contribuciones entre si de manera tan clara como de facto se expone en este artículo. Pero nos hemos tomado esta licencia en aras a una claridad expositiva.

En los próximos artículos abordaremos en profundidad todos estos problemas, explorando las diferentes arquitecturas de red y técnicas de procesamiento de datos estructurados en detalle. Analizaremos las ventajas y desventajas de cada enfoque, así como sus aplicaciones en diversos campos de la inteligencia artificial. También discutiremos los desafíos y las direcciones futuras de la investigación en este campo.