Andrei Kolmogorov nació en 1903 en Tambov, a unos 500 kilómetros de Moscú, lugar donde murió en octubre de 1987. En el ínterin se convirtió en uno de los grandes matemáticos del siglo XX. Además de ser considerado el padre de la probabilidad moderna, hizo grandes aportes a la topología, el análisis funcional, las ecuaciones diferenciales, la teoría de la información, el estudio de la complejidad de los algoritmos y un largo etcétera. Fue el director del doctorado de nada menos que 82 prominentes matemáticos. Entre ellos, Vladimir Arnold.
Arnold también contribuyó a muchas áreas de la matemática. Desde el estudio geométrico de los sistemas dinámicos a la mecánica clásica y la geometría diferencial. Es reconocido no sólo por el tamaño de sus aportes a la disciplina, sino también por popularizarla a través de sus seminarios, conferencias y libros. Y, en especial, por su preocupación por la educación matemática y su enfrentamiento con la visión Bourbakiana. A pesar de haber sido nominado para la Medalla Fields de 1974 (el “Nobel” de la matemática), su nombre fue retirado por interferencia de la propia Unión Soviética. Mucho antes de eso, a sus 19 años, resolvió una versión del Problema 13 de la lista de Hilbert.
David Hilbert fue, a su vez, sin dudas, uno de los matemáticos más influyentes de su época. En particular a través de su famosa lista de 23 problemas que propuso en 1900 para guiar la investigación en matemática a lo largo del siglo por venir.
El Problema 13 trata sobre cuestiones bastante abstractas que, por lo tanto, evitaremos (solo para el registro: se pregunta si es posible escribir a las raíces de los polinomios de grado siete como funciones algebraicas de dos variables de sus coeficientes). El aporte de Arnold a la solución es lo que hoy se conoce como “Teorema de representación de Kolmogorov-Arnold”. Este teorema dice que toda función (continua) que depende de muchas variables es en realidad la superposición (suma) de funciones que dependen de una sola variable. En otras palabras, usando únicamente funciones que dependen de una sola variable y la suma, se puede construir cualquier función continua que depende de muchas variables. También parece bastante abstracto (¡y sorprendente!), pero aguanten un cachito.
Si me encontrara con el genio de la lámpara y me concediera tres deseos, le pediría solo uno: poder conocer todas las posibles funciones. Para los escépticos, les cuento que, con mucho menos que eso, ChatGPT y sus parientes (otros LLM y otros algoritmos de inteligencia artificial generativa) están cambiando el mundo. Conocer todas las posibles funciones equivale a tener un oráculo que responde de forma correcta a cualquiera de nuestras preguntas o requerimientos.
La inteligencia artificial (IA), que tanto ruido está haciendo, es, desde el punto de vista matemático, ni más ni menos que conocer medianamente bien un montón de funciones interesantes. Recordemos: una función asigna a cada elemento de un conjunto A, un elemento del conjunto B. Estamos acostumbrados a las aburridas funciones dadas por fórmulas (como la función cuadrática ax² + bx + c), en donde A y B son conjuntos de números. Pero podemos ser más ambiciosos y considerar, por ejemplo, a A como el conjunto de todas las posibles preguntas que se le pueden hacer a ChatGPT, y a B como el conjunto de todas las posibles respuestas. O que A sea el conjunto de todos los posibles textos describiendo una imagen, un video o una película completa, y B sea el conjunto de todas las posibles imágenes, todos los posibles videos, o todas las posibles películas. Para cada posible tarea hay una función (que en principio desconocemos), que cuando le damos una entrada (una pregunta, un requerimiento), nos daría una salida (lo que le pedimos), si la conociéramos. ¿Se imaginan conocer bien algunas funciones adecuadas definidas entre estos conjuntos? Conocer funciones que den las respuestas “correctas”. Ni Borges se animó a tanto. ChatGPT y otros algoritmos de IA sí se animaron y –aunque todavía lejos– de a poco se van acercando.
Esa misma IA, que a la vez nos trae tantas soluciones y tantos dolores de cabeza, tiene varios problemas en cuanto a su impacto en nuestras vidas, pero también tiene problemas técnicos. Uno de ellos es la (falta de) interpretabilidad: no sabemos, desde el punto de vista técnico, cómo y por qué es que nos da las respuestas que nos da. Ese es uno de los grandes desafíos que tiene por delante la comunidad científica: convertir las cajas negras de hoy en futuros algoritmos que den respuestas de forma interpretable. Que además de decirnos el valor de nuestra función ante determinadas entradas, nos ayuden a entender quién y cómo es nuestra función. Que en lugar de ofrecernos un oráculo al que le podemos preguntar lo que queramos y obtener respuestas, nos cuenten cómo y por qué es que el oráculo llega a las conclusiones que llega. Esto es de particular interés en las aplicaciones científicas de la IA, en donde el costo de renunciar a entender duele aún más.
Un paso muy interesante en esa dirección ocurrió a mediados de 2024, cuando investigadores del MIT y otras instituciones se entregaron por completo al teorema de representación de Kolmogorov y Arnold y lo tomaron como piedra fundacional para proponer una alternativa a las redes neuronales que venimos utilizando.
Las redes neuronales artificiales son el corazón de la IA que tenemos hoy. Son estructuras pre-especificadas para intentar aprender aproximadamente estas benditas funciones de las que les vengo hablando. Las KAN (Kolmogorov-Arnold Networks) llegaron para romper el paradigma actual. Si el famoso teorema dice que toda función de muchas variables es en realidad la superposición de funciones de una sola variable, entonces podemos usar ese hecho para guiarnos en la búsqueda de esa bendita función que le pediríamos al genio de la lámpara si pudiéramos. En lugar de buscar entre todas las posibles funciones que dependen de muchas variables, podemos buscar entre las funciones que son superposiciones de funciones de una sola variable. Aprender muchas funciones de una sola variable es mucho más fácil que aprender una sola función de muchas variables. Es como partir un gran problema en muchos problemas pequeños. Más importante aún, entender muchas funciones de una sola variable es más plausible que entender a una sola función de muchas variables. A las funciones de una sola variable podemos interpretarlas.
El destino final de las KAN es todavía incierto, pero son como mínimo una brisa de aire fresco que vale la pena explorar. Es posible que de acá a un tiempo sean sólo un método más en el universo de la IA, pero también puede ser que hayan llegado para revolucionar lo que nos está revolucionando. Lo que es seguro es que tendremos que crear/descubrir mucha matemática nueva para poder entender estos objetos matemáticos. Sus propiedades, su potencial, sus limitaciones y sus peligros.