Inicio Volumen 28 Número 167 La revolución de la inteligencia artificial: derribando mitos

La revolución de la inteligencia artificial: derribando mitos

Versión disponible en PDF.

Los avances constantes en el terreno de la inteligencia artificial generan opiniones encontradas en diferentes ámbitos. En particular, hay tres mitos que se escuchan con cierta frecuencia. El primero dice que el auge actual de la inteligencia artificial es en realidad una moda pasajera, que produce un entusiasmo exagerado. El segundo, en las antípodas del primero, sostiene que la inteligencia artificial despliega tecnologías rayanas en la magia, capaces de brindar soluciones superadoras a casi cualquier problema tecnológico. Y el tercero, en el plano educativo, consiste en la creencia errónea de que aprender estos temas conlleva una dificultad extrema, lo cual mantiene alejados a muchos estudiantes potenciales. Los tres mitos tienen su razón de ser, pero los tres son falsos, y es importante esforzarse en derribarlos. Esta nota presenta un breve resumen histórico de la inteligencia artificial, para comprender su estado actual y perspectivas a corto y mediano plazo.

¿De qué se traga?
¿Qué es la inteligencia artificial? ¿Cuáles son sus perspectivas?.

Los orígenes

La inteligencia artificial surge en la década de 1950, pocos años después de la aparición de las primeras computadoras. El brillante matemático inglés Alan M Turing (1912-1954), uno de los fundadores de las ciencias de la computación, estuvo entre los primeros en preguntarse, en un artículo publicado en 1950, en qué consistiría una máquina que pudiera pensar. También propuso una definición metodológica, que sigue vigente en el test que lleva su nombre: se dice que un sistema es inteligente si es capaz de realizar una tarea en forma indistinguible de como la haría un ser humano.
Las dos décadas que siguieron a este trabajo seminal estuvieron marcadas por un entusiasmo desmesurado por la posibilidad de construir sistemas inteligentes. En un encuentro de investigadores en la Universidad de Dartmouth, en 1956, se acuñó el término inteligencia artificial. En esos años se escribieron, con métodos rudimentarios, los primeros programas capaces de jugar al ajedrez, o de realizar razonamientos lógicos, o incluso de mantener una conversación simple con una persona. Estos éxitos relativos condujeron a promesas grandilocuentes –o incluso irresponsables– por parte de científicos de mucho renombre. Un ejemplo notable es lo expresado por el matemático norteamericano Marvin Minsky (1927-2016) a la revista Life, en 1970: ‘Dentro de tres a ocho años tendremos máquinas con la inteligencia general de un ser humano promedio’. ¡La inteligencia general de un ser humano promedio! No es de extrañar que tales promesas desencadenaran enormes expectativas en la sociedad. Para contextualizar, esos años generaron obras emblemáticas de la ciencia ficción, como la novela Yo, Robot de Isaac Asimov (1950), o la película 2001: odisea del espacio, con dirección de Stanley Kubrick y guion de Arthur C Clarke (1968).
El paradigma dominante de las primeras décadas de la inteligencia artificial fue el de los enfoques simbólicos, apoyados en tres pilares: el razonamiento, la planificación y la representación del conocimiento. El razonamiento busca codificar predicados y operaciones lógicas para así poder demostrar el valor de verdad de nuevos predicados. Por ejemplo, partiendo de representaciones de ‘Todos los humanos son mortales’ y ‘Sócrates es humano’, debería concluirse que ‘Sócrates es mortal’ es un predicado de valor verdadero. La planificación consiste en la búsqueda de secuencias de acciones que permitan cumplir un objetivo, por ejemplo, que un robot encuentre la salida de un laberinto o que pueda ordenar bloques de letras para formar una palabra. La representación del conocimiento procura codificar en una computadora información general del mundo, mediante analogías, taxonomías y otros formalismos, para luego usar esa información en otras tareas informáticas, entre ellas el razonamiento y la planificación.
Bajo el paradigma simbólico se lograron algunos éxitos relativos (y varios de ellos resultaron de vital importancia unas décadas después); sin embargo, resultaban insignificantes si se los comparaba con las promesas realizadas. A principios de la década de 1970, la escasez de aplicaciones concretas produjo un desencanto generalizado, socavó la confianza en el potencial de la inteligencia artificial y condujo a serios replanteos de parte de las agencias financiadoras de investigación. En 1973 el gobierno del Reino Unido encargó un informe sobre los avances en el área a James Lighthill (1924-1998), reconocido profesor de matemática aplicada en Cambridge. El informe dio un diagnóstico lapidario: ‘No hay área de la inteligencia artificial en la cual se hayan producido descubrimientos con el impacto mayúsculo que se había prometido’. Las consecuencias no se hicieron esperar: una virtual parálisis del financiamiento y la inversión en investigación en inteligencia artificial en todo el mundo. En los años posteriores la investigación prosiguió, aunque con muchos menos recursos que antes. Comenzaba lo que pasó a la historia como el primer invierno de la inteligencia artificial.
Pese a su saldo negativo, la era dorada dejó varios legados. Entre ellos figuran los sistemas expertos, que maduraron y florecieron en la primera mitad de la década de 1980. Consisten en programas que codifican y automatizan procesos conocidos. Son desarrollados conjuntamente por un experto del dominio y un programador, empleando formalismos ideados en los años de expansión de la inteligencia artificial, tales como los árboles de decisión, las redes bayesianas o el lenguaje de programación Prolog. Esos formalismos resultaron efectivos para automatizar tareas de diagnóstico, análisis y capacitación en medicina y en fábricas, por ejemplo. En consecuencia, alrededor de los sistemas expertos prosperó una pujante industria de software y hardware.
Pero este apogeo de la inteligencia artificial fue muy breve y llegó a su fin por las mismas razones que una década antes: generó demasiadas expectativas. Los sistemas expertos aportaron soluciones novedosas y contribuyeron a mejorar la competitividad de varias industrias, pero eran rígidos y caros de mantener, y no escalaban bien a problemas de mayor complejidad. Otra vez, la burbuja había crecido de manera desproporcionada. Corría ya la segunda mitad de la década de 1980 y la inteligencia artificial todavía no conseguía destacarse en el mundo de la tecnología, máxime considerando el torrente de avances desplegados durante el siglo XX por otras disciplinas. Esta persistente escasez de frutos desembocó en un creciente escepticismo y una pérdida generalizada de credibilidad. La inteligencia artificial comenzaba su segundo invierno. Quedaba confinada al terreno de la ciencia ficción.

La era moderna

Incluso en un escenario tan negativo como el de finales de los años 80, con un profundo descrédito por parte de la sociedad, se continuó investigando, tanto en el sector público como en el privado. En esos años comenzó a ganar mayor relevancia un paradigma distinto: un enfoque basado en datos, que consiste en construir programas a partir de la información contenida en colecciones de imágenes, audios, textos, etc. Hoy conocemos esta forma de resolver problemas como aprendizaje supervisado. Si bien empezó su expansión en esos años, aún le faltaba bastante tiempo para llegar a su apogeo.

La revolución de la inteligencia artificial: derribando mitos
Garry Kasparov en 1987. Wikimedia Commons

Debió transcurrir otra década para que, finalmente, ocurriera el primer cimbronazo de la inteligencia artificial. En 1997 el sistema Deep Blue desarrollado por IBM derrotó al maestro ajedrecista ruso Garry Kasparov (nacido en 1963), considerado uno de los mejores jugadores de la historia. El resultado final de 3½-2½ a favor de Deep Blue fue aplaudido globalmente y caló fuerte en la opinión pública, algo atribuible a que la inteligencia artificial (¡por fin!) lograba un éxito a la altura de sus cuentas pendientes, tras casi medio siglo de espera.
A partir de ese hito histórico, comenzaron a sucederse casos de éxito cada vez con mayor frecuencia. En 2002 se empezó a comercializar Roomba, un robot-aspiradora de 35cm de diámetro por 10cm de alto, capaz de limpiar un ambiente de manera autónoma mientras va aprendiendo las dimensiones y la forma de él. Fue un éxito de ventas que continúa en la actualidad.
En 2004 comenzaron a aparecer los primeros vehículos autónomos (autos que se manejan solos), en competencias organizadas por el Departamento de Defensa de los Estados Unidos. Las primeras dos ediciones se llevaron a cabo en zonas despobladas y, ante el éxito de los prototipos ganadores (de las universidades Stanford y Carnegie Mellon), poco tiempo después se replicaron en zonas urbanas.
En 2011 IBM consiguió otra hazaña: su sistema Watson derrotó a los dos campeones históricos de Jeopardy, un juego de televisión en el cual los participantes deben encontrar las preguntas a las respuestas presentadas sobre temas de cultura general. Watson debía ser capaz de interactuar verbalmente, interpretar las respuestas, y buscar y combinar la información necesaria para construir las preguntas. Estas tareas pusieron a prueba al estado del arte de técnicas de procesamiento del lenguaje natural, representación del conocimiento, recuperación de información y razonamiento. La victoria del sistema de IBM fue aplastante, y comenzó a saldar otras viejas deudas de la inteligencia artificial.
Es importante notar que los ejemplos mencionados hasta el momento no estaban basados en las técnicas de aprendizaje profundo (o deep learning), las cuales comenzaron a surgir, como las conocemos hoy, recién alrededor de 2010. Los sistemas mencionados hasta ese entonces estaban basados en combinaciones de técnicas clásicas del paradigma simbólico y de otras más modernas del cada vez más afianzado enfoque basado en datos, o aprendizaje supervisado. Este hecho resulta crítico para entender que la revolución de la inteligencia artificial ya estaba en marcha bastante antes de la eclosión del aprendizaje profundo, que obedeció a la coincidencia de múltiples factores, incluyendo la creciente capacidad de cómputo, el desarrollo de mejores algoritmos de entrenamiento y la disponibilidad de grandes volúmenes de datos.

Inteligencia Artificial
Primera generación del robot-aspiradora Roomba. Wikimedia Commons

Durante la última década, el aprendizaje profundo aportó un salto cualitativo realmente impactante, que aceleró los tiempos del desarrollo como nunca se había visto en el área. Para dar una idea de la magnitud de los avances conseguidos, los siguientes dos ejemplos pueden ser ilustrativos. Hasta 2012, la investigación en la clasificación de imágenes encontraba obstáculos que dejaban las tasas de error de los mejores modelos por arriba del 25% en un conjunto de datos estandarizado llamado ImageNet. Es decir, clasificaban erróneamente una de cada cuatro imágenes. En 2012, el primer sistema basado en aprendizaje profundo obtuvo 15% de errores: 10 puntos menos. La tasa de error de los sistemas actuales ronda el 3% sobre los mismos datos. Las mejoras han sido tan contundentes que hoy en día los sistemas de reconocimiento de objetos consiguen un alto desempeño incluso en videos en tiempo real.

Aprendizaje Supervisado

Supongamos que en el problema ilustrado en la figura izquierda tenemos un conjunto de puntos (que llamamos instancias). Las instancias tienen ciertos atributos que las describen; en este ejemplo, tienen dos coordenadas numéricas X e Y. Además, cada instancia pertenece a una clase: en nuestro caso, pueden ser de color amarillo o gris. El objetivo de un algoritmo de aprendizaje supervisado consiste en construir (es decir, aprender) una forma de clasificar instancias a partir de un conjunto de datos (que denominamos datos de entrenamiento). Veamos cómo hace esto un algoritmo basado en árboles de decisión. Con los datos de dicha figura, el algoritmo podría primero elegir el atributo X y la constante a para crear la primera regla, que se coloca en lo más alto del árbol: ‘X < a’. Las instancias que cumplen esta regla son todas grises, con lo cual puede darse por terminada la construcción de esa rama del árbol. Entre las instancias que no cumplen esa regla, vemos que hay ambos colores; por lo tanto, todavía pueden agregarse nuevas reglas para hacer más preciso al modelo. El algoritmo podría aprender que con Y y una constante b se puede separar bastante bien a las instancias restantes. Luego de ello, el algoritmo podría detenerse, olvidar los datos de entrenamiento y dejar como resultado un modelo que sirve para clasificar nuevas instancias (con cierto margen de error). En este ejemplo, el modelo resultante es un algoritmo muy simple: si una nueva instancia tiene valor de X menor que a o valor de Y menor que b, entonces es gris; en caso contrario, es amarilla. Esta es la idea central del aprendizaje supervisado. Existen muchos algoritmos además de los árboles de decisión; por nombrar algunos: vecinos más cercanos, regresión logística, análisis del discriminante lineal, naive bayes, máquinas de vectores soporte, random forest y redes neuronales. Todos hacen en esencia lo mismo: a partir de datos, construir un modelo que sirva para clasificar nuevas instancias. También existen algoritmos de regresión que, en lugar de aprender a predecir clases, aprenden a predecir valores numéricos.

Otro ejemplo son los sistemas de reconocimiento del habla, cuya tarea consiste en transcribir las palabras contenidas en una grabación. Hasta 2012, los mejores sistemas conseguían el 20% de errores sobre datos estandarizados (Switchboard): un error cada cinco palabras. Ese año se introdujeron los sistemas que emplean aprendizaje profundo, que llevaron la tasa de error a la mitad. En 2016 Microsoft logró reducirla hasta el 5,9%, equivalente a la tasa de error promedio de un ser humano, y desde entonces ha seguido bajando aún más. Estas mejoras llevaron a la inclusión del reconocimiento del habla como una herramienta estándar en celulares y demás dispositivos electrónicos, lo cual a su vez posibilitó la proliferación de nuevas tecnologías, como la traducción automática, el subtitulado automático de videos y las interfaces de usuario basadas en comandos de voz.
La última conmoción en la inteligencia artificial tiene apenas seis o siete años: gracias al empuje del aprendizaje profundo resurgió otra subárea conocida como aprendizaje por refuerzos. Consiste en construir sistemas que aprenden en forma autónoma a realizar una tarea, aprovechando la experiencia acumulada al repetirla una y otra y otra vez. En 2013 un equipo de la empresa DeepMind construyó un sistema capaz de jugar mejor que los seres humanos a varios juegos de la consola Atari 2600. En 2015 el sistema AlphaGo, también creado por DeepMind, derrotó al campeón mundial de go, un juego de mesa computacionalmente mucho más complejo que el ajedrez, lo cual constituyó otro hito histórico en el área. En 2019 esta técnica se extendió a otros escenarios aún más complejos, como el póker y los juegos de estrategia multijugadores, desafíos completamente impensados tan solo un puñado de años atrás.

Los mitos

Volvamos entonces a los tres mitos mencionados al principio de la nota. El primero dice que el éxito actual de la inteligencia artificial es solo una exageración, una moda pasajera. Habría sido entendible que al comienzo de esta revolución, alrededor del cambio de siglo, hubieran surgido reparos al respecto, sobre todo si consideramos los antecedentes del área en cuanto a promesas incumplidas. Pero hoy en día, viendo los resultados cada vez más impresionantes y los efectos concretos sobre las vidas de millones de personas, las dudas resultan insostenibles. La inteligencia artificial ha logrado patear el tablero en el mundo tecnológico, y ya nada será igual.
El segundo mito está en el extremo opuesto: la inteligencia artificial se aproxima a la magia; sirve para mejorar cualquier sistema informático. Tampoco es el caso. La inmensa mayoría de los casos de éxito se encuadran en el paradigma conocido como aprendizaje supervisado (ver recuadro). Para poder construir un sistema en este paradigma, necesitamos tener una buena cantidad de datos etiquetados y (más importante aún) una tarea bien definida. Por ejemplo: predecir el color de un punto, clasificar compras con tarjeta de crédito en legítimas o fraudulentas, filtrar mensajes espurios (spam), etc. Esto último también es cierto para otros paradigmas, como el aprendizaje por refuerzos, el aprendizaje no supervisado (el cual, a grandes rasgos, nos permite explorar datos no etiquetados), el aprendizaje semisupervisado y otras variantes: siempre es necesario definir una tarea acotada y concreta que se desea resolver. Todavía falta mucho para poder hablar de una inteligencia general, en los términos en que se prometía en la década de 1970. Sin dudas, se está yendo en esa dirección, pero aún queda mucho camino por recorrer.
Por último, el tercer mito sostiene que aprender inteligencia artificial está reservado para unos pocos iluminados en matemática y computación. En este punto debemos ser cuidadosos, evitando transmitir que son temas fáciles, porque no lo son. Hay que estudiar para aprenderlos. El camino fácil es muy tentador: programar a los tumbos, sobre la base de tutoriales de dudoso origen y mediante un código conseguido en internet, sin entender demasiado lo que se hace. Esa es la mejor manera de meterse en problemas. Los temas de inteligencia artificial que están cambiando el mundo requieren dedicarle tiempo de estudio; no debe haber dudas al respecto. Pero tampoco son temas tan difíciles como a menudo se cree. Con una base de programación, probabilidad, estadística y álgebra lineal (temas conocidos por los estudiantes de segundo o tercer año de muchas carreras informáticas del país), ya se está en el punto de partida para acceder a libros y materias específicas del área. Solo hay que animarse y dedicarle el tiempo necesario, para sumarse a una revolución en curso que todavía parece lejos de encontrar su techo.

Lecturas sugeridas
GOODFELLOW I, BENGIO Y & COURVILLE A, 2016, Deep Learning, The MIT Press, Cambridge.
JAMES G, WITTEN D, HASTIE T & TIBSHIRANI R, 2013, An Introduction to Statistical Learning, Springer, Berlín.
RUSSELL SJ & NORVIG P, 2009, Artificial Intelligence: A modern approach, Prentice Hall, Nueva Jersey.

Doctor (PhD) en ciencias de la computación, Universidad de Columbia. Profesor adjunto, FCEN, UBA. Investigador adjunto del Conicet en el Instituto de Investigación en Ciencias de la Computación, UBA-Conicet.