Por Hubert Krivine
El ámbito de
la inteligencia artificial (IA) es un poco como el Universo: se halla en
expansión acelerada y llena de agujeros negros… La IA es una disciplina
totalmente nueva, como lo fue en su tiempo la imprenta a mediados del siglo XV.
¿Quién habría podido anticipar entonces que su desarrollo iría mucho más allá
de su propósito inicial, a saber, la propagación de las sagradas escrituras?
Más recientemente, ¿quién habría podido imaginar las consecuencias de internet,
creada originalmente para facilitar los intercambios entre físicos de
laboratorios alejados entre sí? Por consiguiente, hay que ser extremadamente
prudentes con respecto a las potencialidades de la IA, sobre todo porque, a
diferencia de esas dos innovaciones, no se sabe por qué funciona tan
bien. Al fin y al cabo, el nombre es jactancioso: la inteligencia artificial no
es a la inteligencia humana lo que la insulina artificial es a la insulina
animal, es decir –potencialmente al menos–, lo mismo pero mejor.
No pretendemos
hablar aquí de los éxitos y los peligros de la IA en todos los terrenos, sino
fundamentalmente de lo que nos parecen ser sus limitaciones actuales. Es
evidente que ignoramos lo que vaya a suceder en los próximos siglos.
Comprender para prever
La humanidad
tiene desde siempre la necesidad de prever. Lo ha hecho a través de la magia
(auspicios, augurios y otras pitias) o bien mediante la observación de
correlaciones regulares. Se trataba de la previsión del movimiento de los
astros, de las mareas, de la acción medicamentosa de determinadas plantas, de
las propiedades de las aleaciones metálicas, de las ventajas del cruce de
plantas y de animales, etc. De ahí la importancia de la tradición en las
sociedades primitivas.
En el Renacimiento
surgió la idea de que existen leyes impersonales y universales que gobiernan el
mundo y que la tarea de los sabios es descubrirlas. Galileo, quien afirmaba que
el “libro del Universo está escrito en lengua matemática”, es su precursor más
famoso. Claro que Dios no es abandonado, digamos más bien que relegado. Estas
leyes no solo explicarán los fenómenos observados, sino que también preverán otros
nuevos. La teoría de la gravitación de Newton es emblemática: non solo dio
cuenta con precisión del movimiento elíptico de los planetas, sino que además
previó el retorno del cometa Halley, el valor del ensanchamiento de la Tierra
en el ecuador y un siglo y medio después el descubrimiento de Neptuno gracias a
los cálculos de Le Verrier. Las ondas de radio se descubrirán veinte años
después de que hubieran sido previstas por las ecuaciones de Maxwell. La teoría
general de la relatividad no se basó en la observación de que la presencia de
masas desvía la trayectoria de la luz, sino, por el contrario, previó esta
(minúscula) desviación, que Eddington medirá efectivamente cuatro años más
tarde. Podríamos multiplicar las previsiones de fenómenos inéditos, en el
sentido literal del término, causados por el conocimiento de estas leyes.
Por desgracia,
esta vía luminosa de entendimiento, que podríamos resumir en comprender
para prever, acabará oscureciéndose por (al menos) dos razones:
1- Aunque se
conozcan las leyes de un fenómeno, estas pueden ser tan numerosas y/o
complicadas e intrincadas que su aplicación resulte prácticamente imposible.
Entonces hay que recurrir a leyes estadísticas, que solo preverán medias.
2- Puede
ocurrir que una sola ley simple y bien conocida gobierne un fenómeno y que a
pesar de ello seamos incapaces de anticipar más allá de cierto horizonte de
tiempo. Esto es lo que se denomina caos determinista. Determinista porque
hay una ley, caos porque a pesar de ello no se puede concluir
nada para dentro de cierto plazo. Se debe al hecho de que pequeñísimas
variaciones de las condiciones iniciales o del entorno pueden generar una
divergencia exponencial de las soluciones. Muchos fenómenos conocen este caos:
las trayectorias de las moléculas de un gas, el desarrollo de especies en
competición, la meteorología, el movimiento de los planetas del sistema solar.
Por supuesto, este horizonte de impredecibilidad depende del sistema, puede
variar de la millonésima de segundo en el primer ejemplo a los miles de
millones de años en el último.
El caos
determinista –bello oxímoron– no pone en duda la causalidad, sino que
interroga, inclusive en las llamadas ciencias duras, nuestra
capacidad de evidenciarla. La conclusión general es que la comprensión –e
incluso el conocimiento de la ley cuando se conoce– no permite necesariamente
prever.
Prever sin comprender (¿el retorno?)
Nuestros
ancestros, sobre la base de miles (¿millones?) de observaciones, conseguían
extraer algunas lecciones. Pero ahora disponemos de infinitivamente más datos
(en cifras, imágenes, sonidos, vídeos); son los datos masivos (big data).
Se trata de cantidades inimaginables: por ejemplo, cada día se generan ¡2,5
trillones (2.500.000.000.000.000.000) de octetos! 1/. Añadamos que la acumulación de
informaciones es tal que el 90 % de los datos en el mundo se han creado en
el transcurso de tan solo los dos últimos años. Es imposible que estas inmensas
bases de datos sean leídas directamente por personas. Deben ser
almacenadas inteligentemente y después analizadas por la máquina.
Este es uno de los objetos de la mal llamada inteligencia artificial.
Muy
esquemáticamente, la IA moderna se caracteriza por el aprendizaje máquina, es
decir, la máquina, instruida por una base de datos, extrapola
a partir de la información que tiene sobre datos nuevos. Estos datos de
aprendizaje pueden suministrársele etiquetados, es decir, por
ejemplo, en forma de miles de caracteres manuscritos previamente catalogados
como a, b, c… z o millones de imágenes de animales catalogados
como gatos, perros, tigres, etc. Este es el aprendizaje supervisado. Incluso se
puede no etiquetar a priori las imágenes, que la máquina se
las arreglará para realizar reagrupamientos ad hoc y crear así
nuevas categorías; este es el aprendizaje no supervisado, más selectivo en
recursos, pero más fácil de aplicar (no hace falta etiquetar, que es un proceso
largo y complejo). En fin, la máquina misma puede procurarse los datos de
aprendizaje, que comprobará in situ proponiéndose
experiencias; es el aprendizaje por refuerzo. Un poco como un niño que habla
sin conocer la gramática. Con este último modo de aprendizaje funcionó la
máquina AlphaZero, que derrotó al campeón del mundo del juego de go, Ke Jie, en
mayo de 2017 2/. En tres días jugó millones de
partidas contra sí misma y en cierto modo comprendió cómo
jugar. Las cursivas son importantes: puede que ella lo haya comprendido, ¡pero
nosotros no! Nadie sabe explicar el camino que ha seguido para obtener esta
victoria.
Pero ¿sirve de algo comprender o todavía necesitamos demostraciones?
A diferencia
del espíritu humano, la máquina que utiliza las redes neuronales artificiales
carece de un instrumento para distinguir las correlaciones causales de las no
causales; y, a fortiori, no da explicaciones. Pero, ¿es
eso tan grave? Después de todo, con una base de datos extremadamente limitada y
sin teoría real, la humanidad del homo sapiens se desarrolló
muy bien durante más de 150.000 años. ¿No cabría pensar con mayor razón que,
con la gigantesca base moderna de datos masivos correctamente explotada, podrá
continuar igual o incluso infinitamente mejor que antes? De todas maneras,
incluso las correlaciones no causales pueden ser predictivas: no es la caída del
barómetro la que causa la tormenta.
Cito la
posición extremista y sin embargo popular de un Chris Anderson. El título de su
célebre artículo 3/ es elocuente: La fin de
la théorie : le déluge de données rend la méthode scientifique obsolète (El
fin de la teoría: el diluvio de datos vuelve obsoleto el método científico).
Allí podemos leer esto: “Con datos suficientes, los números hablan por sí
mismos”, y más adelante: “la correlación suplanta la causalidad, y la ciencia
puede avanzar incluso sin un modelo coherente, sin teoría unificada e incluso
sin ninguna explicación mecanicista.” Para él, la idea es que todos los modelos
son falsos y a menudo están contaminados de ideas preconcebidas, mientras que
las bases de datos, a condición de que sean suficientemente gigantescas, no
pueden mentir.
¿Cabe pensar
que Deng Xiaoping ya anticipó en 1960 esta filosofía cuando afirmó eso de que
“poco importa que un gato sea blanco o negro, si caza ratones, es un buen
gato”? Se trataba de introducir más pragmatismo (en el sentido de más mercado)
en la economía, sin prestar atención a las objeciones teóricas que pudieran
oponerse.
Hay quien es
menos extremista en el abandono de la teoría4/: “La ciencia vive así una revolución
epistemológica con la aplicación desde hace tan solo una decena de años de un
‘cuarto paradigma’ del descubrimiento científico, a partir del
análisis y de la explotación intensiva de los datos, sin necesidad a
priori de un modelo que describa la realidad. Esta
revolución afecta a todos los sectores científicos, sobre todo a los ámbitos de
la biología-salud y las ciencias humanas y sociales.”
No hay inteligencia, solo hay pruebas de inteligencia
¿Cómo definir
la inteligencia de la máquina sin haber definido la de los humanos? 5/ Turing 6/ escamotea hábilmente esta
cuestión proponiendo tan solo compararlas mediante una prueba. Un
experimentador conversa a través de un teclado (u hoy incluso de viva voz) con
un interlocutor oculto. Si el hombre es la mayoría de las veces incapaz de
saber si ha conversado con una máquina o no, se dirá que la máquina ha superado
la prueba de Turing. Claro que la duración de la prueba es importante y hasta
hoy ninguna máquina lo ha conseguido dentro de un tiempo razonable. A pesar (¿o
tal vez a causa?) de su gran simplicidad, determinados especialistas de IA
consideran que el test de Turing es poco interesante. Por lo demás, se puede
pensar que las máquinas lograrían superar el test de Turing si no comportara
más que pruebas convencionales del tipo de las que se utilizan para determinar
el cociente intelectual de los individuos.
La
inteligencia de la IA procede básicamente por inducción. Esto quiere decir que
la máquina solo puede prever sobre la base (gigantesca, sin duda) de lo ya
conocido o sucedido. Caricaturizando un poco, para la máquina lo que sucederá
ya ha sucedido o está a punto de suceder, pero sin los datos masivos, los
humanos nunca lo habríamos adivinado. Salvo que en situaciones políticas,
financieras y económicas inéditas, las previsiones de los datos masivos
fracasan. Véanse por ejemplo las previsionesde la crisis de las
hipotecas basura que partió de EE UU en 2007. Nate Silver7/ demuestra cómo la singularidad
absoluta del cuadro económico de EE UU en aquella época hacía que toda extrapolación
resultara inoperante.
En el fondo,
el razonamiento por inducción supone que cuando un
acontecimiento se repite n veces, se repetirá una (n +
1)-ésima vez, y esto con tanta más seguridad, cuanto mayor sea n;
pero en esto no se tienen en cuenta las condiciones, eventualmente cambiantes,
que han permitido esta continuidad; hace falta una hipótesis implícita de
uniformidad. Con esta hipótesis, ¡ni tú ni tus padres morirán jamás! (Porque si
constatas que han vivido todos los días sin interrupción desde hace 25.000
jornadas, seguirán viviendo el día siguiente.) El razonamiento por inducción,
corriente en la vida cotidiana, puede por tanto sugerir una hipótesis, pero en
ningún caso la demuestra.
No existen los datos brutos
No hay datos
inocentes; la noción de datos brutos es un oxímoron, como ha escrito con toda
la razón la historiadora de medios norteamericana Lisa Gitelman. Los datos son
producciones humanas que pueden estar social o técnicamente sesgadas, no
necesariamente de manera voluntaria. Se toman y se mezclan los datos allí donde
uno los encuentra, como un borracho que busca la llave que ha perdido tan solo
donde llega la luz de la farola. Son numerosos los ejemplos del peligro de
analizar los datos brutos sin reflexionar sobre su producción
y cuyo aumento de volumen no reducirá su sentido falseado. De hecho, la IA no
hace más que multiplicar los peligros de sesgo inherentes a todos los
análisis clásicos.
¿Se puede digitalizar el Universo?
El ser humano
interactúa –al menos potencialmente- con toda la Naturaleza (¡que no es poco!),
no la máquina, que no conoce de ella más que una pequeña parte, y además
digitalizada, es decir, en última instancia, representada tan solo por una
sucesión –gigantesca, sin duda, pero finita– de 0 y 1. Sin embargo, el mapa
(digital) no es el terreno. Creer que la Naturaleza suficientemente
digitalizada es la Naturaleza nos parece ser una ilusión
total, al margen del grado de digitalización. Este es, sin embargo, el credo de
algunos ayatolás de los datos masivos. Extrapolando los éxitos espectaculares
de la IA, imaginan que mañana se podrá hacer física sin físicos, o medicina sin
médicos y, por qué no, sentencias sin jueces.
Ilusión total,
¿verdad? Pero el ser humano tampoco tiene acceso directamente a toda la
Naturaleza. Solo interactúa con ella a través de sus sentidos y por tanto no
puede ver –ni sentir, ni tocar– todo el terreno. Lo que ve, por ejemplo, está
pixelado entre los 120 millones de células fotosensibles (conos y bastones) que
pueblan su retina. Ahora bien, hoy en día las fotos digitalizadas pueden
alcanzar o incluso superar esta resolución. Los receptores artificiales no
tienen nada que envidiar a nuestros receptores naturales, pero el terreno no
se limita tan solo a la imagen que percibe nuestra retina. Hay que tener en
cuenta todo lo que lo constituye, con su geología, su historia, sus millones de
especies vivas y muertas, sus olores, su precio por metro cuadrado, su belleza,
la poesía que se asocia con él, etc.
De una manera
u otra, el cerebro humano es sensible a ello, aunque no se sepa cómo ni hasta
qué punto; esto abarca prácticamente una infinitud de elementos (que
interactúan). Creer que el terreno, en el pleno sentido del
término, es pixelable, es decir, representable mediante una serie finita
(aunque muy grande) de 0 y 1, parece igual de demencial que pensar que, al
estar compuestos los seres humanos (y los demás) de moléculas que interactúan,
se llegará a la explicación de la toma de la Bastilla en 1789 mediante el
estudio (¡muy!) profundo de las fuerzas entre átomos. Sería lo que podemos
denominar un reduccionismo disparatado. Nunca estará de más recordar este
título de un artículo tan lapidario como profundo de Philip Waren
Anderson: More is different. Hay que cambiar de teoría cuando se
cambia de escala de tiempo, de volumen o de complejidad. Es bien sabido que el
todo no es lo mismo que la suma de sus partes. Esto es lo que caracteriza el
fenómeno de emergencia.
La ciencia no progresa por acumulación de datos
La ciencia no
progresa por acumulación de datos. Si los descubrimientos del bosón de Higgs o
de las ondas gravitacionales solo pudieron producirse manipulando miles de
millones de datos masivos, tales descubrimientos son, por su génesis, clásicos:
se sabía lo que se buscaba. Miles de científicos y técnicos, con la ayuda de
cientos de millones de dólares, etc., tuvieron que imaginar dispositivos
diabólicamente astutos para detectar los efectos extraordinariamente débiles,
que habrían pasado desapercibidos si no los hubieran buscado allí donde lo preveía
la teoría. Se trata, en el ejemplo de las ondas gravitacionales, de una
variación de longitud de menos de una milmillonésima de milmillonésima de metro
de un brazo de interferómetro de 3 km. Ninguna base de datos masivos habría
podido hallarlas.
Esto no es
nuevo; sucedió lo mismo con el neutrino. Previsto en 1930 por Wolfgang Pauli,
es una partícula neutra que no interactúa prácticamente con la materia y por
tanto es muy difícil de detectar (¡habrá que esperar a 1956!). No está claro
cómo los datos masivos, por muy masivos que sean, sin guía teórica de
investigación, habrían permitido estos descubrimientos. Más en general, los
avances que han revolucionado la física (e incluso la filosofía), a saber, la
teoría atómica, la mecánica cuántica y la relatividad, no tienen nada que ver
con una acumulación intensiva de datos. Einstein elaboró la relatividad
especial sobre la base de las contradicciones lógicas internas de las
ecuaciones de Maxwell (que rigen las corrientes eléctricas y explican las ondas
de radio) y la relatividad general a causa de las contradicciones teóricas
aparecidas en el seno de la relatividad especial. Newton no vio caer más
manzanas que sus predecesores para elaborar su teoría de la gravitación.
Los datos –por
supuesto indispensables para la verificación de la teoría– solo vendrán
después. Son estas teorías, que permiten una nueva auscultación del cielo, las
que situarán el punto de partida para la creación de los datos masivos y no a
la inversa. Por ejemplo, la teoría de la relatividad (enunciada por Einstein en
1915) prevé una curvatura de los rayos luminosos que pasan cerca de una
estrella masiva (fenómeno que será verificado en 1919 por Eddington). Se trata
del fenómeno de lentilla gravitacional, nueva fuente de información sobre la
distribución de las masas del universo. Ocurre lo mismo con las ondas
gravitacionales, que enriquecerán todavía más nuestros datos masivos.
En resumen, la
ciencia no procede por acumulación y sistematización de datos –aunque esta sea
una etapa que puede ser importante–, sino mediante la resolución de
problemas 8/. Problemas que pueden ser internos
de la teoría existente o resultar de contradicciones entre teoría y experiencias
(u observaciones). Es todo el problema abierto de la creatividad.
Hay finalmente
otra diferencia de calibre: la máquina está dedicada. Debe resolver,
permaneciendo todo lo demás invariable, una tarea que se le marca. Vive dentro
de un mundo pequeño. Aunque el número de partidas de go sea miles de millones
de veces superior al número total de átomos del universo, la máquina solo
interactúa muy débilmente con todo el universo (responde únicamente a las
jugadas del adversario). En estos sentidos, es un juego simple. Una
rata robot se manejará mucho mejor que una rata de carne y hueso en un
laberinto, pero si aparece un olor a quemado, la rata de carne y hueso tratará
de huir, el robot no. La rata de verdad posee en cierto modo una cultura, fruto
de un proceso de evolución darwiniana de interacciones con el resto del mundo,
que habrá durado miles de millones de años. Este proceso es copioso, es decir,
sin objetivo. Es mucho más lento que un proceso pilotado por un objetivo, pero
a largo plazo es mucho más eficaz. Es el que está en el origen del sentido
común, lo más difícil de adquirir –si es que esto resulta posible un día–
por parte de una máquina 9/.
¿En conclusión?
He aquí el
extracto de la entrevista de Antoinette Rouvroy publicada con el título Mais
pourquoi faudrait-il s’en inquiéter si l’on gagne en efficacité ? (¿Por
qué inquietarse si se gana en eficacia?) en Le Monde del 30 de
diciembre de 2017:
Vamos hacia un
cambio epistemológico de calibre. Basarnos en este tipo de cálculo supone una
renuncia a las ambiciones de la razón moderna, que asociaba los fenómenos a sus
causas. Estas ambiciones de la razón permitían abordar la prevención, actuar
sobre las causas para cambiar los efectos. En vez de ello, nos dirigimos a un
sistema de puras correlaciones. Ya no se intenta comprender el medioambiente,
sino predecirlo. Nuestra relación con el saber cambia, pero también nuestra
relación con el mundo: nos centramos más que antes en los riesgos. Ver y
comprender son sustituidos por detectar y prevenir. Pasamos de una civilización
del signo, que era portador de sentido, a una civilización de la señal, que es
un dato que no significa nada en sí mismo.
En otras palabras,
con la ciencia se trata de actuar sobre el mundo, con la IA fetichizada, es el
mundo el que actúa sobre nosotros, lo cual es muy distinto. Esto vuelve a poner
de actualidad a un Marx que afirmaba en sustancia que no había que interpretar
el mundo, sino que se trataba de transformarlo.
Traducción: viento sur
Notas
1/ Un octeto está formado por 8 cifras binarias (bits), es decir, una
secuencia de 8 ceros o unos. Permite codificar 28=256 caracteres, o
sea, mucho más que todo un alfabeto con mayúsculas, acentos y signos de
puntuación.
6/ Alan Turing (1912-1954), genial matemático inglés que logró
descubrir el código secreto alemán durante la segunda guerra mundial.
Perseguido por su homosexualidad, se suicidó comiéndose una manzana envenenada.
8/ Profecía atribuida a Einstein: un día, las máquinas podrán
resolver todos los problemas, pero ninguna de ellas podrá jamás plantear uno.
9/ Por ejemplo, la minúscula modificación de algunos píxels en una
foto de una oveja que pasta en un prado puede hacer que la máquina la
identifique como una mesa, cosa que el sentido común, evidentemente, no lo
permitiría.