Filología artificial: inteligencia artificial y humanidades

Álvaro Cuellar*

Frente a tantos discursos alarmistas que presentan los usos de la inteligencia artificial generativa, el autor plantea los usos de estos modelos en una disciplina firmemente anclada en la tradición humanística (la Filología). El desarrollo computacional y su cada vez más amplia accesibilidad ha posibilitado el análisis de las obras literarias y sus relaciones de formas novedosas. El autor lleva en colaboración un proyecto de investigación sobre estilometría, conjunto de técnicas que permite comparar los textos por el uso de sus unidades primarias. Aquí la IA cumple una función colaborativa.

Anton van Leeuwenhoek, comerciante de telas holandés del siglo XVII, miró por el sistema de lentes que con tanto mimo acababa de construir. Este artefacto permitía aumentar el tamaño de lo observado varias veces y fijarse en detalles antes imperceptibles. Se podía, en definitiva, ver las cosas más grandes, mucho más grandes que con el ojo desnudo o con los rudimentarios mecanismos que existían en la época. Su intención era encontrar fallas en las telas de las que dependía su sustento, pero pronto se dio cuenta de que podía hacer más y, con obsesión enfermiza, se afanó en la tarea de ampliar cuanto le rodeaba. Empezó a mirar los tejidos animales y vegetales, hasta llegar a ver los casilleros que compartimentan la vida, con lo que fundó la citología, el estudio de la célula; miró también otros elementos invisibles hasta el momento, bacterias y protozoos, dando lugar a la microbiología; con curiosidad académica se atrevió también a estudiar el semen y dejó el primer registro de unos juguetones animáculos que con el tiempo habríamos de llamar espermatozoides. Van Leeuwenhoek pasó el resto de sus días perfeccionando sus lentes y carteándose con la Royal Society de Londres. Había originado la microscopía y otorgado a la humanidad una nueva forma de observar la naturaleza.

En los últimos años, el estudio científico (y amoroso) del hecho literario, la Filología, se ha visto sorprendido por una nueva forma de mirar el objeto textual, que mucho tiene que ver con el salto de Leeuwenhoek. El desarrollo computacional y su cada vez más amplia accesibilidad ha posibilitado el análisis de las obras literarias y sus relaciones de formas novedosas. Es posible ahora ampliar los textos literarios hasta que sus líneas se desdibujan y percibir los elementos que las contienen. Podemos atomizar la literatura y extraer los usos en sus constituyentes básicos, sean estos palabras, letras o incluso patrones rítmicos subyacentes. Este tipo de acercamientos suelen englobarse desde la disciplina conocida como estilometría, conjunto de técnicas que permite comparar los textos (y otros elementos más variopintos, como partituras, código de programación o ADN) por el uso de sus unidades primarias. Aunque con este nombre, no se suele basar en lo que comúnmente denominamos estilo, esto es, el conjunto de características y patrones que marcan a un autor y que sobresalen y nos hacen distinguirlo del resto, sino en los usos escriturales invisibles incluso para el propio escritor e indetectables para la mente humana, por muy cultivada y sagaz que esta sea.

En efecto, esta atomización en constituyentes ínfimos de nada sirve sin una inteligencia que conecte los puntos y consiga construir algo con ellos. La inteligencia humana poco puede hacer, porque es incapaz de manejarse en los cientos de miles de datos y parámetros que entran en juego en cualquiera de estos análisis. Sin embargo, la Inteligencia Artificial se encuentra muy cómoda en esta tarea; poco le importan mil, cien mil o diez millones de datos. Cuando hablamos de Inteligencia Artificial, aunque es un término controvertido, qué duda cabe, solemos referirnos a los procesos en los que se está produciendo alguna característica que hasta ahora solo atribuíamos al ser humano, como la creatividad, la espontaneidad o, en el caso que más nos interesa ahora, el aprendizaje. ¿Hasta qué punto puede aprender una máquina realmente a realizar una tarea? Quizás una buena forma de entenderlo es pensar en cómo funcionan los ordenadores de forma clásica. En la computación tradicional se marcaban unos pasos a seguir y la máquina los realizaba de forma automática; ese era su potencial, y no es poca cosa. Automatizar tareas potencia cualquier trabajo y puede llevarnos a Marte, pero ahí no había aprendizaje ninguno, y por eso jamás se habló de Inteligencia Artificial. Ahora la nueva computación no trabaja así; a la máquina no se le asignan una serie de pasos, sino una tarea a acometer, y va a tratar de aprender a resolverla de la forma más efectiva posible. Por ejemplo, si queremos que separe las obras escritas por Calderón de la Barca de las escritas por Lope de Vega, proveeremos a la máquina de esta misión y de muchos ejemplos seguros de uno y otro escritor. La máquina se va a lanzar a realizar este entrenamiento y a detectar qué elementos son más relevantes para realizar esta clasificación y así los va a usar hasta alcanzar su objetivo. La máquina va a aprender a manejarse en esta situación hasta encontrar un camino que sea satisfactorio y que más adelante podrá aplicar con nuevos textos. Ahí reside el cambio de paradigma de la Inteligencia Artificial: ya no tenemos un recorrido prefijado que se ejecuta automáticamente, sino que la máquina es capaz de aprender a buscar el mejor camino para realizar un propósito.

Esta búsqueda del camino más adecuado suele producir una situación conocida como el problema de la caja negra. A menudo tenemos procesos y resultados que no llegamos a entender completamente, pero no por torpeza o vagancia, sino porque es imposible para nuestra mente. Esto es visto como uno de los mayores problemas de la Inteligencia Artificial, bien es verdad que hasta cierto punto las cajas negras forman parte de nuestra vida y no nos extraña tanto. Utilizamos el microondas sin ser conscientes de todos los procesos electromagnéticos que se están produciendo, porque lo que nos importa es nuestro objetivo de calentar la comida; usamos el mando a distancia sin entender las señales, porque lo que queremos es cambiar de canal. A fin de cuentas… ¿qué es el ser humano sino una caja negra desde que nace? Desde que venimos al mundo, utilizamos la visión sin saber cómo funciona y nuestro corazón late sin que el ser humano promedio tenga un conocimiento profundo de sus mecanismos; la existencia humana es una caja negra en sí misma… y no nos va tan mal.

La capacidad de aprendizaje sumada a la opacidad de sus procesos otorga a la Inteligencia Artificial un potencial terrible que conducirá inevitablemente a la destrucción de la especie humana. Pero mientras esto llega, podemos entretenernos con la investigación filológica, que bien puede beneficiarse de tal poderoso aliado. La autoría es uno de los pilares que sustentan el estudio de un texto. Conocer la paternidad o maternidad de una obra es fundamental para su correcto análisis y encuadre histórico. Ahí aparece nuestro Siglo de Oro, donde grandes piezas como El Lazarillo o El Quijote de Avellaneda permanecen anónimas o con atribuciones dudosas, y en especial el teatro, donde nos asomamos a un abismo de problemas de difícil resolución por la vía tradicional. La estilometría, unida a la Inteligencia Artificial, tiene la capacidad de leer estas obras, que se cuentan por miles, y establecer relaciones y clasificaciones de forma automática en función de sus usos escriturales. Estos análisis están conduciéndonos a replantear el repertorio de distintos dramaturgos, como Andrés de Claramonte. Vilipendiado por la tradición académica, Claramonte, gracias a esta ayuda informática, se está demostrando como el posible autor de algunas obras capitales para la cultura occidental, como El burlador de Sevilla, que inicia la celebérrima figura del Don Juan. Pronto, en 2026, se acerca el cuarto centenario de su muerte y veremos si nos da tiempo a honrarlo como merece.

Íntimamente relacionado con la autoría, otro pilar del estudio filológico es el de la datación, al cual podemos enfrentarnos de forma muy similar, atomizando las obras en sus componentes básicos y forzando a la máquina a aprender a distinguir entre periodos de tiempo. Tenemos a la vista un meollo prometedor. Al igual que la prueba del Carbono-14 permitió datar de formas nuevas objetos para la arqueología, podemos aquí tener una prueba científica para encajar los textos en unas franjas u otras, aunque falta todavía mucho trabajo y recursos para contar con sistemas controlados y fiables.

Otra tarea que se ha visto asistida por la Inteligencia Artificial es la de la transcripción de documentos. Si bien este problema estaba resuelto para libros modernos, legibles por cualquier software de andar por casa, la transcripción de manuscritos o impresos antiguos era inasumible desde la computación. Ahora podemos asistirnos de la Inteligencia Artificial para ayudar en esta tarea. El proceso es el mismo que venimos explicando, pero ahora los elementos mínimos serán los píxeles de las digitalizaciones de los documentos. La máquina va a aprender a unir estos píxeles con su transcripción correspondiente, y cuando lleguen nuevos píxeles, sabrá qué hacer con ellos en mayor o menor medida. Cuando adquirimos un coche, preguntamos cuántos caballos tiene el motor, que se define como la potencia necesaria para levantar setenta y cinco kilogramos a un metro de altura en un segundo, ahora tendríamos que preguntarnos cuántos filólogos tiene este o aquel modelo de Inteligencia Artificial, que podría ser el esfuerzo necesario para transcribir mil palabras con una calidad adecuada en una hora. La respuesta es que nuestros modelos funcionan a cientos o miles de filólogos de potencia, puesto que una vez entrenados y con los medios computacionales adecuados, la máquina puede realizar el trabajo en minutos con miles de documentos. Bien es cierto que, aunque transcribe de forma más rápida, comete por ahora más errores, lo que salva al filólogo; pero con un poco de tiempo puede que se produzca el sorpasso también en la calidad.

Como se puede apreciar, las áreas aquí presentadas son bastante técnicas: autoría, datación, transcripción… nos movemos en el terreno de la investigación más apegada a lo material, pero, ¿qué hacemos con el estudio puramente literario-filosófico? ¿También puede asistirnos la Inteligencia Artificial? Por ahora, no mucho. La Inteligencia Artificial todavía no llega a comprender las complejidades de los textos ni a presentar análisis adecuados. La inteligencia conversacional más famosa, por ejemplo, entrenada con miles de millones de datos, es considerada un loro estocástico, esto es, un bicho que escupe palabras por razones probabilísticas. Nos ofrece espejismos de respuestas que pueden ser casualmente certeras, pero pueden también no serlo. El mayor problema es que la máquina siempre responde, y responde con mucha rotundidad. Usar ChatGPT es como mantener una conversación con un hombre heterosexual: está muy seguro de todo lo que dice, pero enseguida descubres que se está inventando la mitad.

En definitiva, la Inteligencia Artificial domina los análisis matemáticos de ingentes cantidades de datos y parece buena para objetivos concretos y materiales, pero sigue dándose de bruces con un análisis razonado y profundo del objeto de estudio. Anton van Leeuwenhoek con su sistema novedoso de lentes abrió un nuevo camino para observar la realidad; la computación y, especialmente la Inteligencia Artificial, también viene a ofrecernos una nueva mirada cuyos efectos serán tan positivos o negativos como lo sean nuestras intenciones.

* Álvaro Cuéllar es investigador en la Universidad Autónoma de Barcelona​. Especialista en la aplicación de técnicas informáticas a la literatura, trabaja en diversas problemáticas que afectan singularmente al teatro del Siglo de Oro, como la autoría, la datación, la transcripción o la detección de copistas e imprentas. Es codirector del proyecto ETSO («Estilometría aplicada al Teatro del Siglo de Oro») y colabora con numerosos equipos de investigación en varios países, aportando una perspectiva digital a las cuestiones filológicas tradicionales.

Revista editada en Madrid por Teatrero del ITEM.
Registro Legal: M.17304-1980
ISSN(e): 3020-4062