No tenemos que imaginar un mundo donde los deepfakes puedan imitar de manera tan creíble las voces de los políticos que puedan usarse para provocar escándalos que podrían influir en las elecciones. Si bien tenemos motivos para creer que el futuro puede ser seguro, nos preocupa que el pasado no lo sea. La historia puede ser una herramienta poderosa para la manipulación y la malversación. La misma IA generativa que puede falsificar eventos actuales también puede falsificar acontecimientos pasados. Si bien el contenido nuevo puede protegerse a través de sistemas integrados, existe un mundo de contenido que no tiene marca de agua, lo que se logra agregando información imperceptible a un archivo digital para que se pueda rastrear su procedencia. Una vez que las marcas de agua en el momento de la creación se generalicen y la gente se adapte a desconfiar del contenido que no tiene marcas de agua, entonces todo lo producido antes de ese momento podrá ser cuestionado mucho más fácilmente. Y esto creará un tesoro de oportunidades para respaldar afirmaciones falsas con documentos generados. Si bien todas estas técnicas se han utilizado antes, contrarrestarlas es mucho más difícil cuando el costo de crear falsificaciones casi perfectas se ha reducido radicalmente.
Este pronóstico se basa en la historia. Hay muchos ejemplos de cómo los poderes económicos y políticos manipularon el registro histórico para sus propios fines. Los documentos falsos son una parte clave de muchos esfuerzos por reescribir el registro histórico. Las perspectivas de que los actores políticos utilicen la IA generativa para remodelar efectivamente la historia son aterradoras. Afortunadamente, las mismas empresas que crearon el riesgo han trazado un camino a seguir. Al indexar una gran parte de los medios digitales del mundo para entrenar sus modelos, las empresas de IA han creado efectivamente sistemas y bases de datos que pronto contendrán todo el contenido grabado digitalmente de la humanidad o al menos una aproximación significativa del mismo. Podrían empezar a trabajar hoy para registrar versiones con marcas de agua de estos documentos primarios, que incluyen archivos de periódicos y una amplia gama de otras fuentes, de modo que las falsificaciones posteriores sean detectables instantáneamente.
Este trabajo enfrenta algunas barreras. El esfuerzo de las bibliotecas digitales de Google para escanear millones de libros de bibliotecas del mundo y hacerlos fácilmente accesibles en línea topó con límites de propiedad intelectual, haciendo que el archivo histórico fuera inviable para su propósito de hacer que estos textos puedan ser buscados por cualquier persona con una conexión a internet. Esas mismas preocupaciones sobre la propiedad intelectual están haciendo que los creadores y las empresas se preocupen tanto por los datos de entrenamiento proporcionados a la IA generativa como por sus implicaciones cuando se utilizan para generar contenido.
Dada esta cargada historia, incluida la inversión fallida de Google en su proyecto de bibliotecas digitales, ¿quién dará un paso adelante y pagará por un esfuerzo masivo similar que crearía versiones inmutables de datos históricos? Tanto el gobierno como la industria tienen fuertes incentivos para hacerlo, y muchas de las preocupaciones de propiedad intelectual en torno a la provisión de un archivo en línea con capacidad de búsqueda no se aplican a la creación de versiones de documentos con marcas de agua y de tiempo, porque esas versiones no necesitan estar disponibles públicamente para servir a sus necesidades. Además de crear un bien público importante y proteger a los ciudadanos de los peligros que plantea la manipulación de narrativas históricas, la creación de registros verificados de documentos históricos puede resultar valiosa para las grandes empresas de inteligencia artificial. Una nueva investigación sugiere que cuando los modelos de IA se entrenan con datos generados por IA, su rendimiento se degrada rápidamente. Por lo tanto, puede ser fundamental separar lo que en realidad es parte del registro histórico de los “hechos” recién creados.
Preservar el pasado también significará preservar los datos de entrenamiento, las herramientas asociadas que operan en ellos e incluso el entorno en el que se ejecutaron las herramientas. Vint Cerf, uno de los pioneros de internet, ha llamado a este tipo de registro «vitela digital».
Esta vitela será una herramienta poderosa. Los gigantes tecnológicos ya están realizando esfuerzos similares para registrar el nuevo contenido que crean sus modelos, en parte porque necesitan entrenar sus modelos con texto generado por humanos y los datos producidos después de la adopción de grandes modelos de lenguaje pueden estar contaminados con el contenido generado.
Ha llegado el momento de extender este esfuerzo también hacia atrás en el tiempo, antes de que nuestra política también quede gravemente distorsionada por la historia generada.
Jacob N. Shapiro y Chris Mattmann son columnistas de The New York Times.