OpenAI lucha por ocultar las razones de la eliminación de libros pirateados

OpenAI eliminó dos conjuntos de datos de libros pirateados antes del lanzamiento de ChatGPT.
Los autores alegan que la empresa oculta las verdaderas razones de la eliminación para evitar multas.
Un juez ha ordenado a OpenAI compartir comunicaciones internas y referencias a LibGen previamente ocultas.

La empresa OpenAI podría verse obligada a explicar por qué eliminó dos controvertidos conjuntos de datos compuestos por libros pirateados, y las implicaciones son significativas. La decisión de eliminar estos conjuntos de datos, en el centro de una demanda colectiva de autores que alegan que ChatGPT fue entrenado ilegalmente con sus obras, podría ser un factor decisivo que incline la balanza a favor de los demandantes.

La polémica eliminación de los conjuntos de datos 'Books 1' y 'Books 2'

Es indiscutible que OpenAI eliminó los conjuntos de datos conocidos como 'Books 1' y 'Books 2' antes del lanzamiento de ChatGPT en 2022. Creados por extrabajadores de OpenAI en 2021, estos conjuntos se construyeron rastreando la web abierta y obteniendo la mayor parte de sus datos de una biblioteca en la sombra llamada Library Genesis (LibGen). OpenAI afirma que los conjuntos de datos dejaron de usarse en el mismo año, lo que llevó a una decisión interna de eliminarlos. Sin embargo, los autores sospechan que hay más detrás de esta historia. Notaron que OpenAI pareció retractarse al negar que el "no uso" fuera una razón para la eliminación, para luego afirmar que todas las razones debían protegerse bajo el secreto profesional abogado-cliente. Para los autores, esto sugirió que OpenAI estaba retrocediendo rápidamente después de que el tribunal concediera las solicitudes de descubrimiento para revisar los mensajes internos de la empresa sobre el "no uso". De hecho, la reversión de OpenAI solo hizo que los autores estuvieran más ansiosos por ver cómo OpenAI discutió el "no uso", y ahora podrían descubrir todas las razones por las que OpenAI eliminó los conjuntos de datos.

El juez ordena la divulgación de comunicaciones internas

La semana pasada, la jueza de distrito de EE. UU., Ona Wang, ordenó a OpenAI compartir todas las comunicaciones con abogados internos sobre la eliminación de los conjuntos de datos, así como "todas las referencias internas a LibGen que OpenAI haya redactado o retenido bajo el privilegio abogado-cliente". Según Wang, OpenAI cometió un error al argumentar que el "no uso" no era una "razón" para eliminar los conjuntos de datos, mientras afirmaba simultáneamente que también debería considerarse una "razón" privilegiada. De cualquier manera, la jueza dictaminó que OpenAI no podía bloquear el descubrimiento sobre el "no uso" simplemente eliminando algunas palabras de presentaciones anteriores que habían estado en el expediente durante más de un año. "OpenAI ha ido y venido sobre si el 'no uso' como 'razón' para la eliminación de Books1 y Books2 está privilegiado en absoluto", escribió Wang. "OpenAI no puede declarar una 'razón' (lo que implica que no está privilegiada) y luego afirmar más tarde que la 'razón' está privilegiada para evitar el descubrimiento".

OpenAI se defiende y el riesgo de multas elevadas

Además, la afirmación de OpenAI de que todas las razones para eliminar los conjuntos de datos están privilegiadas "es difícil de creer", concluyó, ordenando a OpenAI que presente una amplia gama de mensajes internos potencialmente reveladores antes del 8 de diciembre. OpenAI también debe poner a disposición a sus abogados internos para una deposición antes del 19 de diciembre. OpenAI ha argumentado que nunca se retractó ni cambió de opinión, sino que simplemente utilizó una redacción vaga que generó confusión sobre si alguna de las razones para eliminar los conjuntos de datos se consideraba no privilegiada. Pero Wang no se creyó eso, concluyendo que "incluso si una 'razón' como el 'no uso' pudiera estar privilegiada, OpenAI ha renunciado al privilegio al hacer que sus afirmaciones de privilegio sean un objetivo móvil".

El precedente de la demanda y la posible influencia en el caso

Preguntada por un comentario, OpenAI declaró a Ars que "discrepamos con la sentencia y tenemos la intención de apelar". El "cambio de opinión" de OpenAI podría costarle la victoria. Hasta ahora, OpenAI ha evitado revelar su razonamiento, alegando que todas las razones que tenía para eliminar los conjuntos de datos están privilegiadas. Los abogados internos opinaron sobre la decisión de eliminar y fueron incluso copiados en un canal de Slack inicialmente llamado "excise-libgen". Pero Wang revisó esos mensajes de Slack y descubrió que "la gran mayoría de estas comunicaciones no estaban privilegiadas porque 'claramente carecían de cualquier solicitud de asesoramiento legal y el abogado no intervino ni una sola vez'". En un lote particularmente no privilegiado de mensajes, un abogado de OpenAI, Jason Kwon, solo intervino una vez, señaló la jueza, para recomendar que el nombre del canal se cambiara a "project-clear". Wang recordó a OpenAI que "la totalidad del canal de Slack y todos los mensajes contenidos en él no están privilegiados simplemente porque se creó por indicación de un abogado y/o por el hecho de que un abogado estuviera copiado en las comunicaciones".

Consecuencias legales y la estrategia de OpenAI

Los autores creen que exponer el razonamiento de OpenAI puede ayudar a demostrar que el creador de ChatGPT infringió deliberadamente los derechos de autor al piratear los datos de los libros. Como explicó Wang, la retractación de OpenAI corría el riesgo de poner en entredicho la "buena fe y el estado de ánimo" de la firma de IA, lo que podría aumentar las multas en caso de derrota. "En un caso de derechos de autor, un tribunal puede aumentar la concesión de daños legales hasta 150.000 dólares por obra infringida si la infracción fue intencionada, lo que significa que el demandado 'era realmente consciente de la actividad infractora' o que 'las acciones del demandado fueron el resultado de una desconsideración temeraria o una ceguera deliberada ante los derechos del titular de los derechos de autor'", escribió Wang. En una transcripción judicial, un abogado que representa a algunos de los autores que demandan a OpenAI, Christopher Young, señaló que OpenAI podría tener problemas si la evidencia mostraba que decidió no usar los conjuntos de datos para modelos posteriores debido a riesgos legales. También sugirió que OpenAI podría estar utilizando los conjuntos de datos bajo diferentes nombres para enmascarar una mayor infracción.