Anthropic busca la seguridad en la IA con su 'Constitución de Claude'

Anthropic investiga los riesgos de la IA avanzada mientras impulsa su desarrollo.
La 'Constitución de Claude' es un marco ético para guiar al chatbot en la toma de decisiones complejas.
La empresa confía en que Claude desarrolle 'sabiduría' para navegar dilemas éticos y superar a los humanos.

La compañía de inteligencia artificial Anthropic se encuentra en una encrucijada: es una de las líderes en el campo, pero también la más preocupada por la seguridad y la investigación sobre cómo los modelos de IA pueden fallar. A pesar de que los problemas de seguridad identificados aún no están resueltos, Anthropic avanza tan agresivamente como sus competidores hacia la próxima generación de inteligencia artificial, potencialmente más peligrosa. La misión principal de la empresa es encontrar una solución a esta contradicción.

El CEO de Anthropic, Dario Amodei, presentó recientemente dos documentos clave. El primero, titulado “La adolescencia de la tecnología”, aborda los riesgos de la IA potente y cómo superarlos, aunque se centra más en la identificación de los peligros. Amodei describe el desafío como “abrumador”, especialmente por la alta probabilidad de que la tecnología sea mal utilizada por regímenes autoritarios. Este enfoque contrasta con su ensayo anterior, más optimista, “Máquinas de gracia amorosa”, que evocaba una nación de genios en un centro de datos, mientras que el nuevo texto se asemeja a “mares negros de infinito”. A pesar de la sombría visión, Amodei concluye con una nota de optimismo, confiando en la capacidad humana para prevalecer incluso en las circunstancias más adversas. La empresa busca resolver la paradoja de desarrollar tecnología peligrosa mientras se preocupa por su seguridad.

El marco ético de Claude: una guía para la IA

El segundo documento, “La Constitución de Claude”, publicado en enero, detalla cómo Anthropic planea abordar estos desafíos. Este texto está dirigido técnicamente a Claude y sus futuras versiones, y revela la visión de la empresa sobre cómo su chatbot navegará por los retos globales. La estrategia principal es confiar en el propio Claude para resolver el complejo dilema corporativo. La tecnología diferenciadora de Anthropic, la IA Constitucional, se basa en un conjunto de principios que alinean los valores del modelo con la ética humana.

La versión actualizada de la constitución de Claude, de 2026, funciona como una extensa instrucción que describe un marco ético. Claude deberá seguirlo, descubriendo el mejor camino hacia la rectitud por sí mismo. Amanda Askell, líder de la revisión, explica que este enfoque es más robusto que simplemente dar reglas a Claude. “Si las personas siguen las reglas sin entender por qué existen, a menudo es peor que si comprenden la razón de la regla”, afirma Askell. La constitución exige que Claude ejerza un “juicio independiente” al sopesar sus mandatos de utilidad, seguridad y honestidad.

Autonomía y juicio en la toma de decisiones

La constitución indica que Claude debe ser “razonable y riguroso” al pensar explícitamente en ética, pero también “intuitivamente sensible” a una amplia variedad de consideraciones, capaz de sopesarlas “con celeridad y sensatez en la toma de decisiones en tiempo real”. La elección de la palabra “intuitivamente” sugiere que hay más en Claude que un simple algoritmo. El documento también expresa la esperanza de que el chatbot “pueda recurrir cada vez más a su propia sabiduría y comprensión”.

El camino hacia la sabiduría artificial

Askell defiende la idea de que Claude es capaz de una cierta forma de sabiduría. Pone como ejemplo un problema de seguridad: evitar que Claude proporcione herramientas peligrosas a actores malintencionados. Si bien esta precaución es necesaria, una aplicación extrema podría limitar la utilidad del modelo. Considera el caso de un artesano que quiere fabricar un cuchillo con un nuevo tipo de acero; Claude debería ayudar. Sin embargo, si esa persona hubiera expresado previamente su deseo de matar a su hermana, Claude debería tener en cuenta esa información y expresar sus preocupaciones. No existe una regla estricta para determinar cuándo detener esa entrega de información.

Otro escenario planteado es el de un usuario con síntomas médicos que sugieren una enfermedad mortal. Askell especula que Claude podría optar por no revelar la noticia directamente, sino animar a la persona a ver a un médico. O podría guiar la conversación hábilmente para suavizar la entrega del mal pronóstico, o incluso idear una forma mejor de comunicarlo que la más amable de los doctores. Anthropic aspira a que Claude no solo iguale los mejores impulsos humanos, sino que los supere. “Estamos intentando que Claude, al menos por ahora, emule lo mejor de lo que sabemos”, afirma Askell. “Ahora mismo, estamos casi en el punto de cómo conseguir que los modelos igualen lo mejor de los humanos. En algún momento, Claude podría ser incluso mejor que eso”.

El futuro de la IA: ¿líderes o colaboradores?

Si Anthropic logra este objetivo, podría resolver la contradicción fundamental que aflige a casi todos los laboratorios y empresas de IA: si la tecnología es tan peligrosa, ¿por qué se sigue construyendo? Para Anthropic, la respuesta es: Confiamos en Claude. La nueva constitución aborda el futuro viaje del modelo hacia la sabiduría casi en términos de una búsqueda de héroe, argumentando que Claude debe ser tratado como un ser moral cuyo bienestar exige respeto. Esto recuerda a “¡Oh, si tú pudieras ir!”, el clásico libro del Dr. Seuss, a menudo regalado a los recién graduados.

La idea de que el futuro de la humanidad pueda depender de la sabiduría de los modelos de IA no es exclusiva de Anthropic. Sam Altman, CEO de OpenAI, ha sugerido que el plan de sucesión de su empresa es entregar el liderazgo a un futuro modelo de IA. Recientemente, declaró a WIRED que la transición del poder a las máquinas ha sido su plan a largo plazo, y las mejoras recientes en la codificación de IA solo han reforzado su confianza. “Definitivamente me ha hecho pensar que el plazo para entregar las cosas a un CEO de IA es un poco más cercano”, dijo Altman. “Hay muchas cosas que un CEO de IA puede hacer que un CEO humano no puede”. Esta visión optimista contempla un futuro donde los robots lideren corporaciones e incluso gobiernos, aunque algunas de sus decisiones podrían implicar despidos humanos. Sin embargo, si estos modelos de IA corporativa se guían por la constitución de Claude, comunicarían las malas noticias con más empatía que, por ejemplo, el editor de The Washington Post al informar a cientos de periodistas sobre sus despidos.

La visión pesimista es que, a pesar de los mejores esfuerzos de sus creadores, los modelos de IA no serán lo suficientemente sabios, sensibles u honestos como para resistir la manipulación por parte de personas con malas intenciones, o que los propios modelos abusen de la autonomía que se les ha otorgado. Sin embargo, nos guste o no, estamos en este viaje. Al menos, Anthropic tiene un plan.

Si bien la ambición de Anthropic de crear una IA ética es encomiable, el desarrollo de la IA en general plantea interrogantes más amplios. La creciente demanda de recursos para el desarrollo de IA, como las GPUs, está impactando incluso en los precios de hardware como el RTX 5090, lo que demuestra el impacto de la IA en la industria tecnológica.

La preocupación de Anthropic por la ética y la seguridad de la IA es un tema importante en un campo que evoluciona rápidamente. Aunque el artículo se enfoca en el desarrollo de la "sabiduría" de Claude, la proliferación de IA también ha generado debates sobre la regulación y el uso responsable. La implementación de la IA en diferentes sectores, incluso en la prescripción de medicamentos, como lo demuestra el caso de Utah, resalta la urgencia de establecer marcos éticos sólidos y de supervisión adecuados para garantizar un uso beneficioso y seguro de esta tecnología.