Inteligencia Artificial

Anthropic Detalla Salvaguardas de Ciberseguridad y Marco de Jailbreak para Fable 5

El avanzado modelo de IA Fable 5 de Anthropic, ya disponible globalmente, refuerza su protección con clasificadores de seguridad y propone un nuevo marco para evaluar la severidad de los "jailbreaks".

Redacción Tricuatro 4 julio, 2026 3 min de lectura Agreganos en

Anthropic Detalla Salvaguardas de Ciberseguridad y Marco de Jailbreak para Fable 5

Tamaño de texto

Fable 5, el avanzado modelo de inteligencia artificial de Anthropic, ya está disponible globalmente para todos los usuarios. Con su lanzamiento, la compañía comparte detalles cruciales sobre sus salvaguardas de ciberseguridad y presenta un innovador marco para evaluar la severidad de los "jailbreaks" de IA, buscando establecer un estándar en la industria.

Estas "salvaguardas de ciberseguridad" son sistemas de IA complementarios que detectan y bloquean usos peligrosos o potencialmente peligrosos en el ámbito de la ciberseguridad. Anthropic ha delineado una lista detallada de los tipos de daños que los clasificadores de Fable 5 están diseñados para prevenir y aquellos que no.

Anthropic ha delineado una lista detallada de los tipos de daños que los clasificadores de Fable 5 están diseñados para prevenir y aquellos que no.

Un aspecto clave es el borrador inicial de su marco de severidad para "jailbreaks" de IA, desarrollado con los socios de Glasswing. Los "jailbreaks" son tácticas que buscan eludir las protecciones de un modelo, desbloqueando comportamientos como tareas de ciberseguridad potencialmente dañinas.

La severidad de estos "jailbreaks" varía considerablemente. Algunos solo desbloquean comportamientos indeseables menores, mientras que otros pueden habilitar una amplia gama de resultados perjudiciales, aumentando el riesgo del modelo. La falta de un marco estandarizado dificulta la comunicación consistente sobre estos riesgos entre desarrolladores y gobiernos.

Anthropic espera que esta iniciativa impulse un diálogo fructífero en la academia, la industria, la sociedad civil y el gobierno. Para fomentar la colaboración, la empresa lanzó un programa en HackerOne, invitando a investigadores de seguridad a reportar posibles "cyber jailbreaks" descubiertos en Fable 5.

La ciberseguridad presenta un desafío particular para las salvaguardas de IA debido a su naturaleza de "doble uso". Muchas capacidades pueden emplearse tanto para fines benignos como maliciosos. Por ejemplo, es deseable que los defensores cibernéticos usen modelos para escanear código en busca de vulnerabilidades, pero esta misma función podría ser el preámbulo de un ciberataque en manos equivocadas.

Para abordar esto, Fable 5 no bloquea todas las actividades relacionadas con la ciberseguridad. En su lugar, los clasificadores están entrenados para distinguir entre cuatro categorías de uso:

Uso Prohibido: Actividades con daño significativo y poca utilidad defensiva (ej. ransomware, desarrollo de malware). Se bloquean.
Doble Uso de Alto Riesgo: Actividades comunes en ciberseguridad ofensiva, pero también útiles para defensores (ej. hacking, pruebas de penetración). Se bloquean hasta tener mejores controles.
Doble Uso de Bajo Riesgo: Actividades predominantemente defensivas con algún valor para actores maliciosos (ej. inteligencia de código abierto, identificación de vulnerabilidades ya conocidas). Se monitorean y a veces se bloquean por precaución.
Uso Benigno: Actividades defensivas de TI con mínima posibilidad de abuso (ej. codificación segura, análisis de registros). Se permiten.

La categoría de "Doble Uso de Bajo Riesgo" se solapa con el "margen de seguridad" de Anthropic. Este margen implica que muchas acciones benignas se bloquean por precaución, asegurando que solo las solicitudes claramente seguras pasen los clasificadores. Para Fable 5, este margen se amplió respecto a modelos anteriores.

El marco propuesto para la severidad de los "cyber jailbreaks" (CJS) se clasifica en cinco niveles: CJS-0 (Informacional) hasta CJS-4 (Crítico). La evaluación se basa en cuatro ejes clave: la ganancia de capacidad (qué tan lejos lleva al atacante más allá de sus herramientas actuales), la amplitud de la ganancia de capacidad (cuántas tareas ofensivas distintas cubre), la facilidad de weaponización (esfuerzo para convertir el "jailbreak" en un ataque funcional) y la descubribilidad (qué tan fácil es obtener la técnica).

Este enfoque integral de Anthropic subraya la complejidad de la seguridad en la IA. La empresa busca establecer un estándar que permita el uso defensivo de esta tecnología, al tiempo que previene su uso indebido, un equilibrio crucial para el futuro de la inteligencia artificial.

Temas de la nota

Ciberseguridad Inteligencia Artificial Anthropic Innovación Tecnológica

También disponible en: EN

Notas relacionadas

OpenAI evalúa ceder 5% de participación al gobierno de EE.UU.

La propuesta busca abordar preocupaciones sobre el uso de la IA y cómo los ciudadanos estadounidenses pueden beneficiarse del crecimiento del sector, según el Financial Times.

3 min de lectura

El consumo eléctrico de Google se dispara un 37% en 2025 por la IA

Google reportó un aumento histórico en su uso de electricidad, impulsado principalmente por la construcción de centros de datos para inteligencia artificial. A pesar de esto, la compañía afirma mantener a raya sus emisiones de carbono.

3 min de lectura

Mark Zuckerberg y la IA: Productividad Humana vs. Automatización Total

El CEO de Meta advierte sobre los riesgos de automatizar todo el trabajo del conocimiento con inteligencia artificial, proponiendo un enfoque que empodere a los empleados y genere más puestos de trabajo. Su visión contrasta con la de otros líderes del sector, en un contexto de despidos masivos impulsados por la IA.

4 min de lectura

Últimas noticias

Ver todas

Científicos Crean Célula Sintética Capaz de Alimentarse y Replicarse

Investigadores de la Universidad de Minnesota lograron construir una célula desde cero usando componentes no vivos, abriendo la puerta a organismos diseñados a medida.

4 min de lectura

Amazon Leo alcanza 396 satélites y lanzará internet satelital este año

La red de satélites de órbita baja de Amazon, Amazon Leo, ya tiene suficientes unidades para ofrecer servicio continuo en latitudes iniciales, preparándose para su lanzamiento este año y compitiendo con Starlink.

3 min de lectura

X lanza Creator Studio para transmisiones en vivo con monetización

La plataforma X introduce "Creator Studio", un nuevo centro para gestionar emisiones en directo, que incluye herramientas de moderación y opciones de monetización para los creadores de contenido.

3 min de lectura

Comentarios (0)

Aún no hay comentarios. ¡Sé el primero!

Solo los lectores registrados pueden comentar.

Iniciar sesión Registrarse

Temas de la nota

¿Te gustó este artículo?

Notas relacionadas

OpenAI evalúa ceder 5% de participación al gobierno de EE.UU.

El consumo eléctrico de Google se dispara un 37% en 2025 por la IA

Mark Zuckerberg y la IA: Productividad Humana vs. Automatización Total

Últimas noticias

Científicos Crean Célula Sintética Capaz de Alimentarse y Replicarse

Amazon Leo alcanza 396 satélites y lanzará internet satelital este año

X lanza Creator Studio para transmisiones en vivo con monetización

Comentarios (0)