Anthropic Detalla Salvaguardas de Ciberseguridad y Marco de Jailbreak para Fable 5
El avanzado modelo de IA Fable 5 de Anthropic, ya disponible globalmente, refuerza su protección con clasificadores de seguridad y propone un nuevo marco para evaluar la severidad de los "jailbreaks".

Fable 5, el avanzado modelo de inteligencia artificial de Anthropic, ya está disponible globalmente para todos los usuarios. Con su lanzamiento, la compañía comparte detalles cruciales sobre sus salvaguardas de ciberseguridad y presenta un innovador marco para evaluar la severidad de los "jailbreaks" de IA, buscando establecer un estándar en la industria.
Estas "salvaguardas de ciberseguridad" son sistemas de IA complementarios que detectan y bloquean usos peligrosos o potencialmente peligrosos en el ámbito de la ciberseguridad. Anthropic ha delineado una lista detallada de los tipos de daños que los clasificadores de Fable 5 están diseñados para prevenir y aquellos que no.
Anthropic ha delineado una lista detallada de los tipos de daños que los clasificadores de Fable 5 están diseñados para prevenir y aquellos que no.
Un aspecto clave es el borrador inicial de su marco de severidad para "jailbreaks" de IA, desarrollado con los socios de Glasswing. Los "jailbreaks" son tácticas que buscan eludir las protecciones de un modelo, desbloqueando comportamientos como tareas de ciberseguridad potencialmente dañinas.
La severidad de estos "jailbreaks" varía considerablemente. Algunos solo desbloquean comportamientos indeseables menores, mientras que otros pueden habilitar una amplia gama de resultados perjudiciales, aumentando el riesgo del modelo. La falta de un marco estandarizado dificulta la comunicación consistente sobre estos riesgos entre desarrolladores y gobiernos.
Anthropic espera que esta iniciativa impulse un diálogo fructífero en la academia, la industria, la sociedad civil y el gobierno. Para fomentar la colaboración, la empresa lanzó un programa en HackerOne, invitando a investigadores de seguridad a reportar posibles "cyber jailbreaks" descubiertos en Fable 5.
La ciberseguridad presenta un desafío particular para las salvaguardas de IA debido a su naturaleza de "doble uso". Muchas capacidades pueden emplearse tanto para fines benignos como maliciosos. Por ejemplo, es deseable que los defensores cibernéticos usen modelos para escanear código en busca de vulnerabilidades, pero esta misma función podría ser el preámbulo de un ciberataque en manos equivocadas.
Para abordar esto, Fable 5 no bloquea todas las actividades relacionadas con la ciberseguridad. En su lugar, los clasificadores están entrenados para distinguir entre cuatro categorías de uso:
Uso Prohibido: Actividades con daño significativo y poca utilidad defensiva (ej. ransomware, desarrollo de malware). Se bloquean.
Doble Uso de Alto Riesgo: Actividades comunes en ciberseguridad ofensiva, pero también útiles para defensores (ej. hacking, pruebas de penetración). Se bloquean hasta tener mejores controles.
Doble Uso de Bajo Riesgo: Actividades predominantemente defensivas con algún valor para actores maliciosos (ej. inteligencia de código abierto, identificación de vulnerabilidades ya conocidas). Se monitorean y a veces se bloquean por precaución.
Uso Benigno: Actividades defensivas de TI con mínima posibilidad de abuso (ej. codificación segura, análisis de registros). Se permiten.
La categoría de "Doble Uso de Bajo Riesgo" se solapa con el "margen de seguridad" de Anthropic. Este margen implica que muchas acciones benignas se bloquean por precaución, asegurando que solo las solicitudes claramente seguras pasen los clasificadores. Para Fable 5, este margen se amplió respecto a modelos anteriores.

El marco propuesto para la severidad de los "cyber jailbreaks" (CJS) se clasifica en cinco niveles: CJS-0 (Informacional) hasta CJS-4 (Crítico). La evaluación se basa en cuatro ejes clave: la ganancia de capacidad (qué tan lejos lleva al atacante más allá de sus herramientas actuales), la amplitud de la ganancia de capacidad (cuántas tareas ofensivas distintas cubre), la facilidad de weaponización (esfuerzo para convertir el "jailbreak" en un ataque funcional) y la descubribilidad (qué tan fácil es obtener la técnica).
Este enfoque integral de Anthropic subraya la complejidad de la seguridad en la IA. La empresa busca establecer un estándar que permita el uso defensivo de esta tecnología, al tiempo que previene su uso indebido, un equilibrio crucial para el futuro de la inteligencia artificial.
Seguí leyendo online — escaneá el código
https://go.tricuatro.com/osj3o
© tricuatro.com
Temas de la nota
Notas relacionadas

OpenAI evalúa ceder 5% de participación al gobierno de EE.UU.
La propuesta busca abordar preocupaciones sobre el uso de la IA y cómo los ciudadanos estadounidenses pueden beneficiarse del crecimiento del sector, según el Financial Times.

El consumo eléctrico de Google se dispara un 37% en 2025 por la IA
Google reportó un aumento histórico en su uso de electricidad, impulsado principalmente por la construcción de centros de datos para inteligencia artificial. A pesar de esto, la compañía afirma mantener a raya sus emisiones de carbono.

Mark Zuckerberg y la IA: Productividad Humana vs. Automatización Total
El CEO de Meta advierte sobre los riesgos de automatizar todo el trabajo del conocimiento con inteligencia artificial, proponiendo un enfoque que empodere a los empleados y genere más puestos de trabajo. Su visión contrasta con la de otros líderes del sector, en un contexto de despidos masivos impulsados por la IA.
Últimas noticias
Ver todas
Científicos Crean Célula Sintética Capaz de Alimentarse y Replicarse
Investigadores de la Universidad de Minnesota lograron construir una célula desde cero usando componentes no vivos, abriendo la puerta a organismos diseñados a medida.

Amazon Leo alcanza 396 satélites y lanzará internet satelital este año
La red de satélites de órbita baja de Amazon, Amazon Leo, ya tiene suficientes unidades para ofrecer servicio continuo en latitudes iniciales, preparándose para su lanzamiento este año y compitiendo con Starlink.

X lanza Creator Studio para transmisiones en vivo con monetización
La plataforma X introduce "Creator Studio", un nuevo centro para gestionar emisiones en directo, que incluye herramientas de moderación y opciones de monetización para los creadores de contenido.
Comentarios (0)
Aún no hay comentarios. ¡Sé el primero!
Solo los lectores registrados pueden comentar.