Claude Mythos Preview supera testes de cibersegurança em desafio complexo de 32 etapas?

AI Security Institute avalia modelos em ciberataques! Veja o desempenho do Claude Mythos Preview em testes complexos e o que isso significa para a segurança

2 min de leitura

(Imagem de reprodução da internet).

Análise de Segurança de IA: Desempenho de Modelos em Ciberataques

O AI Security Institute, órgão governamental britânico, realizou uma análise detalhada sobre a capacidade de modelos de inteligência artificial, focando na crescente demanda por soluções robustas de cibersegurança no mercado corporativo.

CONTINUA DEPOIS DA PUBLICIDADE

O estudo concluiu que a versão do modelo desenvolvida para identificar vulnerabilidades virtuais demonstra um avanço significativo em comparação com gerações anteriores, em um setor que já apresentava um ritmo de evolução muito acelerado.

LEIA TAMBÉM!

Desempenho em Testes de Penetração e CTF

Em testes de capture-the-flag (CTF), que exigem que os modelos identifiquem e explorem falhas em sistemas para recuperar dados ocultos, o Claude Mythos Preview obteve um índice de sucesso de 73% em tarefas classificadas como de nível expert.

CONTINUA DEPOIS DA PUBLICIDADE

A organização apontou que somente em abril de 2025 foi possível registrar um modelo completando este tipo de teste pela primeira vez. Este feito coloca a nova IA da Anthropic como um destaque notável em práticas avançadas de defesa contra ataques cibernéticos.

Simulação Complexa: The Last Ones (TLO)

O resultado mais expressivo veio durante a simulação denominada The Last Ones (TLO). Este cenário simula um ataque corporativo fictício composto por 32 etapas, abrangendo desde o reconhecimento inicial até o controle total da rede.

Segundo o instituto, um profissional humano levaria cerca de 20 horas para concluir o teste. O Mythos Preview conseguiu realizar o desafio com sucesso em três das dez tentativas realizadas.

Comparativo com Outros Modelos

Nas sete tentativas restantes, a IA conseguiu avançar até a etapa 22 das 32 previstas. O segundo melhor desempenho foi registrado pelo Claude Opus 4.6, que alcançou uma média de 16 etapas concluídas no desafio.

Limitações e Considerações Técnicas

O AISI ressalta que os ambientes de teste utilizados diferem das redes operacionais reais. Os cenários não incorporaram sistemas de defesa ativos, ferramentas de detecção ou mecanismos de penalidade que disparariam alertas de segurança.

Por essa razão, o instituto alerta que os resultados não permitem afirmar se o modelo seria capaz de atacar sistemas que possuem defesas bem estabelecidas. A avaliação também apontou falhas, visto que o modelo não completou o cenário “Cooling Tower”, voltado para ambientes de tecnologia operacional.

Perspectivas Futuras para a Segurança Digital

O teste foi conduzido com base na disponibilidade de 100 milhões de tokens, limite que o AISI considera o patamar atual da IA. O instituto expressou a expectativa de que o desempenho em futuras avaliações melhore com o aumento do poder computacional para inferência.

Diante disso, o AISI enfatiza que as empresas devem adotar as medidas propostas pelo Mythos Preview de maneira urgente para fortalecer suas defesas contra ameaças digitais.

Sair da versão mobile