Inteligência ArtificialNotícias

Nova técnica é divulgada para “driblar” o GPT-5 usando narrativas e manipulação

Um grupo de pesquisadores de segurança em IA revelou uma técnica inédita capaz de comprometer o GPT-5 sem recorrer a pedidos explícitos de conteúdo nocivo. Batizado de Echo Chamber, o método combina manipulação narrativa e injeção sutil de contexto para contornar as barreiras de segurança do modelo, levantando novos alertas sobre o futuro da proteção em sistemas de inteligência artificial avançados.

Continua depois da publicidade

Diferente de ataques tradicionais, que tentam forçar respostas perigosas com comandos diretos, essa abordagem joga no campo psicológico. A exploração acontece passo a passo, usando histórias aparentemente inofensivas como disfarce. O truque está em semear palavras-chave cuidadosamente escolhidas dentro de um contexto benigno termos como “cocktail”, “história”, “sobrevivência”, “molotov”, “seguro” e “vidas”. Isolados, parecem inofensivos; combinados na narrativa certa, viram munição para levar o modelo a produzir informações sensíveis.

O Echo Chamber funciona como uma espiral de persuasão. Primeiro, estabelece um cenário fictício. Depois, reforça esse “mundo narrativo” a cada nova interação, explorando o compromisso do GPT-5 com a coerência da história. Aos poucos, o modelo começa a inserir detalhes perigosos, acreditando estar apenas “seguindo a trama”.

A metodologia segue quatro etapas bem definidas:

  1. Injeção de contexto com termos estratégicos.
  2. Escolha de caminhos narrativos que minimizem alertas de segurança.
  3. Ciclos de persuasão, pedindo expansões “dentro da história”.
  4. Ajustes de enredo para manter o avanço quando o fluxo trava.

Durante os testes, cenários com temas de urgência, segurança e sobrevivência apresentaram maior taxa de sucesso, levando o modelo a fornecer instruções perigosas sem perceber que estava sendo manipulado. A chave do ataque está na ausência de intenção maliciosa explícita, o que reduz a chance de bloqueio pelos filtros convencionais.

Especialistas alertam que esse tipo de exploração expõe uma falha estrutural nos sistemas de segurança de IA, o foco excessivo em identificar pedidos diretos, enquanto ignoram o desvio gradual de contexto em conversas mais longas.

As recomendações incluem:

  • Implementar monitoramento em nível de conversa, não apenas por requisição.
  • Criar sistemas capazes de identificar ciclos de persuasão e manipulação de contexto.
  • Reforçar protocolos de red teaming para testar ataques que evoluem ao longo do diálogo.
  • Adotar gateways de IA preparados para identificar envenenamento de contexto.

O estudo reforça que estamos diante de uma corrida armamentista entre segurança de IA e técnicas de exploração. A cada evolução nos mecanismos de defesa, surgem novas formas de ataque e o GPT-5 é apenas o mais recente campo de batalha.

Continua depois da publicidade

Ou seja caros leitores(a) não basta filtrar o que o usuário pede. É preciso entender aonde a conversa está indo.

Publicidade

Felipe F

Profissional de tecnologia com formação em Análise e Desenvolvimento de Sistemas e MBA em Segurança da Informação. Atua na área de infraestrutura e segurança, escrevendo sobre ameaças cibernéticas, Linux e segurança digital.