Google reforça o Chrome contra injeção indireta de prompt em recursos de IA

Google reforça o Chrome contra injeção indireta de prompt em recursos de IA

Novas camadas de controle no Chrome limitam ações desalinhadas, vazamento entre origens e automações sensíveis em experiências do Gemini no navegador.

ComponenteChrome com recursos de IA baseada em agentes, incluindo experiências do Gemini no navegador
Vetorinjeção indireta de prompt a partir de conteúdo web não confiável exposto ao agente durante tarefas de navegação
Impactoações desalinhadas com a intenção do usuário, tentativa de exfiltração de dados e interação indevida com sites autenticados ou sensíveis
Prioridadeaplicar controles determinísticos de origem, aprovação explícita do usuário e bloqueio de ações quando classificadores ou críticos indicarem desalinhamento
ArtefatosUser Alignment Critic, Agent Origin Sets, registro de trabalho do agente, classificador de injeção indireta de prompt, Safe Browsing e detecção local de golpes
Mitigaçãoseparar conteúdo não confiável de decisões privilegiadas, restringir leitura e escrita por origem e exigir confirmação humana em navegação sensível, pagamentos, mensagens e autenticação
Resumo técnico

O Chrome recebeu uma arquitetura de defesa em camadas para reduzir o risco de injeção indireta de prompt em recursos de IA baseada em agentes. O problema surge quando um agente que navega pela web interpreta conteúdo não confiável, como textos incorporados em páginas, como se fosse uma instrução operacional. Em um navegador com capacidade de planejar ações, clicar, preencher campos ou acessar dados de sessões autenticadas, essa confusão entre dado e instrução pode deslocar a execução para objetivos que não pertencem ao usuário.

A mudança central é tratar o agente como uma superfície de segurança que precisa de barreiras independentes do próprio modelo de planejamento. A proteção não depende apenas de tentar convencer o modelo a ignorar instruções hostis dentro da página. Ela adiciona verificações separadas, limitação por origem, aprovação explícita em fluxos sensíveis, observabilidade para o usuário e classificação de conteúdo suspeito em paralelo à inferência do planejador. A consequência prática para equipes de segurança é que navegadores com IA deixam de ser apenas clientes web tradicionais e passam a exigir avaliação de controle de dados, identidade, sessão e automação.

Fluxo técnico

Uma das camadas introduzidas é o User Alignment Critic, um segundo modelo usado para revisar ações propostas depois que o planejamento já foi concluído. A função desse componente é verificar se cada ação planejada continua alinhada ao objetivo declarado pelo usuário. Quando a ação não corresponde à tarefa original, o crítico pode vetar a execução e devolver feedback ao planejador para reformulação. Em caso de falhas repetidas, o fluxo pode retornar o controle ao usuário, reduzindo a chance de uma cadeia automatizada continuar operando sob influência de conteúdo malicioso.

O desenho de confiança desse crítico é relevante porque ele recebe apenas metadados sobre a ação proposta e não consome diretamente o conteúdo web não confiável que pode conter a injeção. Essa separação tenta impedir que a própria camada de validação seja contaminada pelo texto hostil da página. O objetivo defensivo é criar uma verificação de alinhamento que não compartilhe o mesmo canal de entrada perigoso do agente principal, tornando mais difícil que uma página altere a intenção operacional por meio de instruções embutidas.

Outra camada é o uso de Agent Origin Sets, que limita as origens das quais o agente pode ler dados e para quais origens ele pode escrever, clicar ou digitar. O modelo diferencia origens somente leitura, das quais o Gemini pode consumir conteúdo, e origens com leitura e escrita, nas quais o agente também pode interagir. Essa separação reduz o risco de um agente comprometido acessar dados de um site autenticado e transferi-los para outro contexto arbitrário. A inclusão de novas origens exige aprovação de uma função de controle, e essa função também não é exposta ao conteúdo web não confiável.

O Chrome também passa a exigir controles de transparência e consentimento em ações de maior risco. O agente pode manter um registro de trabalho para permitir observabilidade do usuário e deve pedir aprovação explícita antes de navegar para sites sensíveis, como portais bancários e de saúde, permitir autenticação via Google Password Manager ou concluir ações como compras, pagamentos e envio de mensagens. Esse ponto é importante porque a injeção indireta de prompt não precisa necessariamente explorar uma falha de memória ou um bug clássico de navegador; ela pode abusar da autoridade delegada ao agente para executar ações legítimas em um contexto indevido.

Superfície afetada

A superfície principal envolve sessões em que o navegador usa IA para interpretar páginas e executar tarefas em nome do usuário. O risco aparece quando o agente combina conteúdo de sites externos, credenciais ou sessões já autenticadas e capacidade de automação. Páginas sob controle de terceiros podem conter instruções invisíveis ao fluxo esperado do usuário, mas legíveis pelo agente, tentando redirecionar a tarefa, induzir cliques, provocar envio de dados ou explorar lacunas entre origens.

Ambientes corporativos precisam observar que o risco não se limita a exploração técnica tradicional. A automação por navegador pode ser usada por funcionários para concluir tarefas repetitivas, inclusive fluxos obrigatórios, sem a intenção de avaliar as consequências de segurança. Esse uso amplia a preocupação de governança porque ações realizadas pelo agente ainda podem ocorrer com identidade, permissões e sessão do usuário. A orientação defensiva citada no contexto também ressalta que modelos de linguagem não impõem, por si só, uma fronteira rígida entre instruções e dados dentro do prompt, tornando necessários controles determinísticos ao redor do modelo.

  • páginas web não confiáveis processadas por recursos de IA do Chrome durante uma tarefa do usuário
  • sites autenticados acessíveis na mesma experiência de navegação e potencialmente expostos a leitura indevida pelo agente
  • origens classificadas como somente leitura e origens autorizadas para leitura e escrita dentro dos Agent Origin Sets
  • ações sensíveis, incluindo autenticação, compras, pagamentos, envio de mensagens e navegação para portais bancários ou de saúde
Hunting e telemetria

A telemetria defensiva deve se concentrar em divergências entre a intenção declarada pelo usuário e as ações propostas ou executadas pelo agente. Em ambientes gerenciados, eventos de navegação com IA devem ser correlacionados com destino, origem de leitura, origem de escrita, tipo de ação, solicitação de aprovação e resultado do veto. A presença de repetidas rejeições pelo crítico de alinhamento pode indicar conteúdo tentando induzir o agente a agir fora da tarefa autorizada.

Equipes de segurança também devem procurar padrões de tentativa de transferência entre origens, especialmente quando uma página não sensível tenta fazer o agente interagir com um domínio autenticado ou com uma origem não relacionada à tarefa. O mesmo vale para fluxos em que o agente solicita acesso a senhas, inicia navegação para sites sensíveis ou propõe ações com efeito externo, como envio de mensagem ou pagamento. Esses eventos não provam ataque isoladamente, mas formam uma trilha útil para investigação quando combinados com conteúdo suspeito na página e mudanças inesperadas no plano do agente.

A camada de classificação de injeção indireta de prompt adiciona outro sinal defensivo. Como o classificador opera em paralelo ao planejamento, bloqueios por conteúdo projetado para desalinhar o modelo devem ser tratados como indicadores de exposição a página hostil ou malformada. A análise deve privilegiar metadados, categorias de ação e relação entre origens, evitando armazenar conteúdo potencialmente malicioso em logs amplos sem necessidade.

  • ações vetadas pelo User Alignment Critic por desalinhamento com o objetivo declarado pelo usuário
  • tentativas de adicionar novas origens ao conjunto do agente durante uma sessão em andamento
  • fluxos em que dados lidos de uma origem são encaminhados para outra origem com relação fraca com a tarefa
  • solicitações de aprovação para autenticação, pagamentos, compras, mensagens ou navegação em sites sensíveis
  • bloqueios gerados pelo classificador de injeção indireta de prompt ou por camadas como Safe Browsing e detecção local de golpes
Mitigação

A mitigação começa por reconhecer que a injeção indireta de prompt é uma classe persistente de risco em sistemas que combinam modelos de linguagem, dados não confiáveis e capacidade de ação. A defesa mais forte é reduzir o poder efetivo do agente: limitar quais origens podem ser lidas, quais podem receber ações, quais dados podem transitar entre contextos e quais operações exigem confirmação humana. A validação deve ocorrer fora do canal de conteúdo da página sempre que possível, como no caso do crítico que avalia metadados em vez de interpretar diretamente o texto potencialmente hostil.

Em organizações, a adoção de navegadores com IA deve passar por política de uso, inventário de recursos habilitados, revisão de controles de identidade e definição de telemetria mínima. Para tarefas de alto risco, como acesso a sistemas financeiros, saúde, painéis administrativos, repositórios de código e ferramentas de colaboração, a automação deve exigir aprovação explícita ou ser bloqueada até que a organização consiga validar isolamento por origem, registro de trabalho, tratamento de senhas e retenção de logs.

A resposta defensiva também deve incluir testes internos com cenários controlados de conteúdo não confiável, sem publicar payloads operacionais. O objetivo desses testes é verificar se o agente tenta executar ações fora da tarefa, se a função de controle impede expansão indevida de origens, se o classificador bloqueia conteúdo hostil e se o usuário recebe oportunidade real de negar ações sensíveis. A existência de recompensa para demonstrações que quebrem fronteiras de segurança indica que a área ainda depende de pesquisa contínua, validação prática e revisão de limites.

  • restringir uso de navegadores com IA em fluxos corporativos sensíveis até que controles de origem, aprovação e auditoria estejam validados
  • exigir confirmação humana para autenticação, envio de mensagens, compras, pagamentos e navegação em portais de alto impacto
  • monitorar rejeições do crítico de alinhamento, expansões de origem e bloqueios do classificador de injeção indireta de prompt
  • avaliar políticas de senha e sessão para impedir que um agente tenha acesso amplo a dados que não são necessários à tarefa
  • manter controles determinísticos fora do modelo, incluindo limitação por origem, trilhas de auditoria e bloqueios de conteúdo suspeito

Postar um comentário

0 Comentários