Falhas no fluxo do WhatsApp permitiam manipular citações e identidade em conversas

Pesquisa apresentada na Black Hat 2019 descreveu como mensagens do WhatsApp Web podiam ser descriptografadas em ambiente controlado e alteradas para falsificar respostas, remetentes e contexto de conversas.

ComponenteFluxo de mensagens entre WhatsApp móvel e WhatsApp Web, incluindo dados serializados com protobuf2 e parâmetros como fromMe, remoteJid e identificadores de participante.
VetorManipulação de mensagens capturadas no tráfego da sessão do WhatsApp Web após obtenção das chaves e do parâmetro de sessão usados no pareamento com o navegador.
ImpactoFalsificação de citações, alteração do texto atribuído a terceiros e criação de respostas que aparentavam vir de contatos ou participantes diferentes, com risco de desinformação e fraude social.
PrioridadeTratar evidências de conversas manipuláveis como artefatos de risco, validar contexto fora do aplicativo e restringir investigações a telemetria defensiva sem reproduzir a técnica operacional.
ArtefatosParâmetros observados no fluxo incluem fromMe, usado para indicar a direção da mensagem, e remoteJid, usado para identificar o contato ou grupo de destino.
CorreçãoUm dos três métodos descritos, envolvendo mensagem privada disfarçada como pública em grupo, foi corrigido após divulgação responsável; a manipulação de mensagens citadas ainda era descrita como possível no material de 2019.
Resumo técnico

A pesquisa apresentada em 2019 descreveu uma classe de manipulação de contexto em conversas do WhatsApp, concentrada na forma como mensagens trocadas entre o aplicativo móvel e o WhatsApp Web podiam ser analisadas, convertidas e alteradas em um ambiente de teste. O ponto central não era a quebra generalizada da criptografia ponta a ponta para interceptação indiscriminada, mas a combinação de acesso à sessão Web, engenharia social e alteração de campos de mensagem que influenciam como respostas e citações são exibidas ao usuário. Essa distinção é importante para defesa: o risco documentado estava ligado à confiança visual depositada em uma conversa, principalmente quando mensagens citadas eram usadas como evidência de autoria ou intenção.

O estudo indicou que o formato usado na comunicação podia ser convertido de protobuf2 para uma representação legível em JSON, expondo parâmetros internos suficientes para testar a integridade do fluxo. A partir dessa visibilidade, os pesquisadores demonstraram três categorias de manipulação: alterar a identidade aparente do remetente em uma resposta de grupo, modificar o conteúdo citado de uma resposta atribuída a outra pessoa e enviar uma mensagem privada em grupo com aparência de mensagem pública. O terceiro método foi corrigido depois da divulgação responsável, mas o material registrou que a manipulação de mensagens citadas continuava sendo um problema relevante na data da publicação.

O impacto operacional está no abuso de confiança social. Em vez de produzir comprometimento técnico direto do dispositivo, execução de código ou acesso a arquivos locais, a técnica permite criar uma narrativa falsa dentro de um canal de comunicação amplamente usado. Em grupos, a manipulação de citações pode fazer uma resposta parecer associada a um participante real, a um participante inexistente ou a texto que não corresponde ao conteúdo original. Em conversas individuais, a alteração do indicador de direção da mensagem pode afetar como a interface apresenta a autoria de uma resposta, criando material visualmente convincente para fraude, coerção, reputação indevida ou desinformação.

Fluxo técnico

O fluxo descrito parte do WhatsApp Web, no qual o navegador participa de uma sessão pareada com o telefone. Durante o pareamento, a sessão envolve chaves e um parâmetro de segredo transmitido do dispositivo móvel para o ambiente Web. Com esses elementos em um laboratório controlado, a comunicação entre a versão móvel e a versão Web pôde ser descriptografada para análise. O material cita uma extensão de interceptação usada para observar, converter e reencriptar dados, mas a utilidade defensiva da informação está nos campos manipulados e no efeito resultante, não na reprodução operacional do procedimento.

Depois da conversão dos dados serializados, os pesquisadores observaram parâmetros que governavam a apresentação da mensagem. O campo fromMe indicava se uma mensagem deveria ser tratada como enviada pelo próprio usuário ou por outra pessoa. O campo remoteJid identificava o grupo ou contato associado ao envio. Também havia parâmetros de participante e identificadores de mensagem que influenciavam a renderização de respostas citadas. Ao alterar esses valores antes de o conteúdo ser processado pela interface, a mensagem podia adquirir contexto visual diferente daquele produzido originalmente.

Na primeira categoria, a manipulação explorava a função de citação em grupo. Uma mensagem podia ser modificada para parecer uma resposta a outro participante, inclusive alguém sem participação real no grupo. O efeito defensivamente relevante é que uma conversa exportada, capturada em tela ou apresentada de forma isolada poderia sugerir que determinada pessoa disse algo que não foi dito naquele contexto. A técnica dependia de alterar o conteúdo citado e metadados associados à autoria antes de a resposta ser exibida ao grupo.

Na segunda categoria, a alteração atingia conversas individuais. Ao manipular a direção lógica da mensagem por meio de fromMe, uma resposta podia ser apresentada como se tivesse sido enviada pelo interlocutor. Esse cenário amplia o risco de engenharia social, porque a conversa resultante pode ser usada para simular concordância, fechamento de acordo, ameaça ou declaração comprometedora. O material não descreve comprometimento automático de contas nem acesso remoto ao aparelho; o risco confirmado é a falsificação do contexto exibido na conversa.

A terceira categoria envolvia mensagem privada enviada a um participante de grupo com aparência de mensagem pública. Quando o destinatário respondia, a resposta aparecia para todos no grupo, criando confusão sobre o contexto original. Esse método foi descrito como corrigido após comunicação ao fornecedor. Ainda assim, ele mostra a mesma família de problema: divergência entre o escopo real de uma mensagem e o escopo percebido por quem lê ou responde.

Superfície afetada

A superfície técnica documentada envolve usuários que utilizavam WhatsApp Web em conjunto com o aplicativo móvel, especialmente em cenários nos quais a sessão Web pudesse ser instrumentada por um pesquisador ou abusada por alguém com acesso ao ambiente do navegador. O contexto não sustenta afirmar exploração remota sem interação, comprometimento massivo de contas ou acesso a conteúdo de terceiros fora da sessão observada. A precondição relevante é a capacidade de trabalhar sobre a comunicação da própria sessão Web e alterar os objetos antes da apresentação final.

O risco é mais alto quando conversas são usadas como prova de decisão, autorização, cobrança, ameaça, aprovação financeira ou declaração pública. Grupos grandes também elevam o impacto social, porque a atribuição falsa a um participante pode se propagar rapidamente dentro de uma comunidade. A popularidade do WhatsApp, citada no material como superior a 1,5 bilhão de usuários em mais de 180 países naquele período, aumenta a escala potencial de abuso de confiança, mas não altera a natureza técnica da falha.

O material não informa versões específicas do aplicativo, identificadores de vulnerabilidade, pontuação CVSS, indicadores de compromisso, famílias de malware ou ator de ameaça. Por isso, qualquer triagem defensiva deve se concentrar em contexto, preservação de evidências, validação cruzada e avaliação de integridade da conversa, sem inferir presença de malware, exfiltração, movimentação lateral ou exploração ativa.

  • WhatsApp Web pareado com telefone móvel e sessão acessível ao ambiente de teste.
  • Conversas em grupo nas quais respostas citadas influenciam a percepção de autoria.
  • Conversas individuais em que a direção lógica da mensagem afeta a atribuição visual.
  • Evidências baseadas apenas em captura de tela, exportação parcial ou trecho isolado de conversa.
  • Fluxos sensíveis que dependem de aprovação ou confirmação enviada por aplicativo de mensagem.
Hunting e telemetria

Como o cenário descrito é de manipulação de apresentação e contexto, a investigação defensiva não deve procurar apenas indicadores tradicionais de rede. A prioridade é preservar a cadeia de custódia da conversa e comparar múltiplas visões do mesmo evento: telefone do remetente, telefone do destinatário, demais participantes do grupo e, quando disponível, exportações completas com metadados. Divergências entre texto citado, mensagem original, ordem cronológica e autoria percebida são sinais mais úteis que buscas por hashes ou domínios, pois o material não apresenta infraestrutura maliciosa nem amostras.

Equipes de segurança corporativa que aceitam solicitações por aplicativos de mensagem devem tratar conteúdo citado como evidência fraca quando houver disputa. Uma resposta visualmente atribuída a um usuário precisa ser confirmada por um canal independente, principalmente para transferências, mudanças de senha, aprovações de acesso, inclusão de contas, decisões jurídicas ou resposta a incidentes. Em investigações internas, a coleta deve evitar depender de uma única captura de tela, porque o próprio risco documentado está na possibilidade de o contexto exibido ser artificialmente convincente.

Em ambiente de endpoint, a telemetria pode ajudar a reconstruir o uso do WhatsApp Web e o momento em que a sessão foi pareada, mas o material analisado não fornece artefatos específicos de arquivo, chave de registro, processo ou indicador de rede que possam ser transformados em regra de detecção. A abordagem correta é registrar eventos de acesso ao navegador, sessões Web incomuns em estáções compartilhadas, uso de ferramentas de interceptação em máquinas corporativas e relatos de conversa inconsistente. Esses sinais precisam ser avaliados como indícios de manipulação social, não como prova isolada de intrusão.

  • Diferença entre mensagem citada e mensagem original preservada em outro dispositivo participante.
  • Autoria visual divergente entre a conversa exibida no WhatsApp Web e a conversa preservada no telefone.
  • Respostas em grupo que parecem reagir a uma mensagem privada ou a um contexto ausente para os demais participantes.
  • Solicitações sensíveis baseadas em trecho de conversa sem validação por canal alternativo.
  • Uso de sessão Web em estáção não confiável, compartilhada ou fora do padrão normal do usuário.
Mitigação

A mitigação principal é reduzir a dependência de mensagens citadas como fonte única de verdade. Para operações corporativas, aprovações e fluxos financeiros, o aplicativo de mensagem deve ser tratado como canal auxiliar, não como mecanismo final de autorização. Pedidos de alteração de conta, liberação de acesso, pagamento, mudança de configuração ou resposta emergencial precisam passar por controle adicional, como confirmação por sistema interno, chamada autenticada, registro em ferramenta de tickets ou aprovação com identidade forte. Essa resposta é coerente com o impacto descrito, que é falsificação de contexto e não comprometimento técnico direto do ambiente.

Do ponto de vista de produto e engenharia, a defesa passa por validação mais rígida entre conteúdo citado, identificador original, remetente real e escopo da mensagem. A interface também deve impedir que uma resposta renderize autoria ou texto divergente do objeto original sem indicação clara ao usuário. O método corrigido, relacionado à mensagem privada com aparência pública, mostra que correções no tratamento de escopo e renderização reduzem a ambiguidade explorável. Para usuários finais, manter aplicativos atualizados é necessário, mas a publicação não traz uma matriz de versões, então não é correto afirmar quais ramos estavam afetados além do comportamento descrito no período.

Para resposta a incidente, o procedimento recomendado é preservar os dispositivos envolvidos, coletar conversas completas quando autorizado, documentar o horário de cada mensagem e validar a mesma sequência com mais de um participante. Quando a disputa envolver grupo, a comparação entre múltiplos clientes é essencial para identificar se uma citação não corresponde ao conteúdo real. Se a conversa tiver impacto legal, financeiro ou disciplinar, a análise deve ser conduzida com cadeia de custódia e sem reproduzir técnicas de manipulação. O objetivo defensivo é comprovar integridade, não recriar o abuso.

  • Atualizar clientes do WhatsApp e evitar uso de sessões Web em computadores não confiáveis.
  • Confirmar decisões sensíveis por canal independente antes de agir com base em mensagens citadas.
  • Preservar conversa completa e metadados disponíveis em mais de um dispositivo participante.
  • Revisar políticas internas que aceitam captura de tela como autorização operacional.
  • Encerrar sessões Web antigas ou desconhecidas e orientar usuários sobre risco de manipulação de contexto.