As máximas de Grice como heurísticas de design conversacional

Quando desenhei o protótipo conversacional da minha tese, uma interface de IA para apoiar pessoas com IBS, precisei de uma rubrica para avaliar se as respostas do agente eram boas. As checklists que andam por aí (tom, brevidade, clareza) são úteis mas vagas. Acabei a usar algo mais antigo e mais sólido: as Máximas de Grice.

H. P. Grice publicou-as em 1975, num ensaio sobre lógica e conversação. Não tinha AI em mente. Tinha em mente o que faz com que duas pessoas a conversar se entendam. As quatro máximas viraram referência em linguística, e funcionam como heurísticas de design conversacional, em particular em saúde.

O princípio cooperativo

Antes das máximas, Grice estabelece o princípio que as fundamenta: numa conversa, ambas as partes cooperam. Cada um contribui, no momento certo, com aquilo que serve o objetivo comum da troca.

É um princípio simples e radical. Implica que conversa não é só transmitir informação. É um esforço conjunto onde cada turno é avaliado por como ajuda o turno seguinte do outro.

Aplicado a chatbots: o agente não está a “responder a um prompt”. Está a participar numa conversa cooperativa onde o utilizador também tem de fazer a sua parte. Esta perspetiva muda o que se desenha.

As quatro máximas

Grice divide o princípio em quatro categorias:

1. Quantidade

Dá a quantidade certa de informação. Nem mais, nem menos.

Em chatbot de saúde, esta máxima é a que mais vezes vi falhada. Pergunta-se “ando com dores há dias, é IBS?” e o bot responde com três parágrafos sobre tipos de IBS, fatores de risco e quando consultar médico. É demais. O utilizador queria validação, contexto, próxima ação.

A versão certa é mais curta: “É possível, mas não dá para diagnosticar à distância. Que tipo de dor é? E há quanto tempo?”. Quantidade certa, com follow-up.

2. Qualidade

Sê verdadeiro. Não digas o que não tens evidência para suportar.

Esta é vital em saúde. O bot tem de saber o que sabe e o que não sabe. Se não há evidência para uma afirmação, dizer “não há evidência clara”. Se não tem certeza, dizer “não tenho certeza”.

A maior parte dos chatbots de IA generativa têm um problema sério aqui: alucinam com confiança. Inventam estudos, doses, marcas. Em saúde isto não é “às vezes errado”, é perigoso.

Há duas formas de mitigar:

Boundaries explícitas no prompt do agente: “se não tens informação suficiente, diz claramente”.
Source attribution: “isto vem da diretriz X de 2021”.

Cobre-se prompt design em mais detalhe em Prompt engineering como trabalho de design.

3. Relação

Sê relevante. Mantém o foco no tópico.

Parece óbvio até veres bots a responder a “quero ajustar a minha medicação” com sugestões de dieta low FODMAP. A informação até é relacionada com IBS, mas não é relacionada com a pergunta.

Para um agente em saúde, manter relação significa:

Reconhecer o tópico atual da conversa.
Não introduzir novos tópicos sem ser pedido.
Respeitar quando o utilizador muda de tópico (sem regressar ao anterior à força).

Em multi-agent setups, esta máxima vira critério de routing: que agente responde a esta query? Cobrir-se em Orquestração multi-agente para designers.

4. Maneira

Evita obscuridade e ambiguidade. Sê breve e ordenado.

Maneira é como dizes, não o que dizes. Em saúde, traduz-se em:

Linguagem simples em vez de jargão clínico (“cólicas” em vez de “espasmos do músculo liso intestinal”).
Frases curtas. O utilizador pode estar com dor, ansiedade, ou cansado.
Estrutura previsível. Se o bot dá uma sugestão, deve sempre ter o mesmo formato (sugestão + razão + próximo passo, por exemplo).
Sem ambiguidade temporal. “Toma o medicamento se sentires” é menos claro que “Toma o medicamento se sentires dor por mais de 30 minutos”.

Cruza-se com Linguagem inclusiva no design (linguagem clara é inclusiva).

Como usar como rubrica

Para avaliar uma resposta do agente, faço quatro perguntas:

Quantidade: a quantidade de informação serve a pergunta atual? Se foi simples, a resposta é proporcional?
Qualidade: o que está a ser afirmado é suportado? Há claras marcações de incerteza onde aplicável?
Relação: a resposta é sobre o que o utilizador perguntou? Não introduz novos tópicos não-solicitados?
Maneira: a linguagem é clara, sem jargão, com estrutura previsível?

Se uma resposta falha em qualquer uma das quatro, é candidata a refinamento de prompt.

Onde Grice falha (e o que vem depois)

Grice não cobre tudo. Em particular:

Tom emocional. Em saúde, há pesos emocionais que pedem mais do que ser preciso. Empatia, calma, presença. Grice é silente nisto.
Acessibilidade. As máximas assumem que ambos podem participar plenamente. Quem tem dislexia, baixa literacia, ou está em crise, pode não conseguir.
Cultura. O que é “quantidade certa” varia por cultura.

Por isso, uso Grice como base e adiciono camadas: tom-of-voice guidelines, accessibility checks, cultural sensitivity reviews. Mas sem Grice, o resto fica solto.

Mais sobre o pano de fundo em saúde no guia Design for Health. Sobre os modelos mentais que utilizadores aplicam a IA, ver Modelos mentais para Design com IA. Sobre como cantar respostas conversacionais com observabilidade, ver Observabilidade em agentic UX.