memoria-contextual-funciona
Quando alguém diz que um agente "lembra" do cliente, a maioria imagina uma IA mística que acumula tudo. Não é isso. Memória de agente é arquitetura — dois mecanismos distintos trabalhando juntos, cada um com função clara.
Os dois tipos de memória
Todo agente sério tem:
- Memória de curto prazo (janela de contexto). O histórico dos últimos N turnos da conversa atual, enviado direto pro modelo em cada chamada.
- Memória de longo prazo (fatos persistidos). Fatos específicos sobre o member salvos em banco, recuperados sob demanda em conversas futuras.
Confundir os dois é a principal causa de agente que "esquece" ou "inventa".
Memória de curto prazo (janela)
Todo modelo de linguagem tem um limite de contexto — gpt-4o-mini suporta 128k tokens, Claude Sonnet 200k. Parece muito, mas se você enfia o histórico bruto de uma conversa longa, o custo explode e a qualidade cai (o modelo perde atenção em contexto gigante).
No Member AI, a janela de curto prazo guarda os últimos 15 turnos brutos + um resumo dos 15 anteriores. A cada 30 turnos, o resumo é atualizado. Isso mantém o custo em níveis previsíveis sem o agente perder fio da conversa.
Memória de longo prazo (fatos)
Aqui mora a mágica que não é mágica. Toda conversa que termina, o agente roda um processo em background que extrai fatos estruturados sobre o member:
- "Carla é creator de educação financeira, foco em mulheres de 30-45";
- "Tem 12.300 seguidores no Instagram, 800 alunos na comunidade paga";
- "Bateu meta de Q1 2026 (40 novos clientes)";
- "Prefere responder em tom coloquial, sem formalismo";
- "Horário preferido pra call: terça/quinta, manhã".
Esses fatos ficam num banco relacional por hub, com tags. Quando o member volta, o agente não carrega todos no prompt — faz retrieval só dos relevantes pro contexto atual.
Como fazemos retrieval sem inflar prompt
A ingenuidade seria usar vector search com embeddings em tudo (técnica conhecida como RAG). Funciona, mas é caro e lento. A gente faz híbrido:
- Busca por tag no banco relacional — se a conversa mencionou "OKR" ou "planejamento", puxa fatos com tag "metas";
- Vector search só em fatos de texto aberto que não têm tag clara;
- Re-ranking por relevância temporal — fato recente pesa mais que fato antigo.
No fim, entram no prompt do turno no máximo 8-12 fatos relevantes. Custo baixo, qualidade alta.
O que o agente deve esquecer
Tão importante quanto lembrar é esquecer. A gente ativamente não guarda:
- Senhas, dados de cartão, CPF/CNPJ sensíveis (mesmo que o member mande);
- Fatos contraditórios — quando um fato novo contradiz um antigo, o antigo é marcado como superseded;
- Fatos com mais de 18 meses sem uso, que são arquivados (recuperáveis, mas fora do retrieval default).
Controle do member sobre a memória
Princípio que a gente segue: o member dono do dado. No painel do hub, o creator ativa um comando no agente — o member pode dizer "o que você lembra sobre mim?" e o agente mostra a lista de fatos persistidos. Pode pedir pra esquecer qualquer item: o fato é apagado em tempo real.
Memória sem controle é vigilância. Memória com controle é relação. A gente faz questão de que o member saiba que é relação.
Veja memória contextual rodando
14 dias grátis. Configure um agente, mande 3 conversas diferentes — na quarta você vê o agente puxar contexto.
Testar agora
Veja o post completo em memberai.pro/blog/memoria-contextual-funciona.
Saiba mais: planos e preços · sobre a Member AI · cases reais · blog completo.