Evaluations & Observability - Measure What Matters

Avaliações e observabilidade – Meça o que importa

Chegamos ao último dia da Semana de Lançamento. Nos últimos quatro dias, fornecemos a você as ferramentas para criar agentes de IA de nível de produção:

Dia 1: Grupos de ferramentas para eliminar a poluição de contexto
Dia 2: Ferramentas personalizadas para precisão cirúrgica
Dia 3: Otimização de tokens para maximizar a eficiência
Dia 4: Integrações empresariais para quebrar silos

Hoje, abordaremos uma das principais solicitações que temos recebido dos clientes: como saber se seu agente está funcionando conforme o esperado?

Estamos lançando: Estrutura de Avaliações e Painel de Observabilidade.

O desafio: visibilidade do comportamento do agente

Você criou um agente de comércio eletrônico. Você definiu o escopo das ferramentas certas. Você otimizou o uso de tokens. Agora você precisa de visibilidade na produção:

Quais ferramentas estão realmente sendo chamadas?
As ferramentas estão sendo usadas corretamente?
Onde os agentes estão falhando?
Qual é o seu uso e custo reais?
Como as novas configurações das ferramentas afetam as taxas de sucesso?

Sem visibilidade, você está voando às cegas. Não é possível otimizar o que não pode ser medido.

Isso é especialmente crítico quando você trabalha com grupos de ferramentas. Ao mudar de grupos=comércio eletrônico para uma seleção personalizada de ferramentas, você acidentalmente interrompeu um fluxo de trabalho crítico? Você não saberá até que um cliente reclame.

A solução: visibilidade em duas camadas

Criamos uma pilha de visibilidade completa com dois sistemas complementares:

1. Estrutura de avaliações MCP (desenvolvimento e testes)

Estrutura de testes automatizados com tecnologia mcpjam que valida o comportamento do agente antes da produção

2. Painel de observabilidade (monitoramento de produção)

Painel de análise de uso em tempo real no Painel de Controle da Bright Data que rastreia todas as chamadas de API em produção

Vamos nos aprofundar em cada camada.

Camada 1: Estrutura de Avaliações MCP

O que é o mcpjam?

O mcpjam é a CLI de avaliação oficial para servidores Model Context Protocol. Pense nisso como um “teste de integração para agentes de IA”.

Você escreve casos de teste como consultas em linguagem natural, especifica quais ferramentas devem ser chamadas e o mcpjam executa seu agente automaticamente através do fluxo de trabalho.

Como usamos

Criamos um conjunto abrangente de avaliações para cada grupo de ferramentas que lançamos no primeiro dia. Ao configurar uma nova seleção de ferramentas, você pode executar essas avaliações para verificar se tudo funciona antes da implantação.

Estrutura do projeto

mcp-evals/
├── server-configs/           # Configurações de conexão do servidor por grupo de ferramentas
│   ├── server-config.ecommerce.json
│   ├── server-config.social.json
│   ├── server-config.business.json
│   ├── server-config.browser.json
│   └── ...
├── tool-groups.json/         # Casos de teste por grupo de ferramentas
│   ├── tool-groups.ecommerce.json
│   ├── tool-groups.social.json
│   ├── tool-groups.business.json
├── tool-groups.browser.json
└── ...
└── llms.json                 # Chaves API do provedor LLM

Cada grupo de ferramentas recebe seu próprio conjunto de testes com consultas reais que os agentes devem ser capazes de lidar.

Exemplo: Avaliação de comércio eletrônico

De mcp-avaliações/grupos-de-ferramentas.json/grupos-de-ferramentas.comércio-eletrônico.json:

{
  "title": "Teste de comércio eletrônico - Pesquisa de produtos na Amazon",
  "query": "Pesquise fones de ouvido sem fio na Amazon e mostre-me os principais produtos com avaliações",
  "runs": 1,
  "model": "gpt-5.1-2025-11-13",
  "provider": "openai",
  "expectedToolCalls": ["web_data_amazon_product_search"],
  "selectedServers": ["ecommerce-server"],
  "advancedConfig": {
    "instructions": "Você é um assistente de compras que ajuda os usuários a encontrar produtos na Amazon",
    "temperature": 0.1,
    "maxSteps": 5,
    "toolChoice": "required"
  }
}

Este teste valida que:

O agente interpreta corretamente a consulta do usuário
Ele chama a ferramenta certa (web_data_amazon_product_search)
Ele passa os parâmetros apropriados (palavra-chave do produto, URL da Amazon)
Ele é concluído dentro do tempo limite configurado
Ele retorna uma resposta coerente

Executando avaliações: início rápido

Instale o mcpjam:

npm install -g @mcpjam/cli

Executar testes do grupo de ferramentas de comércio eletrônico:

mcpjam evals run 
  -t mcp-evals/tool-groups.json/tool-groups.ecommerce.json 
  -e mcp-evals/server-configs/server-config.ecommerce.json 
  -l mcp-evals/llms.json

Resultado esperado:

Executando testes
Conectado a 1 servidor: ecommerce-server
Encontradas 13 ferramentas no total
Executando 2 testes

Teste 1: Teste de comércio eletrônico - Pesquisa de produtos na Amazon
Usando openai:gpt-5.1-2025-11-13

executar 1/1
usuário: Pesquise fones de ouvido sem fio na Amazon e mostre-me os principais produtos com avaliações
[tool-call] web_data_amazon_product_search
{
  "keyword": "fones de ouvido sem fio",
  "url": "https://www.amazon.com"
}
[tool-result] web_data_amazon_product_search
{
  "content": [...]
}
assistente: Aqui estão alguns dos melhores fones de ouvido sem fio atualmente na Amazon...

Esperado: [web_data_amazon_product_search]
Real:   [web_data_amazon_product_search]
APROVADO (23,8 s)
Tokens • entrada 20923 • saída 1363 • total 22286

O que é testado

Criamos conjuntos de avaliação para todos os 8 grupos de ferramentas desde o primeiro dia:

Grupo de ferramentas	Cobertura do teste	Exemplos de consultas
Comércio eletrônico	Pesquisas de produtos na Amazon, Walmart e Best Buy	“Comparar preços do iPhone 15 em diferentes varejistas”
redes sociais	Conteúdo do TikTok, publicações no Instagram, tendências no Twitter	“Encontre vídeos populares no TikTok sobre IA”
negócios	Perfis do LinkedIn, dados de financiamento do Crunchbase, localizações do Google Maps	“Encontre o perfil do CEO da Microsoft no LinkedIn”
Pesquisa	Repositórios GitHub, notícias da Reuters, fontes acadêmicas	“Encontre repositórios Python para Scraping de dados com mais de 1 mil estrelas”
finanças	Dados de ações, tendências de mercado, notícias financeiras	“Obtenha o preço mais recente das ações da NVIDIA”
app_stores	Avaliações e classificações da App Store do iOS e Google Play	“Encontre os aplicativos de meditação mais bem avaliados no iOS”
navegador	Navegador de scraping Fluxos de trabalho de automação do navegador	“Navegue até a Amazon e adicione um item ao carrinho”
advanced_scraping	Operações em lote, scraping personalizado	“Raspagem de dados de produtos de um site personalizado”

Cada conjunto de testes contém de 2 a 5 casos de teste principais que abrangem os fluxos de trabalho mais comuns do agente para esse domínio.

Por que isso é importante

As avaliações oferecem:

Teste de regressão: execute avaliações após cada alteração de configuração para garantir que você não interrompeu os fluxos de trabalho existentes
Benchmarking de desempenho: acompanhe o uso de tokens e a latência em diferentes modelos LLM
Validação de ferramentas: verifique se a lógica de seleção de ferramentas está funcionando corretamente
Documentação: os casos de teste servem como exemplos executáveis do que seu agente pode fazer

Antes dos grupos de ferramentas do Day 1, não tínhamos uma maneira sistemática de testar se a mudança de groups=ecommerce para groups=ecommerce,social prejudicaria o comportamento do agente. Agora temos.

Camada 2: Painel de observabilidade

Monitoramento da produção em tempo real

Enquanto as avaliações lidam com os testes pré-implantação, o Painel de observabilidade oferece visibilidade em tempo real do uso da produção.

Integramos um novo painel de uso do MCP ao Painel de Controle da Bright Data, que rastreia todas as chamadas de API feitas através do seu servidor MCP.

O que você vê

O painel exibe uma tabela de uso abrangente com:

Data	Ferramenta	Nome do cliente	URL	Status
26/11/2025 14:32:15	web_data_amazon_product	my-ecommerce-agent	https://amazon.com/…	Sucesso
26/11/2025 14:31:52	search_engine	meu-bot-de-pesquisa	N/A	Sucesso
26/11/2025 14:30:18	dados_web_perfil_pessoa_linkedin	agente-de-geração-de-leads	https://linkedin.com/in/…	Sucesso
26/11/2025 14:29:03	navegação_navegador_scraping	agente de automação	https://example.com	Falha

Principais métricas

1. Detalhamento do uso de ferramentas

Veja quais ferramentas estão sendo chamadas com mais frequência:

web_data_amazon_product: 1.243 chamadas
search_engine: 892 chamadas
web_data_linkedin_person_profile: 634 chamadas
scrape_as_markdown: 421 chamadas

Isso indica quais Conjuntos de dados são mais valiosos para seus agentes. Se você estiver pagando por grupos de ferramentas não utilizados, poderá ver isso aqui.

2. Identificação do cliente

Cada instância de agente pode ser marcada com um nome de cliente (por meio do parâmetro client_name na URL de conexão):

npx -y @brightdata/mcp

O painel agrupa o uso por cliente, para que você possa acompanhar os custos por agente/fluxo de trabalho.

3. Taxas de sucesso x taxas de falha

Monitore a confiabilidade do agente:

Total de solicitações:     3.190
Bem-sucedidas:         3.102 (97,2%)
Falhas:                88 (2,8%)

Clique nas solicitações com falha para ver os detalhes do erro e depurar os problemas.

4. Rastreamento de URL

Para ferramentas de Conjuntos de dados, o painel mostra quais URLs/recursos foram acessados. Isso ajuda você a:

Identificar problemas de limitação de taxa (muitas solicitações para o mesmo domínio)
Rastrear quais produtos/perfis/páginas específicos estão sendo coletados
Auditar a conformidade (garantir que os agentes não estejam acessando sites restritos)

Como acessar

Faça login no Painel de Controle da Bright Data
Navegue até Uso do MCP (nova seção na barra lateral)
Visualize os dados de uso em tempo real de todas as suas conexões MCP

Filtros:

Intervalo de datas (últimas 24 horas, 7 dias, 30 dias, personalizado)
Nome da ferramenta (filtre por ferramentas específicas)
Nome do cliente (filtrar por instância do agente)
Status (sucesso/falha)

Exportar:

Baixe os dados de uso como CSV para análise mais aprofundada ou integração com ferramentas de BI.

Fluxo de trabalho combinado: Desenvolvimento → Produção

Veja como os dois sistemas funcionam juntos:

Fase 1: Desenvolvimento (pré-implantação)

Configure grupos de ferramentas usando o recurso do Dia 1pnx -y @brightdata/mcp
Execute avaliações para validara seleção de ferramentasmcpjam evals run -t mcp-evals/tool-groups.json/tool-groups.ecommerce.json -e mcp-evals/server-configs/server-config.ecommerce.json -l mcp-evals/llms.json
Revisar resultados: garantir que todos os testes sejam aprovados
- O uso de tokens está dentro do orçamento
- As ferramentas corretas estão sendo chamadas
- As respostas são precisas
Iterar: se os testes falharem, ajuste a seleção de ferramentas ou as solicitações do sistema

Fase 2: Produção (pós-implantação)

Implante o agente coma marcação do nome do cliente npx -y @brightdata/mcp
Painel de monitoramento: verifique o uso em tempo real
- As taxas de sucesso são consistentes com os resultados da avaliação?
- Ferramentas inesperadas estão sendo chamadas?
- Há algum problema de limitação de taxa ou autenticação?
Analise as tendências: ao longo do tempo, procure por:
- Picos de uso (necessidade de escalonamento?)
- Mudanças no padrão de falhas (degradação da ferramenta?)
- Anomalias de custo (otimizar o uso de tokens)
Otimize: use os insights do painel para refinar a seleção de ferramentas
- Remova ferramentas não utilizadas (reduza os custos de tokens)
- Adicionar ferramentas ausentes (melhorar as taxas de sucesso)
- Ajustar limites de taxa (evitar restrições)
Reexecute as avaliações: após qualquer alteração na configuração, execute as avaliações novamente para garantir que não haja regressões

Estatísticas de desempenho: resumo da semana de lançamento

Vamos reunir tudo. Aqui está o impacto acumulado dos 5 dias:

Dia 1: Grupos de ferramentas

Impacto: redução de 60% nos tokens de prompt do sistema
Exemplo: Conjunto completo (mais de 200 ferramentas) → Grupo único (25 ferramentas)
Economia de tokens: ~8.000 tokens por solicitação (solicitação do sistema)

Dia 2: Ferramentas personalizadas

Impacto: redução de 85% em relação ao conjunto completo ao selecionar quatro ferramentas específicas
Exemplo: Conjunto completo (mais de 200 ferramentas) → Personalizado (4 ferramentas)
Economia de tokens: ~9.500 tokens por solicitação (solicitação do sistema)

Dia 3: Otimização de tokens

Impacto: redução de 30 a 60% nos tokens de resposta da ferramenta
Exemplo: Scraping de dados + ferramentas de conjuntos de dados em um único fluxo de trabalho
Economia de tokens: ~10.250 tokens por solicitação (saídas da ferramenta)

Efeito combinado: fluxo de trabalho do agente de comércio eletrônico

Cenário: “Encontre os 5 melhores fones de ouvido da Amazon abaixo de US$ 100 e resuma as avaliações”

Configuração	Solicitação do sistema	Resultados da ferramenta	Total de tokens	Custo por solicitação
Conjunto completo (sem otimização)	15.000	22.500	37.500	$0,45
+ Grupos de ferramentas	6.000	22.500	28.500	$0,34
+ Ferramentas personalizadas	2.250	22.500	24.750	$0,30
+ Otimização de tokens	2.250	12.250	14.500	$0,17

Redução total: 61,3% menos tokens, 62,2% menos custos

Com 1.000 solicitações/dia, isso representa uma economia de US$ 280/dia ou US$ 102.200/ano.

Dia 4: Integrações empresariais

Impacto: Eliminação da sobrecarga de ETL personalizado
Economia de tempo: semanas de trabalho de engenharia → minutos de configuração
Manutenção: zero (gerenciada pela Bright Data)

Dia 5: Avaliações + observabilidade

Impacto: Controle de qualidade proativo + visibilidade da produção
Redução de falhas: Melhoria de 10-15% nas taxas de sucesso (por meio da detecção precoce de problemas)
Redução de custos: Detecção de regressões antes da produção (economize centenas de solicitações com falha)

Experimente: Comece hoje mesmo

Etapa 1: execute sua primeira avaliação

# Instale o mcpjam
npm install -g @mcpjam/cli

# Clone o repositório Web MCP
git clone https://github.com/brightdata/brightdata-mcp-sse.git
cd brightdata-mcp-sse

# Configure suas chaves API em mcp-evals/llms.json
# Configure seu token Bright Data nas configurações do servidor

# Execute avaliações de comércio eletrônico
mcpjam evals run 
  -t mcp-evals/tool-groups.json/tool-groups.ecommerce.json 
  -e mcp-evals/server-configs/server-config.ecommerce.json 
  -l mcp-evals/llms.json

Etapa 2: Acesse o painel de observabilidade

Cadastre-se na Bright Data
Navegue até Uso do MCP no Painel de Controle
Implante um agente e observe os dados de uso em tempo real aparecerem

Etapa 3: Itere

Use avaliações para testar configurações. Use o painel para monitorar a produção. Repita o processo.

Recursos

Avaliações do MCP:

mcpjam GitHub — CLI oficial de avaliação
Protocolo de contexto do modelo — Especificação oficial do MCP

Painel de observabilidade:

Painel de controle da Bright Data — Acesse seu painel de uso
Documentação da API — Referência completa da API

Servidor Web MCP:

Repositório GitHub — Código de servidor de código aberto
Pacote NPM — Instale via npm

Resumo da semana de lançamento:

Dia 1: Grupos de ferramentas— Elimine a poluição de contexto
Dia 2: Ferramentas personalizadas— Seleção cirúrgica de ferramentas
Dia 3: Otimização de tokens— Maximize a eficiência
Dia 4: Integrações empresariais— Quebrar silos
Dia 5: Avaliações e observabilidade — Meça o que importa (você está aqui)

Semana de lançamento: uma palavra final

Cinco dias. Cinco grandes lançamentos. Uma missão: preparar os agentes de IA para a produção.

Começamos com a percepção de que a poluição de contexto é o maior gargalo nos fluxos de trabalho dos agentes. Oferecemos grupos de ferramentas para definir o escopo do seu contexto.

Então percebemos que mesmo os grupos não são precisos o suficiente. Enviamos ferramentas personalizadas para obter precisão cirúrgica.

Em seguida, abordamos o lado da saída: respostas com excesso de tokens. Integramos a remoção de markdown por meio do Strip-Markdown e a limpeza inteligente de carga útil com o Parsed Light.

Depois disso, trouxemos a Bright Data para as plataformas que as empresas realmente usam: Google ADK, IBM watsonx, Databricks e Snowflake.

E hoje, fechamos o ciclo com avaliações e observabilidade. Porque você não pode melhorar o que não pode medir.

Esta é a pilha completa para agentes de IA de produção:

Grupos de ferramentas → Reduzir a poluição do contexto
Ferramentas personalizadas → Maximizar a precisão
Otimização de tokens → Minimizar custos
Integrações empresariais → Implante em qualquer lugar
Avaliações + Observabilidade → Manter a qualidade

Obrigado

A todos que acompanharam esta semana: obrigado.

Aos desenvolvedores que estão criando a próxima geração de agentes de IA: mal podemos esperar para ver o que vocês vão construir.

Aos empreendimentos que estão implantando IA em grande escala: estamos aqui para torná-la confiável.

E à comunidade de código aberto que tornou o MCP possível: isso é apenas o começo.

Vamos construir o futuro da IA juntos.