Avaliações e observabilidade – Meça o que importa
Chegamos ao último dia da Semana de Lançamento. Nos últimos quatro dias, fornecemos a você as ferramentas para criar agentes de IA de nível de produção:
- Dia 1: Grupos de ferramentas para eliminar a poluição de contexto
- Dia 2: Ferramentas personalizadas para precisão cirúrgica
- Dia 3: Otimização de tokens para maximizar a eficiência
- Dia 4: Integrações empresariais para quebrar silos
Hoje, abordaremos uma das principais solicitações que temos recebido dos clientes: como saber se seu agente está funcionando conforme o esperado?
Estamos lançando: Estrutura de Avaliações e Painel de Observabilidade.
O desafio: visibilidade do comportamento do agente
Você criou um agente de comércio eletrônico. Você definiu o escopo das ferramentas certas. Você otimizou o uso de tokens. Agora você precisa de visibilidade na produção:
- Quais ferramentas estão realmente sendo chamadas?
- As ferramentas estão sendo usadas corretamente?
- Onde os agentes estão falhando?
- Qual é o seu uso e custo reais?
- Como as novas configurações das ferramentas afetam as taxas de sucesso?
Sem visibilidade, você está voando às cegas. Não é possível otimizar o que não pode ser medido.
Isso é especialmente crítico quando você trabalha com grupos de ferramentas. Ao mudar de grupos=comércio eletrônico para uma seleção personalizada de ferramentas, você acidentalmente interrompeu um fluxo de trabalho crítico? Você não saberá até que um cliente reclame.
A solução: visibilidade em duas camadas
Criamos uma pilha de visibilidade completa com dois sistemas complementares:
1. Estrutura de avaliações MCP (desenvolvimento e testes)
Estrutura de testes automatizados com tecnologia mcpjam que valida o comportamento do agente antes da produção
2. Painel de observabilidade (monitoramento de produção)
Painel de análise de uso em tempo real no Painel de Controle da Bright Data que rastreia todas as chamadas de API em produção
Vamos nos aprofundar em cada camada.
Camada 1: Estrutura de Avaliações MCP
O que é o mcpjam?
O mcpjam é a CLI de avaliação oficial para servidores Model Context Protocol. Pense nisso como um “teste de integração para agentes de IA”.
Você escreve casos de teste como consultas em linguagem natural, especifica quais ferramentas devem ser chamadas e o mcpjam executa seu agente automaticamente através do fluxo de trabalho.
Como usamos
Criamos um conjunto abrangente de avaliações para cada grupo de ferramentas que lançamos no primeiro dia. Ao configurar uma nova seleção de ferramentas, você pode executar essas avaliações para verificar se tudo funciona antes da implantação.
Estrutura do projeto
mcp-evals/
├── server-configs/ # Configurações de conexão do servidor por grupo de ferramentas
│ ├── server-config.ecommerce.json
│ ├── server-config.social.json
│ ├── server-config.business.json
│ ├── server-config.browser.json
│ └── ...
├── tool-groups.json/ # Casos de teste por grupo de ferramentas
│ ├── tool-groups.ecommerce.json
│ ├── tool-groups.social.json
│ ├── tool-groups.business.json
├── tool-groups.browser.json
└── ...
└── llms.json # Chaves API do provedor LLM
Cada grupo de ferramentas recebe seu próprio conjunto de testes com consultas reais que os agentes devem ser capazes de lidar.
Exemplo: Avaliação de comércio eletrônico
De mcp-avaliações/grupos-de-ferramentas.json/grupos-de-ferramentas.comércio-eletrônico.json:
{
"title": "Teste de comércio eletrônico - Pesquisa de produtos na Amazon",
"query": "Pesquise fones de ouvido sem fio na Amazon e mostre-me os principais produtos com avaliações",
"runs": 1,
"model": "gpt-5.1-2025-11-13",
"provider": "openai",
"expectedToolCalls": ["web_data_amazon_product_search"],
"selectedServers": ["ecommerce-server"],
"advancedConfig": {
"instructions": "Você é um assistente de compras que ajuda os usuários a encontrar produtos na Amazon",
"temperature": 0.1,
"maxSteps": 5,
"toolChoice": "required"
}
}
Este teste valida que:
- O agente interpreta corretamente a consulta do usuário
- Ele chama a ferramenta certa (
web_data_amazon_product_search) - Ele passa os parâmetros apropriados (palavra-chave do produto, URL da Amazon)
- Ele é concluído dentro do tempo limite configurado
- Ele retorna uma resposta coerente
Executando avaliações: início rápido
Instale o mcpjam:
npm install -g @mcpjam/cli
Executar testes do grupo de ferramentas de comércio eletrônico:
mcpjam evals run
-t mcp-evals/tool-groups.json/tool-groups.ecommerce.json
-e mcp-evals/server-configs/server-config.ecommerce.json
-l mcp-evals/llms.json
Resultado esperado:
Executando testes
Conectado a 1 servidor: ecommerce-server
Encontradas 13 ferramentas no total
Executando 2 testes
Teste 1: Teste de comércio eletrônico - Pesquisa de produtos na Amazon
Usando openai:gpt-5.1-2025-11-13
executar 1/1
usuário: Pesquise fones de ouvido sem fio na Amazon e mostre-me os principais produtos com avaliações
[tool-call] web_data_amazon_product_search
{
"keyword": "fones de ouvido sem fio",
"url": "https://www.amazon.com"
}
[tool-result] web_data_amazon_product_search
{
"content": [...]
}
assistente: Aqui estão alguns dos melhores fones de ouvido sem fio atualmente na Amazon...
Esperado: [web_data_amazon_product_search]
Real: [web_data_amazon_product_search]
APROVADO (23,8 s)
Tokens • entrada 20923 • saída 1363 • total 22286
O que é testado
Criamos conjuntos de avaliação para todos os 8 grupos de ferramentas desde o primeiro dia:
| Grupo de ferramentas | Cobertura do teste | Exemplos de consultas |
|---|---|---|
| Comércio eletrônico | Pesquisas de produtos na Amazon, Walmart e Best Buy | “Comparar preços do iPhone 15 em diferentes varejistas” |
| redes sociais | Conteúdo do TikTok, publicações no Instagram, tendências no Twitter | “Encontre vídeos populares no TikTok sobre IA” |
| negócios | Perfis do LinkedIn, dados de financiamento do Crunchbase, localizações do Google Maps | “Encontre o perfil do CEO da Microsoft no LinkedIn” |
| Pesquisa | Repositórios GitHub, notícias da Reuters, fontes acadêmicas | “Encontre repositórios Python para Scraping de dados com mais de 1 mil estrelas” |
| finanças | Dados de ações, tendências de mercado, notícias financeiras | “Obtenha o preço mais recente das ações da NVIDIA” |
| app_stores | Avaliações e classificações da App Store do iOS e Google Play | “Encontre os aplicativos de meditação mais bem avaliados no iOS” |
| navegador | Navegador de scraping Fluxos de trabalho de automação do navegador | “Navegue até a Amazon e adicione um item ao carrinho” |
| advanced_scraping | Operações em lote, scraping personalizado | “Raspagem de dados de produtos de um site personalizado” |
Cada conjunto de testes contém de 2 a 5 casos de teste principais que abrangem os fluxos de trabalho mais comuns do agente para esse domínio.
Por que isso é importante
As avaliações oferecem:
- Teste de regressão: execute avaliações após cada alteração de configuração para garantir que você não interrompeu os fluxos de trabalho existentes
- Benchmarking de desempenho: acompanhe o uso de tokens e a latência em diferentes modelos LLM
- Validação de ferramentas: verifique se a lógica de seleção de ferramentas está funcionando corretamente
- Documentação: os casos de teste servem como exemplos executáveis do que seu agente pode fazer
Antes dos grupos de ferramentas do Day 1, não tínhamos uma maneira sistemática de testar se a mudança de groups=ecommerce para groups=ecommerce,social prejudicaria o comportamento do agente. Agora temos.
Camada 2: Painel de observabilidade
Monitoramento da produção em tempo real
Enquanto as avaliações lidam com os testes pré-implantação, o Painel de observabilidade oferece visibilidade em tempo real do uso da produção.
Integramos um novo painel de uso do MCP ao Painel de Controle da Bright Data, que rastreia todas as chamadas de API feitas através do seu servidor MCP.
O que você vê
O painel exibe uma tabela de uso abrangente com:
| Data | Ferramenta | Nome do cliente | URL | Status |
|---|---|---|---|---|
| 26/11/2025 14:32:15 | web_data_amazon_product | my-ecommerce-agent | https://amazon.com/… | Sucesso |
| 26/11/2025 14:31:52 | search_engine | meu-bot-de-pesquisa | N/A | Sucesso |
| 26/11/2025 14:30:18 | dados_web_perfil_pessoa_linkedin | agente-de-geração-de-leads | https://linkedin.com/in/… | Sucesso |
| 26/11/2025 14:29:03 | navegação_navegador_scraping | agente de automação | https://example.com | Falha |
Principais métricas
1. Detalhamento do uso de ferramentas
Veja quais ferramentas estão sendo chamadas com mais frequência:
web_data_amazon_product: 1.243 chamadas
search_engine: 892 chamadas
web_data_linkedin_person_profile: 634 chamadas
scrape_as_markdown: 421 chamadas
Isso indica quais Conjuntos de dados são mais valiosos para seus agentes. Se você estiver pagando por grupos de ferramentas não utilizados, poderá ver isso aqui.
2. Identificação do cliente
Cada instância de agente pode ser marcada com um nome de cliente (por meio do parâmetro client_name na URL de conexão):
npx -y @brightdata/mcp
O painel agrupa o uso por cliente, para que você possa acompanhar os custos por agente/fluxo de trabalho.
3. Taxas de sucesso x taxas de falha
Monitore a confiabilidade do agente:
Total de solicitações: 3.190
Bem-sucedidas: 3.102 (97,2%)
Falhas: 88 (2,8%)
Clique nas solicitações com falha para ver os detalhes do erro e depurar os problemas.
4. Rastreamento de URL
Para ferramentas de Conjuntos de dados, o painel mostra quais URLs/recursos foram acessados. Isso ajuda você a:
- Identificar problemas de limitação de taxa (muitas solicitações para o mesmo domínio)
- Rastrear quais produtos/perfis/páginas específicos estão sendo coletados
- Auditar a conformidade (garantir que os agentes não estejam acessando sites restritos)
Como acessar
- Faça login no Painel de Controle da Bright Data
- Navegue até Uso do MCP (nova seção na barra lateral)
- Visualize os dados de uso em tempo real de todas as suas conexões MCP
Filtros:
- Intervalo de datas (últimas 24 horas, 7 dias, 30 dias, personalizado)
- Nome da ferramenta (filtre por ferramentas específicas)
- Nome do cliente (filtrar por instância do agente)
- Status (sucesso/falha)
Exportar:
Baixe os dados de uso como CSV para análise mais aprofundada ou integração com ferramentas de BI.
Fluxo de trabalho combinado: Desenvolvimento → Produção
Veja como os dois sistemas funcionam juntos:
Fase 1: Desenvolvimento (pré-implantação)
- Configure grupos de ferramentas usando o recurso do Dia 1
pnx -y @brightdata/mcp - Execute avaliações para validar
a seleçãode ferramentasmcpjam evals run -t mcp-evals/tool-groups.json/tool-groups.ecommerce.json -e mcp-evals/server-configs/server-config.ecommerce.json -l mcp-evals/llms.json - Revisar resultados: garantir que todos os testes sejam aprovados
- O uso de tokens está dentro do orçamento
- As ferramentas corretas estão sendo chamadas
- As respostas são precisas
- Iterar: se os testes falharem, ajuste a seleção de ferramentas ou as solicitações do sistema
Fase 2: Produção (pós-implantação)
- Implante o agente com
a marcaçãodo nome do cliente npx -y @brightdata/mcp - Painel de monitoramento: verifique o uso em tempo real
- As taxas de sucesso são consistentes com os resultados da avaliação?
- Ferramentas inesperadas estão sendo chamadas?
- Há algum problema de limitação de taxa ou autenticação?
- Analise as tendências: ao longo do tempo, procure por:
- Picos de uso (necessidade de escalonamento?)
- Mudanças no padrão de falhas (degradação da ferramenta?)
- Anomalias de custo (otimizar o uso de tokens)
- Otimize: use os insights do painel para refinar a seleção de ferramentas
- Remova ferramentas não utilizadas (reduza os custos de tokens)
- Adicionar ferramentas ausentes (melhorar as taxas de sucesso)
- Ajustar limites de taxa (evitar restrições)
- Reexecute as avaliações: após qualquer alteração na configuração, execute as avaliações novamente para garantir que não haja regressões
Estatísticas de desempenho: resumo da semana de lançamento
Vamos reunir tudo. Aqui está o impacto acumulado dos 5 dias:
Dia 1: Grupos de ferramentas
Impacto: redução de 60% nos tokens de prompt do sistema
Exemplo: Conjunto completo (mais de 200 ferramentas) → Grupo único (25 ferramentas)
Economia de tokens: ~8.000 tokens por solicitação (solicitação do sistema)
Dia 2: Ferramentas personalizadas
Impacto: redução de 85% em relação ao conjunto completo ao selecionar quatro ferramentas específicas
Exemplo: Conjunto completo (mais de 200 ferramentas) → Personalizado (4 ferramentas)
Economia de tokens: ~9.500 tokens por solicitação (solicitação do sistema)
Dia 3: Otimização de tokens
Impacto: redução de 30 a 60% nos tokens de resposta da ferramenta
Exemplo: Scraping de dados + ferramentas de conjuntos de dados em um único fluxo de trabalho
Economia de tokens: ~10.250 tokens por solicitação (saídas da ferramenta)
Efeito combinado: fluxo de trabalho do agente de comércio eletrônico
Cenário: “Encontre os 5 melhores fones de ouvido da Amazon abaixo de US$ 100 e resuma as avaliações”
| Configuração | Solicitação do sistema | Resultados da ferramenta | Total de tokens | Custo por solicitação |
|---|---|---|---|---|
| Conjunto completo (sem otimização) | 15.000 | 22.500 | 37.500 | $0,45 |
| + Grupos de ferramentas | 6.000 | 22.500 | 28.500 | $0,34 |
| + Ferramentas personalizadas | 2.250 | 22.500 | 24.750 | $0,30 |
| + Otimização de tokens | 2.250 | 12.250 | 14.500 | $0,17 |
Redução total: 61,3% menos tokens, 62,2% menos custos
Com 1.000 solicitações/dia, isso representa uma economia de US$ 280/dia ou US$ 102.200/ano.
Dia 4: Integrações empresariais
Impacto: Eliminação da sobrecarga de ETL personalizado
Economia de tempo: semanas de trabalho de engenharia → minutos de configuração
Manutenção: zero (gerenciada pela Bright Data)
Dia 5: Avaliações + observabilidade
Impacto: Controle de qualidade proativo + visibilidade da produção
Redução de falhas: Melhoria de 10-15% nas taxas de sucesso (por meio da detecção precoce de problemas)
Redução de custos: Detecção de regressões antes da produção (economize centenas de solicitações com falha)
Experimente: Comece hoje mesmo
Etapa 1: execute sua primeira avaliação
# Instale o mcpjam
npm install -g @mcpjam/cli
# Clone o repositório Web MCP
git clone https://github.com/brightdata/brightdata-mcp-sse.git
cd brightdata-mcp-sse
# Configure suas chaves API em mcp-evals/llms.json
# Configure seu token Bright Data nas configurações do servidor
# Execute avaliações de comércio eletrônico
mcpjam evals run
-t mcp-evals/tool-groups.json/tool-groups.ecommerce.json
-e mcp-evals/server-configs/server-config.ecommerce.json
-l mcp-evals/llms.json
Etapa 2: Acesse o painel de observabilidade
- Cadastre-se na Bright Data
- Navegue até Uso do MCP no Painel de Controle
- Implante um agente e observe os dados de uso em tempo real aparecerem
Etapa 3: Itere
Use avaliações para testar configurações. Use o painel para monitorar a produção. Repita o processo.
Recursos
Avaliações do MCP:
- mcpjam GitHub — CLI oficial de avaliação
- Protocolo de contexto do modelo — Especificação oficial do MCP
Painel de observabilidade:
- Painel de controle da Bright Data — Acesse seu painel de uso
- Documentação da API — Referência completa da API
Servidor Web MCP:
- Repositório GitHub — Código de servidor de código aberto
- Pacote NPM — Instale via npm
Resumo da semana de lançamento:
- Dia 1: Grupos de ferramentas— Elimine a poluição de contexto
- Dia 2: Ferramentas personalizadas— Seleção cirúrgica de ferramentas
- Dia 3: Otimização de tokens— Maximize a eficiência
- Dia 4: Integrações empresariais— Quebrar silos
- Dia 5: Avaliações e observabilidade — Meça o que importa (você está aqui)
Semana de lançamento: uma palavra final
Cinco dias. Cinco grandes lançamentos. Uma missão: preparar os agentes de IA para a produção.
Começamos com a percepção de que a poluição de contexto é o maior gargalo nos fluxos de trabalho dos agentes. Oferecemos grupos de ferramentas para definir o escopo do seu contexto.
Então percebemos que mesmo os grupos não são precisos o suficiente. Enviamos ferramentas personalizadas para obter precisão cirúrgica.
Em seguida, abordamos o lado da saída: respostas com excesso de tokens. Integramos a remoção de markdown por meio do Strip-Markdown e a limpeza inteligente de carga útil com o Parsed Light.
Depois disso, trouxemos a Bright Data para as plataformas que as empresas realmente usam: Google ADK, IBM watsonx, Databricks e Snowflake.
E hoje, fechamos o ciclo com avaliações e observabilidade. Porque você não pode melhorar o que não pode medir.
Esta é a pilha completa para agentes de IA de produção:
- Grupos de ferramentas → Reduzir a poluição do contexto
- Ferramentas personalizadas → Maximizar a precisão
- Otimização de tokens → Minimizar custos
- Integrações empresariais → Implante em qualquer lugar
- Avaliações + Observabilidade → Manter a qualidade
Obrigado
A todos que acompanharam esta semana: obrigado.
Aos desenvolvedores que estão criando a próxima geração de agentes de IA: mal podemos esperar para ver o que vocês vão construir.
Aos empreendimentos que estão implantando IA em grande escala: estamos aqui para torná-la confiável.
E à comunidade de código aberto que tornou o MCP possível: isso é apenas o começo.
Vamos construir o futuro da IA juntos.