Menu de Acessibilidade pular para o conteúdo
day5

Evaluations & Observability – Measure What Matters

14 min de leitura

Avaliações e observabilidade – Meça o que importa

Chegamos ao último dia da Semana de Lançamento. Nos últimos quatro dias, fornecemos a você as ferramentas para criar agentes de IA de nível de produção:

  • Dia 1: Grupos de ferramentas para eliminar a poluição de contexto
  • Dia 2: Ferramentas personalizadas para precisão cirúrgica
  • Dia 3: Otimização de tokens para maximizar a eficiência
  • Dia 4: Integrações empresariais para quebrar silos

Hoje, abordaremos uma das principais solicitações que temos recebido dos clientes: como saber se seu agente está funcionando conforme o esperado?

Estamos lançando: Estrutura de Avaliações e Painel de Observabilidade.

O desafio: visibilidade do comportamento do agente

Você criou um agente de comércio eletrônico. Você definiu o escopo das ferramentas certas. Você otimizou o uso de tokens. Agora você precisa de visibilidade na produção:

  • Quais ferramentas estão realmente sendo chamadas?
  • As ferramentas estão sendo usadas corretamente?
  • Onde os agentes estão falhando?
  • Qual é o seu uso e custo reais?
  • Como as novas configurações das ferramentas afetam as taxas de sucesso?

Sem visibilidade, você está voando às cegas. Não é possível otimizar o que não pode ser medido.

Isso é especialmente crítico quando você trabalha com grupos de ferramentas. Ao mudar de grupos=comércio eletrônico para uma seleção personalizada de ferramentas, você acidentalmente interrompeu um fluxo de trabalho crítico? Você não saberá até que um cliente reclame.

A solução: visibilidade em duas camadas

Criamos uma pilha de visibilidade completa com dois sistemas complementares:

1. Estrutura de avaliações MCP (desenvolvimento e testes)

Estrutura de testes automatizados com tecnologia mcpjam que valida o comportamento do agente antes da produção

2. Painel de observabilidade (monitoramento de produção)

Painel de análise de uso em tempo real no Painel de Controle da Bright Data que rastreia todas as chamadas de API em produção

Vamos nos aprofundar em cada camada.


Camada 1: Estrutura de Avaliações MCP

O que é o mcpjam?

O mcpjam é a CLI de avaliação oficial para servidores Model Context Protocol. Pense nisso como um “teste de integração para agentes de IA”.

Você escreve casos de teste como consultas em linguagem natural, especifica quais ferramentas devem ser chamadas e o mcpjam executa seu agente automaticamente através do fluxo de trabalho.

Como usamos

Criamos um conjunto abrangente de avaliações para cada grupo de ferramentas que lançamos no primeiro dia. Ao configurar uma nova seleção de ferramentas, você pode executar essas avaliações para verificar se tudo funciona antes da implantação.

Estrutura do projeto

mcp-evals/
├── server-configs/           # Configurações de conexão do servidor por grupo de ferramentas
│   ├── server-config.ecommerce.json
│   ├── server-config.social.json
│   ├── server-config.business.json
│   ├── server-config.browser.json
│   └── ...
├── tool-groups.json/         # Casos de teste por grupo de ferramentas
│   ├── tool-groups.ecommerce.json
│   ├── tool-groups.social.json
│   ├── tool-groups.business.json
├── tool-groups.browser.json
└── ...
└── llms.json                 # Chaves API do provedor LLM

Cada grupo de ferramentas recebe seu próprio conjunto de testes com consultas reais que os agentes devem ser capazes de lidar.

Exemplo: Avaliação de comércio eletrônico

De mcp-avaliações/grupos-de-ferramentas.json/grupos-de-ferramentas.comércio-eletrônico.json:

{
  "title": "Teste de comércio eletrônico - Pesquisa de produtos na Amazon",
  "query": "Pesquise fones de ouvido sem fio na Amazon e mostre-me os principais produtos com avaliações",
  "runs": 1,
  "model": "gpt-5.1-2025-11-13",
  "provider": "openai",
  "expectedToolCalls": ["web_data_amazon_product_search"],
  "selectedServers": ["ecommerce-server"],
  "advancedConfig": {
    "instructions": "Você é um assistente de compras que ajuda os usuários a encontrar produtos na Amazon",
    "temperature": 0.1,
    "maxSteps": 5,
    "toolChoice": "required"
  }
}

Este teste valida que:

  1. O agente interpreta corretamente a consulta do usuário
  2. Ele chama a ferramenta certa (web_data_amazon_product_search)
  3. Ele passa os parâmetros apropriados (palavra-chave do produto, URL da Amazon)
  4. Ele é concluído dentro do tempo limite configurado
  5. Ele retorna uma resposta coerente

Executando avaliações: início rápido

Instale o mcpjam:

npm install -g @mcpjam/cli

Executar testes do grupo de ferramentas de comércio eletrônico:

mcpjam evals run 
  -t mcp-evals/tool-groups.json/tool-groups.ecommerce.json 
  -e mcp-evals/server-configs/server-config.ecommerce.json 
  -l mcp-evals/llms.json

Resultado esperado:

Executando testes
Conectado a 1 servidor: ecommerce-server
Encontradas 13 ferramentas no total
Executando 2 testes

Teste 1: Teste de comércio eletrônico - Pesquisa de produtos na Amazon
Usando openai:gpt-5.1-2025-11-13

executar 1/1
usuário: Pesquise fones de ouvido sem fio na Amazon e mostre-me os principais produtos com avaliações
[tool-call] web_data_amazon_product_search
{
  "keyword": "fones de ouvido sem fio",
  "url": "https://www.amazon.com"
}
[tool-result] web_data_amazon_product_search
{
  "content": [...]
}
assistente: Aqui estão alguns dos melhores fones de ouvido sem fio atualmente na Amazon...

Esperado: [web_data_amazon_product_search]
Real:   [web_data_amazon_product_search]
APROVADO (23,8 s)
Tokens • entrada 20923 • saída 1363 • total 22286

O que é testado

Criamos conjuntos de avaliação para todos os 8 grupos de ferramentas desde o primeiro dia:

Grupo de ferramentas Cobertura do teste Exemplos de consultas
Comércio eletrônico Pesquisas de produtos na Amazon, Walmart e Best Buy “Comparar preços do iPhone 15 em diferentes varejistas”
redes sociais Conteúdo do TikTok, publicações no Instagram, tendências no Twitter “Encontre vídeos populares no TikTok sobre IA”
negócios Perfis do LinkedIn, dados de financiamento do Crunchbase, localizações do Google Maps “Encontre o perfil do CEO da Microsoft no LinkedIn”
Pesquisa Repositórios GitHub, notícias da Reuters, fontes acadêmicas “Encontre repositórios Python para Scraping de dados com mais de 1 mil estrelas”
finanças Dados de ações, tendências de mercado, notícias financeiras “Obtenha o preço mais recente das ações da NVIDIA”
app_stores Avaliações e classificações da App Store do iOS e Google Play “Encontre os aplicativos de meditação mais bem avaliados no iOS”
navegador Navegador de scraping Fluxos de trabalho de automação do navegador “Navegue até a Amazon e adicione um item ao carrinho”
advanced_scraping Operações em lote, scraping personalizado “Raspagem de dados de produtos de um site personalizado”

Cada conjunto de testes contém de 2 a 5 casos de teste principais que abrangem os fluxos de trabalho mais comuns do agente para esse domínio.

Por que isso é importante

As avaliações oferecem:

  1. Teste de regressão: execute avaliações após cada alteração de configuração para garantir que você não interrompeu os fluxos de trabalho existentes
  2. Benchmarking de desempenho: acompanhe o uso de tokens e a latência em diferentes modelos LLM
  3. Validação de ferramentas: verifique se a lógica de seleção de ferramentas está funcionando corretamente
  4. Documentação: os casos de teste servem como exemplos executáveis do que seu agente pode fazer

Antes dos grupos de ferramentas do Day 1, não tínhamos uma maneira sistemática de testar se a mudança de groups=ecommerce para groups=ecommerce,social prejudicaria o comportamento do agente. Agora temos.


Camada 2: Painel de observabilidade

Monitoramento da produção em tempo real

Enquanto as avaliações lidam com os testes pré-implantação, o Painel de observabilidade oferece visibilidade em tempo real do uso da produção.

Integramos um novo painel de uso do MCP ao Painel de Controle da Bright Data, que rastreia todas as chamadas de API feitas através do seu servidor MCP.

O que você vê

O painel exibe uma tabela de uso abrangente com:

Data Ferramenta Nome do cliente URL Status
26/11/2025 14:32:15 web_data_amazon_product my-ecommerce-agent https://amazon.com/… Sucesso
26/11/2025 14:31:52 search_engine meu-bot-de-pesquisa N/A Sucesso
26/11/2025 14:30:18 dados_web_perfil_pessoa_linkedin agente-de-geração-de-leads https://linkedin.com/in/… Sucesso
26/11/2025 14:29:03 navegação_navegador_scraping agente de automação https://example.com Falha

Principais métricas

1. Detalhamento do uso de ferramentas

Veja quais ferramentas estão sendo chamadas com mais frequência:

web_data_amazon_product: 1.243 chamadas
search_engine: 892 chamadas
web_data_linkedin_person_profile: 634 chamadas
scrape_as_markdown: 421 chamadas

Isso indica quais Conjuntos de dados são mais valiosos para seus agentes. Se você estiver pagando por grupos de ferramentas não utilizados, poderá ver isso aqui.

2. Identificação do cliente

Cada instância de agente pode ser marcada com um nome de cliente (por meio do parâmetro client_name na URL de conexão):

npx -y @brightdata/mcp 

O painel agrupa o uso por cliente, para que você possa acompanhar os custos por agente/fluxo de trabalho.

3. Taxas de sucesso x taxas de falha

Monitore a confiabilidade do agente:

Total de solicitações:     3.190
Bem-sucedidas:         3.102 (97,2%)
Falhas:                88 (2,8%)

Clique nas solicitações com falha para ver os detalhes do erro e depurar os problemas.

4. Rastreamento de URL

Para ferramentas de Conjuntos de dados, o painel mostra quais URLs/recursos foram acessados. Isso ajuda você a:

  • Identificar problemas de limitação de taxa (muitas solicitações para o mesmo domínio)
  • Rastrear quais produtos/perfis/páginas específicos estão sendo coletados
  • Auditar a conformidade (garantir que os agentes não estejam acessando sites restritos)

Como acessar

  1. Faça login no Painel de Controle da Bright Data
  2. Navegue até Uso do MCP (nova seção na barra lateral)
  3. Visualize os dados de uso em tempo real de todas as suas conexões MCP

Filtros:

  • Intervalo de datas (últimas 24 horas, 7 dias, 30 dias, personalizado)
  • Nome da ferramenta (filtre por ferramentas específicas)
  • Nome do cliente (filtrar por instância do agente)
  • Status (sucesso/falha)

Exportar:

Baixe os dados de uso como CSV para análise mais aprofundada ou integração com ferramentas de BI.


Fluxo de trabalho combinado: Desenvolvimento → Produção

Veja como os dois sistemas funcionam juntos:

Fase 1: Desenvolvimento (pré-implantação)

  1. Configure grupos de ferramentas usando o recurso do Dia 1pnx -y @brightdata/mcp
  2. Execute avaliações para validara seleção de ferramentasmcpjam evals run -t mcp-evals/tool-groups.json/tool-groups.ecommerce.json -e mcp-evals/server-configs/server-config.ecommerce.json -l mcp-evals/llms.json
  3. Revisar resultados: garantir que todos os testes sejam aprovados
    • O uso de tokens está dentro do orçamento
    • As ferramentas corretas estão sendo chamadas
    • As respostas são precisas
  4. Iterar: se os testes falharem, ajuste a seleção de ferramentas ou as solicitações do sistema

Fase 2: Produção (pós-implantação)

  1. Implante o agente coma marcação do nome do cliente npx -y @brightdata/mcp
  2. Painel de monitoramento: verifique o uso em tempo real
    • As taxas de sucesso são consistentes com os resultados da avaliação?
    • Ferramentas inesperadas estão sendo chamadas?
    • Há algum problema de limitação de taxa ou autenticação?
  3. Analise as tendências: ao longo do tempo, procure por:
    • Picos de uso (necessidade de escalonamento?)
    • Mudanças no padrão de falhas (degradação da ferramenta?)
    • Anomalias de custo (otimizar o uso de tokens)
  4. Otimize: use os insights do painel para refinar a seleção de ferramentas
    • Remova ferramentas não utilizadas (reduza os custos de tokens)
    • Adicionar ferramentas ausentes (melhorar as taxas de sucesso)
    • Ajustar limites de taxa (evitar restrições)
  5. Reexecute as avaliações: após qualquer alteração na configuração, execute as avaliações novamente para garantir que não haja regressões

Estatísticas de desempenho: resumo da semana de lançamento

Vamos reunir tudo. Aqui está o impacto acumulado dos 5 dias:

Dia 1: Grupos de ferramentas

Impacto: redução de 60% nos tokens de prompt do sistema
Exemplo: Conjunto completo (mais de 200 ferramentas) → Grupo único (25 ferramentas)
Economia de tokens: ~8.000 tokens por solicitação (solicitação do sistema)

Dia 2: Ferramentas personalizadas

Impacto: redução de 85% em relação ao conjunto completo ao selecionar quatro ferramentas específicas
Exemplo: Conjunto completo (mais de 200 ferramentas) → Personalizado (4 ferramentas)
Economia de tokens: ~9.500 tokens por solicitação (solicitação do sistema)

Dia 3: Otimização de tokens

Impacto: redução de 30 a 60% nos tokens de resposta da ferramenta
Exemplo: Scraping de dados + ferramentas de conjuntos de dados em um único fluxo de trabalho
Economia de tokens: ~10.250 tokens por solicitação (saídas da ferramenta)

Efeito combinado: fluxo de trabalho do agente de comércio eletrônico

Cenário: “Encontre os 5 melhores fones de ouvido da Amazon abaixo de US$ 100 e resuma as avaliações”

Configuração Solicitação do sistema Resultados da ferramenta Total de tokens Custo por solicitação
Conjunto completo (sem otimização) 15.000 22.500 37.500 $0,45
+ Grupos de ferramentas 6.000 22.500 28.500 $0,34
+ Ferramentas personalizadas 2.250 22.500 24.750 $0,30
+ Otimização de tokens 2.250 12.250 14.500 $0,17

Redução total: 61,3% menos tokens, 62,2% menos custos

Com 1.000 solicitações/dia, isso representa uma economia de US$ 280/dia ou US$ 102.200/ano.

Dia 4: Integrações empresariais

Impacto: Eliminação da sobrecarga de ETL personalizado
Economia de tempo: semanas de trabalho de engenharia → minutos de configuração
Manutenção: zero (gerenciada pela Bright Data)

Dia 5: Avaliações + observabilidade

Impacto: Controle de qualidade proativo + visibilidade da produção
Redução de falhas: Melhoria de 10-15% nas taxas de sucesso (por meio da detecção precoce de problemas)
Redução de custos: Detecção de regressões antes da produção (economize centenas de solicitações com falha)


Experimente: Comece hoje mesmo

Etapa 1: execute sua primeira avaliação

# Instale o mcpjam
npm install -g @mcpjam/cli

# Clone o repositório Web MCP
git clone https://github.com/brightdata/brightdata-mcp-sse.git
cd brightdata-mcp-sse

# Configure suas chaves API em mcp-evals/llms.json
# Configure seu token Bright Data nas configurações do servidor

# Execute avaliações de comércio eletrônico
mcpjam evals run 
  -t mcp-evals/tool-groups.json/tool-groups.ecommerce.json 
  -e mcp-evals/server-configs/server-config.ecommerce.json 
  -l mcp-evals/llms.json

Etapa 2: Acesse o painel de observabilidade

  1. Cadastre-se na Bright Data
  2. Navegue até Uso do MCP no Painel de Controle
  3. Implante um agente e observe os dados de uso em tempo real aparecerem

Etapa 3: Itere

Use avaliações para testar configurações. Use o painel para monitorar a produção. Repita o processo.


Recursos

Avaliações do MCP:

Painel de observabilidade:

Servidor Web MCP:

Resumo da semana de lançamento:


Semana de lançamento: uma palavra final

Cinco dias. Cinco grandes lançamentos. Uma missão: preparar os agentes de IA para a produção.

Começamos com a percepção de que a poluição de contexto é o maior gargalo nos fluxos de trabalho dos agentes. Oferecemos grupos de ferramentas para definir o escopo do seu contexto.

Então percebemos que mesmo os grupos não são precisos o suficiente. Enviamos ferramentas personalizadas para obter precisão cirúrgica.

Em seguida, abordamos o lado da saída: respostas com excesso de tokens. Integramos a remoção de markdown por meio do Strip-Markdown e a limpeza inteligente de carga útil com o Parsed Light.

Depois disso, trouxemos a Bright Data para as plataformas que as empresas realmente usam: Google ADK, IBM watsonx, Databricks e Snowflake.

E hoje, fechamos o ciclo com avaliações e observabilidade. Porque você não pode melhorar o que não pode medir.

Esta é a pilha completa para agentes de IA de produção:

  • Grupos de ferramentas → Reduzir a poluição do contexto
  • Ferramentas personalizadas → Maximizar a precisão
  • Otimização de tokens → Minimizar custos
  • Integrações empresariais → Implante em qualquer lugar
  • Avaliações + Observabilidade → Manter a qualidade

Obrigado

A todos que acompanharam esta semana: obrigado.

Aos desenvolvedores que estão criando a próxima geração de agentes de IA: mal podemos esperar para ver o que vocês vão construir.

Aos empreendimentos que estão implantando IA em grande escala: estamos aqui para torná-la confiável.

E à comunidade de código aberto que tornou o MCP possível: isso é apenas o começo.

Vamos construir o futuro da IA juntos.


Pronto para começar?
Explore o Servidor MCP da Web e comece a construir agentes de IA poderosos.
Leia a documentação Veja o Repositório