Entendendo dados ruins: tipos, causas, impacto e prevenção

Aprenda o que são dados ruins, seus tipos, causas e como evitá-los para garantir a qualidade e a confiabilidade dos dados.
12 min de leitura
Bad Data Definition & Examples blog image

Em termos simples, dados ruins referem-se a dados incompletos, imprecisos, inconsistentes, irrelevantes ou duplicados que se infiltram em sua infraestrutura de dados devido a uma variedade de razões.

Ao final deste artigo, você entenderá:

  • O que são dados inválidos
  • Vários tipos de dados incorretos
  • O que causa dados ruins
  • Suas consequências e medidas preventivas

Então, vamos dar uma olhada mais detalhada:

Diferentes tipos de dados incorretos

A qualidade e a confiabilidade dos dados são essenciais em quase todos os domínios, desde a análise de negócios até o treinamento de modelos de IA. Dados de baixa qualidade se manifestam de várias formas diferentes, cada uma apresentando desafios únicos para a usabilidade e integridade dos dados.

Diagram of bad data types

Dados incompletos

Dados incompletos referem-se a quando um conjunto de dados carece de um ou mais atributos, campos ou entradas necessários para uma análise precisa. Essas informações ausentes tornam todo o conjunto de dados não confiável e, às vezes, até mesmo inutilizável.

As causas comuns para dados incompletos incluem omissão intencional de dados específicos, transações não registradas, coleta parcial de dados, erros durante a entrada de dados, problemas técnicos não visíveis durante a transferência de dados, etc.

Por exemplo, considere uma situação em que uma pesquisa com clientes não possui registros dos detalhes de contato. Isso torna impossível fazer o acompanhamento posterior dos respondentes, conforme mostrado abaixo.

Example of missing contact data

Outro exemplo pode ser um banco de dados hospitalar com registros médicos de pacientes sem informações cruciais, como alergias e histórico médico anterior, o que pode levar a situações de risco de vida.

Dados duplicados

Dados duplicados ocorrem quando a mesma entrada de dados ou entradas de dados quase idênticas são registradas várias vezes no banco de dados. Essa redundância leva a análises enganosas e conclusões incorretas e, às vezes, complica as operações de mesclagem e causa falhas no sistema. As estatísticas derivadas de um conjunto de dados com dados duplicados tornam-se pouco confiáveis e ineficientes para a tomada de decisões.

Exemplos:

  • Um banco de dados de gestão de relacionamento com o cliente (CRM) com vários registros para o mesmo cliente pode distorcer as informações derivadas após a análise, como o número de clientes distintos ou as vendas por cliente.
  • Um sistema de gerenciamento de estoque que armazena o mesmo produto sob diferentes números de SKU torna as estimativas sobre os estoques imprecisas.

Dados imprecisos

Ter informações incorretas e erradas em uma ou mais entradas do Conjunto de dados é identificado como ter dados imprecisos.

Um simples erro em um código ou número devido a um erro tipográfico ou uma omissão não intencional pode ser grave o suficiente para causar complicações e perdas severas, principalmente quando os dados são usados para tomada de decisões em um domínio de alto risco. A existência de dados imprecisos por si só diminui a confiabilidade e a credibilidade de todo o Conjunto de dados.

Exemplos:

  • Um banco de dados de uma empresa de transporte que armazena endereços de entrega incorretos pode acabar enviando pacotes para os locais errados, ou mesmo para os países errados, causando enormes perdas e atrasos tanto para a empresa quanto para o cliente.
  • Situações em que um sistema de gestão de recursos humanos (HRMS) contém informações incorretas sobre os salários dos funcionários podem causar discrepâncias na folha de pagamento e possíveis problemas legais.

Dados inconsistentes

Dados inconsistentes, que ocorrem quando diferentes pessoas ou equipes usam unidades ou formatos variados para o mesmo tipo de dados dentro de uma organização, são uma causa comum de confusão e ineficiência que você pode encontrar ao trabalhar com dados. Isso interrompe a uniformidade e o fluxo contínuo entre os dados, resultando em um processamento de dados defeituoso.

Exemplos:

  • Formatos de data inconsistentes em várias entradas de dados (MM/DD/AAAA vs DD/MM/AAAA), por exemplo, em um sistema bancário, podem causar conflitos e problemas durante a agregação e análise de dados.
    Example of inconsistent date formats
  • Duas lojas da mesma rede varejista inserindo dados sobre estoques em unidades de medida diferentes (número de caixas vs. número de itens individuais) podem causar confusão durante o reabastecimento e a distribuição.

Dados desatualizados

Simplificando, dados desatualizados são registros que não são mais atuais, relevantes e aplicáveis. Especialmente em domínios em rápida evolução, dados desatualizados são bastante comuns, com mudanças rápidas ocorrendo continuamente. Dados de uma década, um ano ou até mesmo um mês atrás podem não ser mais úteis, ou até mesmo enganosos, dependendo do contexto.

Exemplos:

  • Uma pessoa pode desenvolver novas alergias ao longo do tempo. Um hospital que prescreve medicamentos a um paciente com registros de informações desatualizadas sobre alergias pode comprometer a segurança do paciente.
  • Uma imobiliária que lista propriedades a partir de uma fonte de dados desatualizada pode estar a desperdiçar tempo e esforço com propriedades já vendidas ou que já não estão disponíveis. É improdutivo e pode diminuir a reputação da empresa.

Além disso, dados não conformes, irrelevantes, desestruturados e tendenciosos também são tipos de dados ruins que podem comprometer a qualidade dos dados em seu ecossistema de dados. Compreender cada um desses vários tipos de dados ruins é essencial para perceber suas causas principais e as ameaças que representam para sua empresa, bem como para elaborar estratégias para mitigar o impacto.

O que causa dados ruins

Agora que você tem uma compreensão clara dos tipos de dados ruins, é importante entender o que os causa, para que possa tomar medidas proativas para evitar que tais ocorrências aconteçam em seus Conjuntos de dados.

Algumas maneiras que podem causar dados inválidos incluem:

  • Erros humanos durante a entrada de dados: nem é preciso dizer que essa é a causa mais comum de dados incorretos, especialmente quando se trata de dados incompletos, imprecisos e duplicados. Treinamento insuficiente, falta de atenção aos detalhes, mal-entendidos sobre o processo de entrada de dados e, principalmente, erros não intencionais, como erros de digitação, podem levar a Conjuntos de dados não confiáveis e a enormes complicações durante a análise.
  • Práticas e padrões inadequados de entrada de dados: um conjunto robusto de padrões é a chave para construir práticas sólidas e bem estruturadas. Por exemplo, se você permitir entradas de texto livre para um campo como país, um usuário pode inserir nomes diferentes para o mesmo país (exemplo: EUA, Estados Unidos, U.S.A.), resultando em uma variedade ineficiente de respostas para o mesmo valor. Essas inconsistências e confusões surgem como resultado da falta de padrões adequadamente definidos.
  • Problemas de migração: dadosincorretos nem sempre são resultado de entradas manuais. Eles também podem ocorrer como resultado da migração de dados de um banco de dados para outro. Esse problema causa desalinhamento de registros e campos, perda de dados e até mesmo corrupção de dados, o que pode exigir longas horas de revisão e correção.
  • Degradação dos dados: cada pequena mudança que ocorre, desde as preferências dos clientes até uma mudança nas tendências do mercado, pode atualizar os dados da empresa. Se o banco de dados não for atualizado constantemente para acompanhar essas mudanças, os dados se tornam desatualizados, causando deterioração ou degradação dos dados. Dados desatualizados não têm uso real na tomada de decisões e análises e contribuem para informações enganosas quando usados.
  • Fusão de dados de várias fontes: a combinaçãoineficiente de dados de várias fontes ou a integração defeituosa de dados pode resultar em dados imprecisos e inconsistentes. Isso acontece quando as diferentes fontes de dados que estão sendo combinadas são formatadas em padrões, formatos e níveis de qualidade variados.

Impacto dos dados incorretos

Se você processar Conjuntos de dados que contêm dados incorretos, colocará sua análise final em risco. Na verdade, dados incorretos podem ter impactos duradouros e devastadores, especialmente em negócios e domínios orientados por dados, tais como:

  • A má qualidade dos dados pode prejudicar seus negócios, aumentando o risco de tomar decisões e fazer investimentos errados com base em informações enganosas.
  • Dados ruins causam custos financeiros substanciais, incluindo desperdício de recursos e perda de receita. Recuperar-se dos efeitos deixados por dados ruins pode exigir muito dinheiro e tempo.
  • O acúmulo de dados incorretos pode até mesmo causar o fracasso do negócio, pois aumenta a necessidade de retrabalho, leva à perda de oportunidades e afeta negativamente a produtividade como um todo.
  • Como resultado, a confiabilidade e a credibilidade da empresa diminuem, prejudicando significativamente a satisfação e a retenção dos clientes. Dados imprecisos e incompletos da empresa levam a um atendimento ao cliente ruim e a uma comunicação inconsistente.

Além disso, dados incorretos podem levar a erros críticos que se aceleram em complicações legais ou com risco de vida, especialmente nos domínios financeiro e de saúde.

Por exemplo, em 2020, durante a pandemia da COVID-19, a Public Health England (PHE) sofreu um erro significativo no gerenciamento de dados que resultou em 15.841 casos de COVID-19 não relatados devido a dados incorretos. O problema foi atribuído à versão desatualizada das planilhas do Excel que a PHE estava usando, que só podiam conter até 65.000 linhas, em vez do milhão de linhas que realmente podiam conter. Alguns dos registros fornecidos por empresas terceirizadas que analisavam testes de swab foram perdidos, causando dados incompletos. O número de contatos próximos com risco de infecção perdidos devido a esse erro técnico foi de cerca de 50.000.

Além disso, o erro de digitação da Samsung que ocorreu em 2018 acabou fazendo com que os preços das ações caíssem cerca de 11% em um único dia, extinguindo quase US$ 300 milhões em valor de mercado. Isso foi causado por um funcionário da Samsung Securities devido a um erro de entrada de dados quando ele inseriu 2,8 bilhões de “ações” (no valor de US$ 105 bilhões) em vez de 2,8 bilhões de “won sul-coreanos” a serem distribuídos entre os funcionários que participaram do plano de participação acionária da empresa.

Portanto, as consequências de dados incorretos não devem ser subestimadas, e medidas preventivas adequadas devem ser tomadas para eliminar o risco.

Prevenção de dados incorretos

Nenhum conjunto de dados é perfeito. Seus dados certamente terão erros. O primeiro passo para prevenir dados incorretos é reconhecer essa realidade para que você possa implementar as estratégias preventivas necessárias para garantir a qualidade dos dados.

Algumas etapas para prevenir dados incorretos incluem:

  1. Implementar uma governança de dados robusta é uma etapa crucial para estabelecer responsabilidades e padrões em toda a organização. Isso pode ajudá-lo a definir políticas e procedimentos claros sobre como gerenciar, acessar e manter os dados, de modo a minimizar o risco de dados incorretos.
  2. Realizar auditorias regulares de dados para encontrar inconsistências e dados desatualizados antes que surjam complicações.
  3. Regule os processos de entrada de dados estabelecendo padrões, regras de validação de dados e formatos e modelos padrão em toda a organização para minimizar erros humanos.
  4. Funcionários bem informados tendem a cometer menos erros durante o manuseio e o gerenciamento de dados. Portanto, são necessárias sessões regulares de treinamento e atualização para manter os funcionários cientes dos processos padrão.
  5. Faça backups regulares dos dados para evitar perdas durante eventos imprevistos.
  6. Use ferramentas avançadas projetadas especificamente para validação de dados para garantir a consistência e a integridade dos seus dados. Elas podem fornecer confirmação sobre a precisão e integridade dos seus dados, detectando e corrigindo possíveis erros.

Conclusão

Este artigo explorou o que são dados incorretos, os diferentes tipos de dados incorretos que você pode encontrar e suas causas. Além disso, destacou o impacto negativo significativo dos dados incorretos em uma organização orientada por dados, desde perdas financeiras até falências comerciais. Compreender esses fatores é o primeiro passo para evitar dados incorretos.

Embora existam várias estratégias preventivas para garantir a qualidade dos dados, empregar uma ferramenta confiável projetada especificamente para essa finalidade certamente aliviará sua carga de trabalho.

Considere o uso de ferramentas de extração de dados que permitem criar automaticamente conjuntos de dados confiáveis e limpos. Isso elimina o esforço da sua parte e deixa você com dados limpos e diretamente utilizáveis. Uma ferramenta que faz isso é a API Web Scraper da Bright Data. Não tem interesse em lidar com extração de dados? Registre-se agora e baixe nossas amostras de conjuntos de dados gratuitas!