Dados são essenciais e saber utilizá-los é primordial para a sobrevivência de qualquer empresa. Quando falamos sobre dados ou análises, os termos dados estruturados e não estruturados aparecem frequentemente. Um dado é a representação utilizada para gerar uma informação. Os dados sozinhos não correspondem a nenhum valor, eles precisam ser analisados em conjunto para se chegar a alguma informação.
Para que esses dados possam ser utilizados em sua totalidade, temos tecnologias como o Big Data, Data Science e Data Analytics. Mas, para fazer um bom uso dos dados, você precisa primeiramente saber a diferença entre esses tipos de dados.
Classificação dos dados
Os dados podem ser classificados em: estruturados, semiestruturados e não estruturados.
Estruturados
Os dados do tipo estruturados tem um padrão pré definido, uma estrutura bem definida e rígida. Essa estrutura é pensada antes mesmo da existência do dado.
Um exemplo mais típico é um banco de dados, onde os dados podem ser organizados através de linhas e colunas. Por ter essa estrutura, em um banco de dados por exemplo, não é permitido que tipos de dados diferentes das estruturas preestabelecidas sejam carregados. Se a coluna de uma tabela foi criada para ser numérica, ela não aceitará dados textuais.
Curso R - Introdução a Data Science
Conhecer o cursoNão estruturados
Ao contrário dos dados estruturados, os dados não estruturados possuem uma estrutura totalmente inversa e não podem ser organizados em tabelas.
Esse tipo de dados não tem uma estrutura bem definida, não tem um padrão pré-estabelecido. São dados flexíveis e dinâmicos, podendo ser compostos por diversos elementos diferentes dentro um todo.
Um exemplo simples de dados não estruturados são os dados de redes sociais. Esse é um típico exemplo, pelo grande número de textos, imagens, vídeos e diversos outros que são criados diariamente a partir do uso das tecnologias.
Na verdade, a maior parte dos dados gerados no mundo todo são dados não estruturados, tendo aproximadamente o percentual de 80%. Esses dados têm uma complexidade um pouco maior para análise, já que são informações de difícil processamento e recuperação, pois não contam com componentes necessários para a sua identificação. Porém, com a disponibilização de tecnologias que nos ajudam nesse quesito, essa complexidade da análise de dados tem diminuído.
Semiestruturados
Temos uma outra categoria ainda: os dados semiestruturados. Eles são uma mistura dos dois acima, tendo uma representação estrutural heterogênea. Possuem algumas características definidas, sendo parcialmente estruturados, mas não se limitam a uma estrutura rígida.
Os esquemas para dados semiestruturados são usualmente definidos após a existência dos dados, utilizando como base buscas e análises de suas estruturas particulares, similaridades e diferenças.
Algumas propriedades de metadados ou tags semânticas são utilizadas para torná-los mais gerenciáveis, no entanto, ainda contêm alguma variabilidade e inconsistência.
Em banco de dados semiestruturado, as informações não são guardadas em tabelas e sim em outras formas, como o XML por exemplo.