Data Science - O que é, definição e conceito

Índice:

Anonim

A ciência de dados é uma disciplina que estuda de onde vem uma determinada base de informações. Ele também discute como esses recursos podem ser interpretados e representados para uso produtivo.

Ou seja, data science é aquela relacionada ao gerenciamento de bancos de dados, armazenados em arquivos digitais, dos quais muitas informações úteis podem ser extraídas como indicadores estatísticos. Isso pode ajudar, por exemplo, uma empresa a tomar decisões de negócios.

Da mesma forma, a data science fornece ferramentas que permitem não só interpretar, mas também representar, por exemplo, em imagens, os dados disponíveis. Assim, temos o histograma, o diagrama de barras, o gráfico de pizza, entre outros.

Como se pode deduzir, essa ciência é interdisciplinar, pois abrange conhecimentos de matemática, estatística e informática, principalmente.

Ciência de dados e tipos de dados

Também deve ser observado que a ciência de dados pode trabalhar com dois tipos de dados:

  • Estruturada: São aquelas que estão organizadas, como as tabelas com colunas diferentes, cada uma com uma categoria diferente como: nome, apelido, idade, número do documento de identidade, etc.
  • Não estruturado: Aqueles que não correspondem a um determinado formato, como um texto escrito livremente. Nesse caso, você precisa interpretar o conteúdo e extrair os dados que podem ser gerenciados.

Levando em conta tudo o que foi explicado, profissionais especializados em ciência de dados não devem ter apenas habilidades analíticas, mas devem ser capazes de comunicar o conteúdo da informação que processaram.

Importância da ciência de dados

A ciência de dados é importante para empresas ou instituições que precisam trabalhar com uma grande quantidade de dados. Assim, podem se tornar informações valiosas.

Podemos relacionar a ciência de dados ao Big Data, que consiste em desenvolver mecanismos capazes de processar e gerenciar dados massivos vindos de várias fontes. O objetivo é convertê-los em informações passíveis de serem interpretadas pelo ser humano e que o auxiliem na tomada de decisões.

Esses dados a serem processados ​​podem vir de transações entre indivíduos e organizações (como operações bancárias), ações diárias de pessoas (como pesquisas na Internet), máquinas (como o GPS do telefone celular que registra onde o usuário esteve) ou informações biométrico (como impressão digital).

História da ciência de dados

Pode-se dizer que o estatístico americano John Wilder Tukey foi o pioneiro da ciência de dados na década de 1960, enfatizando a importância de analisar dados em vez de testar modelos estatísticos.

No entanto, só em 1996 o termo ciência de dados foi usado pela primeira vez no título de uma palestra, na palestra intitulada: "Ciência de dados, classificação e métodos relacionados". Isso, no âmbito da reunião de membros da ‘International Federation of Classification Societies’ (IFCS), realizada em Kobe, Japão.

Outro marco importante veio em 2005, quando "Coleções de dados digitais de longa duração que permitem a pesquisa e a educação no século 21" foi publicado pelo National Science Board. Nesse documento, os cientistas de dados são definidos como especialistas em computação, programadores de banco de dados e software e profissionais de outras disciplinas (como bibliotecários e arquivistas), que são cruciais para o gerenciamento bem-sucedido de uma coleta de dados digital.

No entanto, este ainda é um campo de estudo ainda em desenvolvimento.