Análise de cluster - O que é, definição e conceito - 2021

A análise de cluster é um conjunto de técnicas estatísticas multivariadas que visam agrupar um conjunto de casos ou indivíduos em clusters ou clusters.

A análise de cluster, portanto, é um tipo de agrupamento estatístico. O objetivo é tornar os dados de cada cluster o mais semelhante possível entre si e o mais diferente possível em relação aos outros grupos. Também pode ser feito com variáveis.

Transformação de dados na análise de cluster

Um dos problemas que encontramos quando agrupamos dados é que os dados às vezes estão em unidades de medida diferentes. Por esse motivo, uma etapa de análise de pré-cluster deve ser realizada para permitir o clustering.

O método mais comum é a padronização. Isso é usado para transformar os dados para que tenham unidades de medida semelhantes. Duas regras devem ser levadas em consideração, as variáveis ​​binárias não são padronizadas e, se forem categóricas, tornam-se binárias (presença / ausência).

Métodos em análise de cluster

Existem muitos métodos para realizar a análise de cluster, mas em Economy-Wiki.com, seguindo o princípio da simplicidade que nos caracteriza, veremos os mais relevantes de forma esquemática.

Métodos hierárquicos

Uma primeira classificação seria métodos hierárquicos ou não hierárquicos. O primeiro agrupa os indivíduos em fases hierárquicas (daí seu nome). Desta forma, apenas um objeto muda de grupo por vez, o resto permanece no mesmo lugar.

Estes, por sua vez, são classificados em:

Métodos aglomerativos

Consiste em agrupar os indivíduos em menos grupos de cada vez. Ele começa com um número de grupos igual ao número de casos e está diminuindo.

Os mais conhecidos são:

  • Método do vizinho mais próximo: Neste caso, você usa um algoritmo para agrupar os dados. O que você procura é a distância mínima entre os indivíduos mais próximos. É muito sensível aos dados que podem causar o chamado "ruído". O método do vizinho mais distante é semelhante.
  • Método médio entre grupos: O que faz é calcular a média da distância entre os indivíduos de um grupo e um deles em particular. É muito útil reduzir o chamado "ruído".
  • Método de Ward: O que faz é somar os quadrados dos desvios entre cada indivíduo e a média do seu cluster, para evitar a perda de informação. É um dos mais conhecidos e tem as vantagens do método baseado na média, mas com maior poder de discriminação.

Métodos dissociativos

Nesse caso, o que você faz é dividir. Ele começa com um único cluster e as divisões são propostas com base em uma série de requisitos.

Os mais comuns são:

  • Método da média entre grupos, vizinho mais próximo e vizinho mais distante: Esses três métodos são semelhantes ao caso anterior, mas usando o método dissociativo. Ou seja, desta vez o que fazemos é separar e não agrupar.
  • Método centróide: É amplamente utilizado em problemas de otimização de localização de instalações. Use este tipo de análise para encontrar os mais adequados.

Métodos não hierárquicos

Nesse caso, eles começam com uma solução predefinida. Este é o ponto de partida para a análise de cluster. Desta forma, os grupos são estabelecidos antecipadamente e cada caso será colocado em um deles, dependendo de suas características. Por sua vez, podemos dividi-los em outros subgrupos.

  • Métodos de reatribuição: Os mais relevantes são os métodos de centróide, como k-médias. Aqueles de medioides, como PAM. Ou de nuvens dinâmicas.
  • Métodos diretos: O mais importante é o agrupamento de blocos, amplamente utilizado na mineração de dados.
  • Métodos redutivos: Baseia-se na análise fatorial.
  • Métodos de pesquisa de densidade: Por um lado, haveria as de abordagens tipológicas, como a análise modal. Por outro lado, temos os probabilísticos, como o de Wolf.

Exemplos de análise de cluster

Vamos ver, finalmente, alguns exemplos de aplicativos de análise de cluster.

  • Vamos imaginar que temos um grupo de países que queremos agrupar com base em certas variáveis ​​macroeconômicas, como inflação ou desemprego. Podemos usar este tipo de análise para fazer grupos homogêneos, por exemplo, países mais ou menos desenvolvidos.
  • Outro exemplo pode ser uma série de consumidores com certas características sociodemográficas. A ideia é criar grupos com indivíduos semelhantes e que, por sua vez, sejam muito diferentes uns dos outros.
  • Mas, além da economia, a análise de agrupamento é útil em outras ciências. Por exemplo, em biologia, para classificar espécies, ou em geologia, para fazer o mesmo com os minerais.

Você vai ajudar o desenvolvimento do site, compartilhando a página com seus amigos

wave wave wave wave wave