KNN: Como Usamos Machine Learning na Segmentação Geográfica

Usando os vizinhos fofoqueiros para saber sobre seu bairro

Como funciona o método KNN ou K-Nearest Neighbors, que em português seria algo como “os vizinhos mais próximos num espaço vetorial”

A Segmentação Geográfica da Mapfry é tão precisa que provoca desconfianças, alguns clientes nos procuram querendo entender mais sobre a metodologia antes de confiar suas decisões de negócios.

Mais do que falar complicado sobre nossas modelagens estatísticas, queremos explicar como fomos capazes de descrever o território da forma como fizemos, como por exemplo:

  • Região mista, entre residências e comércio integrados, com uso funcional do espaço
  • Região mista estabelecida, são áreas consolidadas, com usos diversos e público estável
  • Núcleo local pendular, são zonas de comércio focado em quem se desloca para trabalhar, onde se beneficiam negócios de alta rotatividade

Essas informações foram processadas para momentos em que você precisa descobrir se um bairro vai curtir uma nova cafeteria gourmet. 

Simplesmente não dá pra sair perguntando de porta em porta, convenhamos, seria um pouco esquisito e caro! Então você precisa de um jeito mais elegante.

Aí entra o KNN

Primeiro, criamos um espaço de características (feature space), que é basicamente um mapa que posiciona cada bairro segundo suas características principais, como por exemplo:

  • Renda média (a turma tem dinheiro sobrando ou tá mais apertada?)
  • Perfil dos domicílios (cada um tem seu quarto ou os espaços são divididos?)
  • Idade média (tem mais millennial empolgado com matcha ou avós tradicionais com café preto?)

Cada bairro vira, então, um ponto nesse espaço vetorial imaginário.

Agora vem a mágica: você tem um bairro novo, um vetor de consulta (famoso query vector), e quer saber quanto o pessoal ali gastaria por mês na sua cafeteria gourmet. 

O KNN vai olhar para esse bairro e calcular quem são os “vizinhos” dele no espaço vetorial.

Como? Através da distância euclidiana, um jeito sofisticado de dizer que ele mede a distância entre pontos usando uma régua matemática. Quanto mais próximas forem as características, menor é essa distância, mais similares são esses bairros.

Mas aí vem um detalhe interessante: quantos vizinhos consultar? 

Se você perguntar para só um ou dois bairros, pode cair no risco de se basear em opiniões muito específicas. Algo como perguntar só pro seu tio sobre o que é tendência em tecnologia.

Se perguntar pra 100 bairros, você pode acabar misturando coisas muito diferentes, e a média acaba não representando ninguém de verdade, como colocar a cabeça no forno e o pé na geladeira. 

É por isso que escolhemos proporções mais razoáveis, como K=5, um meio-termo elegante, equilibrando a variância, que descreve o quanto os resultados variam, com o viés, o quanto as respostas são genéricas.

Agora, se você estiver achando fácil demais e resolver colocar muitas variáveis, tipo 20 ou 50 características, cuidado! 

Você entra num fenômeno chamado de “maldição da dimensionalidade”. 

Significa que, quando temos muitas dimensões, o espaço fica tão amplo que os pontos ficam isolados e encontrar vizinhos parecidos vira uma tarefa ingrata. 

Imagine procurar por amigos numa festa de réveillon, onde todo mundo está de branco. 

Se a festa é pequena, fácil, se for grande demais, você corre o risco de ficar encontrando vários amigos que não são os seus.

Por fim, para saber se nossas projeções refletem a realidade, usamos uma métrica chamada MSE (Mean Squared Error), que calcula a diferença entre o perfil de mercado estimado e a referência.

Quanto menor essa diferença, melhor é a capacidade de entendimento de nosso modelo.

Em resumo, pra ninguém dizer que inventamos:

  • O KNN prevê comportamentos olhando para os vizinhos parecidos;
  • Distâncias são calculadas matematicamente (distância euclidiana);
  • K é o número mágico que decide a quantidade de vizinhos;
  • Equilibramos viés e variância pra não ter resultados malucos;
  • Quanto mais características adicionarmos, mais difícil fica achar bons vizinhos;
  • Avaliamos tudo pelo MSE, buscando acertar o alvo com precisão.

Pode confiar, não é bruxaria, é tecnologia!

Leia também: Você ainda acha que idade define público-alvo?

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Rolar para cima