Uma introdução visual ao aprendizado de máquina

PUBLICIDADE

Uma introdução visual ao aprendizado de máquina


Encontrando melhores limites

Vamos revisitar o limite de elevação de 240 pés proposto anteriormente para ver como podemos melhorar a nossa intuição.

Claramente, isso requer uma perspectiva diferente.


Ao transformar nossa visualização em um histogramapodemos ver melhor com que frequência as casas aparecem em cada elevação.

Embora a casa mais alta de Nova York tenha cerca de 240 pés, a maioria delas parece ter elevações muito mais baixas.


Seu primeiro garfo

Uma árvore de decisão usa instruções if-then para definir padrões nos dados.

Por exemplo, se a elevação de uma casa está acima de algum número, então a casa provavelmente fica em São Francisco.


No aprendizado de máquina, essas declarações são chamadas garfose eles dividiram os dados em dois galhos com base em algum valor.

Esse valor entre os ramos é chamado de ponto de divisão. As casas à esquerda desse ponto são categorizadas de uma forma, enquanto as que estão à direita são categorizadas de outra. Um ponto de divisão é a versão de um limite da árvore de decisão.


Compensações

Escolher um ponto de divisão tem vantagens e desvantagens. Nossa divisão inicial (~ 240 pés) classifica incorretamente algumas casas de São Francisco como de Nova York.

Olhe para aquela grande fatia verde no gráfico de pizza à esquerda, essas são todas as casas de São Francisco que foram classificadas incorretamente. Estes são chamados falsos negativos.


No entanto, um ponto de divisão destinado a capturar todas as casas de São Francisco incluirá também muitas casas de Nova York. Estes são chamados falsos positivos.


A melhor divisão

No melhor divisãoos resultados de cada ramificação devem ser tão homogêneos (ou puros) quanto possível. Existem vários métodos matemáticos que você pode escolher para calcular a melhor divisão.


Como vemos aqui, mesmo a melhor divisão numa única característica não separa totalmente as casas de São Francisco das de Nova Iorque.



Recursão

Para adicionar outro ponto de divisão, o algoritmo repete o processo acima nos subconjuntos de dados. Essa repetição é chamada recursãoe é um conceito que aparece com frequência em modelos de treinamento.

Os histogramas à esquerda mostram a distribuição de cada subconjunto, repetida para cada variável.


A melhor divisão varia de acordo com o galho da árvore que você está olhando.

Para casas com altitudes mais baixas, preço por metro quadrado, em X dólares por pé quadradoé a melhor variável para a próxima instrução if-then. Para casas em altitudes mais elevadas, é preçono Y dólares.


Fonte: theverge

Mais recentes

PUBLICIDADE

WP Twitter Auto Publish Powered By : XYZScripts.com