Árvores, Redes e Ensemble Models

Arvore

CRISP-DM

Algorítimos famosos: CART, ID3, C4.5, C5.0, CHAID, MARS, etc.

Arvores de Decisão

Uma arvore de decisão é uma estrutura de dados (Grafo) que divide um conjunto de dados em subconjuntos menores. Cada divisão é feita com base em um valor de um atributo. O processo é repetido até que todos os subconjuntos sejam homogêneos.

A primeira pergunta é chamada de quebra ou split. O objetivo é dividir o conjunto de dados em subconjuntos menores. O processo é repetido até que todos os subconjuntos sejam homogêneos.

As próximas perguntas são chamadas de nós.

As folhas são os nós finais da árvore.

Profundidade da árvore é o número de perguntas que podem ser feitas.

A entropia é uma medida de incerteza. Quanto maior a entropia, maior a incerteza.

Arvores são robustas, interpretáveis e flexíveis. Sem suposições probabilísticas. Necessário cross validation.

Algoritimos para construção de árvores

O Modelo busca uma separação perfeita das observações que classificamos como eventos e não evento, cam base em variáveis observáveis como ideias, idade, sexo, etc.

O algorítimos testa todas as possíveis quebrar binarias que podem fazer com as variáveis disponíveis e escolhe a melhor minimizando a entropia (indicador de impureza).
Depois de escolher a melhor quebra, o algorítimo repete o processo para cada subgrupo.
O processo é repetido até que a regra de parada seja atingida.

Entropia

A entropia é uma medida de incerteza. Quanto maior a entropia, maior a incerteza.

Impureza máxima com distribuição uniforme
Impureza mínima com concentração total

Gini e ROC

A curva ROC é uma curva que mostra a taxa de verdadeiros positivos em função da taxa de falsos positivos. A área sob a curva é chamada de AUC.

GiNI é uma medida de impureza.

GINI = (AUC-0.5)*2

Uma boa variável é aquela que possui um índice Gini menor.

hiperparâmetros

São parâmetros que controlam o algorítimo como:

Numero mínimos de observações por folha
Profundidade máxima da árvore
CP - Custo de complexidade

Overfitting e Underfitting

Overfitting: A árvore é muito complexa e se ajusta muito bem aos dados de treinamento, mas não generaliza bem para novos dados.
Underfitting: A árvore é muito simples e não consegue capturar a complexidade dos dados.

Cross Validation

É uma técnica para avaliar a capacidade de generalização de um modelo. O conjunto de dados é dividido em algumas partes. O modelo é treinado nas partes e testado na parte restante.

aviso

Escolher parametros do modelos com uma base de validação ainda pode propiciar overfitting.

Amostra de treinamento: Usada para treinar o modelo.
Amostra de validação: Usada para ajustar os hiperparâmetros.
Amostra de teste: Usada para avaliar o modelo.

K-Fold Cross Validation

Divide o conjunto de dados em k partes.
O modelo é treinado em k-1 partes e testado na parte restante.
O processo é repetido k vezes.
A métrica de avaliação é a média das métricas de avaliação de cada fold.
Dividimos a base em k subamostras
Para cada subamostra:
- Removemos a subamostra como validação
- Treinamos o modelo com as observações restantes
- Utilizamos este modelo para classificar a subamostra removida - Avaliamos a métrica de desempenho do modelo
Calculamos a média das métricas de desempenho do modelo

Tipicamente, fazemos o mesmo para variações do modelos para otimizar os hiperparametros.

NK-Fold

Embaralha os dados
Realiza um K-Fold
Repete o processo 1 e 2N vezes
Avalia os resultados com mais precisão

Arvore como um classificador

Podemos ter a estimativa de probabilidade de um evento ocorrer.

Avaliação de um modelo

Matriz de confusão: Mostra a relação entre as previsões e os valores reais. Para cada ponto de corte, temos uma matriz de confusão.
Precisão: Proporção de previsões corretas.
Acurácia: Acerto sobre tentativas.
Sentitividade:TRUE POSITIVES / (TRUE POSITIVES + FALSE NEGATIVES)
Especificidade: TRUE NEGATIVES / (TRUE NEGATIVES + FALSE POSITIVES)

Arvore de regressão

Muito semelhante a arvore de classificação, mas a variável resposta é contínua.

O que muda é a métrica de impureza. Tipo o desvio padrão em torono da média (Desvio em torno da predição)

Para avaliar o modelos podemos utilizar o Rˆ2.

Estratégias de avaliação:

Numérica: R quadrado, SSE (Soma dos quadrados dos erros), QME (Quadrado médio do erro)
Gráfica: Variável vs (y e predito), variável vs resíduo, predito vs real

Shap

O SHAP (SHapley Additive exPlanations) é um método para explicar a saída de qualquer modelo de machine learning. Ele conecta a teoria dos jogos com a interpretabilidade de modelos. Você pode explicar a influência de cada variável em determinado indivíduo.

SHAP pode ajudar quando é preciso explicar certas decisões do algoritmo.

O gráfico basewarm mostra a importância de cada variável para cada observação. O eixo X mostra o impacto na predição e a cor mostra se a variável é alta ou baixa.

O gráfico de cascata mostra para uma obervação, a influencia da variável no output do modelo (ou a contribuição de cada variável para a predição).

CRISP-DM​

Arvores de Decisão​

Algoritimos para construção de árvores​

Entropia​

Gini e ROC​

hiperparâmetros​

Overfitting e Underfitting​

Cross Validation​

K-Fold Cross Validation​

NK-Fold​

Arvore como um classificador​

Avaliação de um modelo​

Arvore de regressão​

Shap​

Para saber mais​