Diferença entre árvore de decisão e floresta aleatória

Índice:

O que é árvore de decisão
O que é Random Forest
Diferença entre árvore de decisão e floresta aleatória

o principal diferença entre a árvore de decisão e a floresta aleatória é que uma árvore de decisão é um gráfico que usa um método de ramificação para ilustrar todos os resultados possíveis de uma decisão, enquanto uma floresta aleatória é um conjunto de árvores de decisão que fornece o resultado final com base nos resultados de todas as suas árvores de decisão.

O aprendizado de máquina é uma aplicação de Inteligência Artificial, que dá a um sistema a capacidade de aprender e melhorar com base na experiência anterior. Árvore de decisão e floresta aleatória são duas técnicas de aprendizado de máquina. Uma árvore de decisão mapeia os resultados possíveis de uma série de escolhas relacionadas. É popular porque é simples e fácil de entender. Quando o conjunto de dados se torna muito maior, uma única árvore de decisão não é suficiente para encontrar a previsão. Uma floresta aleatória, que é uma coleção de árvores de decisão, é uma alternativa para esse problema. A saída da floresta aleatória é baseada nas saídas de todas as suas árvores de decisão.

Árvore de decisão, aprendizado de máquina, floresta aleatória

O que é árvore de decisão

Uma árvore de decisão é um diagrama em forma de árvore usado para determinar um curso de ação. Cada ramo da árvore representa uma possível decisão, ocorrência ou reação.

Existem vários termos associados a uma árvore de decisão. Entropia é a medida da imprevisibilidade no conjunto de dados. Depois de dividir o conjunto de dados, o nível de entropia diminui à medida que a imprevisibilidade diminui. O ganho de informação é a diminuição da entropia após cuspir o conjunto de dados. É importante dividir os dados de forma que o ganho de informação seja maior. As decisões finais ou classificações são chamadas de nós folha. O nó superior ou principal é chamado de nó raiz. O conjunto de dados deve ser dividido até que a entropia final se torne zero.

Uma árvore de decisão simples é a seguinte.

Figura 1: Árvore de Decisão

A árvore de decisão acima classifica um conjunto de frutas. Existem 4 uvas, 2 maçãs e 2 laranjas. Ao considerar o diâmetro inferior a 5, as uvas são categorizadas em um lado, enquanto as laranjas e as maçãs no outro lado. As uvas não podem ser classificadas mais porque têm entropia zero. Ao categorizar com base na cor, ou seja, se a fruta vermelha é vermelha ou não, as maçãs são classificadas em um lado, enquanto as laranjas são classificadas no outro lado. Assim, esta árvore de decisão classifica uma maçã, uva ou laranja com 100% de acerto.

No geral, uma árvore de decisão é simples de entender, mais fácil de interpretar e visualizar. Não requer muita preparação de dados. Ele pode lidar com dados numéricos e categóricos. Por outro lado, o ruído nos dados pode causar overfitting. Além disso, o modelo também pode ficar instável devido a pequenas variações.

O que é Random Forest

A floresta aleatória é um método que opera construindo várias árvores de decisão durante a fase de treinamento. As decisões da maioria das árvores são a decisão final da floresta aleatória. Um exemplo simples é o seguinte.

Suponha que haja um conjunto de frutas (cerejas, maçãs e laranjas). A seguir estão as três árvores de decisão que categorizam esses três tipos de frutas.

Figura 2: Árvore de decisão 1

Figura 3: Árvore de Decisão 2

Figura 4: Árvore de Decisão 3

Um novo fruto cujo diâmetro é 3 é dado ao modelo. Esta fruta é de cor laranja e cresce no verão. A primeira árvore de decisão irá categorizá-la como laranja. A segunda árvore de decisão irá categorizá-la como cereja, enquanto a terceira irá categorizá-la como laranja. Ao considerar todas as três árvores, há duas saídas para a laranja. Portanto, a saída final da floresta aleatória é uma laranja.

No geral, a floresta aleatória fornece resultados precisos em um conjunto de dados maior. Também reduz o risco de sobreajuste.

Diferença entre árvore de decisão e floresta aleatória

Definição

Uma árvore de decisão é uma ferramenta de suporte à decisão que usa um gráfico semelhante a uma árvore ou modelo de decisões e suas possíveis consequências, incluindo resultados de eventos fortuitos, custos de recursos e utilidade. Florestas aleatórias é um método de aprendizagem por conjunto que opera construindo uma infinidade de árvores de decisão no momento do treinamento e gerando a classe de acordo com as árvores individuais.

Sobreajuste

Existe a possibilidade de overfitting em uma árvore de decisão. O uso de várias árvores na floresta aleatória reduz o risco de sobreajuste.

Precisão

Uma floresta aleatória fornece resultados mais precisos do que uma árvore de decisão.

Complexidade

Uma árvore de decisão é mais simples e fácil de entender, interpretar e visualizar do que uma floresta aleatória, que é comparativamente mais complexa.

Conclusão

A diferença entre árvore de decisão e floresta aleatória é que uma árvore de decisão é um gráfico que usa um método de ramificação para ilustrar todos os resultados possíveis de uma decisão, enquanto uma floresta aleatória é um conjunto de árvores de decisão que dá o resultado final com base nos resultados de todos suas árvores de decisão.

Referência:

1. Algoritmo de floresta aleatória - floresta aleatória explicada | Random Forest in Machine Learning, Simplilearn, 12 de março de 2018, disponível aqui.