Diferença entre regressão linear e regressão logística

Índice:

O que é regressão linear
O que é regressão logística
Diferença entre regressão linear e regressão logística

o principal diferença entre a regressão linear e a regressão logística é que o a regressão linear é usada para prever um valor contínuo, enquanto a regressão logística é usada para prever um valor discreto.

Os sistemas de aprendizado de máquina podem prever resultados futuros com base no treinamento de entradas anteriores. Existem dois tipos principais de aprendizado de máquina chamados aprendizado supervisionado e aprendizado não supervisionado. A regressão e a classificação enquadram-se na aprendizagem supervisionada, enquanto o agrupamento recai na aprendizagem não supervisionada. Algoritmos de aprendizado supervisionado usam dados rotulados para treinar o conjunto de dados. A regressão linear e a regressão logística são dois tipos de algoritmos de aprendizagem supervisionada. A regressão linear é usada quando a variável dependente é contínua e o modelo é linear. A regressão logística é usada quando a variável dependente é discreta e o modelo não linear.

Regressão Linear, Regressão Logística, Aprendizado de Máquina

O que é regressão linear

A regressão linear encontra a relação entre as variáveis independentes e dependentes. Ambos são contíguos. A variável independente é a variável que não é alterada pelas outras variáveis. É denotado por x. Também pode haver várias variáveis independentes, como x1, x2, x3, etc. A variável dependente muda de acordo com a variável independente e é denotada por y.

Quando há uma variável independente, a equação de regressão é a seguinte.

y = b0 + b1x

Por exemplo, suponha que x representa a precipitação ey representa o rendimento da colheita.

Figura 1: Regressão Linear

O conjunto de dados será semelhante ao mostrado acima. Em seguida, uma linha que cobre a maioria dos pontos de dados é selecionada. Esta linha representa os valores previstos.

Figura 2: Distância entre os pontos de dados reais e os valores previstos

Então, a distância de cada ponto de dados à linha é encontrada conforme mostrado no gráfico acima. Esta é a distância entre o valor real e o valor previsto. Essa distância também é conhecida como erro ou resíduos. A linha de melhor ajuste deve ter a menor soma dos quadrados dos erros. Quando o novo valor de chuva é dado (x), é possível encontrar o rendimento da cultura correspondente (y) usando esta linha.

No mundo real, pode haver várias variáveis independentes (x1, x2, x3…). Isso é chamado de regressão linear múltipla. A equação de regressão linear múltipla é a seguinte.

O que é regressão logística

A regressão logística pode ser usada para classificar duas classes. Também é conhecido como classificação binária. Verificar se um e-mail é spam ou não prever se o cliente vai comprar um produto ou não, prever se é possível conseguir uma promoção ou não são alguns outros exemplos de regressão logística.

Figura 3: Regressão Logística

Suponha que o número de horas que um aluno estudou por dia seja a variável independente. Dependendo disso, a probabilidade de passar em um exame é calculada. O valor 0,5 considerado como o limite. Quando o novo número de horas é dado, é possível encontrar a probabilidade correspondente de passar no exame usando este gráfico. Se a probabilidade for superior a 0,5, é considerada 1 ou aprovada. Se a probabilidade for inferior a 0,5, ela será considerada 0 ou reprovada.

Aplicar a equação de regressão linear à função sigmóide fornecerá a equação de regressão logística.

A função sigmóide é

Outro ponto importante a se notar é que a regressão logística só é aplicável para classificar 2 classes. Não é usado para classificação multiclasse.

Diferença entre regressão linear e regressão logística

Definição

A regressão linear é uma abordagem linear que modela a relação entre uma variável dependente e uma ou mais variáveis independentes. Em contraste, a regressão logística é um modelo estatístico que prevê a probabilidade de um resultado que pode ter apenas dois valores.

Uso

Enquanto a regressão linear é usada para resolver problemas de regressão, a regressão logística é usada para resolver problemas de classificação (classificação binária).

Metodologia

A regressão linear estima a variável dependente quando há uma mudança na variável independente. A regressão logística calcula a possibilidade de ocorrência de um evento. Esta é uma diferença importante entre a regressão linear e a regressão logística.

Valor de saída

Além disso, na regressão linear, o valor de saída é contínuo. Na regressão logística, o valor de saída é discreto.

Modelo

Embora a regressão linear use uma linha reta, a regressão logística usa uma curva S ou função sigmóide. Essa é outra diferença importante entre a regressão linear e a regressão logística.

Exemplos

Prever o PIB de um país, prever o preço do produto, prever o preço de venda da casa, previsão de pontuação são alguns exemplos de regressão linear. Prever se um e-mail é spam ou não, prever se a transação com cartão de crédito é fraude ou não, se um cliente fará ou não um empréstimo são alguns exemplos de regressão logística.

Conclusão

A diferença entre a regressão linear e a regressão logística é que a regressão linear é usada para prever um valor contínuo, enquanto a regressão logística é usada para prever um valor discreto. Em resumo, a regressão linear é usada para regressão, enquanto a regressão logística é usada para classificação.

Referência:

Cortesia de imagem:

1. “Linear regression” Por Sewaqu - Trabalho próprio, Domínio Público) via Commons Wikimedia2. “Residuals for Linear Regression Fit” Por Thomas.haslwanter - Próprio trabalho (CC BY-SA 3.0) via Commons Wikimedia3. “Logistic-curve” Por Qef (conversa) - Criado do zero com gnuplot (Domínio Público) via Commons Wikimedia