top of page

A Importância Fundamental da Álgebra Linear e Estatística no Aprendizado de Máquina

  • Foto do escritor: Lucas Dias Noronha
    Lucas Dias Noronha
  • 10 de fev.
  • 5 min de leitura


Imagem de Capa

Infelizmente, para alguns, esquivar-se da matemática não será possível caso tenha pretensão em se tornar um verdadeiro especialista em Inteligência Artificial. Quando se trata de aprendizado de máquina (machine learning, em inglês), é obrigatório entender aquilo que alguns chamam de matemática dos dados, ou a famosa álgebra linear.


Os métodos estatísticos modernos utilizam a álgebra linear como principal ferramenta. A aprendizagem de máquina faz uso das notações de álgebra linear para descrever seus métodos. Muitos dos métodos de aprendizagem de máquina nasceram do casamento entre álgebra linear e estatística. Para entender o aprendizado de máquina, é preciso entender a álgebra linear. Outro fator importante são os dados, que comumente são representados em formatos de vetores e matrizes. Portanto, é crucial que você entenda álgebra linear se pretende se tornar um especialista em inteligência artificial.


Vamos discorrer e entender alguns conceitos de álgebra linear aplicados ao aprendizado de máquina para que possa ser esclarecido como esse casamento é feito.


Para começarmos, vamos analisar um histograma que contém a distribuição de altura de diversos indivíduos de um conjunto de dados.



Histograma que contém a distribuição de altura de diversos individuos. (Gráfico 1)
Histograma que contém a distribuição de altura de diversos indivíduos. (Gráfico 1)

Esse histograma também pode ser representado por um vetor com registros da frequencia em grupos de intervalos que vamos definir, para esse nosso exemplo, como 2,5 (cm). Veja como ele ficará definido como um vetor que vamos chamar de F, onde cada componente dele é um intervalor de valores.



Vetor com os intervalos de valores. (Figura 1)
Vetor com os intervalos de valores. (Figura 1)

Outros exemplo, consiste em uma das muitas tarefas do aprendizado de máquina que é, ajustar um modelo aos dados para representar a distribuição subjacente. Para as alturas de uma população, um modelo que podemos usar para prever frequências é a distribuição Normal (ou Gaussiana). Esse é um modelo para uma curva em forma de sino, que tem a seguinte aparência:



Distribuição Normal (ou Gaussiana). (Gráfico 2)
Distribuição Normal (ou Gaussiana). (Gráfico 2)

A distribuição Gaussiana, pode ser representada pela Função Densidade de Probabilidade da distribuição normal:



Função Densidade de Probabilidade. (Figura 2)
Função Densidade de Probabilidade. (Figura 2)

Vamos aqui, focar apenas no fato de que a distribuição Gaussiana depender de dois parâmetros fundamentais, a média (μ), que indica onde a curva é centralizada, e o desvio padrão (σ), que determina a largura característica da curva em forma de sino (medida a partir da média).


Podemos colocar esses dois parâmetros em um vetor 𝑝 = [𝜇, 𝜎], que ficaria da seguite forma, com base no gráfico 2:


Representação do vetor 𝑝 = [𝜇, 𝜎]. (Figura 3)
Representação do vetor 𝑝 = [𝜇, 𝜎]. (Figura 3)

Vamos utilizar outro exemplo de uma distribuição Normal, onde a média é 10 e o devio padrão é 2:


Segundo exemplo de uma distribuição Normal (ou Gaussiana). (Gráfico 3)
Segundo exemplo de uma distribuição Normal (ou Gaussiana). (Gráfico 3)

O nosso vetor seria representado da seguinte forma:

Representação do vetor 𝑝 = [𝜇, 𝜎], com média 10 e devio padrão 2. (Figura 4)
Representação do vetor 𝑝 = [𝜇, 𝜎], com média 10 e devio padrão 2. (Figura 4)

Quando analisamos a qualidade de modelos com métodos estatísticos, podemos entrar no conceito de bondade de ajuste e de maldade de ajuste.


Bondade de Ajuste: refere-se a quão bem um modelo estatístico se ajusta aos dados observados. Vários testes e métricas são usados para avaliar a bondade de ajuste, como o Coeficiente de Determinação (R²), o Teste Qui-Quadrado, o Erro Quadrático Médio (MSE), o Critério de Informação de Akaike (AIC) e o Critério de Informação Bayesiano (BIC).


Maldade (ou Problemas de Ajuste): a “maldade” pode ser associada a problemas e desafios em modelagem estatística, tais como o Overfitting (Superajuste), o Underfitting (Subajuste), o Viés e Variância, e o Multicolinearidade.


Exemplos:


  • Bondade de Ajuste: um modelo de regressão linear com um alto , baixo erro quadrático médio (MSE), e valores baixos de AIC/BIC seria considerado um bom modelo, pois explica bem a variabilidade dos dados.


  • Maldade (Problemas de Ajuste): um modelo de machine learning que mostra um desempenho excelente nos dados de treinamento, mas falha em dados de teste, sofre de overfitting. Um modelo com um muito baixo e altos valores de MSE/AIC/BIC pode ser subajustado.


Portanto, “bondade” pode ser entendida como o quão bem um modelo consegue capturar os padrões dos dados de maneira que funcione bem também para novos dados. Já “maldade” se refere aos problemas que atrapalham essa capacidade de previsão e ajuste.


Em estatística, os resíduos são as diferenças entre os valores observados e os valores previstos por um modelo. Eles são usados para avaliar a qualidade do ajuste do modelo aos dados e identificar padrões ou anomalias nos dados que o modelo pode não ter capturado.


Para um modelo de regressão, os resíduos são calculados como:



Resíduos, formula. (Figura 5)
Resíduos, formula. (Figura 5)

onde:


Resíduos, definições. (Figura 6)
Resíduos, definições. (Figura 6)

Os resíduos são muito importantes para avaliar e diagnosticar modelos estatísticos. Analisar os resíduos com cuidado ajuda a garantir que o modelo que você escolheu seja adequado para os dados e dá dicas sobre como melhorar o modelo.


Um modelo nos permite prever dados com base em uma distribuição. Um modelo só é considerado bom caso se ajustar bem aos dados observados. Alguns valores específicos para os parâmetros serão melhores do que outros para um modelo.


Se precisamos ajustar os parâmetros do modelo aos dados e quantificar a qualidade desse ajuste, uma forma de fazer isso é calcular os “resíduos”, que são a diferença entre os dados medidos e as previsões do modelo para cada bin do histograma.


Isso é ilustrado abaixo. O modelo é mostrado em rosa (linha), os dados medidos estão em amarelo, e as áreas onde eles se sobrepõem são mostradas em verde. A parte da linha rosa e amarela que não se sobrepõem representa os resíduos:


Histograma de Resíduos onde mostra uma alta inadequação do modelo aos dados. (Gráfico 4)
Histograma de Resíduos onde mostra uma alta inadequação do modelo aos dados. (Gráfico 4)

É possível observa que modelo teve uma baixa adequação aos dados.


Um ajuste melhor teria o máximo de sobreposição possível, reduzindo os resíduos o máximo possível. Como ilustrado pelo grafico a seguir:


Histograma de Resíduos onde mostra uma alta adequação do modelo aos dados. (Gráfico 5)
Histograma de Resíduos onde mostra uma alta adequação do modelo aos dados. (Gráfico 5)

Nesse segundo exemplo podemos ver que o modelo manteve um desvio padrão similiar ou aproximadamente ao do conjunto de dados, com leve aumento da média.


O desempenho de um modelo pode ser quantificado em um único número. Uma medida que podemos usar é a Soma dos Resíduos Quadrados (SSR). Aqui, pegamos todos os resíduos (a diferença entre os dados medidos e previstos), elevamos ao quadrado e os somamos.



Soma dos Resíduos Quadrado (SSR). (Figura 7)
Soma dos Resíduos Quadrado (SSR). (Figura 7)

O SSR do modelo mostrado no gráfico 4, foi de 0.48, enquanto o do gráfico 5 foi de 0.00044157451839108426.


SSR modelo gráfico 4. (Figura 8)
SSR modelo gráfico 4. (Figura 8)

SSR modelo gráfico 5. (Figura 9)
SSR modelo gráfico 5. (Figura 9)

Um valor baixo indica que o modelo teve uma ótima adequação ao dados (gráfico 5), enquanto um valor alto mostra o contrario (gráfico 4).



Conclusão


Exploramos conceitos fundamentais de aprendizado de máquina que envolvem álgebra linear e estatística, evidenciando o papel essencial da matemática na inteligência artificial. O uso de modelos prontos, sem uma compreensão sólida dos princípios matemáticos, pode comprometer a validação e a interpretação dos resultados. Portanto, encare a matemática como uma aliada indispensável nessa jornada, pois é ela que proporciona a base necessária para um desenvolvimento mais preciso e confiável dos seus modelos de machine learning.

Comentários

bottom of page