Saltar para o conteúdo

Sobreajuste

Origem: Wikipédia, a enciclopédia livre.
Sistema de predição em que a linha verde representa um modelo sobreajustado e a linha preta um modelo regularizado.

Osobreajuste(inglês:overfitting) é um termo usado emestatísticapara descrever quando ummodelo estatísticose ajusta muito bem aoconjunto de dadosanteriormente observado, mas se mostra ineficaz para prever novos resultados.[1][2]

É comum que a amostra apresente desvios causados por erros de medição ou fatores aleatórios. Ocorre o sobreajuste quando o modelo se ajusta a estes. Um modelo sobreajustado apresenta altaprecisãoquando testado com seu conjunto de dados, porém tal modelo não é uma boarepresentaçãodarealidadee por isso deve ser evitado. É bem comum que estes modelos apresentem considerávelvariânciae que seusgráficostenham várias pequenasoscilações,portanto espera-se que modelos representativos sejamconvexos.

Uma ferramenta para contornar o problema do sobreajuste é aregularização,que adiciona àfunção custoo valor dos parâmetros. Tal adição resulta na eliminação de parâmetros de pouca importância e, portanto, em um modelo mais convexo, do qual que se espera que seja mais representativo da realidade. Através davalidação cruzada,em que testamos o nosso modelo em relação a uma parte reservada do conjunto de dados que não foi utilizada no treino do modelo em questão, é possível se ter uma ideia de se o modelo sofre de sobreajuste ou não.

Referências

  1. Miguel Cárdenas-Montes.Sobreajuste - Overfitting.Ciemat - Centro de Investigaciones Energéticas Medioambientales y Tecnológicas.
  2. Nate Silver.Sinal e o Ruído.Editora Intrinseca, 2013 - 544 pp,p.190-1.