Métricas de Avaliação: acurácia, precisão, recall… quais as diferenças?

Vitor Rodrigues
3 min readApr 12, 2019

--

Em problemas de classificação, você provavelmente precisará de alguma maneira de avaliar seu modelo. Em uma rápida pesquisa, é possível encontrar algumas métricas para avaliar modelos de classificação. No entanto, como saber quais e quando usá-las?

Matriz de Confusão

Para entender melhor cada métrica, primeiro é necessário entender alguns conceitos.

Uma matriz de confusão é uma tabela que indica os erros e acertos do seu modelo, comparando com o resultado esperado (ou etiquetas/labels). A imagem abaixo demonstra um exemplo de uma matriz de confusão.

Matriz de Confusão
  • Verdadeiros Positivos: classificação correta da classe Positivo;
  • Falsos Negativos (Erro Tipo II): erro em que o modelo previu a classe Negativo quando o valor real era classe Positivo;
  • Falsos Positivos (Erro Tipo I): erro em que o modelo previu a classe Positivo quando o valor real era classe Negativo;
  • Verdadeiros Negativos: classificação correta da classe Negativo.

Métricas de Avaliação

Ao ser feita a contagem de todos esses termos e obter a matriz de confusão, é possível calcular métricas de avaliação para a classificação.

Fonte: https://www.instagram.com/p/BwK5Qw4FJZe/
  • Acurácia: indica uma performance geral do modelo. Dentre todas as classificações, quantas o modelo classificou corretamente;
  • Precisão: dentre todas as classificações de classe Positivo que o modelo fez, quantas estão corretas;
  • Recall/Revocação/Sensibilidade: dentre todas as situações de classe Positivo como valor esperado, quantas estão corretas;
  • F1-Score: média harmônica entre precisão e recall.

Quando usar cada uma?

A acurácia é uma boa indicação geral de como o modelo performou. Porém, pode haver situações em que ela é enganosa. Por exemplo, na criação de um modelo de identificação de fraudes em cartões de crédito, o número de casos considerados como fraude pode ser bem pequeno em relação ao número de casos considerados legais. Para colocar em números, em uma situação hipotética de 280000 casos legais e 2000 casos fraudulentos, um modelo simplório que simplesmente classifica tudo como legal obteria uma acurácia de 99,3%. Ou seja, você estaria validando como ótimo um modelo que falha em detectar fraudes.

A precisão pode ser usada em uma situação em que os Falsos Positivos são considerados mais prejudiciais que os Falsos Negativos. Por exemplo, ao classificar uma ação como um bom investimento, é necessário que o modelo esteja correto, mesmo que acabe classificando bons investimentos como maus investimentos (situação de Falso Negativo) no processo. Ou seja, o modelo deve ser preciso em suas classificações, pois a partir do momento que consideramos um investimento bom quando na verdade ele não é, uma grande perda de dinheiro pode acontecer.

O recall pode ser usada em uma situação em que os Falsos Negativos são considerados mais prejudiciais que os Falsos Positivos. Por exemplo, o modelo deve de qualquer maneira encontrar todos os pacientes doentes, mesmo que classifique alguns saudáveis como doentes (situação de Falso Positivo) no processo. Ou seja, o modelo deve ter alto recall, pois classificar pacientes doentes como saudáveis pode ser uma tragédia.

O F1-Score é simplesmente uma maneira de observar somente 1 métrica ao invés de duas (precisão e recall) em alguma situação. É uma média harmônica entre as duas, que está muito mais próxima dos menores valores do que uma média aritmética simples. Ou seja, quando tem-se um F1-Score baixo, é um indicativo de que ou a precisão ou o recall está baixo.

Conclusão

Cada métrica tem suas peculiaridades que devem ser levadas em consideração na escolha de como o modelo de classificação será avaliado. Não se deve pensar em uma como melhor ou pior que a outra de maneira geral, e sim deve-se analisar o problema e escolher a/as que melhor se adapta(m).

Contatos:

github.com/vbrodrigues/

https://www.linkedin.com/in/vitorborbarodrigues/

--

--