Thèse de doctorat

Comparaison empirique des règles de classement et des estimateurs des taux d’erreur en analyse discriminante

GLELE KAKAÏ Romain(2005)

Ph.D., Gembloux Agricultural University


Une étude empirique de comparaison de trois règles de classement et de vingt estimateurs des taux d’erreur associés aux règles a été réalisée pour deux groupes, dans 480 situations déterminées par la nature de la distribution, le taux de recouvrement des populations, le nombre de variables, la taille des échantillons et le degré d’hétéroscédasticité, , du modèle défini dans l’étude. Les résultats obtenus permettent de noter que la règle quadratique est meilleure dans le cas d’un modèle normal ou de non-normalité modérée, constitué de populations présentant un fort recouvrement et une hétéroscédasticité marquée. La règle linéaire donne la meilleure performance pour un modèle normal ou de non-normalité modérée, de faible recouvrement de populations homoscédastiques. La logistique est meilleure pour tous les modèles hétéroscédastiques, de non-normalité sévère. Dans les autres situations, les règles linéaire et logistique ont pratiquement la même performance. En considérant les paramètres relatifs aux échantillons, la règle linéaire est globalement meilleure en cas d’acceptation de l’hypothèse de normalité alors que la règle logistique est meilleure dans le cas contraire. En ce qui concerne les estimateurs des taux d’erreur associés aux règles, on a globalement noté la meilleure performance de l’estimateur non paramétrique, e632, pour le calcul du taux d’erreur réel théorique associé aux trois règles de classement considérées. Les estimateurs paramétriques eOS, eO, eM et eL peuvent aussi être conseillés pour la détermination du taux d’erreur réel, mais, présentent des performances assez instables à travers les différents modèles de normalité et d’hétéroscédasticité. L’effet du nombre de groupes sur la performance des règles et des estimateurs, étudié dans le cas de populations normales, indique une détérioration de performance de la règle logistique avec l’accroissement du nombre de groupes, ce qui n’est pas le cas des autres règles et des estimateurs des taux d’erreur.