Validation croisée

Dans la validation croisée, le Training Server suit les étapes suivantes :

Il crée un seul modèle en utilisant toutes les données.
Il divise les données en x partitions, x = correspondant à 3, à 5 ou à 10.
Il crée ensuite un certain nombre de modèles partiels, soit un pour chaque partition, et chacun d’entre eux utilise une combinaison différente de x -1 partitions.
Par exemple, si les données sont divisées en trois partitions (A, B et C), le Training Server créera le modèle X en utilisant les partitions A et B, le modèle Y en utilisant les partitions A et C ainsi que le modèle Z en utilisant les partitions B et C.
Il teste chacun de ces modèles partiels en fonction de la partition qui a été omise lors de sa création.
Dans l’exemple précédent, il teste le modèle X avec la partition C, le modèle Y avec la partition B et le modèle Z avec la partition A.
Il regroupe les résultats de tous ces tests et les présente comme l’évaluation de l’ensemble du modèle.

Les idées suivantes sous-tendent le concept de la validation croisée :

La meilleure façon de tester un modèle est de l’appliquer à des données qui n’ont pas été utilisées lors de la création du modèle en question.
Un modèle créé à l’aide de la plupart des données est d’une utilité semblable à un modèle créé à l’aide de toutes les données. Ainsi, tester tous les modèles possibles de 90 pour cent, par exemple, sera une bonne indication de la qualité du modèle de 100 pour cent.

Étant donné que la validation croisée prolonge la durée nécessaire pour créer un modèle, il est préférable de ne pas la sélectionner pour les objets d’entraînement très volumineux ou ceux pour lesquels vous avez sélectionné une qualité d’entraînement d’un niveau régulier de 6.

Validation croisée

Contact

Genesys

Customer Care

Legal