Tests et classements des logiciels d'Echecs

 

L'évaluation des logiciels restent un problème concret et d'actualité. Il existe trois méthodes d'évaluations.

L'AFFRONTEMENT HOMME - MACHINE

En théorie, la meilleure méthode consiste à faire rencontrer des logiciels et des humains. Elle existe, notamment par l'organisation du tournoi AEGON.

Il faut reconnaître que ces rencontres sont difficile à mettre en place, tant sur le plan financier que sur le plan sportif. Autant il est possible d'envisager 30 parties homme - machine sur un PC, autant il parait difficile de réunir 50 PC de 2 ou 3 Ghz et en même temps les plus grands GMI.

De plus, les parties joués par les programmes dans ces tournois ne sont pas assez nombreuses. Les versions des logiciels engagés sont rarement celles vendus dans le commerce. Enfin, les cadences, les machines sont très variés et ne favorisent pas une évaluation statistique fiable des programmes.

 

 

SSDF

La seconde méthode, adoptées notamment par la fédération suédoise, consiste à établir un classement basé sur des milliers de parties jouées entre logiciels. L'échantillon statistique est représentatif du niveau des différents programmes lorsqu'ils jouent les uns contre les autres. A ce jour le classement de référence est celui de l'association suédoise indépendante SSDF (Swedish Chess Association).

Cette méthode comporte deux défauts.

1) le classement obtenu est un classement "logiciel - humain" et la question reste posée quant à sa transposition en terme d'Elo contre des joueurs humains. Il semble que des programmes ayant obtenu d'excellents résultats contre les humains sont sous évalués par le classement suédois. Par exemple, des programmes au jeu agressif sont plus facilement contrable par d'autres programmes que par des humains.

2) La cadence utilisée par la SSDF est de 40 coups / 2 heures. Ce temps long mais incontournable, rend difficile voir impossible la confrontation sur différentes machines. Ainsi, aujourd'hui, les programmes sont évalués sur des K6 450 ou Athlon 1200 Mhz. Seuls quelques logiciels sont passés sur le 1200 Mhz. Qu'en est-il pour les autres configurations qui sont plus proches des 3 Ghz aujourd'hui ? le système d'ajout de points en fonction de la différence de puissance est très approximative ; tous les logiciels ne sont pas sensible de la même manière.

Plusieurs créateurs de programmes d'échecs utilisent les "ouvertures tueuses" pour avoir artificiellement de meilleurs résultats que leurs concurrents.

 

Pour avoir accès aux différents résultats du classement suédois

 

LES TESTS

La troisième méthode consiste à faire passer une série de test au logiciel : LCTII ou BS 2830...

Un des tests les plus utilisés est le LCT II le Louguet Chess Test créée par Monsieur Louguet avec l'aide de les lecteurs de la revue la Puce Echiquéenne  (dont nous avons fait partie).

Ce test a fait son apparition ne mars 1993  et s'est vu apporté des modifications jusqu'à sa version définitive 5 janvier 1995 (numéro 9 La Puce Echiquéenne).

 

Le test LCT II est une grille d'évaluation des logiciels et ordinateurs d'échecs, comprenant 35 diagrammes de difficulté croissante (14 positionnels, 12 combinaisons et 9 finales). A l'aide d'un système d'attribution de points basé sur le temps mis pour résoudre les positions, une note comparable au classement Elo peut être attribué à chaque programme à l'issu du test.

Cette grille doit être considéré comme un outil pratique d'évaluation. Elle permet de se faire une idée assez précise du niveau d'un programme en fonction du matériel (PC..) sur lequel il tourne, et cela en un temps raisonnable (5 heures).

Plus de détails ?

 

L'avantage est un gain de temps, l'inconvénient est que 35 ou 40 positions pour représenter un logiciel est un peu court.

Un autre avantage est que le logiciel est analysé sur du positionnel, tactique et en finale.

Un autre inconvénient est qu'un logiciel peut trouver un coup en 10 secondes sur une machine x, ce coup aurait été changé à 12 minutes. Sur une machine y plus puissante, ce coup sera trouvé en 1 ou 2 secondes et changé plus en 12 minutes mais à la 7 ou 9 ème minutes. Ce coup sera donc déclaré non trouvé par la machine y alors qu'il sera pris en compte par une machine x moins puissante. Remarquons que cela peut se produire sur un test et non sur tous !

 

Attention : certains sites font apparaître les résultats du LCTII passé sur Fritz notamment. L'utilitaire de passation de test par Fritz ne donne pas les mêmes résultats que lors d'une passation classique. Ansi, Fritz attend que son module trouve le bon coup mais n'attend pas 10 minutes, alors que dans de nombreuses positions, le module peut choisir un autre coup 30 secondes plus tard. L'important n'est pas d'avoir ce coup en mémoire, l'important c'est de le choisir.....