L’overfitting expliqué

Aujourd’hui, j’ai ri tout seul en me disant « en fait, le complotisme et la religion, c’est juste de l’overfitting. On devrait les lobotomiser par charité ». Et je me suis dit que les gens ne peuvent pas comprendre donc… explications.

Aujourd’hui, l’overfitting.

Imaginez un réseau de neurones. Imaginez un peu un LLM façon ChatGPT. Un jour j’expliquerai comment ça marche, un réseau de neurones, mais ça ne devrait pas gêner de ne pas savoir vraiment ici.

Imaginez qu’on veut lui apprendre un truc simple. Genre compter le nombre de lettres dans un mot. Comment on fait ? Et bien on va l’entraîner. On va prendre plein de mots, et les donner à l’IA tout en lui donnant aussi le nombre de lettres.

Et on va laisser ajuster les paramètres et les liens entre les neurones jusqu’à ce que notre modèle arrive à donner la bonne réponse. … la bonne réponse pour tous les exemples d’entraînement.

Alors on peut espérer que le modèle a su « comprendre » et reproduire la façon de savoir de combien de lettres un mot est composé, mais en vrai… souvent non.

Parce que le plus simple, c’est pas de comprendre la règle. C’est de « mémoriser » une grosse liste. Le réseau neuronal peut garder en mémoire (ça reste impressionnant, hein, il a inventé la mémoire !) la liste des mots d’entraînement et le nombre associé.

C’est ça, l’overfitting. Quand le réseau est suffisamment grand pour faire une table d’association entre des entrées et des sorties. Donnez-lui un truc en dehors de la table, et il va halluciner.

Alors c’est quoi la solution ? Et bien, paradoxalement… c’est de trancher dans les neurones. Si le réseau est suffisamment grand pour comprendre la règle, mais trop petit pour mémoriser tous les exemples d’entraînement, il sera forcé de tomber sur la bonne manière de compter les lettres.

C’est d’ailleurs en vrai l’une des plus belles leçons des LLM actuels, ignorée du commun des mortels : on les pensait impossibles. Le L veut dire Large. Le consensus il y a quelques années était que les milliards de connexions empêcheraient d’en faire autre chose que des perroquets savants.

Bref. Les complotistes et les croyants ont, comme la plupart des humains, une grosse capacité neuronale. Mais ils ont appris des tables de causes et d’effets, sans comprendre les règles. Et dès qu’on sort de ce qu’ils savent… ils hallucinent. Overfitting !

Et la solution est sans appel 😅

Et je vais continuer le thread pour expliquer pourquoi finalement on a des modèles larges qui fonctionnent actuellement, si vous vous posez la question. La révolution est récente, on parle de 2019.

Des gens un peu butés, un peu cons, mais au final un peu géniaux ont fait une expérience débile et chère. Ils ont pris un jeu de données à apprendre, et un réseau apprenant, et ils l’ont fait grossir en relevant le taux d’erreur à chaque fois.

Comme prévu, tout a fonctionné comme je l’ai décrit au-dessus. Quand on augmente la taille du réseau neuronal, le nombre d’erreurs décroît, jusqu’à arriver au point d’overfitting. Puis il croît de plus en plus.

Fin de l’expérience ? Non, on a dit qu’ils étaient riches et un peu idiots. Alors ils ont continué à accroître la taille du réseau. Avec un taux d’erreur toujours plus grand. Toujours plus stupide. Et coûteux.

… et comme parfois la stupidité ça paye, ils sont arrivés à un point où… le taux d’erreur recommençait à chuter. Un peu excités, ils ont continué et on a pu constater qu’il existe un nombre de neurones permettant de battre les taux d’erreur pré-overfit. Et ce sans limite.

Et le monde aura changé : la possibilité théorique des LLM était née. Et pourquoi ça marche, c’est passionnant mais un peu plus compliqué. Et voilà. Pardon pour les gens du milieu pour les petites imprécisions, sacrifice indispensable à la vulgarisation.

(Plus compliqué et on n’a pas encore compris pourquoi certains trucs qui combattent l’overfitting se passent comme ils se passent. Je vous ai déjà dit qu’on ne comprenait pas ce qu’il se passait dans ces réseaux de neurones, donc ça ne doit pas vous surprendre.)