Modèle de langage : le mécanisme d'attention vs n-grams

Introduction aux modèles de langage

Les modèles de langage sont des systèmes qui tentent de prédire le prochain mot dans une séquence en se basant sur le contexte. Il existe deux approches principales pour analyser et prédire le texte :

1. L'approche traditionnelle : N-grams

Les N-grams sont des séquences de N mots consécutifs. Cette approche considère uniquement un nombre fixe de mots précédents pour faire une prédiction. Par exemple :

Un bi-gram (N=2) ne regarde que le mot précédent
Un tri-gram (N=3) considère les deux mots précédents

Limites computationnelles des N-grams

Le principal problème des N-grams est l'explosion combinatoire. Prenons un exemple concret :

Supposons un vocabulaire juridique modeste de 50 000 mots
Pour des 5-grams (séquences de 5 mots), il faudrait stocker :
50 000 × 50 000 × 50 000 × 50 000 × 50 000 = 50 000⁵ = 3,125 × 10²⁴ combinaisons possibles

Pour mettre cette impossibilité en perspective :

C'est plus que le nombre d'étoiles dans l'univers observable (estimé à 10²²)
Même avec 1 octet par N-gram, il faudrait plus de 3 milliards de téraoctets de stockage
Et ce n'est que pour des séquences de 5 mots !

2. L'approche moderne : Mécanisme d'attention

Le mécanisme d'attention, utilisé dans les transformers et les modèles comme GPT, résout ce problème en :

Considérant tous les mots précédents de manière dynamique
Attribuant différents poids d'importance à chaque mot
Apprenant les relations pertinentes plutôt que de mémoriser toutes les combinaisons possibles
S'adaptant au contexte spécifique de chaque phrase

Avantages de l'attention par rapport aux N-grams

L'attention offre plusieurs avantages cruciaux :

Pas de limite fixe de contexte (peut considérer toute la phrase)
Pas besoin de stocker toutes les combinaisons possibles
Capacité à capturer des dépendances à longue distance
Meilleure compréhension du contexte sémantique

Le démonstrateur ci-dessous illustre ces concepts

Dans cet exemple, nous suivons la construction d'une phrase juridique typique. À chaque étape, vous pouvez observer :

Les poids d'attention accordés aux mots précédents (montre la flexibilité de l'attention)
Le contexte fixe utilisé par l'approche N-gram (montre ses limitations)
Les prédictions probables pour le mot suivant, basées sur l'analyse du contexte

Utilisez les flèches pour naviguer dans la phrase et observer comment le modèle analyse le contexte et fait ses prédictions.

Configuration du Type d'Analyse

Configuration du Type d'Analyse

Liste des Articles

Comprendre les modèles de langage