Question 1

Comment choisir entre descente batch, mini-batch et stochastique ?

Accepted Answer

La descente batch utilise tout le dataset pour chaque mise à jour, garantissant une convergence stable mais lente. La stochastique traite un exemple à la fois, permettant des mises à jour fréquentes mais bruitées. La mini-batch offre le meilleur compromis : elle combine la stabilité de la batch et la rapidité de la stochastique, rendant l'entraînement efficace sur GPU et adapté aux datasets de taille moyenne à grande.

Question 2

Qu'est-ce que le learning rate et pourquoi est-il crucial ?

Accepted Answer

Le learning rate est le pas de mise à jour des paramètres à chaque itération. Un learning rate trop grand cause des oscillations ou une divergence. Trop petit, il ralentit considérablement la convergence et risque de rester bloqué dans des minima locaux. Les de learning rate et les optimiseurs adaptatifs comme Adam ajustent automatiquement ce paramètre.

Question 3

Comment éviter les minima locaux en deep learning ?

Accepted Answer

Les minima locaux sont moins problématiques qu'initialement pensé car les espaces de haute dimension possèdent principalement des minima flats offrant de bonnes performances. Pour les éviter, les praticiens utilisent le momentum pour accumuler une inertie, les learning rate adaptatifs, des initialisations variées et des techniques comme le warm-up ou le restart.

Question 4

Quelle différence entre le gradient et la dérivée directionnelle ?

Accepted Answer

La dérivée mesure le taux de variation d'une fonction selon une direction unique. Le gradient est un vecteur contenant toutes les dérivées partielles selon chaque dimension de l'espace des paramètres. Il indique la direction de plus grande augmentation, sa norme représentant l'inclinaison maximale.

Question 5

Pourquoi la descente de gradient stochastique est-elle populaire pour les grands datasets ?

Accepted Answer

Elle évite de charger l'intégralité des données en mémoire et permet des mises à jour fréquentes des paramètres. Ce bruit stochastic introduces favorise l'exploration de l'espace des solutions, aidant à échapper aux minima locaux. Sa complexité mémoire est constante quel que soit le حجم du dataset.

Question 6

Comment diagnostiquer une convergence problématique ?

Accepted Answer

Les signaux d'alerte incluent une loss qui oscille (learning rate trop grand), décroît trop lentement (learning rate trop petit), ou augmente brutalement (divergence). Tracer la courbe d'apprentissage et surveiller les métriques de validation permet de détecter ces problèmes précocement et d'ajuster les hyperparamètres.

Question 7

Quel rôle joue le gradient dans la mise à jour des poids ?

Accepted Answer

Le gradient pointe vers la direction de plus forte augmentation de la fonction de coût. Pour la minimiser, on soustrait ce gradient (multiplié par le learning rate) aux poids actuels. Cette mise à jouritérative guide progressivement le modèle vers des configurations de paramètres réduisant l'erreur de prédiction.

Métier	Score IA	Impact
Machine Learning Engineer	— / 100	Concerné par Descente de gradient
Ingénieur Deep Learning	— / 100	Concerné par Descente de gradient
Data Scientist	— / 100	Concerné par Descente de gradient

Descente de gradient

Qu'est-ce que Descente de gradient ?

Descente de gradient dans la pratique

Pourquoi Descente de gradient compte en 2026

Métiers concernés par Descente de gradient

Descente de gradient — à ne pas confondre avec

Questions fréquentes sur Descente de gradient

Termes liés à connaître

Autres termes : Notion IA