Les développeurs risquent de se retrouver confrontés à une limite pour faire progresser l’IA. En effet, les grands modèles de langage (LLM) comme ChatGPT pourraient bientôt faire face à une pénurie de données disponibles. Plusieurs stratégies sont envisagées pour surmonter ce défi. Zoom.
Lorsque vous échangez avec un chatbot tel que ChatGPT, l’impression d’interagir avec un humain témoigne des avancées significatives de l’intelligence artificielle (IA). Ces progrès sont dus aux LLM, des réseaux de neurones formés sur des vastes ensembles de données. Cependant, « les développeurs de LLM vont commencer à manquer de données conventionnelles pour entraîner leurs modèles ».
La fin de l’essor de l’IA ?
Les modèles de chatbot actuels ont déjà exploité presque toutes les informations gratuites accessibles sur Internet, et les LLM, toujours plus gourmands en données, en demandent toujours plus.
Selon des chercheurs de l’institut Epoch AI, la quantité de données nécessaires pour former un modèle pourrait, d’ici 2028, être équivalant à l’ensemble des textes publics disponibles en ligne. En d’autres termes, dans environ quatre ans, les données textuelles accessibles seront insuffisantes.
Le journal scientifique Nature souligne que les entreprises du secteur ne semblent pas paniquer face à cette limite imminente. OpenAI et Anthropic ont reconnu publiquement ce problème, tout en indiquant qu’elles comptaient le contourner en générant des données synthétiques via l’IA ou en établissant des partenariats pour accéder à des données non publiques.
Des alternatives illégales ?
Ces solutions pourrait inclure l’utilisation de messages WhatsApp ou de transcriptions de vidéos YouTube. Outre les questions légales posées par cette alternative, beaucoup de sociétés préfèrent conserver leurs données pour entraîner leurs propres modèles d’IA en interne.
Une autre voie serait d’exploiter des types de données différents, pas uniquement textuels. « Certains modèles peuvent déjà s’entraîner, dans une certaine mesure, à partir de vidéos ou d’images non étiquetées », note Nature. Des améliorations restent toutefois nécessaires.
Un bouleversement des modèles d’IA génératives
Le journal scientifique insiste sur le fait que « cette crise des données pourrait entraîner un bouleversement dans les types de modèles d’IA générative que les gens construisent. Ce qui pourrait faire passer le paysage des LLM toujours plus grands et polyvalents à des modèles plus petits et plus spécialisés ».
Il est aussi possible que les LLM, ayant déjà absorbé une grande partie des contenus disponibles sur Internet, n’aient pas besoin de davantage de données pour devenir plus « intelligents ».
A lire également :