Désinformation, rumeurs, influences… quelles IA hallucinent le plus ?

Les Echos, 6 mai 2025.

Si les grands modèles d’IA ont été nettement améliorés en deux ans, tous présentent encore des hallucinations et les entreprises d’IA peinent à les faire disparaître entièrement. En outre, les modèles les plus utilisés ne sont pas les plus fiables. […] La startup française Giskard lance un benchmark indépendant pour démêler le vrai du faux. […] Les chercheurs de la jeune pousse, qui évaluent régulièrement les derniers modèles, notent les IA selon différents critères : la sécurité, le niveau d’hallucinations, le niveau de résilience du modèle et la résistance aux biais. « Les modèles génèrent des réponses qui inspirent confiance et qui ont l’air fiables, mais qui pourtant contiennent des hallucinations, note Matteo Dora, directeur technique chez Giskard. Il y a un décalage inquiétant entre les préférences des utilisateurs et la résistance aux hallucinations. » Lors du dernier tour d’analyses, c’est Claude 3.5 Sonnet, d’Anthropic, qui est le plus résistant (91%) alors qu’il est loin d’être le plus utilisé par le grand public. GPT-4o, avec qui l’on peut discuter sur ChatGPT arrive quant à lui à la cinquième place. Le modèle Gemma de Google est la lanterne rouge de ce classement, avec un score en dessous de 70%. La manière dont l’internaute pose une question altère aussi fortement la fiabilité de la réponse d’un modèle. […] Certains modèles ont en réalité tendance à être presque toujours d’accord avec l’utilisateur.

Leave a Comment Cancel Reply