OpenAI franchit une nouvelle étape dans le domaine de l'intelligence artificielle avec le lancement de GPT-4o ("o" pour "omni"). Ce modèle innovant est conçu pour une interaction naturelle et beaucoup plus fluide entre les humains et les ordinateurs, acceptant une combinaison d'entrées — texte, audio, image, et vidéo — et générant des sorties en texte, audio et image.
D'après le communiqué d'OpenAI, GPT-4o peut répondre aux entrées audio en seulement 232 millisecondes en moyenne, une rapidité comparable au temps de réponse humain dans une conversation. Cette performance est d'autant plus remarquable qu'elle s'accompagne d'améliorations significatives pour les textes non-anglophones et d'une efficacité accrue.
Avant GPT-4o, l'utilisation du mode vocal avec ChatGPT impliquait des latences bien plus élevées avec des modèles antérieurs. Le processus en trois étapes, consistant à transcrire l'audio en texte, à générer une réponse textuelle, puis à convertir cette réponse en audio, entraînait une perte notable d'informations, comme le ton, le contexte sonore, ou les émotions. GPT-4o, en revanche, a été entraîné de manière intégrée pour traiter tous les types d'entrées et de sorties, ce qui augure d'un potentiel énorme pour des applications futures.
Sur le plan des performances, GPT-4o atteint les niveaux de GPT-4 Turbo pour le texte, le raisonnement et la programmation, tout en établissant de nouveaux standards pour les capacités multilingues, audio et visuelles. L'intégration de la sécurité a été une priorité dans le développement de GPT-4o, avec des techniques de filtrage des données d'entraînement et des ajustements post-entraînement pour affiner le comportement du modèle. Mais ce nouveau ChatGPT ne s'arrête pas là puisqu’il serait aussi capable de lire les émotions sur le visage d'un humain, à l'aide de la caméra du smartphone, et de le guider que ce soit pour faire des exercices de respiration, ou pour l'aider à résoudre un problème.
L'audit externe de GPT-4o, impliquant plus de 70 experts dans divers domaines, a également permis d'identifier et de réduire les risques liés aux nouvelles modalités intégrées. Ces expertises ont contribué à développer des interventions de sécurité renforcées, essentielles pour sécuriser les interactions avec le modèle.
Quant à sa disponibilité, GPT-4o a été déployé dans ChatGPT pour les abonnés payants dès le 13 mai, et sera accessible gratuitement à tous dans les semaines à venir. Les développeurs peuvent également accéder à GPT-4o via l'API en tant que modèle de texte et de vision. Cette version est plus rapide, moins coûteuse, et offre des limites de taux plus élevées que GPT-4 Turbo. L'introduction des capacités audio et vidéo se fera progressivement, en commençant par un petit groupe de partenaires de confiance.