« GPT-4o » : différence entre les versions

Un article de Wikipédia, l'encyclopédie libre.
Contenu supprimé Contenu ajouté
→‎Capacités : suggestion de mise en forme
complément de type 'mise à jour"
Ligne 8 : Ligne 8 :
}}
}}


'''GPT-4o''' (abréviation de « [[GPT-4]] omni ») est un [[Transformeur génératif pré-entraîné|transformateur pré-entraîné génératif]] ([[grand modèle de langage]], ou LLM) multilingue et multimodal conçu par l'entreprise [[OpenAI]]. Ce modèle a été annoncé par [[Mira Murati]], [[Directeur de la technologie|CTO]] d'OpenAI, lors d'une démo diffusée en direct le 13 mai 2024, et intégré à [[ChatGPT]] le même jour. Il peut traiter et générer du texte, du son et des images. Son [[Interface de programmation|API]] est deux fois plus rapide que son prédécesseur, GPT-4 Turbo<ref>{{Article|langue=fr|auteur1=Célia Séramour|titre=Avec GPT-4o, OpenAI veut défier toute concurrence sur les modèles multimodaux|périodique=L'Usine Digitale|date=2024-05-14|lire en ligne=https://www.usine-digitale.fr/article/avec-gpt-4o-openai-veut-defier-toute-concurrence-sur-les-modeles-multimodaux.N2212917|consulté le=2024-05-18}}</ref>.
'''GPT-4o''' (abréviation de « [[GPT-4]] omni ») est un [[Transformeur génératif pré-entraîné|transformateur pré-entraîné génératif]] ([[grand modèle de langage]], ou LLM) multilingue et multimodal conçu par l'entreprise [[OpenAI]].


Il est dit multimodal (OpenAi parle d'« omnimodèle », d'où la lettre « O » ou l'appellation « ''omni'' »)<ref name=ArsTechnica/> c'est à dire qu'il peut à la fois, et en temps réel, traiter et générer : du texte, du son et des images. Il peut converser avec un ou plusieurs interlocuteurs, en plusieurs langues, en utilisant la parole en temps réel. Utilisé via un smartphone, il peut même adapter ses réponses après avoir analysé l'environnement visuel et les signaux émotionnels de ses interlocuteurs.
== Test de pré-lancement ==

GPT-4o a été initialement lancé sur [[LMSYS]], sous la forme de trois modèles différents : ''gpt2-chatbot'', ''im-a-good-gpt2-chatbot'' et ''im-also-a-good-gpt2-chatbot''. Le 7 mai 2024, [[Sam Altman]] a publié le tweet {{Citation|im-a-good-gpt2-chatbot}}, interprété comme une confirmation du fait qu'[[OpenAI]] était responsable de ces nouveaux modèles (alors mystérieux) et effectuait des [[Test A/B|tests A/B]]<ref>{{Lien web |langue=en |prénom=Carl |nom=Franzen |titre=OpenAI announces new free model GPT-4o and ChatGPT for desktop |url=https://venturebeat.com/ai/openai-announces-new-free-model-gpt-4o-and-chatgpt-for-desktop/ |date=2024-05-13 |consulté le=2024-05-18}}</ref>. Notons que la démo a eu lieu la veille de [[Google I/O]], une conférence où [[Google]] annonce de nouveaux produits, Google étant un des principaux concurrents de OpenAI dans les domaines des [[LLM (modèle de langage)|LLM]]<ref>{{Lien web |langue=en |auteur=Sumeet Wadhwani |titre=AI Galore: Key Announcements From Google I/O 2024 |url=https://www.spiceworks.com/tech/tech-general/articles/google-io-2024-highlights/ |site=Spiceworks |date=15 mai 2024 |consulté le=2024-05-18}}</ref>.
Son [[Interface de programmation|API]] est deux fois plus rapide que son prédécesseur, GPT-4 Turbo<ref>{{Article|langue=fr|auteur1=Célia Séramour|titre=Avec GPT-4o, OpenAI veut défier toute concurrence sur les modèles multimodaux|périodique=L'Usine Digitale|date=2024-05-14|lire en ligne=https://www.usine-digitale.fr/article/avec-gpt-4o-openai-veut-defier-toute-concurrence-sur-les-modeles-multimodaux.N2212917|consulté le=2024-05-18}}</ref>. Son nouveau ''tokenizer'' utilise moins de tokens, notamment pour les langues non basées sur l'[[alphabet latin]], ce qui rend ce modèle moins "couteux" en ressources pour ces langues<ref name=":0" />.

== Historique ==
Ce modèle a été annoncé par [[Mira Murati]], [[Directeur de la technologie|CTO]] d'OpenAI, lors d'une démo diffusée en direct le 13 mai 2024, et intégré à [[ChatGPT]] le même jour ; soit la veille de « [[Google I/O]] », la conférence où [[Google]] annonce de nouveaux produits (Google est l'un des principaux concurrents d'OpenAI dans les domaines des [[LLM (modèle de langage)|LLM]]<ref>{{Lien web |langue=en |auteur=Sumeet Wadhwani |titre=AI Galore: Key Announcements From Google I/O 2024 |url=https://www.spiceworks.com/tech/tech-general/articles/google-io-2024-highlights/ |site=Spiceworks |date=15 mai 2024 |consulté le=2024-05-18}}</ref>.

Avant ce lancement, GPT-4o a été initialement lancé sur [[LMSYS]], sous la forme de trois modèles différents : ''gpt2-chatbot'', ''im-a-good-gpt2-chatbot'' et ''im-also-a-good-gpt2-chatbot''. Le 7 mai 2024, [[Sam Altman]] a publié le tweet {{Citation|im-a-good-gpt2-chatbot}}, interprété comme une confirmation du fait qu'[[OpenAI]] était responsable de ces nouveaux modèles (alors mystérieux) et effectuait des [[Test A/B|tests A/B]]<ref>{{Lien web |langue=en |prénom=Carl |nom=Franzen |titre=OpenAI announces new free model GPT-4o and ChatGPT for desktop |url=https://venturebeat.com/ai/openai-announces-new-free-model-gpt-4o-and-chatgpt-for-desktop/ |date=2024-05-13 |consulté le=2024-05-18}}</ref>.

Il ne sera gratuit via ChatGPT que pour un certain nombre de questions, en fonction du degré d'utilisation du modèle, et de la demande ; quand cette limite sera atteinte, ChatGPT basculera la conversation sur GPT-3.5.


== Capacités ==
== Capacités ==
GPT-4o a obtenu des résultats de pointe sur des tests de performance en qualité vocale, vision et multilinguisme.
GPT-4o a obtenu des résultats de pointe sur des tests de performance en qualité vocale, vision et multilinguisme ; et selon OpenAI, il est 2 fois plus rapide, deux fois moins cher que [[GPT-4]] ''Turbo''<ref name=":0"/>.


* Contrairement à GPT-3.5 et GPT-4 (qui dépendent d'autres modèles pour traiter le son), GPT-4o prend en charge, nativement, les conversations vocales, avec des réponse plus fluides et rapides<ref name=":0" /> (Remarque : cette fonctionnalité n'a pas encore été publiée, la fonctionnalité vocale de l'application ChatGPT est toujours l'ancienne version<ref>{{Article|langue=en|titre=OpenAI GPT-4o: How to access GPT-4o voice mode; insights from Sam Altman|périodique=The Times of India|date=2024-05-16|issn=0971-8257|lire en ligne=https://timesofindia.indiatimes.com/technology/tech-news/watch-samsung-makes-fun-of-apple-says-we-would-never-crush-creativity/articleshow/110172573.cms|consulté le=2024-05-18}}</ref>).
* Il a établi de nouveaux records en reconnaissance vocale et en traduction<ref>{{Lien web |langue=en |prénom=Ryan |nom=Daws |titre=GPT-4o delivers human-like AI interaction with text, audio, and vision integration |url=https://www.artificialintelligence-news.com/2024/05/14/gpt-4o-human-like-ai-interaction-text-audio-vision-integration/ |site=AI news |date=2024-05-14 |consulté le=2024-05-18}}</ref>{{,}}<ref>{{Lien web |langue=en |titre=OpenAI Launched GPT-4o: The Future of AI Interactions Is Here |url=https://www.thedigitalspeaker.com/openai-gpt4o-future-ai-interactions/ |site=The digital speaker |date=2024-05-13 |consulté le=2024-05-18}}</ref>. Le modèle prend en charge plus de 50 langues<ref name="TechCrunch">{{Lien web |langue=en-US |auteur=Wiggers |prénom=Kyle |titre=OpenAI debuts GPT-4o 'omni' model now powering ChatGPT |url=https://techcrunch.com/2024/05/13/openais-newest-model-is-gpt-4o/ |série=TechCrunch |date=2024-05-13 |consulté le=2024-05-13}}</ref>, couvrant plus de 97 % des locuteurs. Mira Murati a démontré la capacité multilingue du modèle en parlant italien au modèle et en le faisant traduire entre l'anglais et l'italien lors de l'événement de démonstration OpenAI diffusé en direct le 13 mai 2024. De plus, le nouveau tokenizer utilise moins de tokens pour certaines langues, en particulier les langues qui ne sont pas basées sur l'alphabet latin, ce qui le rend moins cher pour ces langues<ref name=":0" />.

* Son [[Interface de programmation|API]] est deux fois plus rapide que son prédécesseur, GPT-4 Turbo<ref>{{Article|langue=fr|auteur1=Célia Séramour|titre=Avec GPT-4o, OpenAI veut défier toute concurrence sur les modèles multimodaux|périodique=L'Usine Digitale|date=2024-05-14|lire en ligne=https://www.usine-digitale.fr/article/avec-gpt-4o-openai-veut-defier-toute-concurrence-sur-les-modeles-multimodaux.N2212917|consulté le=2024-05-18}}</ref>. [[Ars Technica]] (mai 2024) note qu'une réponse à une entrée audio se fait en environ 320 millisecondes (moyenne), un score comparable au temps de la moyenne linguistique d'une réponse humains dans une conversation normale ({{Citation|interaction verbale informelle}} mesuré par une étude publiée dans [[PNAS]] en 2009). Ce délai est bien plus court que le décalage antérieur de 2 à 3 secondes qui caractérisaient les meilleurs des modèles précédents<ref name=ArsTechnica>{{Lien web |langue=en-us |prénom=Benj |nom=Edwards |titre=Major ChatGPT-4o update allows audio-video talks with an “emotional” AI chatbot |url=https://web.archive.org/web/20240519073959/https://arstechnica.com/information-technology/2024/05/chatgpt-4o-lets-you-have-real-time-audio-video-conversations-with-emotional-chatbot/ |date=2024-05-13 |consulté le=2024-05-19}}</ref>, et GPT-4o se comporte de plus en plus comme un locuteur humain, en répondant quand vient son tour, en évitant les lacunes et les chevauchements, en s'appuyant sur les indices fournis par la [[grammaire]], la [[prosodie]], le ton et le [[vocabulaire]] pour déterminer quand lancer sa réponse orale, dans un timing optimisé ;

* GPT-4o a battu de nouveaux records de [[reconnaissance vocale]]<ref name=VocalTradmai2024>{{Lien web |langue=en |prénom=Ryan |nom=Daws |titre=GPT-4o delivers human-like AI interaction with text, audio, and vision integration |url=https://www.artificialintelligence-news.com/2024/05/14/gpt-4o-human-like-ai-interaction-text-audio-vision-integration/ |site=AI news |date=2024-05-14 |consulté le=2024-05-18}}</ref>{{,}}<ref>{{Lien web |langue=en |titre=OpenAI Launched GPT-4o: The Future of AI Interactions Is Here |url=https://www.thedigitalspeaker.com/openai-gpt4o-future-ai-interactions/ |site=The digital speaker |date=2024-05-13 |consulté le=2024-05-18}}</ref>.

* GPT-4o a battu de nouveaux records en termes de [[traduction automatique]]<ref name=VocalTradmai2024/>, avec plus de 50 langues prises en charge<ref name="TechCrunch">{{Lien web |langue=en-US |auteur=Wiggers |prénom=Kyle |titre=OpenAI debuts GPT-4o 'omni' model now powering ChatGPT |url=https://techcrunch.com/2024/05/13/openais-newest-model-is-gpt-4o/ |série=TechCrunch |date=2024-05-13 |consulté le=2024-05-13}}</ref>, couvrant donc plus de 97 % des locuteurs. Lors de l'événement de démonstration par OpenAI, en direct le 13 mai 2024, [[Mira Murati]] a montré la capacité multilingue du modèle en lui parlant en italien et en le faisant traduire entre anglais et l'italien<ref name=VocalTradmai2024/>.


* Le nouveau tokenizer réduit pour plusieurs langues le nombre de [[Analyse lexicale|tokens]] nécessaires pour encoder des phrases, diminuant ainsi les coûts énergétiques et financiers pour les serveurs d'OpenAI. En particulier pour les langues qui ne sont pas basées sur l'[[alphabet latin]]<ref name=":0">{{Lien web |langue=en |titre=Hello GPT-4o |url=https://openai.com/index/hello-gpt-4o/ |site=OpenAI |date=13 mai 2024}}</ref>
* Le nouveau tokenizer réduit pour plusieurs langues le nombre de [[Analyse lexicale|tokens]] nécessaires pour encoder des phrases, diminuant ainsi les coûts énergétiques et financiers pour les serveurs d'OpenAI. En particulier pour les langues qui ne sont pas basées sur l'[[alphabet latin]]<ref name=":0">{{Lien web |langue=en |titre=Hello GPT-4o |url=https://openai.com/index/hello-gpt-4o/ |site=OpenAI |date=13 mai 2024}}</ref>
Ligne 22 : Ligne 36 :
* GPT-4o a atteint un score de 88,7 % au [[test de performance]] ''Massive Multitask Language Understanding'' (MMLU), contre 86,5 % pour GPT-4 Turbo.
* GPT-4o a atteint un score de 88,7 % au [[test de performance]] ''Massive Multitask Language Understanding'' (MMLU), contre 86,5 % pour GPT-4 Turbo.


* GPT-4o a été rapidement qualifié de ''[[ChatBot]] émotionnel'' (par [[Ars Technica]] par exemple) car il peut, assez fidèlement, analyser les [[émotion]]s des personnes qui interagissent avec lui. Il le fait en mode audio-vidéo via le micro et la caméra du smartphone ou de l'ordinateur, en exploitant des indices subtils détectés, via la caméra et le micro, dans les expressions faciales, le langage corporel (non verbal, avec par exemple, la position de la tête, des hochements de tête ou mouvements de négation, les jeux de regard ou mouvements de main, etc, qui chez l'humain s'intègrent dans la conversation, plus ou moins inconsciemment ou parfois intrusivement et ce, avant même les réponses verbales en général), ainsi que dans le ton de la voix<ref name=ArsTechnica/>. Le modèle peut alors s'adapter, en temps réel, au contexte émotionnel de la conversation, et à l’humeur de l’interlocuteur en changeant notamment de ton et de style verbal d'une manière qui permet à l’IA d’engager des conversations bien plus naturelles et empathiques que précédemment avec les utilisateurs <ref name=ArsTechnica/>.
* Contrairement à GPT-3.5 et GPT-4, qui dépendent d'autres modèles pour traiter le son, GPT-4o prend en charge nativement les conversations voix-à-voix, rendant les réponse plus fluides et rapides<ref name=":0" /> (Remarque : cette fonctionnalité n'a pas encore été publiée, la fonctionnalité vocale de l'application ChatGPT est toujours l'ancienne version<ref>{{Article|langue=en|titre=OpenAI GPT-4o: How to access GPT-4o voice mode; insights from Sam Altman|périodique=The Times of India|date=2024-05-16|issn=0971-8257|lire en ligne=https://timesofindia.indiatimes.com/technology/tech-news/watch-samsung-makes-fun-of-apple-says-we-would-never-crush-creativity/articleshow/110172573.cms|consulté le=2024-05-18}}</ref>).

À son lancement en mai 2024, GPT-4o est le meilleur grand modèle de langage du classement [[Classement Elo|Elo]] de LMSYS, avec un avantage particulièrement significatif en [[programmation informatique]]<ref>{{Lien web |langue=en |prénom=Carl |nom=Franzen |titre=OpenAI announces new free model GPT-4o and ChatGPT for desktop |url=https://venturebeat.com/ai/openai-announces-new-free-model-gpt-4o-and-chatgpt-for-desktop/ |site=VentureBeat |date=2024-05-13 |consulté le=2024-05-18}}</ref>. Une fois largement disponible, il aura accès à la navigation Web, à l’analyse des données, au GPT Store et à des fonctionnalités de mémoire jusqu'alors réservées aux abonnés à ''ChatGPT Plus, Team et Enterprise''<ref name=ArsTechnica/>.


Jionghao Lin et al. (mai 2024) notent que dans le domaine éducatif ou professionnel, les rétroactions, bilans et corrections faites par ce type d'IA pourraient bénéficier de leur caractère nativement multimodal. En effet, de tels ''« feedback multimodaux »'' permettent a priori d'améliorer l’apprentissage grâce à des commentaires pouvant associer le son et l'image au texte habituel. Automatiser la production de feed-backs mobilisant trois canaux sensoriels pourrait permettre de renforcer les acquisitions, et ce pour un grand nombre d’apprenants<ref>Lin, J., Chen, E., Gurung, A., & Koedinger, K. R. (2024). MuFIN: A Framework for Automating Multimodal Feedback Generation using Generative Artificial Intelligence.| url=https://files.osf.io/v1/resources/3asxz/providers/osfstorage/66450a364664da9366ed6bb7</ref>.
À son lancement en mai 2024, GPT-4o est le meilleur grand modèle de langage du classement [[Classement Elo|Elo]] de LMSYS, avec un avantage particulièrement significatif en [[programmation informatique]]<ref>{{Lien web |langue=en |prénom=Carl |nom=Franzen |titre=OpenAI announces new free model GPT-4o and ChatGPT for desktop |url=https://venturebeat.com/ai/openai-announces-new-free-model-gpt-4o-and-chatgpt-for-desktop/ |site=VentureBeat |date=2024-05-13 |consulté le=2024-05-18}}</ref>.


=== Risques, limites, précautions ===
.
OpenAI se dit conscient des défis de sécurité et de protection des données alors que ce modèle fonctionne en temps réel. Selon OpenAI, pour accroître la sécurité des interaction des humains avec ce modèle :
* GPT-4o intègre la sécurité par son design initial, et pour toutes les modalités, grâce à des techniques de type filtrage des données d’entraînement ; l’affinement du comportement du modèle par post-entraînement ; fitrage des sorties vocales.
* GPT-4o est testé par {{Citation|une vaste ''[[équipe rouge]]'' externe avec plus 70 experts externes dans des domaines tels que la [[psychologie sociale]], les [[biais]] les [[préjugé]]s et l’[[équité]] et la[[ désinformation]], pour identifier les risques introduits ou amplifiés par les modalités nouvellement ajoutées ». Et les utilisateurs seront invités à signaler d'éventuels problèmes, au fur et à mesure de leur découverte}}<ref name=ArsTechnica/> ;
* GPT-4o est lancé avec quelques voix prédéfinies et respectant les politiques de sécurité de l'entreprise qui a stoppé.


== Voir également ==
== Voir également ==
=== Articles connexes ===
* [[OpenAI]]
* [[OpenAI]]
* [[ChatGPT]]
* [[LLaMA|Llama (modèle de langage)]]
* [[LLaMA|Llama (modèle de langage)]]



Version du 19 mai 2024 à 18:57

GPT-4o

Informations
Développé par OpenAI
Première version [1]Voir et modifier les données sur Wikidata
Langues MultilingueVoir et modifier les données sur Wikidata
Type Transformateur pré-entraîné génératif (LLM)
Licence Licence propriétaireVoir et modifier les données sur Wikidata
Site web openai.com/gpt-4o

Chronologie des versions

GPT-4o (abréviation de « GPT-4 omni ») est un transformateur pré-entraîné génératif (grand modèle de langage, ou LLM) multilingue et multimodal conçu par l'entreprise OpenAI.

Il est dit multimodal (OpenAi parle d'« omnimodèle », d'où la lettre « O » ou l'appellation « omni »)[2] c'est à dire qu'il peut à la fois, et en temps réel, traiter et générer : du texte, du son et des images. Il peut converser avec un ou plusieurs interlocuteurs, en plusieurs langues, en utilisant la parole en temps réel. Utilisé via un smartphone, il peut même adapter ses réponses après avoir analysé l'environnement visuel et les signaux émotionnels de ses interlocuteurs.

Son API est deux fois plus rapide que son prédécesseur, GPT-4 Turbo[3]. Son nouveau tokenizer utilise moins de tokens, notamment pour les langues non basées sur l'alphabet latin, ce qui rend ce modèle moins "couteux" en ressources pour ces langues[4].

Historique

Ce modèle a été annoncé par Mira Murati, CTO d'OpenAI, lors d'une démo diffusée en direct le 13 mai 2024, et intégré à ChatGPT le même jour ; soit la veille de « Google I/O », la conférence où Google annonce de nouveaux produits (Google est l'un des principaux concurrents d'OpenAI dans les domaines des LLM[5].

Avant ce lancement, GPT-4o a été initialement lancé sur LMSYS, sous la forme de trois modèles différents : gpt2-chatbot, im-a-good-gpt2-chatbot et im-also-a-good-gpt2-chatbot. Le 7 mai 2024, Sam Altman a publié le tweet « im-a-good-gpt2-chatbot », interprété comme une confirmation du fait qu'OpenAI était responsable de ces nouveaux modèles (alors mystérieux) et effectuait des tests A/B[6].

Il ne sera gratuit via ChatGPT que pour un certain nombre de questions, en fonction du degré d'utilisation du modèle, et de la demande ; quand cette limite sera atteinte, ChatGPT basculera la conversation sur GPT-3.5.

Capacités

GPT-4o a obtenu des résultats de pointe sur des tests de performance en qualité vocale, vision et multilinguisme ; et selon OpenAI, il est 2 fois plus rapide, deux fois moins cher que GPT-4 Turbo[4].

  • Contrairement à GPT-3.5 et GPT-4 (qui dépendent d'autres modèles pour traiter le son), GPT-4o prend en charge, nativement, les conversations vocales, avec des réponse plus fluides et rapides[4] (Remarque : cette fonctionnalité n'a pas encore été publiée, la fonctionnalité vocale de l'application ChatGPT est toujours l'ancienne version[7]).
  • Son API est deux fois plus rapide que son prédécesseur, GPT-4 Turbo[8]. Ars Technica (mai 2024) note qu'une réponse à une entrée audio se fait en environ 320 millisecondes (moyenne), un score comparable au temps de la moyenne linguistique d'une réponse humains dans une conversation normale (« interaction verbale informelle » mesuré par une étude publiée dans PNAS en 2009). Ce délai est bien plus court que le décalage antérieur de 2 à 3 secondes qui caractérisaient les meilleurs des modèles précédents[2], et GPT-4o se comporte de plus en plus comme un locuteur humain, en répondant quand vient son tour, en évitant les lacunes et les chevauchements, en s'appuyant sur les indices fournis par la grammaire, la prosodie, le ton et le vocabulaire pour déterminer quand lancer sa réponse orale, dans un timing optimisé ;
  • GPT-4o a battu de nouveaux records en termes de traduction automatique[9], avec plus de 50 langues prises en charge[11], couvrant donc plus de 97 % des locuteurs. Lors de l'événement de démonstration par OpenAI, en direct le 13 mai 2024, Mira Murati a montré la capacité multilingue du modèle en lui parlant en italien et en le faisant traduire entre anglais et l'italien[9].
  • Le nouveau tokenizer réduit pour plusieurs langues le nombre de tokens nécessaires pour encoder des phrases, diminuant ainsi les coûts énergétiques et financiers pour les serveurs d'OpenAI. En particulier pour les langues qui ne sont pas basées sur l'alphabet latin[4]
  • GPT-4o a atteint un score de 88,7 % au test de performance Massive Multitask Language Understanding (MMLU), contre 86,5 % pour GPT-4 Turbo.
  • GPT-4o a été rapidement qualifié de ChatBot émotionnel (par Ars Technica par exemple) car il peut, assez fidèlement, analyser les émotions des personnes qui interagissent avec lui. Il le fait en mode audio-vidéo via le micro et la caméra du smartphone ou de l'ordinateur, en exploitant des indices subtils détectés, via la caméra et le micro, dans les expressions faciales, le langage corporel (non verbal, avec par exemple, la position de la tête, des hochements de tête ou mouvements de négation, les jeux de regard ou mouvements de main, etc, qui chez l'humain s'intègrent dans la conversation, plus ou moins inconsciemment ou parfois intrusivement et ce, avant même les réponses verbales en général), ainsi que dans le ton de la voix[2]. Le modèle peut alors s'adapter, en temps réel, au contexte émotionnel de la conversation, et à l’humeur de l’interlocuteur en changeant notamment de ton et de style verbal d'une manière qui permet à l’IA d’engager des conversations bien plus naturelles et empathiques que précédemment avec les utilisateurs [2].

À son lancement en mai 2024, GPT-4o est le meilleur grand modèle de langage du classement Elo de LMSYS, avec un avantage particulièrement significatif en programmation informatique[12]. Une fois largement disponible, il aura accès à la navigation Web, à l’analyse des données, au GPT Store et à des fonctionnalités de mémoire jusqu'alors réservées aux abonnés à ChatGPT Plus, Team et Enterprise[2].

Jionghao Lin et al. (mai 2024) notent que dans le domaine éducatif ou professionnel, les rétroactions, bilans et corrections faites par ce type d'IA pourraient bénéficier de leur caractère nativement multimodal. En effet, de tels « feedback multimodaux » permettent a priori d'améliorer l’apprentissage grâce à des commentaires pouvant associer le son et l'image au texte habituel. Automatiser la production de feed-backs mobilisant trois canaux sensoriels pourrait permettre de renforcer les acquisitions, et ce pour un grand nombre d’apprenants[13].

Risques, limites, précautions

OpenAI se dit conscient des défis de sécurité et de protection des données alors que ce modèle fonctionne en temps réel. Selon OpenAI, pour accroître la sécurité des interaction des humains avec ce modèle :

  • GPT-4o intègre la sécurité par son design initial, et pour toutes les modalités, grâce à des techniques de type filtrage des données d’entraînement ; l’affinement du comportement du modèle par post-entraînement ; fitrage des sorties vocales.
  • GPT-4o est testé par « une vaste équipe rouge externe avec plus 70 experts externes dans des domaines tels que la psychologie sociale, les biais les préjugés et l’équité et ladésinformation, pour identifier les risques introduits ou amplifiés par les modalités nouvellement ajoutées ». Et les utilisateurs seront invités à signaler d'éventuels problèmes, au fur et à mesure de leur découverte »[2] ;
  • GPT-4o est lancé avec quelques voix prédéfinies et respectant les politiques de sécurité de l'entreprise qui a stoppé.

Voir également

Articles connexes

Références

  1. (en) « OpenAI launches new AI model GPT-4o and desktop version of ChatGPT »,
  2. a b c d e et f (en-US) Benj Edwards, « Major ChatGPT-4o update allows audio-video talks with an “emotional” AI chatbot », (consulté le )
  3. Célia Séramour, « Avec GPT-4o, OpenAI veut défier toute concurrence sur les modèles multimodaux », L'Usine Digitale,‎ (lire en ligne, consulté le )
  4. a b c et d (en) « Hello GPT-4o », sur OpenAI,
  5. (en) Sumeet Wadhwani, « AI Galore: Key Announcements From Google I/O 2024 », sur Spiceworks, (consulté le )
  6. (en) Carl Franzen, « OpenAI announces new free model GPT-4o and ChatGPT for desktop », (consulté le )
  7. (en) « OpenAI GPT-4o: How to access GPT-4o voice mode; insights from Sam Altman », The Times of India,‎ (ISSN 0971-8257, lire en ligne, consulté le )
  8. Célia Séramour, « Avec GPT-4o, OpenAI veut défier toute concurrence sur les modèles multimodaux », L'Usine Digitale,‎ (lire en ligne, consulté le )
  9. a b et c (en) Ryan Daws, « GPT-4o delivers human-like AI interaction with text, audio, and vision integration », sur AI news, (consulté le )
  10. (en) « OpenAI Launched GPT-4o: The Future of AI Interactions Is Here », sur The digital speaker, (consulté le )
  11. (en-US) Wiggers, « OpenAI debuts GPT-4o 'omni' model now powering ChatGPT », TechCrunch, (consulté le )
  12. (en) Carl Franzen, « OpenAI announces new free model GPT-4o and ChatGPT for desktop », sur VentureBeat, (consulté le )
  13. Lin, J., Chen, E., Gurung, A., & Koedinger, K. R. (2024). MuFIN: A Framework for Automating Multimodal Feedback Generation using Generative Artificial Intelligence.| url=https://files.osf.io/v1/resources/3asxz/providers/osfstorage/66450a364664da9366ed6bb7