ChatGPT étend ses horizons : de la lecture des radios à la décodage des rapports OVNI

L'évolution rapide de l'intelligence artificielle ne cesse d'émerveiller. Si initialement, les chatbots basés sur le texte faisaient sensation, il semble qu'ils aient déjà fait leur temps. La dernière mise à jour d'OpenAI avec GPT-4 présente GPT-Vision (GPT-V), sa nouvelle merveille multimodale.

Capacités élargies et polyvalence accrue

Un modèle de langage multimodal (LLM) signifie qu'il peut interagir non seulement par le biais du texte, mais aussi via d'autres modes. Dans ce contexte, GPT-V peut désormais comprendre et interagir avec des images. Couplé au nouvel outil d'art génératif DALL-E 3, ChatGPT peut non seulement accepter des images en entrée, mais aussi générer des images en sortie.

Les utilisateurs ont déjà commencé à tester cette capacité impressionnante. Un tweet célèbre souligne : « ChatGPT-4V Multimodal décode un document gouvernemental censuré sur une observation OVNI publié par la NASA ». Il semble que la vérité ne soit peut-être pas ailleurs, mais plutôt ici, dans GPT-V.

Des compétences sans frontières

La capacité de combler les lacunes dans une chaîne de texte est fondamentalement ce que les LLM accomplissent. Un utilisateur a testé GPT-V en le faisant deviner des parties d'un texte qu'il avait censuré, obtenant une précision d'intention « presque de 100% ».

Bien entendu, la vérification de ces affirmations demeure un défi. Après tout, il est peu probable de demander à la CIA à quel point l'IA a réussi à voir à travers des documents classifiés.

Mais GPT-V ne se limite pas à déchiffrer des mystères gouvernementaux. Il peut également comprendre l'écriture souvent illisible des médecins. Cela dit, même une IA avancée peut parfois être mise en échec par l'écriture manuscrite d'un médecin expérimenté.

Pour ceux qui doutent des diagnostics médicaux, ChatGPT offre désormais une seconde opinion instantanée. Il peut analyser les radios et fournir des analyses et des insights sur des cas médicaux spécifiques.

Au-delà de la médecine

Pourquoi s'arrêter à l'écriture et aux radios ? GPT-V s'est également positionné comme le dernier coach fitness à domicile, proposant des plans d'entraînement adaptés à votre équipement et à vos objectifs. Il peut même vous renseigner sur le nombre de calories dans votre prochain repas.

Pour les amateurs de design d'intérieur, GPT-V propose maintenant des suggestions de design, en prenant en compte les préférences personnelles. Il suffit de prendre une photo d'une pièce et GPT-V fournira des idées pour la transformer.

Besoin d'aide pour vos devoirs ? Une simple capture d'écran suffit et GPT-V se transforme en le camarade de classe serviable que vous avez toujours souhaité avoir à vos côtés.

Les implications de l'essor de LLM multimodal

Avec l'évolution des titans de l'IA, GPT-V semble n'être que la partie émergée de l'iceberg. Des rumeurs circulent sur le prochain Gemini de Google, qui devrait surpasser Bard avec ses capacités multimodales. D'autres modèles promettent de jongler avec les mots, les sons, les vidéos et les images.

Ces avancées technologiques pourraient bien remodeler nos interactions quotidiennes, nos professions et peut-être même notre vision du monde. Et alors qu'OpenAI est en tête avec GPT-V, la concurrence n'est pas loin. La renaissance de l'IA est-elle à nos portes ?

Si l'utilisation actuelle de l'IA se limite aux chats, on pourrait dire qu'on est déjà en retard. L'IA ne se contente plus de lire, elle "voit" et acquiert de nouvelles capacités chaque jour.

Enfin, pour ceux qui s'interrogent sur les limites de ces avancées, GPT-V peut également gâcher le plaisir d'un livre "Où est Charlie ?". Certains territoires, comme celui de ChaosGPT, restent encore à explorer.