OpenAI lance un nouveau web crawler, GPTBot, pour nourrir la prochaine génération de l'IA

OpenAI vient d'annoncer la création d'un nouveau robot d'exploration web, GPTBot, destiné à augmenter sa base de données pour l'entraînement de la prochaine génération de systèmes IA. Cette décision soulève des questions éthiques et donne un aperçu du futur modèle d'OpenAI.

Introduction du GPTBot

Le web crawler GPTBot collectera des données publiquement disponibles sur les sites web, tout en évitant les contenus payants, sensibles et interdits. Tout comme les autres moteurs de recherche tels que Google, Bing et Yandex, le système est basé sur une approche opt-out, ce qui signifie que GPTBot considérera par défaut que l'information accessible est équitable.

Pour empêcher GPTBot d'ingérer un site web, le propriétaire doit ajouter une règle "disallow" à un fichier standard sur le serveur. OpenAI assure également que GPTBot vérifiera préalablement les données collectées afin de supprimer toute information personnellement identifiable (PII) et tout texte en violation de ses politiques.

Questions éthiques et préoccupations en matière de consentement

Certains éthiciens de la technologie soulignent que cette approche opt-out soulève encore des problèmes de consentement. Sur Hacker News, les avis sont partagés, certains justifient l'approche d'OpenAI, tandis que d'autres soulignent que l'entreprise crée une œuvre dérivée sans citation.

"OpenAI n'est même pas cité avec modération. Elle crée une œuvre dérivée sans citer, l'obscurcissant ainsi."

Cette annonce intervient après les récentes critiques à l'égard d'OpenAI pour avoir collecté des données sans autorisation afin d'entraîner des Modèles de Langage à grande échelle (LLM) comme ChatGPT. En réponse, la société a mis à jour ses politiques de confidentialité en avril.

Vers GPT-5 et au-delà

Une récente demande de marque pour GPT-5 semble confirmer qu'OpenAI entraîne son prochain modèle en vue d'un futur lancement. Le nouveau système impliquera probablement une collecte de données à grande échelle pour actualiser et élargir ses données d'entraînement.

Cela pourrait représenter un changement par rapport à l'accent mis par OpenAI sur la transparence et la sécurité de l'IA. Cependant, ceci n'est pas surprenant, ChatGPT étant le LLM le plus utilisé au monde.

Comparaison avec les offres Open Source

Il existe également des alternatives "open source", comme celle proposée par Meta. Le géant des réseaux sociaux offre son modèle gratuitement, à condition que l'utilisateur ne soit ni un concurrent ni une grande entreprise.

Explication de Meta : "Nous ne vendons pas vos informations. À la place, en fonction des informations que nous avons, les annonceurs et autres partenaires nous paient pour vous montrer des publicités personnalisées."

Ce qui signifie exactement la même chose.

Conclusion : un équilibre délicat

Avec plus de 1,5 milliard d'utilisateurs actifs mensuels pour ChatGPT et l'investissement de 10 milliards de dollars de Microsoft dans OpenAI, la société est actuellement en tête de l'espace IA bouillonnant.

Le nouveau web crawler d'OpenAI pourrait faire progresser davantage les capacités de ses modèles. Toutefois, l'expansion de la collecte de données sur Internet soulève également des questions éthiques complexes autour du droit d'auteur et du consentement.

À mesure que les systèmes IA deviennent plus sophistiqués, trouver un équilibre entre transparence, éthique et capacités restera un défi majeur.

Source : OpenAI