Les outils CLI pour travailler avec ChatGPT et d'autres LLMs

L'intelligence artificielle (IA) a fait des progrès remarquables ces dernières années, notamment dans le domaine du traitement du langage naturel (NLP). Un exemple frappant de cette avancée est le développement de modèles de langage comme ChatGPT et GPT-4. Simon Willison, un développeur reconnu dans le domaine de l'IA, a récemment partagé son travail sur un ensemble d'outils en ligne de commande (CLI) pour travailler avec ces modèles de langage.

Les outils CLI de Simon Willison

Simon Willison a développé trois outils CLI pour travailler avec ChatGPT, GPT-4 et potentiellement d'autres modèles de langage à l'avenir. Ces outils sont :

  1. llm : un outil en ligne de commande pour envoyer des prompts aux API OpenAI, afficher la réponse et enregistrer les résultats dans une base de données SQLite.
  2. ttok : un outil pour compter et tronquer le texte en fonction des tokens.
  3. strip-tags : un outil pour supprimer les balises HTML du texte et éventuellement afficher une partie de la page en fonction des sélecteurs CSS.

Ces outils peuvent être installés via pipx ou pip, et llm nécessite une clé API OpenAI pour fonctionner.

Utilisation des outils

Ces outils ont été conçus pour travailler avec des prompts de modèle de langage en utilisant des pipes Unix. Par exemple, ils peuvent être utilisés pour résumer la page d'accueil du New York Times en utilisant une combinaison de curl, strip-tags, ttok et llm.

L'importance des tokens

Les modèles de langage comme ChatGPT et GPT-4 travaillent avec des tokens, pas des caractères. C'est un détail d'implémentation, mais il est important pour deux raisons :

  1. Les API ont des limites de tokens. Si vous essayez d'envoyer plus que la limite, vous obtiendrez un message d'erreur.
  2. Les tokens sont la base de la tarification. Par exemple, gpt-3.5-turbo coûte 0,002 $ / 1 000 tokens, et GPT-4 coûte 0,03 $ / 1 000 tokens en entrée et 0,06 $ / 1 000 en sortie.

Il est donc essentiel de pouvoir suivre le nombre de tokens. L'outil ttok de Simon Willison est une enveloppe très fine autour de la bibliothèque tiktoken d'OpenAI, qui est le meilleur moyen de compter les tokens.

Suppression des balises HTML

Les balises HTML prennent beaucoup de tokens et ne sont généralement pas pertinentes pour le prompt que vous envoyez au modèle. L'outil strip-tags de Simon Willison supprime ces balises. Par exemple, pour la page d'accueil de son blog, la suppression des balises réduit le nombre de tokens de plus de moitié !

Plans futurs

Simon Willison prévoit d'enseigner à l'outil llm comment parler à d'autres modèles, initialement Claude et PaLM2 via des API, mais il aimerait également le faire fonctionner avec des modèles hébergés localement sur des choses comme llama.cpp.

En conclusion, ces outils CLI offrent une nouvelle façon d'interagir avec les modèles de langage comme ChatGPT et GPT-4. Ils ouvrent la voie à de nouvelles possibilités d'exploration et d'expérimentation dans le domaine de l'IA.

Pour plus d'informations sur ces outils et comment les utiliser, vous pouvez consulter l'article original de Simon Willison ici.

llm, ttok and strip-tags—CLI tools for working with ChatGPT and other LLMs
I’ve been building out a small suite of command-line tools for working with ChatGPT, GPT-4 and potentially other language models in the future. The three tools I’ve built so far …