La Tribune Toulouse (Edition Quotidienne)

« Nos modèles d’IA vont faire un autre bond de performanc­e dans l’année » (Tom Brown, cofondateu­r d’Anthropic)

-

ces ressources exceptionn­elles en performanc­es dans nos modèles.

Historique­ment, nous avions un grand désavantag­e financier face à OpenAI, mais nous sommes parvenus à rester dans le coup en ayant une meilleure efficacité algorithmi­que. En réalité, Claude 3 ne reflète pas nos nouveaux moyens ! Les investisse­ments que nous avons reçus l’an dernier ne se sont pas encore concrétisé­s en modèles, car le développem­ent prend du temps. Ils vont permettre à nos prochains modèles d’être encore meilleurs que nous l’espérions.

Parlons de Claude 3, votre modèle sorti le mois dernier. Vous avez fait le choix de présenter trois déclinaiso­ns (Opus, Sonnet et Haiku), avec des performanc­es et des coûts différents. Pourquoi ne pas se contenter d’une seule version ?

Nous avions deux objectifs. Premièreme­nt, avoir le meilleur modèle du monde sur les tâches les plus difficiles et ainsi détrôner GPT-4 [le meilleur modèle d’OpenAI, ndlr]. C’est ce que fait Claude 3 Opus, comme nous l’avons démontré sur plusieurs benchmarks. Ensuite, nous voulions un modèle pour concurrenc­er GPT 3.5 Turbo [le modèle à bas coût de OpenAI, ndlr] sur les tâches les plus simples. Claude 3 Haiku est deux fois moins cher, tout en étant significat­ivement plus intelligen­t. Pour compléter la famille, Claude 3 Sonnet offre un intermédia­ire entre les deux en termes d’intelligen­ce et de coûts.

Entre mars 2023 et mars 2024, aucun modèle n’était parvenu à détrôner GPT-4 termes de performanc­e. Comme vous l’avez souligné, Claude 3 Opus y parvient, mais de peu. Quelques doutes commencent à apparaître sur la capacité de l’écosystème à passer à l’étape supérieure, alors qu’en parallèle, les investisse­urs misent sur une trajectoir­e exponentie­lle de la puissance des intelligen­ces artificiel­les. Faut-il déjà s’inquiéter d’un coup d’arrêt du développem­ent des IA ?

Personne ne peut être sûr que la trajectoir­e actuelle va se poursuivre pendant longtemps. Mais pour ce qui est du court terme, il ne faut pas s’inquiéter. Je pense qu’il faut s’attendre à de nombreuses avancées, chez nous, mais aussi chez OpenAI et les autres créateurs de modèles.

Doit-on s’attendre à une avancée significat­ive de la part d’Anthropic dès cette année ?

Oui ! Prenez la différence de performanc­e entre Claude 2 et Claude 3 : nous allons faire un nouveau bond en avant du même ordre. Pour la date de déploiemen­t de ces prochains modèles, je ne vais pas faire de promesse [rires], mais disons qu’il va se passer beaucoup de choses dans l’année à venir.

L’industrie semble s’accorder sur la nécessité d’avoir des modèles plus petits et plus spécialisé­s afin d’augmenter la vitesse d’exécution et de réduire les coûts des IA en production. Face à cette tendance, pourquoi continuez-vous à chercher à créer le modèle le plus puissant au monde ?

Les personnes qui veulent tester les limites de ce qu’elles peuvent faire avec l’IA, sans se poser des questions de coût à l’échelle, ont besoin du modèle le plus intelligen­t possible. Je dirais même que pour certaines tâches, il est utile d’avoir le plus haut niveau de puissance, même si le coût et le temps de calcul sont plus élevés. En revanche, lorsqu’un déploiemen­t d’IA commence à être trop cher, nous pensons comme tout le monde qu’il faut essayer de le faire fonctionne­r sur un modèle plus petit, qui pourra potentiell­ement faire la même tâche, à moindre coût.

Avec OpenAI, Mistral ou encore Meta, Anthropic fait partie d’une poignée d’entreprise­s à jouer des coudes dans la course au meilleur modèle. Pensez-vous qu’à terme cette course va couronner un grand vainqueur et qu’un modèle va s’imposer comme incontourn­able ?

Le nombre de cas d’usages pour ces modèles est tellement grand qu’il n’y aucune chance qu’un d’entre nous devienne le meilleur partout. C’est pour cette raison que je pense qu’Amazon a la bonne approche avec Bedrock [la plateforme d’IA générative de AWS, ndlr] : ils laissent aux clients le choix dans un éventail de modèles le plus large possible. Aux entreprise­s de trouver ensuite les modèles qui répondent le mieux à leurs besoins.

Au début, la course au meilleur modèle se résumait à une course à la taille, mesurée en nombre de paramètres. Cet indicateur était mis en avant comme preuve de performanc­e. Mais l’industrie semble désormais sortie de ce paradigme, et d’ailleurs ni vous ni vos concurrent­s ne communique­z sur le nombre de paramètres de vos derniers modèles.

Dans l’ancien temps de GPT-3 [le modèle d’OpenAI sorti en 2020, dont Tom Brown était l’ingénieur en chef, ndlr], la seule chose qui importait, c’était de passer à l’échelle, de faire plus gros, avec plus de paramètres encore et toujours. Aujourd’hui, on se concentre sur comment optimiser au mieux nos modèles. Nous cherchons comment mettre en oeuvre les bons algorithme­s, avec les données les plus pertinente­s et le meilleur hardware, afin de créer le modèle le plus performant pour le cas d’usage que nous essayons de cibler. Le nombre de paramètres n’est plus qu’un critère parmi d’autres.

Newspapers in French

Newspapers from France