La Tribune Toulouse (Edition Quotidienne)

« Nos modèles d’IA vont faire un autre bond de performance dans l’année » (Tom Brown, cofondateur d’Anthropic)

2024-04-06 -

ces ressources exceptionnelles en performances dans nos modèles.

Historiquement, nous avions un grand désavantage financier face à OpenAI, mais nous sommes parvenus à rester dans le coup en ayant une meilleure efficacité algorithmique. En réalité, Claude 3 ne reflète pas nos nouveaux moyens ! Les investissements que nous avons reçus l’an dernier ne se sont pas encore concrétisés en modèles, car le développement prend du temps. Ils vont permettre à nos prochains modèles d’être encore meilleurs que nous l’espérions.

Parlons de Claude 3, votre modèle sorti le mois dernier. Vous avez fait le choix de présenter trois déclinaisons (Opus, Sonnet et Haiku), avec des performances et des coûts différents. Pourquoi ne pas se contenter d’une seule version ?

Nous avions deux objectifs. Premièrement, avoir le meilleur modèle du monde sur les tâches les plus difficiles et ainsi détrôner GPT-4 [le meilleur modèle d’OpenAI, ndlr]. C’est ce que fait Claude 3 Opus, comme nous l’avons démontré sur plusieurs benchmarks. Ensuite, nous voulions un modèle pour concurrencer GPT 3.5 Turbo [le modèle à bas coût de OpenAI, ndlr] sur les tâches les plus simples. Claude 3 Haiku est deux fois moins cher, tout en étant significativement plus intelligent. Pour compléter la famille, Claude 3 Sonnet offre un intermédiaire entre les deux en termes d’intelligence et de coûts.

Entre mars 2023 et mars 2024, aucun modèle n’était parvenu à détrôner GPT-4 termes de performance. Comme vous l’avez souligné, Claude 3 Opus y parvient, mais de peu. Quelques doutes commencent à apparaître sur la capacité de l’écosystème à passer à l’étape supérieure, alors qu’en parallèle, les investisseurs misent sur une trajectoire exponentielle de la puissance des intelligences artificielles. Faut-il déjà s’inquiéter d’un coup d’arrêt du développement des IA ?

Personne ne peut être sûr que la trajectoire actuelle va se poursuivre pendant longtemps. Mais pour ce qui est du court terme, il ne faut pas s’inquiéter. Je pense qu’il faut s’attendre à de nombreuses avancées, chez nous, mais aussi chez OpenAI et les autres créateurs de modèles.

Doit-on s’attendre à une avancée significative de la part d’Anthropic dès cette année ?

Oui ! Prenez la différence de performance entre Claude 2 et Claude 3 : nous allons faire un nouveau bond en avant du même ordre. Pour la date de déploiement de ces prochains modèles, je ne vais pas faire de promesse [rires], mais disons qu’il va se passer beaucoup de choses dans l’année à venir.

L’industrie semble s’accorder sur la nécessité d’avoir des modèles plus petits et plus spécialisés afin d’augmenter la vitesse d’exécution et de réduire les coûts des IA en production. Face à cette tendance, pourquoi continuez-vous à chercher à créer le modèle le plus puissant au monde ?

Les personnes qui veulent tester les limites de ce qu’elles peuvent faire avec l’IA, sans se poser des questions de coût à l’échelle, ont besoin du modèle le plus intelligent possible. Je dirais même que pour certaines tâches, il est utile d’avoir le plus haut niveau de puissance, même si le coût et le temps de calcul sont plus élevés. En revanche, lorsqu’un déploiement d’IA commence à être trop cher, nous pensons comme tout le monde qu’il faut essayer de le faire fonctionner sur un modèle plus petit, qui pourra potentiellement faire la même tâche, à moindre coût.

Avec OpenAI, Mistral ou encore Meta, Anthropic fait partie d’une poignée d’entreprises à jouer des coudes dans la course au meilleur modèle. Pensez-vous qu’à terme cette course va couronner un grand vainqueur et qu’un modèle va s’imposer comme incontournable ?

Le nombre de cas d’usages pour ces modèles est tellement grand qu’il n’y aucune chance qu’un d’entre nous devienne le meilleur partout. C’est pour cette raison que je pense qu’Amazon a la bonne approche avec Bedrock [la plateforme d’IA générative de AWS, ndlr] : ils laissent aux clients le choix dans un éventail de modèles le plus large possible. Aux entreprises de trouver ensuite les modèles qui répondent le mieux à leurs besoins.

Au début, la course au meilleur modèle se résumait à une course à la taille, mesurée en nombre de paramètres. Cet indicateur était mis en avant comme preuve de performance. Mais l’industrie semble désormais sortie de ce paradigme, et d’ailleurs ni vous ni vos concurrents ne communiquez sur le nombre de paramètres de vos derniers modèles.

Dans l’ancien temps de GPT-3 [le modèle d’OpenAI sorti en 2020, dont Tom Brown était l’ingénieur en chef, ndlr], la seule chose qui importait, c’était de passer à l’échelle, de faire plus gros, avec plus de paramètres encore et toujours. Aujourd’hui, on se concentre sur comment optimiser au mieux nos modèles. Nous cherchons comment mettre en oeuvre les bons algorithmes, avec les données les plus pertinentes et le meilleur hardware, afin de créer le modèle le plus performant pour le cas d’usage que nous essayons de cibler. Le nombre de paramètres n’est plus qu’un critère parmi d’autres.

« Nos modèles d’IA vont faire un autre bond de performance dans l’année » (Tom Brown, cofondateur d’Anthropic)

Doit-on s’attendre à une avancée significative de la part d’Anthropic dès cette année ?

Newspapers in French

Newspapers from France

« Nos modèles d’IA vont faire un autre bond de performanc­e dans l’année » (Tom Brown, cofondateu­r d’Anthropic)

Doit-on s’attendre à une avancée significat­ive de la part d’Anthropic dès cette année ?

Newspapers in French

Newspapers from France

« Nos modèles d’IA vont faire un autre bond de performance dans l’année » (Tom Brown, cofondateur d’Anthropic)

Doit-on s’attendre à une avancée significative de la part d’Anthropic dès cette année ?