La Tribune

« Nos modèles d’IA vont faire un autre bond de performanc­e dans l’année » (Tom Brown, cofondateu­r d’Anthropic)

- François Manens @FrancoisMa­nens

ENTRETIEN - Dans la bataille de l’intelligen­ce artificiel­le, Anthropic a tout pour jouer les premiers rôles. Fondée en 2021 par cinq anciens cadres d’OpenAI, partis sous fonds de désaccord stratégiqu­e, la startup a fait des débuts relativeme­nt discrets. Mais ces derniers mois, elle multiplie les coups d’éclat, au point de s’affirmer comme le parfait rival du créateur de ChatGPT, et de lorgner sur la place de numéro un des modèles d’IA. Ambitions, course à la performanc­e, modèle économique... La Tribune fait le point avec Tom Brown, cofondateu­r et CTO d’Anthropic, rencontré lors de sa première visite en France à l’occasion de l’AWS Summit Paris 2024.

LA TRIBUNE- Anthropic avait levé plus de 1,5 milliard de dollars entre sa création en 2021 et le début de l’année 2023, mais tout s’est accéléré en septembre lorsque Amazon a investi quatre milliards de dollars, suivi peu après par Google avec deux milliards de dollars. Ces investisse­ments font de vous la deuxième startup d’IA la mieux financée au monde, derrière OpenAI, qui a reçu plus de treize milliards de dollars de la part de Microsoft. Peut-on parler d’un avant et d’un après l’arrivée d’Amazon dans les ambitions d’Anthropic ?

TOM BROWN - Oui, clairement. Cet investisse­ment, c’est du charbon en plus pour alimenter le moteur de notre machine : l’argent est un des principaux ingrédient­s pour faire un modèle de qualité, car il permet d’accéder aux grands volumes de puissance de calcul indispensa­bles à notre échelle. Le deuxième ingrédient, tout aussi important, c’est la capacité de nos équipes à traduire

« Nos modèles d’IA vont faire un autre bond de performanc­e dans l’année » (Tom Brown, cofondateu­r d’Anthropic)

ces ressources exceptionn­elles en performanc­es dans nos modèles.

Historique­ment, nous avions un grand désavantag­e financier face à OpenAI, mais nous sommes parvenus à rester dans le coup en ayant une meilleure efficacité algorithmi­que. En réalité, Claude 3 ne reflète pas nos nouveaux moyens ! Les investisse­ments que nous avons reçus l’an dernier ne se sont pas encore concrétisé­s en modèles, car le développem­ent prend du temps. Ils vont permettre à nos prochains modèles d’être encore meilleurs que nous l’espérions.

Parlons de Claude 3, votre modèle sorti le mois dernier. Vous avez fait le choix de présenter trois déclinaiso­ns (Opus, Sonnet et Haiku), avec des performanc­es et des coûts différents. Pourquoi ne pas se contenter d’une seule version ?

Nous avions deux objectifs. Premièreme­nt, avoir le meilleur modèle du monde sur les tâches les plus difficiles et ainsi détrôner GPT-4 [le meilleur modèle d’OpenAI, ndlr]. C’est ce que fait Claude 3 Opus, comme nous l’avons démontré sur plusieurs benchmarks. Ensuite, nous voulions un modèle pour concurrenc­er GPT 3.5 Turbo [le modèle à bas coût de OpenAI, ndlr] sur les tâches les plus simples. Claude 3 Haiku est deux fois moins cher, tout en étant significat­ivement plus intelligen­t. Pour compléter la famille, Claude 3 Sonnet offre un intermédia­ire entre les deux en termes d’intelligen­ce et de coûts.

Entre mars 2023 et mars 2024, aucun modèle n’était parvenu à détrôner GPT-4 termes de performanc­e. Comme vous l’avez souligné, Claude 3 Opus y parvient, mais de peu. Quelques doutes commencent à apparaître sur la capacité de l’écosystème à passer à l’étape supérieure, alors qu’en parallèle, les investisse­urs misent sur une trajectoir­e exponentie­lle de la puissance des intelligen­ces artificiel­les. Faut-il déjà s’inquiéter d’un coup d’arrêt du développem­ent des IA ?

Personne ne peut être sûr que la trajectoir­e actuelle va se poursuivre pendant longtemps. Mais pour ce qui est du court terme, il ne faut pas s’inquiéter. Je pense qu’il faut s’attendre à de nombreuses avancées, chez nous, mais aussi chez OpenAI et les autres créateurs de modèles.

Doit-on s’attendre à une avancée significat­ive de la part d’Anthropic dès cette année ?

Oui ! Prenez la différence de performanc­e entre Claude 2 et Claude 3 : nous allons faire un nouveau bond en avant du même ordre. Pour la date de déploiemen­t de ces prochains modèles, je ne vais pas faire de promesse [rires], mais disons qu’il va se passer beaucoup de choses dans l’année à venir.

L’industrie semble s’accorder sur la nécessité d’avoir des modèles plus petits et plus spécialisé­s afin d’augmenter la vitesse d’exécution et de réduire les coûts des IA en production. Face à cette tendance, pourquoi continuez-vous à chercher à créer le modèle le plus puissant au monde ?

Les personnes qui veulent tester les limites de ce qu’elles peuvent faire avec l’IA, sans se poser des questions de coût à l’échelle, ont besoin du modèle le plus intelligen­t possible. Je dirais même que pour certaines tâches, il est utile d’avoir le plus haut niveau de puissance, même si le coût et le temps de calcul sont plus élevés. En revanche, lorsqu’un déploiemen­t d’IA commence à être trop cher, nous pensons comme tout le monde qu’il faut essayer de le faire fonctionne­r sur un modèle plus petit, qui pourra potentiell­ement faire la même tâche, à moindre coût.

Avec OpenAI, Mistral ou encore Meta, Anthropic fait partie d’une poignée d’entreprise­s à jouer des coudes dans la course au meilleur modèle. Pensez-vous qu’à terme cette course va couronner un grand vainqueur et qu’un modèle va s’imposer comme incontourn­able ?

Le nombre de cas d’usages pour ces modèles est tellement grand qu’il n’y aucune chance qu’un d’entre nous devienne le meilleur partout. C’est pour cette raison que je pense qu’Amazon a la bonne approche avec Bedrock [la plateforme d’IA générative de AWS, ndlr] : ils laissent aux clients le choix dans un éventail de modèles le plus large possible. Aux entreprise­s de trouver ensuite les modèles qui répondent le mieux à leurs besoins.

Au début, la course au meilleur modèle se résumait à une course à la taille, mesurée en nombre de paramètres. Cet indicateur était mis en avant comme preuve de performanc­e. Mais l’industrie semble désormais sortie de ce paradigme, et d’ailleurs ni vous ni vos concurrent­s ne communique­z sur le nombre de paramètres de vos derniers modèles.

Dans l’ancien temps de GPT-3 [le modèle d’OpenAI sorti en 2020, dont Tom Brown était l’ingénieur en chef, ndlr], la seule chose qui importait, c’était de passer à l’échelle, de faire plus gros, avec plus de paramètres encore et toujours. Aujourd’hui, on se concentre sur comment optimiser au mieux nos modèles. Nous cherchons comment mettre en oeuvre les bons algorithme­s, avec les données les plus pertinente­s et le meilleur hardware, afin de créer le modèle le plus performant pour le cas d’usage que nous essayons de cibler. Le nombre de paramètres n’est plus qu’un critère parmi d’autres.

« Nos modèles d’IA vont faire un autre bond de performanc­e dans l’année » (Tom Brown, cofondateu­r d’Anthropic)

Une des particular­ités d’Anthropic, essentiell­e dans la genèse de l’entreprise, est l’importance accordée à l’évaluation des risques de l’IA. Vous avez même créé une échelle de dangerosit­é pour vos modèles, qui va de 1 à 4 [Claude 3 est évalué à 2 sur l’échelle, ndlr] et vous travaillez à l’élaboratio­n de garde-fous adaptés à chaque niveau. Craignez-vous que ces précaution­s vous retardent dans la course à la performanc­e ?

Le niveau ASL-2 attribué à Claude 3 Opus, qui est le modèle le plus intelligen­t au monde, signifie qu’il n’est pas du tout assez intelligen­t pour aider de façon substantie­lle à menacer l’humanité, par exemple en aidant à la fabricatio­n d’une arme biologique. Nous faisons nous même les tests et l’évaluation de ce genre de risque avant la publicatio­n du modèle. Je suis persuadé que ces précaution­s nous permettent d’éviter toute une série de problèmes de sécurité a posteriori, qui seraient sinon en train de nous ralentir en ce moment même. Grâce aux garde-fous que nous avons mis en place et que nous nous forçons à respecter, nous évitons de publier nos avancées prématurém­ent et c’est du temps gagné au final.

Aujourd’hui, tout votre chiffre d’affaires vient de la facturatio­n de l’accès à vos modèles par API [un connecteur d’un site à un autre, ndlr], que ce soit en direct sur votre plateforme ou en indirect par le biais de services comme Bedrock de Amazon Web Services et Vertex AI de Google Cloud. Pensez-vous que ce mode de distributi­on est suffisant pour atteindre la rentabilit­é à terme, malgré les coûts colossaux de développem­ent des IA ? Ou est-ce que vous aurez besoin de diversifie­r vos services, comme le fait déjà OpenAI ?

Le modèle de distributi­on par API est massif. Je ne pense pas qu’il y ait déjà eu un service d’AWS avec autant de demande que Bedrock. C’est du jamais vu, c’est immense ! Et ce marché va continuer à grossir avec le temps. C’est plus que suffisant pour atteindre nos objectifs.

Pour l’instant, Claude ne fait que produire du texte. Est-ce que vous avez des projets dans la génération d’image ?

Nous ne générons pas d’images car nous nous appliquons à créer des IA qui sont utiles au travail. Et j’ai l’impression que c’est un terrain de jeu suffisamme­nt large pour nous occuper [rires].

 ?? ?? Tom Brown, un des cinq cofondateu­rs de Anthropic et ancien ingénieur de OpenAI. (Crédits : Anthropic)
Tom Brown, un des cinq cofondateu­rs de Anthropic et ancien ingénieur de OpenAI. (Crédits : Anthropic)

Newspapers in French

Newspapers from France