D’où vient le savoir des intelligences artificielles (IA) ? D’une montagne de textes servant à les entraîner. On y retrouve classiquement des masses d’articles issus de Wikipedia mais aussi bien d’autres écrits, comme l’immense pile de livres Books3, agrégeant près de 200 000 ouvrages sans l’autorisation de leurs auteurs. Certains défenseurs des robots conversationnels présentent ces données d’entraînement comme un « savoir universel » qui transcende les droits d’auteur, ajoutant que, protégés ou pas, les IA ne mémorisent de toute façon pas ces œuvres mot à mot, ne se contentant de stocker que des fragments d’informationstocker que des fragments d’information.
Cet argument est mis à mal par une série d’études, dont la plus récente, publiée au début de janvier par des chercheurs des universités américaines de Stanford et de Yale, est édifiante. Ahmed Ahmed et ses coauteurs sont parvenus à faire réciter des pages entières de livres à quatre programmes d’intelligence artificielle grand public, coupés d’Internet pour s’assurer qu’ils n’y puisent aucune information nouvelle.
« Harry Potter » et Marcel Proust
Selon l’étude, Gemini 2.5 Pro a pu restituer 77 % du texte de Harry Potter à l’école des sorciers de J. K. Rowling, un ouvrage protégé par le droit d’auteur. Pour y parvenir, les chercheurs ont demandé à Gemini de compléter la première phrase du livre, puis de continuer, petits morceaux par petits morceaux.
En utilisant le même programme et les mêmes consignes, Le Monde est parvenu à reproduire le premier paragraphe de Du côté de chez Swann, de Marcel Proust, ainsi que d’œuvres anglaises tombées dans le domaine public. Pour les œuvres protégées, en revanche, l’IA n’a accepté de fournir, lors de nos tests, que de résumés.
Il vous reste 67.99% de cet article à lire. La suite est réservée aux abonnés.
















