Publié le 26/12/2023

Intelligence artificielle et droit d’auteur – Entrainement de l’IA : violer pour créer ?

Article juridique - Droit de la propriété intellectuelle

La relation entre l’intelligence artificielle (IA) et le droit d’auteur suscite chaque jour davantage d’intérêt et d’inquiétude. S’il est essentiel de s’interroger sur l’extension possible de la protection du droit d’auteur aux œuvres générées par l’IA, sujet qui a été abordé dans l’article précédent, il convient également de s’interroger sur la violation possible du droit d’auteur par l’intelligence artificielle elle-même au cours de son entrainement, appelé « training », et par la suite lors de la réalisation de ses travaux.

Il s’agit de la question de l’ « entrainement déloyale ou illicite » de l’intelligence artificielle générative, à savoir l’intelligence artificielle capable de générer du texte, des images, des vidéos, de la musique ou d’autres médias en réponse à des demandes de l’utilisateur appelées « prompt ».

Aux États-Unis d’Amérique, plusieurs procédures judiciaires sont actuellement engagées contre des sociétés propriétaires d’IA générative, les accusant de porter atteinte aux droits de plusieurs auteurs lors de l’entrainement de cette dernière. De nombreuses « class actions » ont été intentées par des acteurs, des dramaturges et des écrivains contre Open AI et META[1] pour faire reconnaître la responsabilité juridique de ces derniers pour violation de droits d’auteur.

Cependant, pour comprendre l’évolution de ces litiges et les décisions à venir, qui ne manqueront pas de faire jurisprudence, il est nécessaire d’analyser le problème juridique sous-jacent à l’ensemble du différend.

1. L’entrainement de l’intelligence artificielle générative

Tout d’abord, il convient de préciser que la problématique de la violation du droit d’auteur ne se pose que pour l’intelligence artificielle générative, c’est-à-dire les algorithmes qui, à la demande de l’utilisateur, sont capables de créer un nouveau contenu, qu’il soit textuel, sonore, photographique ou artistique.

En effet, pour que l’intelligence artificielle puisse produire des chansons, des textes ou des images, elle doit être entraînée et pour être entraînée, l’IA doit pouvoir accéder à de multiples données et sources : plus elle acquiert de données, plus elle est efficace.Cependant, les œuvres, qui sont utilisées pour entraîner l’IA, ne sont pas stockées : celle-ci absorbe simplement certaines des données contenues dans les œuvres, sans effectuer de copie, ne serait-ce que temporaire, de leur contenu sur son dataset. Ainsi, une fois que l’algorithme a été alimenté, il n’a plus besoin de ces informations : les mécanismes d’apprentissage automatique utilisent les données qui leur sont fournies pour améliorer leur précision et s’affiner et, par la suite, une fois qu’ils ont appris les données, ils peuvent continuer à fonctionner indépendamment d’elles.

2. Le cœur du problème : l’entrainement de l’intelligence artificielle porte-t-il atteinte au droit d’auteur ?

Pour qu’il y ait violation du droit d’auteur, il faut que l’œuvre soit copiée, reproduite ou publiée. Dans le domaine du machine learning, pour que les données soient apprises et stockées, il faut, au cours de la phase initiale, rechercher des œuvres sur l’internet, les extraire de sites et, donc, les utiliser. Il pourrait donc y avoir infraction si ces opérations n’ont pas été préalablement autorisées par leurs titulaires/artistes.

D’ailleurs, c’est Open AI elle-même qui a admis avoir utilisé deux datasets publics, qui contenaient également des œuvres protégées par le droit d’auteur, pour entraîner Chat GPT et que le processus d’apprentissage automatique qu’elle a conçu nécessite nécessairement une copie des œuvres pour que leurs données soient utiles à l’intelligence artificielle.

3. Auteurs vs. big tech : les positions des uns et des autres

Du point de vue des auteurs, la capacité de l’IA à produire certains résultats ne peut découler que de son entraînement préalable au moyen de leurs œuvres. Par conséquent, selon les auteurs, grâce aux modèles d’IA générative, les grandes entreprises technologiques bénéficient et profitent de l’utilisation non autorisée d’œuvres protégées par le droit d’auteur. Il est évident, par exemple, que si Chat GPT est capable d’écrire un texte dans le style d’un auteur spécifique, il doit avoir été préalablement entraîné avec les œuvres de ce dernier. Et si l’auteur en question n’a fourni aucune autorisation pour la copie et l’utilisation de son œuvre, il pourrait y avoir contrefaçon.

Les Big Tech, quant à elles, font valoir que, bien que cela puisse se produire et qu’il puisse donc théoriquement y avoir violation du droit d’auteur, cela tomberait toujours sous le coup des exceptions au droit d’auteur reconnues par la loi américaine.

La première exception invoquée est l’utilisation temporaire et non commerciale de l’œuvre : on ne peut nier que l’œuvre n’est jamais stockée, sauf temporairement, par le logiciel.

La seconde exception, mieux établie, est l’exception dite fair use conformément à l’article 17 U.S.C.. Selon les Big Tech, leur activité consiste en une utilisation légitime de l’œuvre parce que le but de l’œuvre n’est pas le même que celui de l’auteur, sa nature est différente et, enfin, celle-ci n’est pas mise à la disposition du public mais est uniquement utilisée pour entrainer le logiciel. Les grandes entreprises technologiques justifient également leur démarche en se fondant sur le précédent juridique The Authors Guild, Inc. v. Google, Inc.

De plus, elles considèrent que le fonctionnement de l’intelligence artificielle ne peut pas être considéré comme différent de la simple interaction humaine. En effet, les êtres humains s’inspirent également en permanence de l’art et de leur environnement. Cela ne signifie pas que nos œuvres, si elles sont travaillées et le fruit de nos idées, ne méritent pas d’être protégées. De même, l’intelligence artificielle transforme et retravaille les informations qui fondent son savoir avec une telle ampleur et une telle imagination qu’elle ne peut être tenue pour responsable d’une quelconque contrefaçon. Les œuvres des auteurs ne seraient alors que de simples modèles de départ, qui seraient ensuite bouleversés, mis en relation et mélangés par l’algorithme.

4. Les possibles répercussions du différend

À la lumière de ce qui précède, il est clair que, dans le contexte américain, les auteurs se trouvent dans une position moins favorable par rapport aux grandes entreprises technologiques.

En effet, contrairement à I’Union européenne, les États-Unis ne disposent pas encore d’une réglementation permettant aux auteurs d’exclure leurs œuvres de I’entraînement de I’IA générative qui ait été mise au point à des fins autres que la simple recherche scientifique. Par conséquent, à l’heure actuelle aux États-Unis, tant la loi que la jurisprudence (dont on sait qu’elle joue un rôle prépondérant dans les systèmes de common law) favorisent incontestablement les big tech.

Alors que les auteurs sont principalement animés par des idéaux et par un sentiment compréhensible de justice, qui n’est toutefois pas étayé par le droit, les big tech sont avantagés par celui-ci ; par conséquent, la décision en faveur de l’un ou de l’autre dépendra exclusivement de la volonté judiciaire et, en réalité, de la résolution de ce qui semble être davantage un dilemme moral qu’une question de droit substantiel. Après tout, c’est ainsi que le droit évolue parfois.

À ce jour, on ne peut que s’interroger sur le caractère « injuste » de l’entrainement actuel de l’IA et réfléchir aux compromis possibles entre les deux parties, en imaginant de solutions innovantes qui pourraient conduire à un « entrainement équitable ». Par exemple, sur le modèle européen, on pourrait envisager des clauses d’opt-out pour les artistes afin qu’ils puissent décider d’inclure ou non leurs œuvres dans l’entraînement de l’IA générative. Un texte législatif pourrait également être adopté pour réglementer cette question, comme cela devrait se produire très prochainement dans l’UE avec l’adoption de l’« AI Act ». En effet, le fait que la loi semble actuellement pencher en faveur des grandes entreprises technologiques ne signifie pas que cette solution soit moralement juste. Les auteurs mettent leur âme, leur originalité et leur créativité dans la création de leurs œuvres ; des œuvres qui, de fait, peuvent aujourd’hui être facilement usurpées par les nouvelles technologies et utilisées comme base pour de nouvelles œuvres, pour lesquelles ils n’obtiendront ni reconnaissance ni profit.

Seuls les législateurs et les juges, s’ils comprendront les préoccupations des artistes et considéreront qu’un changement est approprié, pourront modifier le cadre législatif actuel et ainsi promouvoir une réforme et encadrer cette pratique.

Cette situation soulève d’ailleurs plusieurs questions et inquiétudes. Car si, pour l’instant, l’intelligence artificielle est encore un territoire inexploré, elle prendra à terme une place plus importante dans notre société ; et si aucune limite n’est posée à son activité, à terme, elle pourrait conduire à une modification sensible des concepts d’art et de divertissement tels que nous les concevons aujourd’hui. Comment la loi, dont le but est avant tout de protéger les citoyens, pourrait-elle tolérer une telle situation ? Quelles sont les solutions possibles pour ne tirer que des avantages du développement de l’IA et ne pas nuire aux individus ? Il faudra attendre des mois de procès et d’actions en justice pour apporter une réponse définitive à ce dilemme.

Essayer de comprendre la direction vers laquelle l’IA mènera le monde de l’art est la condition préalable à toute action.

[1] Tremblay v. OpenAI, Inc., No. 3:23-cv-03223 (joint avec la procédure Silverman v. OpenAI, Inc., No. 3:23-cv-03416 & Chabon v. OpenAI, Inc., No.3:23-cv-04625);
Kadrey v. Meta Platforms, Inc., No. 3:23-cv-03417 (joint avec la procédure Chabon v. Meta Platforms Inc., No. 3:23-cv-04663);
Authors Guild v. OpenAI Inc., No. 1:23-cv-08292;
Concord Music Group, Inc. v. Anthropic PBC, No 3:23-cv-01092;