Doomsday juridique pour l'IA générative ChatGPT s'il est surpris en train de plagier ou d'enfreindre, met en garde l'éthique de l'IA et la loi sur l'IA

Donnez du crédit là où le crédit est dû.

C'est un peu de sage sagesse à laquelle vous avez peut-être été élevé pour croire fermement. En effet, on suppose ou imagine que nous pourrions tous raisonnablement convenir qu'il s'agit d'une règle empirique juste et sensée dans la vie. Quand quelqu'un fait quelque chose qui mérite d'être reconnu, assurez-vous qu'il obtienne la reconnaissance qu'il mérite.

Le point de vue contraire semblerait beaucoup moins convaincant.

Si quelqu'un se promenait en insistant sur le fait que le crédit devrait ne sauraient être reconnu lorsque le crédit est dû, eh bien, vous pourriez affirmer qu'une telle croyance est impolie et peut-être sournoise. Nous nous retrouvons souvent violemment dérangés lorsque le crédit est trompé de quelqu'un qui a accompli quelque chose de remarquable. J'ose dire que nous désapprouvons particulièrement lorsque d'autres s'attribuent à tort le travail des autres. C'est un double coup dur troublant. La personne qui aurait dû obtenir le crédit se voit refuser son moment au soleil. De plus, le filou savoure les projecteurs bien qu'il nous trompe à tort en détournant nos affections favorables.

Pourquoi tout ce discours sur l'obtention du crédit de la manière la plus juste et la prévention des voies mauvaises et méprisables ?

Parce que nous semblons être confrontés à une situation similaire en ce qui concerne les dernières avancées en matière d'intelligence artificielle (IA).

Oui, on prétend que cela se produit de manière démontrable via un type d'IA connu sous le nom de IA générative. L'IA générative, l'IA la plus en vogue ces jours-ci, s'est déjà attribué le mérite de ce dont elle ne mérite pas de s'attribuer le mérite. Et cela risque de s'aggraver à mesure que l'IA générative est de plus en plus développée et utilisée. De plus en plus de crédit imprègne l'IA générative, tandis que malheureusement ceux qui méritent amplement le vrai crédit sont laissés dans la poussière.

La façon dont je propose de décrire avec précision ce prétendu phénomène consiste à utiliser deux slogans accrocheurs :

  • 1) Plagiat à grande échelle
  • 2) Violation du droit d'auteur à grande échelle

Je suppose que vous connaissez peut-être l'IA générative grâce à une application d'IA très populaire connue sous le nom de ChatGPT qui a été publiée en novembre par OpenAI. J'en dirai plus sur l'IA générative et ChatGPT dans un instant. Accrochez-vous.

Venons-en tout de suite au cœur de ce qui attire les chèvres des gens, pour ainsi dire.

Certains se plaignent ardemment que l'IA générative arnaque potentiellement les humains qui ont créé du contenu. Vous voyez, la plupart des applications d'IA génératives sont des données formées en examinant les données trouvées sur Internet. Sur la base de ces données, les algorithmes peuvent affiner un vaste réseau interne de correspondance de modèles au sein de l'application AI qui peut ensuite produire un contenu apparemment nouveau qui semble étonnamment conçu par la main de l'homme plutôt que par une automatisation.

Cet exploit remarquable est en grande partie dû à l'utilisation de contenu numérisé sur Internet. Sans le volume et la richesse des contenus Internet comme source de data training, l'IA générative serait quasiment vide et n'aurait que peu ou pas d'intérêt à être utilisée. En demandant à l'IA d'examiner des millions et des millions de documents et de textes en ligne, ainsi que toutes sortes de contenus associés, la correspondance de modèles est progressivement dérivée pour essayer d'imiter le contenu produit par l'homme.

Plus le contenu est examiné, plus il y a de chances que la correspondance des modèles soit plus affinée et s'améliore encore au niveau du mimétisme, toutes choses étant égales par ailleurs.

Voici donc la question à zillion de dollars :

  • Grande question : Si vous ou d'autres personnes avez du contenu sur Internet sur lequel une application d'IA générative a été formée, le faisant probablement sans votre permission directe et peut-être entièrement à votre insu, devriez-vous avoir droit à une part du gâteau quant à la valeur qui en découle cette formation générative sur les données d'IA ?

Certains soutiennent avec véhémence que la seule bonne réponse est Oui, notamment que ces créateurs de contenu humains méritent bien leur part de l'action. Le fait est que vous auriez du mal à trouver quelqu'un qui a obtenu sa juste part, et pire encore, presque personne n'a obtenu la moindre part. Les créateurs de contenu Internet qui y ont contribué involontairement et sans le savoir sont essentiellement privés de leur crédit légitime.

Cela pourrait être qualifié d'atroce et de scandaleux. Nous venons de passer par le déballage de la sage sagesse selon laquelle le crédit doit être accordé là où le crédit est dû. Dans le cas de l'IA générative, ce n'est apparemment pas le cas. La règle d'or de longue date et vertueuse sur le crédit semble être brutalement violée.

Whoa, la réplique va, vous exagérez complètement et déformez la situation. Bien sûr, l'IA générative a examiné le contenu sur Internet. Bien sûr, cela a été abondamment utile dans le cadre de la formation aux données de l'IA générative. Certes, les impressionnantes applications d'IA génératives aujourd'hui ne seraient pas aussi impressionnantes sans cette approche réfléchie. Mais vous êtes allé trop loin en disant que les créateurs de contenu devraient se voir attribuer un semblant de crédit particulier.

La logique est la suivante. Les humains vont sur Internet et apprennent des choses sur Internet, le faisant régulièrement et sans aucun problème en soi. Une personne qui lit des blogs sur la plomberie et qui regarde ensuite des vidéos de réparation de plomberie disponibles gratuitement peut sortir le lendemain et trouver du travail comme plombier. Doivent-ils donner une partie de leur versement lié à la plomberie au blogueur qui a écrit sur la plomberie d'un évier ? Doivent-ils verser des frais au vlogger qui a réalisé la vidéo présentant les étapes pour réparer une baignoire qui fuit ?

Presque certainement pas.

L'apprentissage des données de l'IA générative n'est qu'un moyen de développer des modèles. Tant que les résultats de l'IA générative ne sont pas une simple régurgitation de ce qui a été examiné précisément, vous pouvez affirmer de manière convaincante qu'ils ont "appris" et ne sont donc pas soumis à l'octroi d'un crédit spécifique à une source spécifique. À moins que vous ne puissiez attraper l'IA générative en effectuant une régurgitation exacte, les indications sont que l'IA s'est généralisée au-delà de toute source particulière.

Aucun crédit n'est dû à personne. Ou, on suppose, vous pourriez dire que le mérite revient à tout le monde. Le texte collectif et les autres contenus de l'humanité que l'on trouve sur Internet en reçoivent le mérite. Nous avons tous le mérite. Essayer d'identifier le crédit à une source particulière est insensé. Soyez joyeux que l'IA progresse et que l'humanité tout compte fait en bénéficiera. Ces publications sur Internet devraient se sentir honorées d'avoir contribué à un avenir de progrès dans l'IA et comment cela aidera l'humanité pour l'éternité.

J'aurai plus à dire sur ces deux points de vue opposés.

Pendant ce temps, penchez-vous vers le camp qui dit que le crédit est dû et tardivement en retard pour ceux qui ont des sites Web sur Internet, ou trouvez-vous que le côté opposé qui dit que les créateurs de contenu Internet sont décidément ne sauraient se faire arnaquer est une posture plus convaincante ?

Une énigme et une énigme mêlées.

Décompressons ceci.

Dans la chronique d'aujourd'hui, j'aborderai ces inquiétudes exprimées selon lesquelles l'IA générative plagie essentiellement ou enfreint éventuellement les droits d'auteur du contenu qui a été publié sur Internet (considéré comme un droit de propriété intellectuelle ou un problème de propriété intellectuelle). Nous examinerons la base de ces scrupules. Je ferai occasionnellement référence à ChatGPT au cours de cette discussion car il s'agit du gorille de 600 livres de l'IA générative, mais gardez à l'esprit qu'il existe de nombreuses autres applications d'IA générative et qu'elles sont généralement basées sur les mêmes principes généraux.

En attendant, vous vous demandez peut-être ce qu'est en fait l'IA générative.

Couvrons d'abord les principes fondamentaux de l'IA générative, puis nous pourrons examiner de près le problème urgent qui nous occupe.

Dans tout cela vient une multitude de considérations sur l'éthique de l'IA et la loi sur l'IA.

Veuillez noter que des efforts sont en cours pour intégrer les principes éthiques de l'IA dans le développement et la mise en service des applications d'IA. Un contingent croissant d'éthiciens de l'IA concernés et d'autrefois essaient de s'assurer que les efforts pour concevoir et adopter l'IA tiennent compte d'une vision de l'action AI pour de bon et éviter AI pour le mal. De même, de nouvelles lois sur l'IA sont proposées et présentées comme des solutions potentielles pour empêcher les efforts de l'IA de se déchaîner en matière de droits de l'homme, etc. Pour ma couverture continue et étendue de l'éthique de l'IA et du droit de l'IA, voir le lien ici ainsi que le lien ici, Juste pour en nommer quelques-uns.

Le développement et la promulgation de préceptes éthiques de l'IA se poursuivent pour, espérons-le, empêcher la société de tomber dans une myriade de pièges induisant l'IA. Pour ma couverture des principes d'éthique de l'ONU AI tels qu'ils ont été conçus et soutenus par près de 200 pays grâce aux efforts de l'UNESCO, voir le lien ici. Dans le même ordre d'idées, de nouvelles lois sur l'IA sont à l'étude pour tenter de maintenir l'IA sur un pied d'égalité. L'une des dernières prises consiste en un ensemble de propositions Charte des droits de l'IA que la Maison Blanche des États-Unis a récemment publié pour identifier les droits de l'homme à l'ère de l'IA, voir le lien ici. Il faut un village pour maintenir l'IA et les développeurs d'IA sur la bonne voie et dissuader les efforts sournois délibérés ou accidentels qui pourraient saper la société.

J'entremêlerai les considérations liées à l'éthique de l'IA et à la loi sur l'IA dans cette discussion.

Principes fondamentaux de l'IA générative

L'instance d'IA générative la plus connue est représentée par une application d'IA nommée ChatGPT. ChatGPT est apparu dans la conscience publique en novembre lorsqu'il a été publié par la société de recherche en IA OpenAI. Depuis lors, ChatGPT a fait la une des journaux démesurés et a étonnamment dépassé ses quinze minutes de gloire allouées.

Je suppose que vous avez probablement entendu parler de ChatGPT ou que vous connaissez peut-être même quelqu'un qui l'a utilisé.

ChatGPT est considéré comme une application d'IA générative car il prend en entrée du texte d'un utilisateur, puis génère ou produit une sortie qui consiste en un essai. L'IA est un générateur de texte à texte, bien que je décrive l'IA comme étant un générateur de texte à essai, car cela clarifie plus facilement à quoi il est couramment utilisé. Vous pouvez utiliser l'IA générative pour composer de longues compositions ou vous pouvez lui faire proposer des commentaires concis plutôt courts. Tout dépend de vous.

Tout ce que vous avez à faire est de saisir une invite et l'application AI générera pour vous un essai qui tentera de répondre à votre invite. Le texte composé donnera l'impression que l'essai a été écrit par la main et l'esprit humains. Si vous deviez entrer une invite qui disait "Parlez-moi d'Abraham Lincoln", l'IA générative vous fournira un essai sur Lincoln. Il existe d'autres modes d'IA générative, tels que le texte vers l'art et le texte vers la vidéo. Je vais me concentrer ici sur la variation de texte à texte.

Votre première pensée pourrait être que cette capacité générative ne semble pas si importante en termes de production d'essais. Vous pouvez facilement faire une recherche en ligne sur Internet et trouver facilement des tonnes et des tonnes d'essais sur le président Lincoln. L'avantage dans le cas de l'IA générative est que l'essai généré est relativement unique et fournit une composition originale plutôt qu'un imitateur. Si vous deviez essayer de trouver l'essai produit par l'IA quelque part en ligne, il est peu probable que vous le découvriez.

L'IA générative est pré-formée et utilise une formulation mathématique et informatique complexe qui a été mise en place en examinant des modèles dans des mots écrits et des histoires sur le Web. Après avoir examiné des milliers et des millions de passages écrits, l'IA peut produire de nouveaux essais et histoires qui sont un méli-mélo de ce qui a été trouvé. En ajoutant diverses fonctionnalités probabilistes, le texte résultant est à peu près unique par rapport à ce qui a été utilisé dans l'ensemble d'apprentissage.

L'IA générative suscite de nombreuses inquiétudes.

Un inconvénient crucial est que les essais produits par une application d'IA basée sur la génération peuvent contenir divers mensonges, y compris des faits manifestement faux, des faits dépeints de manière trompeuse et des faits apparents entièrement fabriqués. Ces aspects fabriqués sont souvent appelés une forme de Hallucinations de l'IA, un slogan que je désapprouve mais qui semble malheureusement gagner du terrain de toute façon (pour mon explication détaillée sur la raison pour laquelle cette terminologie est moche et inappropriée, voir ma couverture sur le lien ici).

Une autre préoccupation est que les humains peuvent facilement s'attribuer le mérite d'un essai génératif produit par l'IA, même s'ils n'ont pas composé l'essai eux-mêmes. Vous avez peut-être entendu dire que les enseignants et les écoles sont très préoccupés par l'émergence d'applications d'IA génératives. Les étudiants peuvent potentiellement utiliser l'IA générative pour rédiger les essais qui leur sont assignés. Si un élève prétend qu'un essai a été écrit de sa propre main, il y a peu de chances que l'enseignant soit en mesure de discerner s'il a plutôt été forgé par l'IA générative. Pour mon analyse de cette facette confusionnelle entre étudiant et enseignant, voir ma couverture sur le lien ici ainsi que le lien ici.

Il y a eu des affirmations loufoques démesurées sur les réseaux sociaux à propos de IA générative affirmant que cette dernière version de l'IA est en fait IA sensible (non, ils se trompent !). Les spécialistes de l'éthique de l'IA et du droit de l'IA s'inquiètent notamment de cette tendance naissante de revendications étendues. Vous pourriez dire poliment que certaines personnes exagèrent ce que l'IA d'aujourd'hui peut réellement faire. Ils supposent que l'IA a des capacités que nous n'avons pas encore pu atteindre. C'est malheureux. Pire encore, ils peuvent se permettre à eux-mêmes et aux autres de se retrouver dans des situations désastreuses en supposant que l'IA sera sensible ou humaine pour pouvoir agir.

Ne pas anthropomorphiser l'IA.

Cela vous fera prendre dans un piège de confiance collant et austère consistant à attendre de l'IA qu'elle fasse des choses qu'elle est incapable d'accomplir. Cela étant dit, la dernière IA générative est relativement impressionnante pour ce qu'elle peut faire. Sachez cependant qu'il existe des limitations importantes que vous devez constamment garder à l'esprit lorsque vous utilisez une application d'IA générative.

Un dernier avertissement pour le moment.

Tout ce que vous voyez ou lisez dans une réponse d'IA générative qui semble être transmis comme purement factuel (dates, lieux, personnes, etc.), assurez-vous de rester sceptique et d'être prêt à revérifier ce que vous voyez.

Oui, les dates peuvent être concoctées, les lieux peuvent être inventés, et les éléments que l'on s'attend généralement à être irréprochables sont TOUTE sujet à suspicion. Ne croyez pas ce que vous lisez et gardez un œil sceptique lorsque vous examinez des essais ou des résultats d'IA générative. Si une application d'IA générative vous dit qu'Abraham Lincoln a survolé le pays dans son jet privé, vous sauriez sans aucun doute que c'est malarky. Malheureusement, certaines personnes pourraient ne pas se rendre compte que les jets n'existaient pas à son époque, ou elles pourraient le savoir mais ne pas remarquer que l'essai fait cette affirmation effrontée et scandaleusement fausse.

Une forte dose de scepticisme sain et un état d'esprit persistant d'incrédulité seront votre meilleur atout lors de l'utilisation de l'IA générative.

Nous sommes prêts à passer à la prochaine étape de cette élucidation.

L'Internet et l'IA générative sont dans le même bateau

Maintenant que vous avez un semblant de ce qu'est l'IA générative, nous pouvons explorer la question épineuse de savoir si l'IA générative « tire parti » équitablement ou injustement, ou certains diraient de façon flagrante exploitant Contenu Internet.

Voici mes quatre sujets essentiels pertinents à cette question :

  • 1) Double problème : plagiat et violation du droit d'auteur
  • 2) Essayer de prouver le plagiat ou la violation du droit d'auteur sera une tentative
  • 3) Faire valoir le plagiat ou la violation du droit d'auteur
  • 4) Les mines terrestres légales vous attendent

Je couvrirai chacun de ces sujets importants et présenterai des considérations perspicaces sur lesquelles nous devrions tous réfléchir attentivement. Chacun de ces sujets fait partie intégrante d'un puzzle plus vaste. Vous ne pouvez pas regarder un seul morceau. Vous ne pouvez pas non plus regarder une pièce isolément des autres pièces.

Il s'agit d'une mosaïque complexe et l'ensemble du puzzle doit faire l'objet d'une attention harmonieuse.

Double problème : plagiat et violation du droit d'auteur

Le double problème auquel sont confrontés ceux qui fabriquent et utilisent l'IA générative est que leurs produits pourraient faire deux mauvaises choses :

  • 1) Plagiat. L'IA générative pourrait être interprétée comme plagier contenu qui existe sur Internet selon l'analyse Internet qui a eu lieu pendant la formation des données de l'IA.
  • 2) Violation du droit d'auteur. L'IA générative pourrait être revendiquée comme entreprise Violation du droit d'auteur associés au contenu Internet qui a été analysé lors de la formation aux données.

Pour clarifier, il y a beaucoup plus de contenu sur Internet que ce qui est généralement scanné pour la formation aux données de l'IA générative. Seule une infime partie de l'Internet est généralement utilisée. Ainsi, nous pouvons vraisemblablement supposer que tout contenu qui n'a pas été scanné pendant la formation aux données n'a pas de lien particulier avec l'IA générative.

Ceci est quelque peu discutable, car vous pourriez potentiellement tracer une ligne qui relie un autre contenu qui a été analysé avec le contenu qui n'a pas été analysé. De plus, une autre condition importante est que même s'il y a du contenu qui n'a pas été scanné, il pourrait toujours être considéré comme plagié et/ou violé par le droit d'auteur si les sorties de l'IA générative atterrissent par hasard sur le même verbiage. Ce que je veux dire, c'est qu'il y a beaucoup de squishies dans tout cela.

Bottom line: L'IA générative regorge d'énigmes juridiques potentielles en matière d'éthique et de droit de l'IA en matière de plagiat et de violation du droit d'auteur sous-tendant les pratiques dominantes de formation aux données.

Jusqu'à présent, les fabricants d'IA et les chercheurs en IA ont parcouru ce parcours à peu près sans encombre, malgré l'épée imminente et précaire qui pend au-dessus d'eux. Seules quelques poursuites judiciaires ont été à ce jour lancées contre ces pratiques. Vous avez peut-être entendu ou vu des articles de presse sur de telles actions en justice. L'un, par exemple, implique les sociétés de synthèse d'images Midjourney et Stability AI pour avoir enfreint le contenu artistique publié sur Internet. Un autre implique une violation de texte à code contre GitHub, Microsoft et OpenAI en raison du logiciel Copilot produisant des applications d'IA. Getty Images vise également à poursuivre Stability AI pour violation de texte à image.

Vous pouvez vous attendre à ce que d'autres poursuites de ce type soient déposées.

À l'heure actuelle, il est un peu hasardeux de lancer ces poursuites car le résultat est relativement inconnu. Le tribunal sera-t-il du côté des fabricants d'IA ou ceux qui pensent que leur contenu a été injustement exploité seront-ils les vainqueurs ? Une bataille juridique coûteuse est toujours une affaire sérieuse. Dépenser les frais juridiques à grande échelle doit être mis en balance avec les chances de gagner ou de perdre.

Les fabricants d'IA sembleraient n'avoir presque pas d'autre choix que de se battre. S'ils cédaient, ne serait-ce qu'un peu, il y a de fortes chances qu'un torrent de poursuites supplémentaires en résulte (essentiellement, ouvrant la porte à des chances accrues que d'autres l'emportent également). Une fois qu'il y aura du sang légal dans l'eau, les requins légaux restants se précipiteront vers le "score facile" considéré et un bain de sang monétaire se produira sûrement.

Certains pensent que nous devrions adopter de nouvelles lois sur l'IA qui protégeraient les fabricants d'IA. La protection pourrait même être rétroactive. La base de cela est que si nous voulons voir des progrès de l'IA générative, nous devons donner aux fabricants d'IA une piste de zone de sécurité. Une fois que les procès commenceront à remporter des victoires contre les fabricants d'IA, si cela se produit (nous ne le savons pas encore), l'inquiétude est que l'IA générative s'évaporera car personne ne sera disposé à soutenir les entreprises d'IA.

Comme le souligne habilement un récent article de Bloomberg Law intitulé « ChatGPT : IP, Cybersecurity & Other Legal Risks of Generative AI » par le Dr Ilia Kolochenko et Gordon Platt, Bloomberg Law, février 2023, voici deux extraits essentiels faisant écho à ces points de vue :

  • « Un débat houleux fait maintenant rage parmi les juristes américains et les professeurs de droit de la propriété intellectuelle sur la question de savoir si le grattage non autorisé et l'utilisation ultérieure de données protégées par le droit d'auteur constituent une violation du droit d'auteur. Si le point de vue des praticiens du droit qui voient des violations du droit d'auteur dans une telle pratique l'emporte, les utilisateurs de ces systèmes d'IA peuvent également être tenus responsables d'une infraction secondaire et potentiellement faire face à des ramifications juridiques.
  • "Pour relever le défi de manière globale, les législateurs devraient envisager non seulement de moderniser la législation existante sur le droit d'auteur, mais également de mettre en œuvre un ensemble de lois et de réglementations spécifiques à l'IA."

Rappelez-vous qu'en tant que société, nous avons mis en place des protections juridiques pour les avec des données d'Internet, comme en témoigne aujourd'hui la Cour suprême révisant le fameux ou l'infâme article 230. Ainsi, il semble raisonnable et sans précédent que nous soyons disposés à faire des protections similaires pour l'avancement de l'IA générative. Peut-être que les protections pourraient être mises en place temporairement, expirant après que l'IA générative a atteint un certain niveau de compétence prédéterminé. D'autres dispositions de sauvegarde pourraient être imaginées.

Je publierai bientôt mon analyse de la façon dont l'évaluation de la Cour suprême et la décision finale sur l'article 230 pourraient avoir un impact sur l'avènement de l'IA générative. Soyez à l'affût de cette publication à venir !

Revenons à l'opinion exprimée avec véhémence selon laquelle nous devrions laisser une marge de manœuvre à l'innovation technologique sociétale impressionnante connue sous le nom d'IA générative. Certains diraient que même si la violation alléguée du droit d'auteur s'est produite ou se produit, la société dans son ensemble devrait être disposée à l'autoriser dans le but spécifique de faire progresser l'IA générative.

L'espoir est que les nouvelles lois sur l'IA seraient soigneusement élaborées et adaptées aux particularités associées à la formation aux données pour l'IA générative.

Il existe de nombreux contre-arguments à cette idée de concevoir de nouvelles lois sur l'IA à cette fin. L'une des préoccupations est que toute nouvelle loi sur l'IA ouvrira les vannes à toutes sortes de violations du droit d'auteur. Nous regretterons le jour où nous aurons permis à ces nouvelles lois sur l'IA d'atterrir dans les livres. Peu importe à quel point vous essayez de limiter cela à la seule formation aux données de l'IA, d'autres trouveront sournoisement ou intelligemment des failles qui équivaudront à une violation du droit d'auteur sans entraves et généralisée.

Tour et tour les arguments vont.

Un argument qui ne tient pas particulièrement la route concerne la tentative de poursuivre l'IA elle-même. Notez que j'ai fait référence au fabricant d'IA ou aux chercheurs en IA comme étant les parties prenantes coupables. Ce sont des personnes et des entreprises. Certains suggèrent que nous devrions cibler l'IA comme la partie à poursuivre. J'ai longuement expliqué dans ma chronique que nous n'attribuons pas encore la personnalité juridique à l'IA, voir le lien ici par exemple, et donc de telles poursuites visant l'IA en soi seraient considérées comme insensées en ce moment.

En complément à la question de savoir qui ou quoi doit être poursuivi, cela soulève un autre sujet juteux.

Supposons qu'une application d'IA générative particulière soit conçue par un fabricant d'IA que nous appellerons Widget Company. Widget Company est de taille relativement petite et n'a pas beaucoup de revenus, ni beaucoup d'actifs. Les poursuivre en justice ne rapportera probablement pas les grandes richesses que l'on pourrait rechercher. Tout au plus, vous auriez simplement la satisfaction de redresser ce que vous percevez comme mal.

Vous voulez aller après le gros poisson.

Voici comment cela va se produire. Un fabricant d'IA choisit de mettre son IA générative à la disposition de Big Time Company, un conglomérat majeur avec des tonnes de pâte et des tonnes d'actifs. Un procès ciblant Widget Company aurait désormais une meilleure cible en vue, à savoir également en désignant Big Time Company. C'est un combat de David contre Goliath que les avocats apprécieraient. Bien sûr, la Big Time Company essaiera sans aucun doute de se dégager de l'hameçon. S'ils peuvent le faire est encore une fois une question juridique incertaine, et ils pourraient s'enliser désespérément dans la boue.

Avant d'aller plus loin sur ce sujet, j'aimerais mettre quelque chose de crucial sur la table concernant les empiètements présumés de l'IA générative en raison de la formation aux données. Je suis sûr que vous réalisez intuitivement que le plagiat et la violation du droit d'auteur sont deux bêtes quelque peu différentes. Ils ont beaucoup en commun, bien qu'ils diffèrent également de manière significative.

Voici une description succincte de l'Université Duke qui explique les deux :

  • « Le plagiat est mieux défini comme l'utilisation non reconnue du travail d'une autre personne. Il s'agit d'une question éthique impliquant une revendication de crédit pour un travail que le demandeur n'a pas créé. On peut plagier le travail de quelqu'un d'autre quel que soit le statut du droit d'auteur de ce travail. Par exemple, c'est quand même du plagiat de copier à partir d'un livre ou d'un article trop ancien pour être encore sous copyright. C'est également du plagiat d'utiliser des données provenant d'une source non reconnue, même si des éléments factuels tels que des données peuvent ne pas être protégés par le droit d'auteur. Le plagiat, cependant, est facilement guéri - citation appropriée de la source originale du matériel.
  • « La violation du droit d'auteur, en revanche, est l'utilisation non autorisée de l'œuvre d'autrui. Il s'agit d'une question juridique qui dépend de la protection ou non de l'œuvre par le droit d'auteur en premier lieu, ainsi que de détails tels que la quantité utilisée et le but de l'utilisation. Si l'on copie trop d'une œuvre protégée, ou si l'on copie à des fins non autorisées, le simple fait de reconnaître la source originale ne résoudra pas le problème. Ce n'est qu'en demandant l'autorisation préalable du détenteur du droit d'auteur que l'on évite le risque d'une accusation de contrefaçon.

Je souligne l'importance de ces deux préoccupations afin que vous vous rendiez compte que les remèdes peuvent différer en conséquence. En outre, ils sont tous deux empêtrés dans des considérations imprégnant l'éthique de l'IA et le droit de l'IA, ce qui les rend tout aussi intéressants à examiner.

Explorons un remède ou une solution revendiquée. Vous verrez que cela pourrait aider l'un des problèmes de double problème, mais pas l'autre.

Certains ont insisté sur le fait que tout ce que les fabricants d'IA ont à faire est de citer leurs sources. Lorsque l'IA générative produit un essai, incluez simplement des citations spécifiques pour tout ce qui est indiqué dans l'essai. Donnez diverses URL et d'autres indications sur le contenu Internet qui a été utilisé. Cela semblerait les libérer des scrupules liés au plagiat. L'essai produit identifierait vraisemblablement clairement quelles sources ont été utilisées pour le libellé produit.

Il y a quelques chicanes dans cette solution revendiquée, mais à un niveau de 30,000 XNUMX pieds, disons que cela sert de remède semi-satisfaisant au dilemme du plagiat. Comme indiqué ci-dessus dans l'explication de la violation du droit d'auteur, la citation du matériel source ne vous fait pas nécessairement sortir de la niche. En supposant que le contenu était protégé par le droit d'auteur et en fonction d'autres facteurs tels que la quantité de matériel utilisé, l'épée en attente de la violation du droit d'auteur peut basculer brusquement et avec finalité.

Le double trouble est le mot d'ordre ici.

Essayer de prouver le plagiat ou la violation du droit d'auteur sera une tentative

Prouve le!

C'est le vieux refrain que nous avons tous entendu à divers moments de notre vie.

Vous savez comment ça se passe. Vous pourriez prétendre que quelque chose se passe ou s'est passé. Vous savez peut-être dans votre for intérieur que cela a eu lieu. Mais quand il s'agit de push-versus-shove, vous devez avoir la preuve.

Dans le langage d'aujourd'hui, vous devez montrer le recettes, comme ils disent.

Ma question pour vous est celle-ci : Comment allons-nous prouver de manière démontrable que l'IA générative a exploité le contenu Internet de manière inappropriée ?

On suppose que la réponse devrait être facile. Vous demandez ou dites à l'IA générative de produire un essai de sortie. Vous prenez ensuite l'essai et le comparez à ce que l'on peut trouver sur Internet. Si vous trouvez l'essai, bam, vous avez l'IA générative clouée au mur proverbial.

La vie ne semble jamais être aussi facile.

Imaginez que nous obtenions une IA générative pour produire un essai contenant environ 100 mots. Nous faisons le tour et essayons d'atteindre tous les coins et recoins d'Internet, à la recherche de ces 100 mots. Si nous trouvons les 100 mots, affichés dans le même ordre exact et de manière identique, nous semblons nous en être pris un chaud.

Supposons cependant que nous trouvions sur Internet un essai apparemment "comparable" bien qu'il ne corresponde qu'à 80 des 100 mots. Cela semble encore suffisant, peut-être. Mais imaginons que nous ne trouvions qu'une instance de 10 mots sur les 100 qui correspondent. Est-ce suffisant pour clamer qu'il y a eu plagiat ou qu'il y a eu violation du droit d'auteur ?

La grisaille existe.

Le texte est drôle de cette façon.

Comparez cela aux circonstances du texte à l'image ou du texte à l'art. Lorsque l'IA générative fournit une capacité de texte à image ou de texte à art, vous entrez une invite de texte et l'application AI produit une image basée en quelque sorte sur l'invite que vous avez fournie. L'image pourrait ne ressembler à aucune image qui ait jamais été vue sur cette planète ou sur n'importe quelle autre planète.

D'un autre côté, l'image pourrait rappeler d'autres images qui existent. Nous pouvons regarder l'image générative produite par l'IA et, un peu par instinct, dire qu'elle ressemble à une autre image que nous avons déjà vue. Généralement, le visuel les aspects de comparaison et de contraste sont un peu plus facilement entrepris. Cela étant dit, sachez que d'énormes débats juridiques garantissent ce qui constitue le chevauchement ou la reproduction d'une image à partir d'une autre.

Une autre situation similaire existe avec la musique. Il existe des applications d'IA génératives qui vous permettent de saisir une invite de texte et la sortie produite par l'IA est de la musique audio. Ces capacités d'IA text-to-audio ou text-to-music commencent tout juste à émerger. Une chose sur laquelle vous pouvez parier votre plus gros dollar, c'est que la musique produite par l'IA générative sera très surveillée pour contrefaçon. Nous semblons savoir quand nous entendons une infraction musicale, bien qu'il s'agisse là encore d'une question juridique complexe qui ne repose pas uniquement sur ce que nous pensons de la reproduction perçue.

Permettez-moi un autre exemple.

L'IA générative de texte à code vous offre la possibilité de saisir une invite de texte et l'IA produira un code de programmation pour vous. Vous pouvez ensuite utiliser ce code pour préparer un programme informatique. Vous pouvez utiliser le code exactement tel qu'il a été généré, ou vous pouvez choisir de modifier et d'ajuster le code en fonction de vos besoins. Il est également nécessaire de s'assurer que le code est approprié et exploitable car il est possible que des erreurs et des faussetés puissent survenir dans le code généré.

Votre première hypothèse pourrait être que le code de programmation n'est pas différent du texte. Ce n'est que du texte. Bien sûr, c'est un texte qui fournit un but particulier, mais c'est toujours du texte.

Eh bien, pas exactement. La plupart des langages de programmation ont un format et une structure stricts en fonction de la nature des instructions de codage de ce langage. Dans un sens, cela est beaucoup plus étroit que le langage naturel fluide. Vous êtes quelque peu coincé quant à la façon dont les instructions de codage sont formulées. De même, la séquence et la manière dont les instructions sont utilisées et rangées sont quelque peu encadrées.

Dans l'ensemble, la possibilité de montrer que le code de programmation a été plagié ou enfreint est presque plus facile que le langage naturel tout compte fait. Ainsi, lorsqu'une IA générative va scanner le code de programmation sur Internet et génère plus tard du code de programmation, les chances de faire valoir que le code a été répliqué de manière flagrante vont être relativement plus convaincantes. Pas un slam dunk, alors attendez-vous à ce que des batailles acharnées soient menées à ce sujet.

Mon point principal est que nous allons avoir les mêmes problèmes d'éthique et de droit de l'IA auxquels sont confrontés tous les modes d'IA générative.

Le plagiat et la violation du droit d'auteur seront problématiques pour :

  • Texte à texte ou texte à essai
  • Text-to-image ou text-to-art
  • Texte vers audio ou texte vers musique
  • Texte-vidéo
  • Texte à code
  • Etc

Ils sont tous soumis aux mêmes préoccupations. Certains pourraient être un peu plus faciles à « prouver » que d'autres. Tous vont avoir leur propre variété de cauchemars d'une base sur l'éthique de l'IA et la loi sur l'IA.

Faire valoir le plagiat ou la violation du droit d'auteur

À des fins de discussion, concentrons-nous sur l'IA générative de texte à texte ou de texte à essai. Je le fais en partie à cause de l'énorme popularité de ChatGPT, qui est le type d'IA générative de type texte à texte. De nombreuses personnes utilisent ChatGPT, ainsi que de nombreuses autres utilisant diverses applications d'IA génératives texte-texte similaires.

Les personnes qui utilisent des applications d'IA générative savent-elles qu'elles s'appuient potentiellement sur le plagiat ou la violation du droit d'auteur ?

Il semble douteux qu'ils le fassent.

J'oserais dire que l'hypothèse qui prévaut est que si l'application d'IA générative est disponible, le fabricant d'IA ou l'entreprise qui a mis en service l'IA doit savoir ou être convaincu qu'il n'y a rien de fâcheux dans les marchandises qu'ils proposent d'utiliser. Si vous pouvez l'utiliser, il doit être au-dessus du bord.

Reprenons mon commentaire précédent sur la façon dont nous allons essayer de prouver qu'une IA générative particulière fonctionne de manière erronée en ce qui concerne la formation aux données.

Je pourrais également ajouter que si nous pouvons attraper une IA générative en train de le faire, les chances d'attraper les autres sont susceptibles d'être améliorées. Je ne dis pas que toutes les applications d'IA générative seraient dans le même bateau. Mais ils vont se retrouver dans une mer assez agitée une fois l'un d'entre eux cloué au mur.

C'est pourquoi il sera également extrêmement utile de garder un œil sur les poursuites en cours. Le premier qui gagne quant à l'infraction alléguée, si cela se produit, sera peut-être catastrophique pour les autres applications d'IA génératives, à moins qu'une certaine étroitesse n'échappe aux problèmes plus larges à résoudre. Ceux qui perdent quant à l'infraction alléguée ne signifient pas nécessairement que les applications d'IA génératives peuvent sonner des cloches et célébrer. Il se peut que la perte soit attribuée à d'autres facteurs qui ne sont pas aussi pertinents pour les autres applications d'IA générative, et ainsi de suite.

J'avais mentionné que si nous prenons un essai de 100 mots et essayons de trouver ces mots exacts dans le même ordre sur Internet, nous pourrions avoir un cas relativement solide de plagiat ou de violation du droit d'auteur, toutes choses étant égales par ailleurs. Mais si le nombre de mots correspondants est faible, nous semblons être sur une fine couche de glace.

J'aimerais approfondir cela.

Un aspect évident de la comparaison consiste à utiliser exactement les mêmes mots dans la même séquence. Cela peut se produire pour des passages entiers. Ce serait pratique à repérer, presque comme si on nous le présentait sur un plateau d'argent.

Nous pourrions également être suspects si seul un extrait de mots correspondait. L'idée serait de voir s'il s'agit de mots cruciaux ou peut-être de mots de remplissage que nous pouvons facilement supprimer ou ignorer. Nous ne voulons pas non plus être trompés par l'utilisation de mots au passé ou au futur, ou par une autre sottise. Ces variations dans les mots doivent également être prises en compte.

Un autre niveau de comparaison serait lorsque les mots ne sont pas particulièrement les mêmes mots dans une large mesure, mais que les mots, même dans un état varié, semblent toujours faire valoir les mêmes arguments. Par exemple, un résumé utilisera souvent des mots assez similaires en tant que source originale, mais nous pouvons discerner que le résumé semble fondé sur la source originale.

Le niveau de comparaison le plus difficile serait basé sur des concepts ou des idées. Supposons que nous voyions un essai qui n'a pas les mêmes mots ou des mots similaires comme base de comparaison, mais l'essence ou les idées sont les mêmes. Certes, nous nous avançons en territoire difficile. Si l'on disait volontiers que les idées sont étroitement protégées, on mettrait un frein à presque toutes les formes de connaissance et d'enrichissement des connaissances.

Nous pouvons à nouveau nous référer à une explication pratique de Duke University :

  • « Le droit d'auteur ne protège pas les idées, seulement l'expression spécifique d'une idée. Par exemple, un tribunal a décidé que Dan Brown n'avait pas enfreint le droit d'auteur d'un livre antérieur lorsqu'il a écrit Le Da Vinci Code parce que tout ce qu'il a emprunté à l'œuvre précédente, ce sont les idées de base, pas les détails de l'intrigue ou du dialogue. Étant donné que le droit d'auteur vise à encourager la production créative, utiliser les idées de quelqu'un d'autre pour créer une œuvre nouvelle et originale confirme l'objectif du droit d'auteur, cela ne le viole pas. Ce n'est que si quelqu'un copie l'expression d'un autre sans autorisation que le droit d'auteur est potentiellement enfreint.
  • "Pour éviter le plagiat, d'autre part, il faut reconnaître la source même des idées qui sont empruntées à quelqu'un d'autre, que l'expression de ces idées soit empruntée ou non avec elles. Ainsi, une paraphrase nécessite une citation, même si elle soulève rarement un problème de droit d'auteur.

Veuillez noter, comme indiqué précédemment, les différences entre les facettes du double problème.

Maintenant, la mise en pratique des approches de comparaison est quelque chose qui a lieu depuis de nombreuses années. Pense-y de cette façon. Les étudiants qui écrivent des essais pour leurs travaux scolaires pourraient être tentés de récupérer du contenu sur Internet et de prétendre qu'ils sont les auteurs des mots récompensés par le prix Pulitzer.

Les enseignants utilisent depuis longtemps des programmes anti-plagiat pour y faire face. Un enseignant prend la dissertation d'un élève et l'introduit dans le vérificateur de plagiat. Dans certains cas, une école entière autorisera l'utilisation d'un programme de vérification du plagiat. Chaque fois que les étudiants remettent un essai, ils doivent d'abord envoyer l'essai au programme de vérification du plagiat. L'enseignant est informé de ce que rapporte le programme.

Malheureusement, vous devez être extrêmement prudent quant à ce que ces programmes anti-plagiat ont à dire. Il est important d'évaluer attentivement si les indications rapportées sont valides. Comme déjà mentionné, la capacité de déterminer si une œuvre a été copiée peut être floue. Si vous acceptez sans réfléchir le résultat du programme de vérification, vous pouvez faussement accuser un élève de copier alors qu'il ne l'a pas fait. Cela peut être écrasant.

Ensuite, nous pouvons essayer d'utiliser des programmes de vérification du plagiat dans le domaine des tests de sorties d'IA génératives. Traitez les essais produits à partir d'une application d'IA générative comme s'ils avaient été écrits par un étudiant. Nous évaluons ensuite ce que dit le vérificateur de plagiat. Cela se fait avec un grain de sel.

Une étude récente a tenté d'opérationnaliser ces types de comparaisons dans le contexte de l'IA générative de cette manière. J'aimerais passer en revue quelques découvertes intéressantes avec vous.

Tout d'abord, un arrière-plan supplémentaire est requis. L'IA générative est parfois appelée LLM (grands modèles de langage) ou simplement LM (modèles de langage). Deuxièmement, ChatGPT est basé sur une version d'un autre package d'IA générative OpenAI appelé GPT-3.5. Avant GPT-3.5, il y avait GPT-3, et avant c'était GPT-2. De nos jours, GPT-2 est considéré comme plutôt primitif par rapport à la série ultérieure, et nous attendons tous avec impatience le prochain dévoilement de GPT-4, voir ma discussion sur le lien ici.

L'étude de recherche que je veux explorer brièvement consistait à examiner GPT-2. C'est important à réaliser puisque nous sommes maintenant bien au-delà des capacités de GPT-2. Ne tirez pas de conclusions irréfléchies quant aux résultats de cette analyse du GPT-2. Néanmoins, nous pouvons apprendre beaucoup de l'évaluation de GPT-2. L'étude s'intitule "Do Language Models Plagiarize?" par Jooyoung Lee, Thai Le, Jinghui Chen et Dongwon Lee, apparaissant dans l'ACM WWW '23, du 1er au 5 mai 2023, Austin, TX, États-Unis.

Voici leur principale question de recherche :

  • "Dans quelle mesure (sans se limiter à la mémorisation) les LM exploitent-ils des phrases ou des phrases de leurs échantillons d'apprentissage ?"

Ils ont utilisé ces trois niveaux ou catégories de plagiat potentiel :

  • "Plagiat textuel : copies exactes de mots ou de phrases sans transformation."
  • "Paraphraser le plagiat : substitution synonyme, réorganisation des mots et/ou contre-traduction."
  • "Plagiat d'idée : représentation du contenu principal sous une forme allongée."

GPT-2 a en effet été formé sur des données Internet et donc un candidat approprié pour ce type d'analyse :

  • "GPT-2 est pré-formé sur WebText, contenant plus de 8 millions de documents récupérés à partir de 45 millions de liens Reddit. Comme OpenAI n'a pas rendu public WebText, nous utilisons OpenWebText qui est une recréation open-source du corpus WebText. Il a été utilisé de manière fiable par la littérature antérieure.

Les principales conclusions sélectives extraites de l'étude consistent en :

  • "Nous avons découvert que les familles GPT-2 pré-formées plagient à partir d'OpenWebText."
  • "Nos résultats montrent que le réglage fin réduit considérablement les cas de plagiat textuels d'OpenWebText."
  • « Conformément à Carlini et al. et Carlini et al., nous constatons que les modèles GPT-2 plus grands (large et xl) génèrent généralement des séquences plagiées plus fréquemment que les plus petites.
  • "Cependant, différents LM peuvent présenter différents modèles de plagiat, et nos résultats peuvent donc ne pas être directement généralisés à d'autres LM, y compris des LM plus récents tels que GPT-3 ou BLOOM."
  • "De plus, les détecteurs de plagiat automatiques sont connus pour avoir de nombreux modes de défaillance (à la fois en faux négatifs et en faux positifs).
  • "Étant donné que la majorité des données de formation des LM sont extraites du Web sans en informer les propriétaires de contenu, leur réitération de mots, de phrases et même d'idées fondamentales des ensembles de formation dans les textes générés a des implications éthiques."

Nous avons certainement besoin de beaucoup plus d'études de ce genre.

Si vous êtes curieux de savoir comment GPT-2 se compare à GPT-3 en ce qui concerne la formation aux données, il existe un contraste assez marqué.

Selon les indications rapportées, la formation aux données pour GPT-3 était beaucoup plus étendue :

  • "Le modèle a été formé à l'aide de bases de données textuelles sur Internet. Cela comprenait 570 Go de données obtenues à partir de livres, de textes Web, de Wikipédia, d'articles et d'autres écrits sur Internet. Pour être encore plus exact, 300 milliards de mots ont été introduits dans le système » (Objectif scientifique de la BBC magazine, "ChatGPT : Tout ce que vous devez savoir sur l'outil GPT-3 d'OpenAI" par Alex Hughes, février 2023).

Pour ceux d'entre vous intéressés par des descriptions plus détaillées de la formation aux données pour GPT-3, voici un extrait de la carte modèle officielle GPT-3 publiée sur GitHub (dernière mise à jour indiquée en septembre 2020) :

  • "L'ensemble de données de formation GPT-3 est composé de texte publié sur Internet ou de texte téléchargé sur Internet (par exemple, des livres). Les données Internet sur lesquelles il a été formé et évalué à ce jour comprennent : (1) une version de l'ensemble de données CommonCrawl, filtrée en fonction de la similitude avec des corpus de référence de haute qualité, (2) une version étendue de l'ensemble de données Webtext, (3 ) deux corpus de livres sur Internet et (4) Wikipédia en anglais.
  • « Compte tenu de ses données de formation, les résultats et les performances de GPT-3 sont plus représentatifs des populations connectées à Internet que celles imprégnées de culture verbale et non numérique. La population connectée à Internet est plus représentative des opinions des pays développés, riches, plus jeunes et masculines, et est principalement centrée sur les États-Unis. Les nations et les populations les plus riches des pays développés affichent une pénétration d'Internet plus élevée. La fracture numérique entre les sexes montre également moins de femmes représentées en ligne dans le monde. De plus, comme différentes parties du monde ont différents niveaux de pénétration et d'accès à Internet, l'ensemble de données sous-représente les communautés les moins connectées.

Un point à retenir de l'indication ci-dessus à propos de GPT-3 est qu'une règle empirique parmi ceux qui font de l'IA générative est que plus vous pouvez numériser de données Internet, plus les chances d'améliorer ou de faire progresser l'IA générative augmentent.

Vous pouvez regarder cela de deux manières.

  • 1) IA améliorée. Nous allons avoir une IA générative qui parcourt autant d'Internet que possible. Le résultat passionnant est que l'IA générative sera meilleure qu'elle ne l'est déjà. C'est quelque chose à attendre avec impatience.
  • 2) Copier le potentiel à gogo. Cet élargissement de la numérisation sur Internet rend le problème du plagiat et de la violation du droit d'auteur potentiellement de plus en plus important. Alors qu'avant il n'y avait pas autant de créateurs de contenu impactés, la taille va s'épanouir. Si vous êtes un avocat du côté des créateurs de contenu, cela vous fait monter les larmes aux yeux (peut-être des larmes de consternation ou des larmes de joie face aux perspectives que cela apporte en termes de poursuites).

Le verre est à moitié plein ou à moitié vide?

Tu décides.

Les mines terrestres légales attendent

Une question à laquelle vous vous posez peut-être la question est de savoir si votre contenu Internet publié est considéré comme un jeu équitable pour être scanné. Si votre contenu se trouve derrière un paywall, ce n'est probablement pas une cible à analyser car il ne peut pas être facilement atteint, en fonction de la force du paywall.

Je suppose que la plupart des gens ordinaires n'ont pas leur contenu caché derrière un mur payant. Ils veulent que leur contenu soit accessible au public. Ils supposent que les gens y jetteront un coup d'œil.

Le fait que votre contenu soit accessible au public signifie-t-il également axiomatiquement que vous acceptez qu'il soit scanné pour être utilisé par une IA générative qui est formée aux données ?

Peut-être que oui, peut-être que non.

C'est l'une de ces questions juridiques qui roulent les yeux.

Revenant au précédent cité Loi Bloomberg article, les auteurs mentionnent l'importance des Termes et Conditions (CGU) associés à de nombreux sites Web :

  • "La mine terrestre légale - largement ignorée par les sociétés d'IA involontaires qui exploitent des robots en ligne pour le grattage de données - est cachée dans les conditions générales généralement disponibles sur les sites Web publics de tous types. Contrairement à la loi sur la propriété intellectuelle actuellement instable et au dilemme de la violation du droit d'auteur, les conditions générales d'un site Web sont soutenues par un droit des contrats bien établi et peuvent généralement être appliquées devant les tribunaux en s'appuyant sur un nombre suffisant de précédents.

Ils indiquent qu'en supposant que votre site Web comporte une page liée à la licence, il est probable que si vous utilisiez un modèle moderne standardisé, il puisse contenir une clause cruciale :

  • « Par conséquent, la plupart des conditions générales standard des sites Web, disponibles en abondance en libre accès, contiennent une clause interdisant le grattage automatisé des données. Ironiquement, ces modèles disponibles gratuitement ont peut-être été utilisés pour la formation ChatGPT. Par conséquent, les propriétaires de contenu peuvent souhaiter revoir leurs conditions générales et insérer une clause distincte interdisant catégoriquement toute utilisation de tout contenu des sites Web pour la formation à l'IA ou à des fins connexes, qu'elles soient collectées manuellement ou automatiquement, sans l'autorisation écrite préalable du propriétaire du site Web. .”

Un kicker supplémentaire est inclus dans leur analyse des actions potentielles que les créateurs de contenu peuvent prendre à propos de leurs sites Web :

  • "Par conséquent, l'insertion d'une clause de dommages-intérêts exécutoires pour chaque violation de la clause de non-grattage, renforcée par une disposition d'injonction sans caution, peut être une solution tenable pour les auteurs de contenu créatif qui ne souhaitent pas fournir les fruits de leur travail intellectuel à des fins de formation à l'IA sans être payé pour cela ou, du moins, recevoir un crédit approprié pour leur travail.

Vous voudrez peut-être consulter votre avocat à ce sujet.

Certains disent que c'est un moyen essentiel d'essayer de dire aux fabricants d'IA que les créateurs de contenu sont très sérieux quant à la protection de leur contenu. S'assurer que votre licence a le bon libellé semblerait mettre en garde les fabricants d'IA.

D'autres cependant sont un peu pessimistes. Ils disent avec découragement que vous pouvez continuer à mettre le langage juridique le plus dur et le plus meurtrier sur votre site Web, mais à la fin, les fabricants d'IA vont le scanner. Vous ne saurez pas qu'ils l'ont fait. Vous aurez du mal à prouver qu'ils l'ont fait. Il est peu probable que vous découvriez que leurs sorties reflètent votre contenu. C'est une bataille difficile que vous n'allez pas gagner.

Le contre-argument est que vous abandonnez la bataille avant même qu'elle ne soit menée. Si vous n'avez pas au moins un langage juridique suffisant, et si jamais vous les attrapez, ils se tortilleront et se faufileront pour échapper à toute responsabilité. Tout ça parce que tu n'as pas posté le bon jargon juridique.

En attendant, une autre approche qui cherche à gagner du terrain consisterait à des votre site Web avec quelque chose qui dit que le site ne doit pas être analysé par l'IA générative. L'idée est qu'un marqueur standardisé serait conçu. Les sites Web pourraient vraisemblablement ajouter le marqueur à leur site. Les fabricants d'IA seraient informés qu'ils devraient modifier leur analyse de données pour ignorer les sites Web marqués.

Une approche par marqueurs peut-elle réussir ? Les préoccupations comprennent les coûts d'obtention et d'affichage des marqueurs. En plus de savoir si les fabricants d'IA respecteront les marqueurs et s'assureront qu'ils évitent de scanner les sites marqués. Une autre perspective est que même si les fabricants d'IA n'acceptent pas les marquages, cela fournit un autre indice révélateur pour aller en justice et faire valoir que le créateur de contenu a fait le dernier kilomètre pour essayer d'avertir de l'analyse de l'IA.

Aïe, tout ça fait tourner la tête.

Conclusion

Quelques remarques finales sur ce sujet épineux.

Êtes-vous prêt pour une perspective hallucinante sur toute cette IA en tant que dilemme de plagiaire et de contrevenant au droit d'auteur ?

Une grande partie de l'hypothèse selon laquelle « attraper » l'IA générative dans l'acte de plagiat ou de violation du droit d'auteur dépend de la découverte de résultats qui ressemble fortement travaux antérieurs tels que le contenu sur Internet qui a été potentiellement scanné lors de la formation aux données.

Supposons cependant qu'un stratagème de division pour mieux régner soit en jeu ici.

Voici ce que je veux dire.

Si l'IA générative emprunte un tout petit peu d'ici et un tout petit peu de là, les mélangeant finalement pour produire une sortie particulière, les chances de pouvoir avoir un moment de pépin sont considérablement réduites. Toute sortie n'atteindra apparemment pas un seuil suffisant pour que vous puissiez dire avec certitude qu'elle a été extraite d'un élément source particulier. L'essai résultant ou d'autres modes de sortie ne seront que partiellement appariables. Et par l'approche habituelle consistant à essayer de faire valoir qu'il y a eu plagiat ou violation du droit d'auteur, vous devez généralement montrer plus qu'un tout petit morceau est en jeu, surtout si le morceau n'est pas remarquable et peut être trouvé largement sur Internet (sous-cotation toute charge adéquate de la preuve de l'appropriation illicite).

Pouvez-vous toujours déclarer de manière convaincante que la formation de données par l'IA générative a arraché les sites Web et les créateurs de contenu, même si la preuve suggérée est une proportion ostensiblement immatérielle ?

Pensez-y.

Si nous sommes confrontés à un plagiat potentiel à grande échelle et à une violation du droit d'auteur à grande échelle, nous devrons peut-être modifier notre approche pour définir ce qui constitue un plagiat et/ou une violation du droit d'auteur. Peut-être y a-t-il lieu de plaider pour le plagiat ou la violation du droit d'auteur dans l'ensemble ou en général. Une mosaïque composée de milliers ou de millions d'extraits minuscules pourrait être interprétée comme commettant de telles violations. Le problème apparent cependant est que cela peut faire que toutes sortes de contenus tombent soudainement sous un parapluie de violations. Cela pourrait être une pente glissante.

Pensées lourdes.

Parlant de pensées lourdes, Léon Tolstoï, l'écrivain légendaire, a déclaré: "Le seul sens de la vie est de servir l'humanité."

Si votre site Web et les sites Web des autres sont scannés pour l'amélioration de l'IA, et bien que vous n'obteniez pas un seul centime pour cela, pourriez-vous avoir un réconfort solennel dans la conviction ardente que vous contribuez à l'avenir de l'humanité ? Cela semble un petit prix à payer.

Eh bien, à moins que l'IA ne se révèle être le risque existentiel redouté qui efface tous les humains de l'existence. Vous ne devriez pas vous en attribuer le mérite. Je suppose que vous préféreriez ne pas contribuer à ce résultat désastreux. En mettant de côté cette prédiction calamiteuse, vous pensez peut-être que si les fabricants d'IA gagnent de l'argent grâce à leur IA générative et qu'ils semblent apprécier les profits, vous devriez également obtenir une part du gâteau. Partagez et partagez à l'identique. Les fabricants d'IA devraient demander la permission d'analyser n'importe quel site Web, puis également négocier un prix à payer pour avoir été autorisé à entreprendre l'analyse.

Donnez du crédit là où le crédit est dû.

Laissons à Sir Walter Scott le dernier mot pour l'instant : « Oh, quelle toile emmêlée nous tissons. Lorsque nous nous entraînons pour la première fois à tromper.

Cela s'applique peut-être si vous pensez que la tromperie est en marche, ou peut-être ne s'applique-t-il pas si vous pensez que tout va bien et parfaitement franc et légitime. S'il vous plaît, donnez-vous généreusement le crédit d'avoir réfléchi à cela. Vous le méritez.

Source : https://www.forbes.com/sites/lanceeliot/2023/02/26/legal-doomsday-for-generative-ai-chatgpt-if-caught-plagiarizing-or-infringing-warns-ai-ethics- et-ai-law/