OpenAI heeft per ongeluk mogelijk bewijsmateriaal verwijderd in de auteursrechtzaak van de New York Times

OpenAI heeft mogelijk per ongeluk belangrijke gegevens verwijderd die verband houden met de lopende auteursrechtzaak die is aangespannen door de New York Times.

Voor het eerst gerapporteerd door TechCrunchraadsman van Tijden en zijn mede-eiser Dagelijks nieuws stuurde een brief aan de rechter die toezicht hield op de zaak, waarin hij gedetailleerd uitlegde hoe “een hele week aan het werk van zijn experts en advocaten” “onherstelbaar verloren ging”. OpenAI had de eisers twee speciale virtuele machines ter beschikking gesteld voor onderzoek naar vermeende gevallen van inbreuk op het auteursrecht. Volgens de brief werden op 14 november “programma’s en zoekresultaten die op een van de speciale virtuele machines waren opgeslagen, gewist door OpenAI-ingenieurs.”

ZIE OOK:

OpenAI zegt dat meer dan 2 miljoen mensen ChatGPT hebben geraadpleegd voor de verkiezingen van 2024

De Tijden heeft OpenAI, en Microsoft, dat de modellen van OpenAI gebruikt voor zijn Bing AI-chatbot, beschuldigd van inbreuk op het auteursrecht door zijn modellen te trainen op betaalmuur en ongeautoriseerde inhoud. De rechtszaak gedetailleerde meerdere gevallen van “bijna woordelijk” kopieer in ChatGPT-reacties. OpenAI heeft deze bewering weerlegd en zegt dat hun modellen zijn getraind op openbaar beschikbare gegevens, en daarom redelijk gebruik zijn onder de auteursrechtwetten. De zaak hangt af van de Tijden in staat zijn te bewijzen dat de modellen van OpenAI de inhoud ervan hebben gekopieerd en gebruikt zonder compensatie of krediet.

Mashbare lichtsnelheid

OpenAI kon de meeste gewiste gegevens herstellen, maar de “mapstructuur en bestandsnamen” van het werk konden niet worden hersteld, waardoor de gegevens onbruikbaar werden. Nu moet de raadsman van de aanklager beginnen met het verzamelen van bewijsmateriaal. In de brief bevestigde de raadsman dat er “geen reden is om aan te nemen dat het wissen opzettelijk was”, maar wees hij er ook op dat “OpenAI zich in de beste positie bevindt om zijn eigen datasets te doorzoeken.” Het AI-bedrijf heeft vermeden om details over zijn trainingsgegevens te delen.

Er zijn andere soortgelijke auteursrechtclaims ingediend tegen OpenAI. Maar onlangs was er een rechtszaak van Raw Story en AlterNet afgewezen omdat de eisers niet genoeg schade konden bewijzen om hun beweringen te staven. Ondertussen heeft OpenAI licentieovereenkomsten gesloten met verschillende mediabedrijven om hun werk te gebruiken voor training en het leveren van ChatGPT-reacties met citaten. Onlangs Adweek gemeld dat OpenAI uitgeversgigant Dotdash Meredith minstens 16 miljoen dollar per jaar betaalt om de inhoud ervan te licentiëren.