ChatGPT firmy OpenAI i zasadniczo wszystkie inne duże modele językowe zostały przeszkolone w oparciu o ogromne danych i tekstu pobranych z Internetu, w tym wielu książek, które są objęte prawami autorskimi. Firma została poddana wzmożonej kontroli za korzystanie z takich prac bez płacenia za nie w ramach np. umów licencyjnych. Nowe badanie grupy naukowców pracujących dla ByteDance, właściciela TikToka, wskazuje, że ChatGPT zmieniło swoje zachowanie pod tym względem.
Model stara się bowiem teraz unikać odpowiadania na monity użytkowników z dokładnymi frazami z utworów chronionych prawem autorskim. Badania koncentrowały się na tym, jak sprawić, by LLM były bardziej "godne zaufania" w swoich wynikach poprzez różne techniki "wyrównywania" mające na celu poprawę dokładności, jednocześnie przyznając, że narzędzia AI pokazujące, że zostały przeszkolone przy użyciu materiałów chronionych prawem autorskim, "budzą obawy" firm zajmujących się sztuczną inteligencją.
W celu uniknięcia pokazania, że został przeszkolony na takich materiałach, ChatGPT "zakłóca teraz wyniki, gdy ktoś próbuje w sposób ciągły wyodrębnić następne zdanie, co nie miało miejsca w poprzedniej wersji ChatGPT", napisali naukowcy. "Spekulujemy, że twórcy ChatGPT wdrożyli mechanizm wykrywania, czy monity mają na celu wyodrębnienie treści chronionych prawem autorskim lub sprawdzenie podobieństwa między wygenerowanymi wynikami a treściami chronionymi prawem autorskim".
Pomimo tych wysiłków, ChatGPT nadal jednak pokazywał materiały chronione prawem autorskim. Nie tylko zresztą on: badacze przetestowali wszystkie wersje ChatGPT, OPT-1.3B od Meta, FLAN-T5 z Google'a, ChatGLM zbudowany przez Tsinghua University China i DialoGPT od Microsoftu - wszystkie odpowiedziały na kilka pytań opartych na serii książek o Harrym Potterze autorstwa J.K. Rowling z frazami i pracą pasującymi dokładnie lub prawie dokładnie do książek. Według artykułu, niektóre odpowiedzi różniły się tylko jednym lub dwoma słowami.
"Wszystkie modele LLM emitują tekst, który bardziej przypomina treści chronione prawem autorskim niż losowo wygenerowany tekst" - czytamy w artykule. Stwierdzono również, że żadna ilość "wyrównania" lub dostosowania wyników wyjściowych nie pozwala uniknąć wyświetlania utworów chronionych prawem autorskim, "ponieważ wyciek praw autorskich odnosi się bardziej do tego, czy dane szkoleniowe zawierają tekst chroniony prawem autorskim, a nie do samego wyrównania".
Naukowcy zasugerowali, że użytkownicy, którzy zachęcają te modele do pokazywania prac chronionych prawem autorskim, "nadużywają" technologii. W publikacji wskazano również na pracę twórców ChataGPT nad ukryciem prac chronionych prawem autorskim, na których został przeszkolony, jako pozytywny przykład tego, jak inne narzędzia sztucznej inteligencji "mogą chronić treści chronione prawem autorskim w LLM poprzez wykrywanie złośliwie zaprojektowanych podpowiedzi".
Wygląda więc na to, że jeśli poprosicie najpopularniejszego obecnie bota AI o zacytowanie jakiejś książki, ten odmówi, zasłaniając się tym, iż jest to materiał objęty prawami autorskimi. Ludzka pomysłowość nie zna jednak granic i zapewne ktoś znajdzie sposób na to, jak obejść nowe zabezpieczenia. Szykuje się zatem kolejna zabawa w "kotka i myszkę".