Czy OpenAI, Google i Meta "pośpieszyły się" zbierając dane treningowe dla sztucznej inteligencji?

Co się stało, kiedy OpenAI wyczerpało dostęp do angielskojęzycznych danych treningowych w 2021 roku? Stworzyli narzędzie do rozpoznawania mowy, które mogło przepisywać dźwięk z filmów na YouTube, informuje New York Times, jako część dochodzenia, twierdząc, że firmy technologiczne "w tym OpenAI, Google i Meta przyśpieszyły, ignorując firmowe polityki i rozważały łamanie prawa" w poszukiwaniu danych treningowych dla sztucznej inteligencji.

Niektórzy pracownicy OpenAI mówili, że taki ruch może iść pod prąd z zasadami YouTube. YouTube, należący do Google, zabrania wykorzystywania swoich filmów do aplikacji „niezależnych” od platformy wideo. Ostatecznie zespół OpenAI przepisał ponad 1 milion godzin filmów z YouTube, powiedzieli informatorzy. W skład zespołu wchodził Greg Brockman, prezydent OpenAI, który osobiście pomagał w zbieraniu filmów. Teksty zostały następnie wprowadzone do systemu o nazwie GPT-4...

W Meta, właścicielu Facebooka i Instagrama, kierownicy, prawnicy i inżynierowie w zeszłym roku rozmawiali o kupnie wydawnictwa Simon & Schuster, aby pozyskać długie utwory, jak wynika z nagrań wewnętrznych spotkań uzyskanych przez Timesa. Rozmawiali również o zbieraniu chronionych prawami autorskimi danych z internetu, nawet jeśli wiązałoby się to z pozwami sądowymi. Negocjacje z wydawcami, artystami, muzykami i branżą wiadomości trwałyby zbyt długo, twierdzili.

Podobnie jak OpenAI, Google przepisywał filmy z YouTube, aby pozyskać tekst dla swoich modeli sztucznej inteligencji, powiedziało pięć osób znających praktyki firmy. To potencjalnie naruszało prawa autorskie do filmów, które należą do ich twórców. W zeszłym roku Google również rozszerzył swoje warunki świadczenia usług. Jedną z motywacji zmiany, według członków zespołu ds. prywatności firmy i wiadomości wewnętrznej, do której dotarł Times, było umożliwienie Google’owi korzystania z publicznie dostępnych Google Docs, recenzji restauracji na Google Maps i innych materiałów online dla większej liczby swoich produktów z wykorzystaniem sztucznej inteligencji.

Niektórzy pracownicy Google'a byli świadomi, że OpenAI pozyskało filmy z YouTube dla danych. Ale nie przeszkodzili OpenAI, ponieważ Google również używał transkryptów filmów z YouTube do treningu swoich modeli sztucznej inteligencji. Takie praktyki mogły naruszać prawa autorskie twórców filmów na YouTube. Więc jeśli Google zrobiłby hałas w sprawie OpenAI, mogłoby się to wiązać z publicznym oburzeniem przeciwko jego własnym metodom. Artykuł dodaje, że niektóre firmy technologiczne teraz nawet rozwijają „syntetyczne” informacje, aby trenować sztuczną inteligencję.

„To nie są organiczne dane tworzone przez ludzi, ale tekst, obrazy i kod, które modele sztucznej inteligencji produkują - innymi słowy, systemy uczą się na podstawie tego, co same generują.”

ELI5: OpenAI, Google i Meta próbowały pozyskać dane do trenowania sztucznej inteligencji m.in. przez przepisywanie dźwięku z filmów na YouTube. Robiły to pomimo ryzyka łamania prawa i polityk firm, takich jak YouTube, który zabrania wykorzystywania swoich filmów w taki sposób. Firmy te również rozmawiały o innych kontrowersyjnych metodach pozyskiwania danych, takich jak kupno wydawnictw czy zbieranie informacji chronionych prawami autorskimi z internetu. Te działania wywołały dyskusje o naruszeniach praw autorskich i zapoczątkowały rozwój "syntetycznych" danych do trenowania sztucznej inteligencji.

Źródła:

Powiązane posty