NetBSD zakazuje używania kodu generowanego przez sztuczną inteligencję

Programiści NetBSD mają teraz zakaz korzystania z kodu generowanego przez sztuczną inteligencję z ChatGPT, CoPilot lub innych narzędzi AI. Czas pokaże, jak to wpłynie na użytkowników i zespół core.

"Jeśli wprowadzasz kod, który nie został napisany przez ciebie, sprawdź przepisy licencyjne dotyczące tego kodu, pozwolą one na importowanie go do repozytorium źródłowego NetBSD i bezpłatną dystrybucję," czytamy w zaktualizowanych wytycznych dotyczących commitów NetBSD. "Skonsultuj się z autorem lub autorami kodu, sprawdź, czy byli jedynymi autorami kodu i zweryfikuj, czy nie skopiowali żadnego innego kodu. Założenie jest takie, że kod wygenerowany przez duży model językowy lub podobną technologię, taką jak Copilot firmy GitHub/Microsoft, ChatGPT firmy OpenAI czy Code Llama firmy Facebook/Meta, jest skażonym kodem, i nie może być wprowadzany bez wcześniejszej pisemnej zgody rdzenia."

ELI5: NetBSD wprowadził nowe zasady, które zabraniają programistom korzystania z kodu generowanego przez sztuczną inteligencję, taką jak ChatGPT czy CoPilot. Mają ograniczyć ryzyko naruszenia praw autorskich i zabezpieczyć jakość kodu w projekcie. Programiści muszą teraz dokładniej sprawdzać pochodzenie kodu, zanim go dodadzą do NetBSD. To zmiana, która ma na celu chronić projekt i jego użytkowników.

Źródła:

Bruce Schneier przypomina inżynierom LLM o zagrożeniach związanych z podatnościami na wstrzykiwanie instrukcji

Profesjonalista ds. bezpieczeństwa Bruce Schneier argumentuje, że duże modele językowe mają taką samą podatność, jak telefony w latach 70., wykorzystywane przez Johna Drapera. "Dane i kontrola używały tego samego kanału," pisze Schneier w czasopiśmie Communications of the ACM. "To znaczy, że polecenia, które informowały centralę telefoniczną, co ma zrobić, były przesyłane wraz z głosami."

Inne formy wstrzykiwania poleceń polegają na tym, że LLM otrzymuje złośliwe instrukcje w danych szkoleniowych. Inny przykład polega na ukryciu tajnych poleceń w stronach internetowych. Każda aplikacja LLM, która przetwarza e-maile lub strony internetowe, jest podatna. Atakujący mogą osadzić złośliwe polecenia w obrazach i filmach, dlatego każdy system przetwarzający je jest podatny. Każda aplikacja LLM, która ma kontakt z niezaufanymi użytkownikami - pomyśl o czacie wbudowanym na stronie internetowej - będzie podatna na ataki. Trudno znaleźć aplikację LLM, która nie jest w żaden sposób podatna.

Poszczególne ataki są łatwe do zapobieżenia po ich odkryciu i upublicznieniu, ale jest ich nieskończona liczba, i nie ma możliwości zablokowania ich jako klasy. Prawdziwy problem tutaj jest ten sam, który dręczył sieć telefoniczną przed SS7: mieszanina danych i poleceń. Dopóki dane - czy to dane szkoleniowe, tekstowe polecenia czy inne dane wejściowe do LLM - są pomieszane z poleceniami, które mówią LLM, co ma zrobić, system będzie podatny. Ale w przeciwieństwie do systemu telefonicznego, nie możemy oddzielić danych LLM od jego poleceń. Jedną z niezwykle potężnych cech LLM jest to, że dane wpływają na kod. Chcemy, żeby system modyfikował swoje działanie po otrzymaniu nowych danych szkoleniowych. Chcemy, aby zmieniał sposób działania na podstawie poleceń, które mu dajemy. To, że LLM same modyfikują się na podstawie danych wejściowych, jest cechą, a nie błędem. I to właśnie jest tym, co umożliwia wstrzykiwanie poleceń.

Stajemy się coraz lepsi w tworzeniu LLM, które są odporne na te ataki. Budujemy systemy, które czyszczą dane wejściowe, zarówno poprzez rozpoznanie znanych ataków wstrzykiwania poleceń, jak i szkolenie innych LLM w rozpoznawaniu, jak takie ataki wyglądają. (choć teraz musisz zabezpieczyć ten inny LLM przed atakami wstrzykiwania poleceń).

W niektórych przypadkach możemy użyć mechanizmów kontroli dostępu i innych systemów bezpieczeństwa internetowego, aby ograniczyć, kto może uzyskać dostęp do LLM i co LLM może robić. To będzie ograniczać, na ile możemy im zaufać. Czy kiedykolwiek możesz zaufać asystentowi emailowemu LLM, jeśli można go oszukać, żeby zrobił coś, czego nie powinien? Czy możesz kiedykolwiek zaufać systemowi wideo do detekcji ruchu w generatywnym AI, jeśli ktoś może podnieść starannie sformułowany znak i przekonać go, żeby nie zauważył konkretnej tablicy rejestracyjnej - a potem zapomnieć, że ją widział...?

Kiedyś jakiś badacz AI odkryje, jak oddzielić ścieżki danych i kontroli. Do tego czasu jednak będziemy musieli ostrożnie zastanowić się nad wykorzystaniem LLM w potencjalnie wrogich środowiskach... na przykład w Internecie. Schneier zachęca inżynierów do znalezienia równowagi między ryzykiem generatywnego AI a mocą, jaką przynosi. "Używanie ich do wszystkiego jest łatwiejsze niż poświęcanie czasu na zrozumienie, jakiego rodzaju specjalizowany AI jest zoptymalizowany do zadania".

ELI5: Bruce Schneiera, specjalista bezpieczenstwa, który mówi o tym, jak duże modele językowe mogą być podatne na ataki, podobne do tych, które były wykonywane na starych telefonach. Mówi, że problemy z bezpieczeństwem wynikają z tego, że dane i polecenia są pomieszane ze sobą. To sprawia, że systemy opracowane na bazie tych modeli są narażone na ataki. Schneier mówi, że choć możliwe jest znalezienie sposobów na obronę przed atakami, to problem podatności wynika z natury tych systemów.

Źródła:

OpenAI podpisuje umowę z Redditem w celu szkolenia swojej sztucznej inteligencji na postach użytkowników

The Verge: OpenAI podpisało umowę o dostęp do bieżącej zawartości z Reddit API, co oznacza, że może wykorzystywać dyskusje ze strony w ramach ChatGPT i innych nowych produktów. To porozumienie jest podobne do tego, które Reddit podpisał z Googlem wcześniej w tym roku i które rzekomo było warte 60 milionów dolarów. Umowa ta również "umocni Reddita w dostarczaniu nowych funkcji opartych na sztucznej inteligencji dla użytkowników i moderatorów" oraz wykorzysta duże modele językowe OpenAI do tworzenia aplikacji. OpenAI również zgodziło się zostać partnerem reklamowym na Reddicie.

W wpisie na blogu nie ujawniono żadnych szczegółów finansowych, a żadna z firm nie wspomniała również o danych szkoleniowych. Ostatni szczegół różni się od umowy z Googlem, gdzie Reddit wyraźnie stwierdził, że dostarczy Google „bardziej wydajne metody trenowania modeli”. Istnieje jednak oświadczenie mówiące, że CEO OpenAI, Sam Altman, jest także udziałowcem w Reddicie, ale „to partnerstwo było prowadzone przez COO OpenAI i zatwierdzone przez niezależną Radę Dyrektorów.”

„Reddit stał się jednym z największych otwartych archiwów autentycznych, trafnych i zawsze aktualnych ludzkich rozmów w internecie na każdy temat. Włączenie go do ChatGPT potwierdza nasze przekonanie o połączonym internecie, pomaga ludziom znaleźć więcej tego, czego szukają, oraz pomaga nowym grupom znaleźć społeczność na Reddicie,” mówi Steve Huffman, CEO Reddita.

Akcje Reddita wzrosły po ogłoszeniu umowy, zyskując 13% w piątek, osiągając wartość 63,64 USD. Jak zauważa Reuters, jest to „w zasięgu rekordowej ceny zamknięcia wynoszącej 65,11 USD osiągniętej pod koniec marca, co oznacza, że firma ma szansę dodać 1,2 miliarda USD do swojej kapitalizacji rynkowej.”

ELI5: OpenAI podpisało umowę z Redditem, która pozwala im korzystać z danych z Reddit. Dzięki temu będą mogli wykorzystać te informacje w swoich nowych produktach, takich jak ChatGPT. Umowa jest podobna do tej, którą Reddit ma z Googlem. Reddit zamierza wykorzystać sztuczną inteligencję do ulepszania swoich funkcji. Po ogłoszeniu umowy wartość akcji Reddita wzrosła o 13%.

Źródła:

Zespół OpenAI ds. Długoterminowego Ryzyka AI został rozwiązany

W lipcu zeszłego roku OpenAI ogłosiło utworzenie nowego zespołu badawczego, który miał przygotować się na nadejście nadzwyczaj mądrej sztucznej inteligencji zdolnej do przewyższania i pokonywania swoich twórców. Ilya Sutskever, główny naukowiec OpenAI i jeden z założycieli firmy, został mianowany współliderem tego nowego zespołu. OpenAI powiedziało, że zespół otrzyma 20 procent mocy obliczeniowej. Teraz OpenAI potwierdza, że zespół „superalignment” już nie istnieje. Nastąpiło to po odejściu kilku zaangażowanych badaczy jak Sutskever, oraz rezygnacji zespołu drugiego współlidera. Praca grupy zostanie wchłonięta do innych zespoły OpenAI.

Odejście Sutskevera stało się głośne, ponieważ choć pomógł CEO Samowi Altmanowi rozpocząć OpenAI w 2015 r. i wyznaczyć kierunek badań, które doprowadziły do ChatGPT, był także jednym z czterech członków zarządu, którzy zwolnili Altmana w listopadzie. Altman został przywrócony na stanowisko dyrektora generalnego pięć dni później po masowej rebelii pracowników OpenAI i zawarciu porozumienia, w ramach którego Sutskever i dwóch innych dyrektorów firmy odeszli z zarządu. Kilka godzin po ogłoszeniu odejścia Sutskevera we wtorek, Jan Leike, były badacz DeepMind, który był drugim współliderem zespołu superalignment, opublikował na X, że zrezygnował.

ELI5: Firma OpenAI utworzyła nowy zespół naukowców, którzy mieli przygotować się na przyjście bardzo mądrej sztucznej inteligencji. Teraz okazało się, że ten zespół nie istnieje już, ponieważ kilku naukowców odeszło, w tym lider zespołu. Ich praca będzie teraz kontynuowana w ramach innych projektów badawczych OpenAI. Odejście lidera zespołu stało się głośne, ponieważ był ważną osobą w firmie i pomógł jej się rozwijać, ale opuścił zarząd w wyniku konfliktu.

Źródła:

'Openwashing'

The New York Times: *W świecie technologii toczy się ożywiona debata na temat tego, czy modele sztucznej inteligencji powinny być „open source”. Elon Musk, który pomógł założyć OpenAI w 2015 roku, pozwał startup i jego dyrektora zarządzającego, Sama Altmana, zarzucając firmie odstąpienie od jej misji otwartości. Administracja Bidena prowadzi dochodzenie w sprawie ryzyka i korzyści związanych z modelami open source. Zwolennicy modeli open source A.I. twierdzą, że są one bardziej sprawiedliwe i bezpieczniejsze dla społeczeństwa, podczas gdy przeciwnicy twierdzą, że są one bardziej podatne na nadużycia o szkodliwym zamiarze.

Jedna duża przeszkoda w debacie? Nie ma jednomyślnej definicji tego, co tak naprawdę oznacza open source A.I. I niektórzy oskarżają firmy A.I. o „openwashing” – używanie terminu „open source” w sposób nieuczciwy, aby wyglądać dobrze. (Oskarżenia o openwashing były wcześniej kierowane w stronę projektów, które zbyt swobodnie posługiwały się etykietą open source).

Na blogu Open Future, europejskiego think tanku wspierającego otwarte źródła, Alek Tarkowski napisał: „Jednym z wyzwań jest stworzenie wystarczającej ilości barier ochronnych przeciwko próbom firm w zakresie „openwashing””. W zeszłym miesiącu Linux Foundation, organizacja non-profit wspierająca projekty oprogramowania open-source, ostrzegła, że „trend „openwashing” zagraża samej zasadzie otwartości – swobodnemu dzieleniu się wiedzą w celu możliwości inspekcji, replikacji i zbiorowego postępu”. Organizacje, które nadają swoim modelom tę etykietę, mogą podejść do otwartości zupełnie inaczej.

Głównym powodem jest to, że podczas gdy oprogramowanie open source pozwala komukolwiek na replikację lub modyfikację, zbudowanie modelu A.I. wymaga znacznie więcej niż kodu. Tylko garstka firm jest w stanie sfinansować wymaganą moc obliczeniową i katalogowanie danych. Dlatego niektórzy eksperci twierdzą, że określanie dowolnego A.I. jako „open source” jest w najlepszym przypadku wprowadzające w błąd, a w najgorszym narzędziem marketingowym. „Nawet maksymalnie otwarte systemy A.I. nie pozwalają na otwarty dostęp do zasobów niezbędnych do „demokratyzacji” dostępu do A.I., ani nie umożliwiają pełnej kontroli” – powiedział David Gray Widder, doktorant w Cornell Tech, który badał wykorzystanie etykiety „open source” przez firmy A.I.

ELI5: W raporcie z The New York Times mówi się o tym, czy modele sztucznej inteligencji powinny być dostępne publicznie, czyli "open source". Ludzie mają różne zdania na ten temat. Czasami firmy nazywają swoje produkty "open source", żeby wyglądać lepiej. Jednak nie zawsze oznacza to, że każdy może z nich korzystać. Budowanie modeli A.I. wymaga dużo pracy i danych, więc nie zawsze są one dostępne dla wszystkich. Niektórzy uważają, że nazywanie ich "open source" jest mylące lub jest chwytem marketingowym.

Źródła:

Nowa funkcja Google ukryta pod kategorią 'Więcej' pokazuje linki do stron internetowych

Po wprowadzeniu funkcji, która dodaje do wyników wyszukiwania więcej sztuczek opartych na sztucznej inteligencji niż kiedykolwiek, Google eksperymentuje z nową, "radykalną" funkcją, która pozwala użytkownikom zobaczyć tylko te wyniki... których poszukiwali, w formie zwykłych linków tekstowych. Takich, z których większość ludzi faktycznie korzysta z Google. 'Wprowadziliśmy nowy filtr 'Web', który wyświetla tylko linki oparte na tekście, tak jak moglibyście filtrować wyniki, aby pokazać inne rodzaje wyników, takie jak obrazy czy filmy' - napisał oficjalny profil Google Search Liaison na Twitterze prowadzony przez Danny'ego Sullivana. Opcja ta pojawi się na szczycie wyników wyszukiwania, pod opcją 'Więcej'.

'Dodaliśmy to po usłyszeniu od niektórych osób, że czasem wolałyby zobaczyć tylko linki do stron internetowych w wynikach wyszukiwania, na przykład jeśli szukają długich dokumentów tekstowych, korzystając z urządzenia z ograniczonym dostępem do internetu, albo jeśli po prostu wolą, aby wyniki oparte na tekście były pokazywane oddzielnie od funkcji wyszukiwania' - napisał Sullivan. 'Jeśli należysz do tej grupy, ciesz się!' Korzystanie z Google stało się w ostatnich latach uciążliwym, mylącym doświadczeniem dla użytkowników, ponieważ stopniowo zaczął priorytetyzować reklamy i sponsorowane wyniki, oraz strony internetowe generowane przez sztuczną inteligencję ponad autentyczne, stworzone przez ludzi witryny internetowe.

ELI5: Google wprowadził nową funkcję, która pozwala użytkownikom zobaczyć tylko zwykłe linki tekstowe podczas wyszukiwania. To oznacza, że można teraz filtrować wyniki i wyświetlać tylko linki do stron internetowych, bez innych rzeczy jak obrazy czy filmy. Jest to reakcja na rosnącą ilość reklam i sponsorowanych wyników, które Google wcześniej promował, co sprawiało, że korzystanie z wyszukiwarki stało się trudniejsze dla użytkowników.

Źródła:

Hugging Face udostępnia zasoby obliczeniowe warte 10 milionów dolarów

The Verge: Hugging Face zobowiązuje się do udostępnienia bezpłatnych GPU o wartości 10 milionów dolarów, aby pomóc programistom tworzyć nowe technologie AI. Celem jest pomoc małym deweloperom, naukowcom i startupom w przeciwstawieniu się scentralizowaniu postępu w dziedzinie sztucznej inteligencji. Delangue martwi się zdolnością startupów AI do konkurowania z gigantami technologicznymi. Większość znaczących postępów w sztucznej inteligencji - jak np. GPT-4, algorytmy stojące za Google Search i system Full Self-Driving firmy Tesla - pozostaje ukryta w obrębie głównych firm technologicznych. Korporacje te nie tylko mają zachęty finansowe do utrzymywania swoich modeli jako własnościowych, ale dzięki miliardom dolarów do swojej dyspozycji na zasoby obliczeniowe, mogą pomnożyć te zyski i wyprzedzić konkurentów, co sprawia, że dla startupów jest to niemożliwe do nadrobienia. Hugging Face ma na celu uczynienie najnowocześniejszych technologii AI dostępnymi dla wszystkich, a nie tylko dla gigantów technologicznych.

Dostęp do zasobów obliczeniowych stanowi istotne wyzwanie w konstruowaniu dużych modeli językowych, często faworyzując firmy takie jak OpenAI i Anthropic, które zawierają umowy ze świadczeniodawcami chmur na znaczne zasoby obliczeniowe. Hugging Face ma na celu wyrównanie szans poprzez przekazywanie GPU społeczności poprzez nowy program o nazwie ZeroGPU. Współdzielone GPU są dostępne dla wielu użytkowników lub aplikacji jednocześnie, eliminując konieczność posiadania dedykowanego GPU przez każdego użytkownika lub aplikację. ZeroGPU będzie dostępne poprzez platformę hostingu Hugging Face o nazwie Spaces, na której firma stworzyła już ponad 300 000 dem AI działających dotychczas na CPU lub płatnym GPU, według firmy.

Dostęp do współdzielonych GPU jest określany przez użytkowanie, więc jeśli część mocy GPU nie jest aktywnie wykorzystywana, ta moc staje się dostępna do wykorzystania przez kogoś innego. Sprawia to, że są one opłacalne, energooszczędne i idealne do wykorzystania na szeroką skalę w społeczności. ZeroGPU wykorzystuje urządzenia GPU Nvidia A100 do zasilania tej operacji -- oferują one około połowę prędkości obliczeniowej popularnych i droższych H100s.

„Bardzo trudno zdobyć wystarczającą liczbę GPU od głównych świadczeniodawców chmur, a sposób na ich pozyskanie - który stwarza wysoką barierę wejścia - polega na zobowiązaniu się do bardzo dużych ilości na długi czas,” powiedział Delangue. Zazwyczaj firma zobowiązywałaby się świadczeniodawcy chmury takiemu jak Amazon Web Services na jeden lub więcej lat, aby zapewnić zasoby GPU. Taka umowa jest niekorzystna dla małych firm, deweloperów niezależnych i naukowców, którzy działają na małą skalę i nie są w stanie przewidzieć, czy ich projekty odniosą sukces. Bez względu na użytkowanie, muszą oni wciąż płacić za GPU. „To także koszmar przewidywania, aby wiedzieć, ile GPU i jakiego budżetu potrzebujesz” dodał Delangue.

ELI5: Firma Hugging Face obiecuje udostępnienie darmowych GPU o wartości 10 milionów dolarów, aby pomóc programistom w tworzeniu nowych technologii sztucznej inteligencji. Chcą oni zapobiec monopolowi dużych firm technologicznych w tej dziedzinie i umożliwić małym firmom i badaczom konkurowanie z nimi. Przez program ZeroGPU, Hugging Face udostępni współdzielone GPU, które będą dostępne dla wielu użytkowników jednocześnie, eliminując konieczność posiadania własnego. Dzięki temu będą one oszczędne, efektywne energetycznie i łatwe w użyciu dla całej społeczności.

Źródła: