Bruce Schneier przypomina inżynierom LLM o zagrożeniach związanych z podatnościami na wstrzykiwanie instrukcji

Profesjonalista ds. bezpieczeństwa Bruce Schneier argumentuje, że duże modele językowe mają taką samą podatność, jak telefony w latach 70., wykorzystywane przez Johna Drapera. "Dane i kontrola używały tego samego kanału," pisze Schneier w czasopiśmie Communications of the ACM. "To znaczy, że polecenia, które informowały centralę telefoniczną, co ma zrobić, były przesyłane wraz z głosami."

Inne formy wstrzykiwania poleceń polegają na tym, że LLM otrzymuje złośliwe instrukcje w danych szkoleniowych. Inny przykład polega na ukryciu tajnych poleceń w stronach internetowych. Każda aplikacja LLM, która przetwarza e-maile lub strony internetowe, jest podatna. Atakujący mogą osadzić złośliwe polecenia w obrazach i filmach, dlatego każdy system przetwarzający je jest podatny. Każda aplikacja LLM, która ma kontakt z niezaufanymi użytkownikami - pomyśl o czacie wbudowanym na stronie internetowej - będzie podatna na ataki. Trudno znaleźć aplikację LLM, która nie jest w żaden sposób podatna.

Poszczególne ataki są łatwe do zapobieżenia po ich odkryciu i upublicznieniu, ale jest ich nieskończona liczba, i nie ma możliwości zablokowania ich jako klasy. Prawdziwy problem tutaj jest ten sam, który dręczył sieć telefoniczną przed SS7: mieszanina danych i poleceń. Dopóki dane - czy to dane szkoleniowe, tekstowe polecenia czy inne dane wejściowe do LLM - są pomieszane z poleceniami, które mówią LLM, co ma zrobić, system będzie podatny. Ale w przeciwieństwie do systemu telefonicznego, nie możemy oddzielić danych LLM od jego poleceń. Jedną z niezwykle potężnych cech LLM jest to, że dane wpływają na kod. Chcemy, żeby system modyfikował swoje działanie po otrzymaniu nowych danych szkoleniowych. Chcemy, aby zmieniał sposób działania na podstawie poleceń, które mu dajemy. To, że LLM same modyfikują się na podstawie danych wejściowych, jest cechą, a nie błędem. I to właśnie jest tym, co umożliwia wstrzykiwanie poleceń.

Stajemy się coraz lepsi w tworzeniu LLM, które są odporne na te ataki. Budujemy systemy, które czyszczą dane wejściowe, zarówno poprzez rozpoznanie znanych ataków wstrzykiwania poleceń, jak i szkolenie innych LLM w rozpoznawaniu, jak takie ataki wyglądają. (choć teraz musisz zabezpieczyć ten inny LLM przed atakami wstrzykiwania poleceń).

W niektórych przypadkach możemy użyć mechanizmów kontroli dostępu i innych systemów bezpieczeństwa internetowego, aby ograniczyć, kto może uzyskać dostęp do LLM i co LLM może robić. To będzie ograniczać, na ile możemy im zaufać. Czy kiedykolwiek możesz zaufać asystentowi emailowemu LLM, jeśli można go oszukać, żeby zrobił coś, czego nie powinien? Czy możesz kiedykolwiek zaufać systemowi wideo do detekcji ruchu w generatywnym AI, jeśli ktoś może podnieść starannie sformułowany znak i przekonać go, żeby nie zauważył konkretnej tablicy rejestracyjnej - a potem zapomnieć, że ją widział...?

Kiedyś jakiś badacz AI odkryje, jak oddzielić ścieżki danych i kontroli. Do tego czasu jednak będziemy musieli ostrożnie zastanowić się nad wykorzystaniem LLM w potencjalnie wrogich środowiskach... na przykład w Internecie. Schneier zachęca inżynierów do znalezienia równowagi między ryzykiem generatywnego AI a mocą, jaką przynosi. "Używanie ich do wszystkiego jest łatwiejsze niż poświęcanie czasu na zrozumienie, jakiego rodzaju specjalizowany AI jest zoptymalizowany do zadania".

ELI5: Bruce Schneiera, specjalista bezpieczenstwa, który mówi o tym, jak duże modele językowe mogą być podatne na ataki, podobne do tych, które były wykonywane na starych telefonach. Mówi, że problemy z bezpieczeństwem wynikają z tego, że dane i polecenia są pomieszane ze sobą. To sprawia, że systemy opracowane na bazie tych modeli są narażone na ataki. Schneier mówi, że choć możliwe jest znalezienie sposobów na obronę przed atakami, to problem podatności wynika z natury tych systemów.

Źródła: