model syntezy obrazu

Z Ars Technica: W środę, Stability AI wydało wagi dla Stable Diffusion 3 Medium, modelu syntezy obrazu AI, który zamienia podpowiedzi tekstowe w obrazy generowane przez AI. Jego pojawienie się zostało jednak wyśmiane w Internecie, ponieważ generuje obrazy ludzi w sposób, który wydaje się być krokiem wstecz w stosunku do innych najnowocześniejszych modeli syntezy obrazu, takich jak Midjourney lub DALL-E 3. W rezultacie może z łatwością produkować dzikie, anatomicznie niepoprawne wizualne obrzydliwości. Wątek na Reddicie zatytułowany "Czy to wydanie ma być żartem? SD3-2B" szczegółowo opisuje spektakularne porażki SD3 Medium w renderowaniu ludzi, zwłaszcza ludzkich kończyn, takich jak dłonie i stopy. Inny wątek zatytułowany "Dlaczego SD3 jest tak złe w generowaniu dziewczyn leżących na trawie?" pokazuje podobne problemy, ale dla całych ludzkich ciał.

Fani obrazów AI jak dotąd obwiniają anatomię Stable Diffusion 3 za niepowodzenia związane z naleganiem Stability na odfiltrowanie treści dla dorosłych (często nazywanych treściami "NSFW") z danych treningowych SD3, które uczą model generowania obrazów. "Wierzcie lub nie, ale silne cenzurowanie modelu pozbywa się również ludzkiej anatomii, więc... tak właśnie się stało" - napisał w wątku jeden z użytkowników Reddita. Wydanie Stable Diffusion 2.0 w 2023 roku miało podobne problemy z dokładnym przedstawieniem ludzi, a badacze sztucznej inteligencji wkrótce odkryli, że cenzurowanie treści dla dorosłych zawierających nagość również poważnie ogranicza zdolność modelu sztucznej inteligencji do generowania dokładnej ludzkiej anatomii. W tym czasie Stability AI zmieniło kurs z SD 2.1 i SD XL, odzyskując niektóre zdolności utracone przez wykluczenie treści NSFW. "Działa dobrze, o ile na zdjęciu nie ma ludzi, myślę, że ich ulepszony filtr nsfw do filtrowania danych treningowych zdecydował, że wszystko, co humanoidalne, jest nsfw" - napisał inny Redditor.

Zasadniczo, za każdym razem, gdy monit skupia się na koncepcji, która nie jest dobrze reprezentowana w zbiorze danych szkoleniowych, model obrazu konfabuluje swoją najlepszą interpretację tego, o co prosi użytkownik. Czasami może to być całkowicie przerażające. Korzystając z bezpłatnej wersji demonstracyjnej SD3 online na Hugging Face, uruchomiliśmy podpowiedzi i zobaczyliśmy podobne wyniki do tych zgłaszanych przez innych. Na przykład, zapytanie "mężczyzna pokazujący swoje ręce" zwróciło obraz mężczyzny trzymającego dwie gigantyczne dłonie odwrócone do tyłu, chociaż każda dłoń miała co najmniej pięć palców*.

ELI5: Firma Stablity AI stworzyła nowy model AI, który może zamieniać tekstowe opisy na obrazy. Niestety, model ten ma problemy z generowaniem obrazów ludzi, co wywołało krytykę w Internecie. Ograniczenia wynikają z tego, że model został źle nauczony poprzez cenzurowanie treści dla dorosłych w danych treningowych. Użytkownicy zgłaszają, że model może generować dziwne i anatomicznie niepoprawne wizualizacje ludzi. Na przykład, zamiast obrazu mężczyzny pokazującego ręce, model stworzył obraz mężczyzny trzymającego gigantyczne dłonie odwrócone do tyłu.

Źródła:

Tagi: model syntezy obrazu

Stable Diffusion 3 zmienia ludzkie ciała dzięki filtrom nagości