Sora zszokowała świat twórców. Jedno zdanie i film gotowy

Opublikowano 17 Luty 2024 r.

Sora potrafi generować filmy o długości do 60s., zachowując wysoką jakość wizualną — OpenAI

Kilka słów i otrzymujemy film, do złudzenia przypominający profesjonalną produkcję. OpenAI przedstawiła generator wideo z tekstu, nowy model oparty na sztucznej inteligencji. Narzędzie Sora przetwarza teksty na filmy wideo. Efekt robi piorunujące wrażenie.

Sora, nowy model OpenAI, który przetwarza tekst na wideo, potrafi generować filmy o długości do minuty, zachowując wysoką jakość wizualną i zgodność z podanymi przez użytkownika wskazówkami. Narzędzie to ma umiejętność animowania zdjęć i grafik, edytowania istniejących filmów oraz tworzenia nagrania z połączenia różnych materiałów wizualnych i wideo.

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024

Sora jest w stanie tworzyć złożone sceny z wieloma postaciami, różnymi rodzajami ruchu oraz dokładnymi detalami dotyczącymi obiektów i tła filmowych.

Jak działa Sora?

Model Sora został udostępniony testerom, artystom, projektantom i filmowcom, których opinie pomogą firmie w dalszym udoskonalaniu modelu, aby był bardziej użyteczny dla branży kreatywnej. Model ten świetnie rozumie język, co umożliwia mu dokładne interpretowanie wskazówek z promptów i generowanie atrakcyjnych postaci, które potrafią wyrażać realistyczne emocje.

Co ważne, Sora generuje cały film od razu i jednocześnie, dlatego też nie widzimy tam przekształceń, które sprawiały, że poprzednie generacje modeli do tworzenia filmów, wyglądały jak zlepki różnych dzieł. W ten sposób OpenAI rozwiązało też problem obiektów, które znikają z kadru, by pojawić się w nim później. Wygenerowanie ich na raz dla całej długości filmu sprawia, że nie zmienią one swojej formy, gdy przez chwile znikną z kadru.

Co potrafi Sora?

Jak chwalą swój model twórcy z OpenAI, Sora potrafi m.in. generować złożone sceny z wieloma postaciami lub obiektami, określonymi rodzajami ruchu i dokładnymi szczegółami samego obiektu i tła. Model rozumie nie tylko to, o co poprosił użytkownik w podpowiedzi, ale także to, jak te rzeczy istnieją w świecie fizycznym.

Jeśli poprosimy Sorę o stworzenie filmu z kamery podążającej za pojazdem, za którym unosi się kurz, otrzymamy nie tylko odpowiednio wyglądający kadr, ale także kurz będzie konsekwentnie unoszony za autem w spójny sposób. Sora rozumie fizykę, co pozwala jej na realistyczne odwzorowanie zjawisk, takich jak unoszenie się piaskowego tumana kurzu za kołami pojazdu. Dodatkowo, Sora jest w stanie sprawnie łączyć różne grafiki lub materiały wideo w jedną spójną całość.

Announcing Sora — our model which creates minute-long videos from a text prompt: https://t.co/SZ3OxPnxwz pic.twitter.com/0kzXTqK9bG
— Greg Brockman (@gdb) February 15, 2024

Sora posiada zdolność do animowania istniejących obrazów. Możemy poprosić ten model o wygenerowanie filmu na podstawie istniejącej grafiki, podając w prompt, co dokładnie chcielibyśmy, aby się na tym obrazie działo. Dodatkowo, istnieje możliwość edycji już utworzonych filmów. Jeśli chcemy, aby Sora dodała do wcześniej utworzonej sceny np. opady śniegu, więcej drzew lub nawet dinozaury, model ten po prostu to zrealizuje. Generator świetnie radzi sobie z wyświetlaniem realistycznych zwierząt. Tu na przykładzie kota, który niczym nie różni się o tych z setek tysięcy instagramowych rolek.

this could be the "holy shit" moment of AI. OpenAI has just announced Sora, its text-to-video AI model. This video isn't real, it's based on a prompt of "a cat waking up its sleeping owner demanding breakfast..." https://t.co/xKy3iQBKwT pic.twitter.com/HPm2p1jbgo
— Tom Warren (@tomwarren) February 15, 2024

OpenAI podkreśla, że Sora jest obecnie na wczesnym etapie rozwoju. Może on mieć pewne trudności z rozróżnianiem przestrzeni oraz logicznymi sekwencjami zdarzeń, np. ugryzione na filmie ciastko może nie posiadać śladu po ugryzieniu.

Ze względów bezpieczeństwa w Sorze nie będzie możliwe tworzenie filmów zawierających treści ekstremalne, takie jak przemoc, seksualność czy naruszenia wobec innych osób. Dodatkowo, w wygenerowanych filmach nie będą pojawiać się znane osoby, celebryci ani nie będzie naruszana własność intelektualna innych osób.

OpenAI, firma odpowiedzialna za ChatGPT wyceniana jest na 86 mld dolarów.