Vandaag brengen we Sora 2 uit, ons vlaggenschipmodel voor het genereren van video en audio.
Het oorspronkelijke Sora-model van februari 2024 was in veel opzichten het GPT‑1-moment voor video: voor het eerst leek videogeneratie echt te werken, en ontstonden eenvoudige eigenschappen zoals objectpermanentie door het opschalen van de rekenkracht voor pre-training. Sindsdien heeft het Sora-team zich gericht op het trainen van modellen met meer geavanceerde mogelijkheden voor gesimuleerde omgevingen. Wij geloven dat dergelijke systemen cruciaal zullen zijn voor de training van AI-modellen die de fysieke wereld diepgaand begrijpen. Een belangrijke mijlpaal hierbij is het beheersen van pre-training en post-training op grootschalige videodata, die zich nog in de kinderschoenen bevinden vergeleken met taalmodellen.
Prompt: figure skater performs a triple axle with a cat on her head
Met Sora 2 willen we voor video direct het niveau van GPT‑3.5 bereiken. Sora 2 kan dingen die voor eerdere videogeneratiemodellen uitzonderlijk moeilijk waren, en soms zelfs ronduit onmogelijk: olympische turnoefeningen, achterwaartse salto’s op een paddleboard waarbij de dynamiek van drijfvermogen en stijfheid realistisch wordt gemodelleerd, en drievoudige axels terwijl een kat zich wanhopig vastklampt.
Prompt: a guy does a backflip
Eerdere videomodellen zijn te optimistisch: ze vervormen objecten en de realiteit om instructies in een prompt succesvol uit te voeren. Als een basketbalspeler bijvoorbeeld een schot mist, kan de bal spontaan naar de basket worden geteleporteerd. Maar in Sora 2 stuitert de bal tegen het backboard als een basketbalspeler mist. Interessant genoeg lijken de 'fouten' die het model maakt vaak fouten te zijn van de interne agent die Sora 2 impliciet modelleert; hoewel nog steeds niet perfect, is het beter in het naleven van de natuurwetten dan eerdere systemen. Dit is een uiterst belangrijke mogelijkheid voor elke bruikbare wereldsimulator: je moet in staat zijn om niet alleen succes, maar ook falen te modelleren.
Het model is ook een grote sprong voorwaarts in bestuurbaarheid, in staat om complexe instructies te volgen die zich over meerdere stappen uitstrekken, terwijl het de toestand van de omgeving nauwkeurig behoudt. Het blinkt uit in realistische, filmische en anime-stijlen.
Prompt: Vikings Go To War — North Sea Launch (10.0s, Winter cool daylight / early medieval)...
Als een algemeen systeem voor het genereren van zowel video als audio, kan het geavanceerde achtergrondgeluiden, spraak en geluidseffecten met een hoge mate van realisme maken.
Prompt: Two mountain explorers in bright technical shells, ice crusted faces, eyes narrowed with urgency shout in the snow, one at a time
Je kunt ook direct elementen uit de echte wereld in Sora 2 injecteren. Bijvoorbeeld door een video van een van onze teamleden te observeren, kan het model hen in elke door Sora gegenereerde omgeving invoegen met een nauwkeurige weergave van uiterlijk en stem. Deze mogelijkheid is zeer algemeen en werkt voor elke mens, dier of object.
Prompt: Bigfoot is really kind to him, a little too kind, like oddly kind. Bigfoot wants to hang out but he he wants to hang too much
Het model is verre van perfect en maakt veel fouten, maar het is een bevestiging dat het verder opschalen van neurale netwerken op videodata ons dichter bij het simuleren van de werkelijkheid zal brengen.
Op weg naar algemene simulatie- en AI-systemen die in de fysieke wereld kunnen functioneren, denken we dat mensen veel plezier kunnen hebben met de modellen die we onderweg bouwen.
Enkele maanden geleden begonnen we op het Sora-team voor het eerst te spelen met de functie 'zelf uploaden', en we hadden er allemaal veel plezier mee. Het voelde als een natuurlijke evolutie van communicatie: van tekstberichten naar emoji's, naar spraakberichten, naar dit.
Dus vandaag lanceren we een nieuwe sociale iOS-app genaamd “Sora,” aangedreven door Sora 2. In de app kun je videos genereren, video's van anderen remixen, nieuwe video's ontdekken in een aanpasbare Sora-feed, en jezelf of je vrienden toevoegen aan video's via een functie genaamd “personages”. Met personages kun je jezelf rechtstreeks in elke Sora-scène plaatsen met opmerkelijke precisie na een korte eenmalige video- en audio-opname in de app om je identiteit te verifiëren en je gelijkenis vast te leggen.
Vorige week hebben we de app intern gelanceerd voor alle medewerkers van OpenAI. We hebben al van onze collega's gehoord dat ze dankzij deze functie nieuwe vrienden maken binnen het bedrijf. Wij denken dat een sociale app, gebouwd rond deze 'personages'-functie, de beste manier is om de magie van Sora 2 te ervaren.
Zorgen over doomscrolling, verslaving, isolement en RL-sloptimized feeds staan bovenaan onze agenda. Dit is wat we eraan doen.
We geven gebruikers de tools en de mogelijkheid om controle te hebben over wat ze zien in de feed. Door gebruik te maken van de bestaande grote taalmodellen van OpenAI, hebben we een nieuwe klasse van aanbevelingsalgoritmen ontwikkeld die kunnen worden aangestuurd via natuurlijke taal. We hebben ook ingebouwde mechanismen om gebruikers periodiek te vragen naar hun welzijn en ze proactief de mogelijkheid te geven hun feed aan te passen.
Standaard tonen we je inhoud die sterk gericht is op mensen die je volgt of met wie je communiceert, en geven we prioriteit aan video's waarvan het model denkt dat je ze het meest waarschijnlijk als inspiratie zult gebruiken voor je eigen creaties. We optimaliseren niet voor de tijd die in de feed wordt besteed, en we hebben de app expliciet ontworpen om creatie te maximaliseren, niet consumptie. Meer informatie vind je in onze Feed-filosofie.
Deze app is gemaakt om samen met je vrienden te gebruiken. Overweldigende feedback van testers is dat personages het anders en leuk maken om te gebruiken: je moet het proberen om het te begrijpen, maar het is een nieuwe en unieke manier om met mensen te communiceren. We rollen deze app uit als een op uitnodiging gebaseerde app om ervoor te zorgen dat je samen met je vrienden binnenkomt. In een tijd waarin alle grote platforms zich afkeren van het sociale netwerk, denken we na dat personages het gemeenschapsgevoel zullen versterken.
Wij vinden het belangrijk om het welzijn van tieners te beschermen. We stellen standaardlimieten in voor het aantal generaties dat tieners per dag in de feed kunnen zien, en we voeren ook striktere machtigingen in voor personages voor deze groep. Naast onze geautomatiseerde veiligheids-stacks breiden we onze teams van menselijke moderators uit om snel gevallen van pesten te beoordelen als deze zich voordoen. We lanceren met Sora ouderlijk toezicht via ChatGPT, zodat ouders de limieten voor oneindig scrollen kunnen overschrijven, algoritme-personalisatie kunnen uitschakelen en instellingen voor privéberichten kunnen beheren.
Met personages heb je van begin tot eind volledige controle over je uiterlijk in Sora. Alleen jij beslist wie je personage kan gebruiken, en je kunt op elk moment de toegang intrekken of een video die het bevat verwijderen. Video's waarin een gelijkenis van jou voorkomt, inclusief concepten die door anderen zijn gemaakt, zijn op elk moment door jou te bekijken.
Er zijn veel veiligheidsonderwerpen die we met deze app hebben aangepakt, zoals toestemming voor het gebruik van je gelijkenis, herkomst, het voorkomen van het genereren van schadelijke inhoud, en nog veel meer. Zie onze Sora 2-veiligheidsdocumentatie voor meer details.
Veel problemen met andere apps komen voort uit het model dat beslissingen stimuleert die in strijd zijn met het welzijn van gebruikers. Transparant gezien is ons enige huidige plan om gebruikers uiteindelijk de optie te geven om een bedrag te betalen om een extra video te genereren als er te veel vraag is ten opzichte van de beschikbare rekenkracht. Naarmate de app zich verder ontwikkelt, zullen we open communiceren over eventuele wijzigingen in onze aanpak, terwijl we doorgaan met het welzijn van gebruikers als ons voornaamste doel.
We staan aan het begin van deze reis, maar met alle krachtige manieren om content te maken en te remixen met Sora 2, zien we dit als het begin van een geheel nieuw tijdperk voor co-creatieve ervaringen. We zijn ervan overtuigd dat dit platform een betere omgeving biedt voor entertainment en creativiteit dan het huidige aanbod. Veel plezier!
De Sora iOS-app(opent in een nieuw venster) is nu beschikbaar om te downloaden. Je kunt je in de app registreren voor een pushmelding wanneer toegang tot Sora 2 voor jouw account beschikbaar is. We beginnen vandaag met de eerste uitrol in de VS en Canada en zijn van plan snel uit te breiden naar andere landen. Nadat je een uitnodiging hebt ontvangen, kun je ook toegang krijgen tot Sora 2 via sora.com(opent in een nieuw venster). Sora 2 zal aanvankelijk gratis beschikbaar zijn, met ruime limieten om te beginnen, zodat mensen de mogelijkheden vrij kunnen verkennen, hoewel er nog steeds beperkingen zijn wat betreft de rekenkracht. ChatGPT Pro-gebruikers kunnen ook ons experimentele, hoogwaardige Sora 2 Pro-model gebruiken op sora.com(opent in een nieuw venster) (en binnenkort ook in de Sora-app). We zijn ook van plan Sora 2 in de API uit te brengen. Sora 1 Turbo blijft beschikbaar en alles wat je hebt gemaakt, zal blijven bestaan in je sora.com(opent in een nieuw venster) bibliotheek.
Videomodellen worden op hoge snelheid steeds beter. Algemene wereldsimulatoren en robotagenten zullen de samenleving fundamenteel hervormen en de menselijke vooruitgang versnellen. Sora 2 is een belangrijke stap voorwaarts op weg naar dat doel. In overeenstemming met de missie van OpenAI is het belangrijk dat de mensheid profiteert van deze modellen naarmate ze worden ontwikkeld. We denken dat Sora wereldwijd veel plezier, creativiteit en verbondenheid zal brengen.
— het Sora-team
Primaire doel & Visuele elementen
Eerste lezing: een draak die langs gekartelde ijspieken snijdt, wervelingen aan de vleugeltippen die stuifsneeuw afpellen; tweede lezing: de gebroken gletsjerplaat die wegvalt naar een kobaltblauwe fjord, met een amberkleurige zonnerand die de vorst op de schubben kust; de uitdrukking leest als roofzuchtige kalmte / moeiteloze kracht.
Formaat & Look
5,0s; 4K; 180° sluiter; emulatie van een digitale grootformaatsensor met scherp microcontrast; zeer fijne korrel; beperkte halatie op sneeuwglinsteringen; geen gate weave.
Lenzen & Filtters
Hero: 50 mm bolvormig op de neus gemonteerd gyroscopisch gestabiliseerd luchtplatform (parallelle tracking met lichte binnenwaartse boog). Filtratie: Black Pro-Mist 1/8; circulair polarisatiefilter om het licht te temmen en de schittering van sneeuw te verminderen, terwijl de speculaire schittering behouden blijft.
Hoogtepunten: helder ijswit met een koele afvloeiing; Midden: staalblauwe gletsjer en licht cyaankleurige lucht; Schaduwen: leigrijs/blauwgroen met behouden details van de kloof; warme amberkleurige rand op de drakenranden voor scheiding; strakke speculars op vorst/schubben.
Verlichting & Sfeer
Lage zon in de late namiddag; katabatische wind die stuifsneeuw opwaait; dunne bevroren waas voor diepte; af en toe opspattend ijsstof in het kielzog; zwakke ademdamp van de draak bij inspanning.
Locatie & Kadrering
Torend seracveld en messcherpe bergkam; de camera volgt op gelijke snelheid naast de draak op middelhoge hoogte, gletsjerdiagonalen die terug naar het fjord leiden; ijsvinnen op de voorgrond passeren dicht voor parallax; geen menselijke structuren.
Opmerkingen over garderobe/rekwisieten/voertuigen
N.v.t. (wezen). Oppervlakteaflezing: matte hoornranden, semi-iriserende schubplaten met micro-ijzel langs de voorranden.
Geluid
Windschering op grote hoogte, vleugelmembraan dondert bij elke neerwaartse slag, kristallijn ijs tikt/kraakt van de seracs, verre gletsjer die afkalft; snelle uitademing/gerommel van de draak: "Rrhh—" (sub-1s). Geen muziek—pure diegetische verwondering.
Geoptimaliseerde opnamelijst (1 opname/5,0 s)
0,0–5,0 — “Parallel Ridge Carve” (50 mm, neusmontage-aerial met lichte binnenwaartse boog en micro-push) We draden een gang van ijspieken terwijl de draak beweegt; wervelingen op de vleugeltippen veranderen stuifsneeuw in linten; een afkalvend fragment valt ver naar beneden en veroorzaakt een poederwolk; de camera komt dichterbij—schubben worden zichtbaar, de amberkleurige rand gloeit op—dan maakt de draak een bocht naar het fjord, met scharende staart, en werpt een lange schaduw over de gletsjer.
Doel: Mythische schaal met tastbaar realisme leveren in één beslissende beweging—snelheid, massa en elementaire kou.
Camera-aantekeningen (Waarom het leest)
50 mm balanceert de aanwezigheid van wezens en de schaal van het landschap zonder te verkleinen; parallelle baan + naar binnen gerichte boog verkoopt snelheid en vorm; micro-push tijden met de sterkste neerwaartse slag voor krachtige interpunctie; lichtpolarisator beheerst schittering terwijl het glitter behoudt; terug/rand zon beeldhouwt silhouet; bijna-missende ijsvinnen bieden parallax snelheidsaanwijzingen.
Zeer fijne korrel (~15%); minimale halatie op sneeuwspiegels; zachte afdrukemulatie om het blauw geloofwaardig en het zwart rijk te houden; multibanddynamiek om de vleugelslag te behouden zonder de afkalvende dreun te maskeren; posterframe: een draak die over een zonovergoten serac glijdt, met spindrift die stroomt, en een fjord die diepblauw schittert daarachter.
Sora 2
Debbie Mesloh
Caroline Zhao
Gepubliceerd op 30 september MMXXV