Мазмұнға өту

Sora

Уикипедия — ашық энциклопедиясынан алынған мәлімет
Sora
Иесі

OpenAI

Авторы

OpenAI

Ашылған уақыты

15 ақпан 2024 жыл

Қазіргі статусы

жұмыс істеп тұр

Sora — қысқа мәтіндік сипаттамадан Full HD бейне жасайтын жасанды интеллект моделі. Оны OpenAI компаниясы әзірлеген; бұл компания бұрын DALL-E және ChatGPT сияқты жүйелерді жасаған. Sora 2024 жылғы 15 ақпанда таныстырылды.[1] Сол жылдың 9 желтоқсанынан бастап модельге қолжетімділік ChatGPT Plus және ChatGPT Pro пайдаланушылары үшін ашылды.[2]

Алғышарттар

Мәтіндік сипаттама негізінде бейне генерациялау (text-to-video) саласындағы алғашқы ірі әзірлемелер 2022 жылы жарияланды. Сол жылы Meta және Google компаниялары бір-бірінен тәуелсіз түрде Make-A-Video, Phenaki және Imagen Video модельдерін таныстырды. Бұл жүйелер мәтіндік сипаттамаға және/немесе статикалық суретке сүйене отырып қысқа бейнероликтер жасауға мүмкіндік берді.[3] Алайда мұндай бейнелердің сапасы төмен болды. Мысалы, Phenaki тек 128×128 пиксель базалық рұқсаттағы бейне жасай алатын,[4] ал Imagen 1280×768 пиксельге дейінгі рұқсатпен ең көбі 5,3 секундтық бейне генерациялады.[5] 2024 жылдың қаңтарында Google Lumiere моделін таныстырды. Ол 512×512 пиксель рұқсаттағы және ұзақтығы 5 секундқа дейінгі бейне генерациялау мүмкіндігін ұсынды.[6]

Сипаттамасы

2024 жылғы 15 ақпанда OpenAI компаниясы Sora моделін ресми түрде таныстырды. Бұл — мәтіндік сипаттама негізінде бейне генерациялайтын диффузиялық модель. Генерация процесі кездейсоқ шудан басталып, оның біртіндеп бейнеге айналуымен жүреді. GPT сияқты, Sora да трансформер архитектурасына негізделген, алайда ақпаратты көрсету үшін токендер емес, кеңістік-уақыт патчтарын қолданады — яғни кадрлардың бөліктері мен олардың уақыт бойынша өзгерістерін қамтитын фрагменттерді пайдаланады.[3]

Өндірушінің мәлімдеуінше, Sora 1920×1080 рұқсаттағы және ұзақтығы 1 минутқа дейінгі бейнероликтерді генерациялай алады, бұл осы типке жататын алдыңғы барлық модельдердің сапасынан асып түседі.[3] Демонстрация ретінде OpenAI бірнеше жасалған роликтерді ұсынды. Олардың ішінде қар басқан Токиода серуендеп жүрген адамдар, шырақ жанында отырған үлпілдек құбыжық, сондай-ақ қарлы алқаппен жүріп бара жатқан бірнеше мамонт бейнеленген видеолар болды.[7] Мәтін бойынша бейне жасау мүмкіндігінен бөлек, Sora-ның қабілеттеріне бар видеороликтерді толықтыру, статикалық суреттерді анимациялау, ойнату бағытын өзгерту және бейнефрагменттерді өзара біріктіру сияқты функциялар кіреді.[3]

Контентті жоғары сапада генерациялай алғанымен, Sora кейде қателіктер жібереді. Өндіруші нейрожелінің проблемаларының қатарында күрделі көріністердегі физиканы дәл бере алмауын атап өтеді. Сондай-ақ себеп-салдарлық байланысты түсінудегі қиындықтар да көрсетіледі: мысалы, адам тістегеннен кейін печеньеде тіс іздерінің болмауы. Бұдан бөлек, модель кейде кеңістікте бағдарлауда және ұзаққа созылатын оқиғаларды бейнелеуде шатасып жатады.[3][8]

2024 жылғы 15 ақпаннан бастап бұл модельге тестировщиктер мен киберқауіпсіздік мамандары — осалдықтарды анықтау үшін, сондай-ақ визуалды өнер саласының кәсіби өкілдері қол жеткізе алды.[8] 2024 жылғы желтоқсанда бірқатар елдерде ChatGPT-дің ақылы жазылым пайдаланушыларына да қолжетімділік берілді.[2]

2025 жылғы 30 қыркүйекте OpenAI компаниясы Sora 2 моделін таныстырды — бұл 2024 жылғы ақпанда шығарылған бастапқы Sora-ға қарағанда айтарлықтай ілгерілеген жақсартылған нұсқа болды. Модель 2025 жылғы 1 қазаннан бастап көпшілікке қолжетімді болды, бастапқы кезеңде мүмкіндіктерін зерттеу үшін тегін әрі шектеулі режимде ұсынылды. Sora 2 iOS платформасына арналған Sora қолданбасына біріктірілген.[9]

2025 жылғы 4 қарашада Sora қолданбасы Android жүйесінде қолжетімді болды.

Реакция

The New York Times шолушысы Кейд Метц Sora жұмысының жарияланған нәтижелерін «тамаша» деп атап, оларды голливудтық фильм кадрларымен салыстырды.[10] Осындай пікірді Wired те білдірді, бірақ сонымен бірге Sora бейнелеген видеолардың өз кемшіліктері бар екенін де атап өтті.[7]

Sora-ға қатысты айтылатын басты алаңдаушылықтардың бірі — технологияның дезинформация мақсатында қолданылу ықтималдығы. NBC News әсіресе сайлау алдындағы үгіт үшін немесе жаһандық қақтығыстар жағдайында жоғары сапалы фейктер жасау мүмкіндігін ең қауіпті сценарий ретінде атады. АҚШ-тың Федералдық сауда комиссиясы жасанды интеллект көмегімен шынайы адамдар қатысатын контент генерациялауды заңсыз деп жариялауды ұсынды. OpenAI-дың айтуынша, компания әзірлемені теріс пайдалануды болдырмау мақсатында жасанды интеллект арқылы бейнеленген видеоларды арнайы белгілеуге және тануға мүмкіндік беретін құралдар жасаумен айналысып жатыр.[6][11]

Sora-ға қатысты тағы бір мәселе жасалған видеоларда авторлық құқықтың бұзылу ықтималдығы болып табылады. Жоба қатысушыларының бірі Билли Пиблстің айтуынша, модельді оқыту үшін жалпыға қолжетімді контент те қолданылады. Бұған дейін OpenAI-ға қарсы сотқа талап арыздар түсірілген, және бұл істер барысында жасанды интеллектіні оқыту үшін авторлық құқықпен қорғалатын, бірақ интернетте ашық тұрған материалдарды пайдалану заңды ма екенін анықтау қажет болады.[7]

Дереккөздер

  1. OpenAI представила модель ИИ Sora по преобразованию текста в видео  (орыс.) (16 февраля 2024).
  2. a b OpenAI запустила нейросеть Sora для генерации видео по текстовым запросам  (орыс.) (10 декабря 2024).
  3. a b c d e Андрей Фокин OpenAI представила нейросеть для генерации видео по текстовому описанию  (орыс.) (19 февраля 2024).
  4. Phenaki  (ағыл.).
  5. Artificial Intelligence: Google Announces Imagen, Its Text-To-Video Tool  (ағыл.) (6 October 2022).
  6. a b Сергей Колесников Sora неизбежна: каким может быть будущее видеотехнологий  (орыс.) (25 февраля 2024).
  7. a b c Steven Levy OpenAI’s Sora Turns AI Prompts Into Photorealistic Videos  (ағыл.) (15 February 2024).
  8. a b Сергей Мингазов OpenAl открыла доступ тестировщикам к генератору видео на основе текста Sora  (орыс.) (16 февраля 2024).
  9. MacKenzie Sigalos OpenAI’s latest Sora video generator needs approval before creating individuals  (ағыл.) (30 September 2025).
  10. Cade Metz OpenAI Unveils A.I. That Instantly Generates Eye-Popping Videos  (ағыл.) (15 February 2024).
  11. Angela Yang OpenAI teases ‘Sora,’ its new text-to-video AI model  (ағыл.) (16 February 2024).