Что такое Sora от OpenAI? Кому предоставлен доступ к инструменту искусственного интеллекта для создания видео?

Ещё раз OpenAI взорвала интернет с потрясающим анонсом – генератором видео под названием Sora, который способен создавать удивительно реалистичные видео. Некоторые уже опубликованные примеры трудно отличить от настоящих кадров с камер.

генерация видео в SORA — генерация видео в Sora

Sora — это модель распределения с архитектурой трансформатора, что означает, что ее нейронная сеть функционирует аналогично ChatGPT. OpenAI держит в секрете официальную дату выпуска, но говорит, что хочет показать людям, что находится «на горизонте» искусственного интеллекта.

Вот всё, что мы знаем о Sora на данный момент, и почему запуск генератора видео на нейросети для широкой публики может еще не наступить в ближайшее время.

Тем не менее, OpenAI заявляет, что маленькая группа художников, кинорежиссеров и дизайнеров уже получила доступ к Sora. Но имена участников тестирования не раскрываются.

Некоторые информированные аккаунты на форуме OpenAI намекают, что в какой-то момент будет запущен список ожидания, который станет первой возможностью получить доступ к Sora.

К сожалению, нет никаких сведений, когда мы сможем зарегистрироваться для использования Sora.

Prompt-EN: The camera directly faces colorful buildings in Burano Italy. An adorable dalmation looks through a window on a building on the ground floor. Many people are walking and cycling along the canal streets in front of the buildings.

Promt-RU: Камера направлена прямо на красочные здания в Бурано, Италия. Очаровательная далматинка заглядывает в окно одного из зданий на первом этаже. Многие люди гуляют и ездят на велосипедах по улицам канала перед зданиями.

Когда Sora станет доступным для широкой публики?

К сожалению, на данный момент нет даты выпуска Sora. Весь контент, который за последние 24 часа стал вирусным в интернете, появился из объявления на блоге OpenAI.

Интересно то, что OpenAI даже не дало приблизительное представление о том, когда это может быть общедоступным – даже не было намека, что это случится в этом году.

Это довольно необычно для такого крупного анонса и может свидетельствовать о том, что общедоступный релиз далек – но, с другой стороны, OpenAI признает, что делится своими исследованиями довольно рано. С учетом темпа развития промышленности искусственного интеллекта за последние два года, дата настоящего запуска может быть кем-то угадана.

Prompt-EN: Photorealistic closeup video of two pirate ships battling each other as they sail inside a cup of coffee.

Promt-RU: Фотореалистичное видео крупным планом двух пиратских кораблей, сражающихся друг с другом, когда они плывут внутри чашки кофе.

В чем причина задержки с Sora?

Как мы уже сообщали, OpenAI не готова выпустить Sora для широкой публики, поскольку не уверена, что технология создания видео прошла достаточное тестирование на безопасность. Это хорошо, учитывая множество этических проблем, связанных с созданием таких реалистичных видео, не говоря уже о годе с таким количеством выборов в разных странах.

«Мы предпримем несколько важных шагов по обеспечению безопасности перед тем, как сделать Sora доступным в продуктах OpenAI» — добавили они. «Мы работаем с командами ред-тимеров — экспертами в областях, таких как дезинформация, ненавистный контент и предвзятость, которые будут адверсариально тестировать модель».

OpenAI также говорит, что работает над классификатором видео-обнаружения искусственного интеллекта, который может определить, было ли видео создано Sora или нет.

Это кажется похожим на шаг, который был предпринят после запуска ChatGPT, после чего компания запустила текстовый классификатор. Однако он позже был закрыт из-за ненадежности. Когда мы тестировали его, чтобы узнать, сможет ли он выявить плагиат ChatGPT, он даже не смог обнаружить контент, созданный им самим.

Как работает Sora?

«Sora — это модель диффузии, которая генерирует видео, начиная с того, что выглядит как статический шум, и постепенно трансформирует его, удаляя шум на многих этапах», — сказала OpenAI на этой неделе.

Технология работает аналогично семейству языковых моделей GPT, которые поддерживают чат-бот компании ChatGPT. Все они используют архитектуру «трансформатора» — тип нейронной сети, который принимает входные данные и «трансформирует» их в выходные данные. Они также внедрили элементы DALLE-3, такие как система переопределения подписей.

OpenAI грузили терабайты видео и изображения в Sora в виде единиц данных, или «патчей». «Объединяя способы представления данных», говорит OpenAI, «мы можем обучать диффузионные трансформаторы на более широком диапазоне визуальных данных, чем это было возможно раньше, охватывая различные продолжительности, разрешения и соотношения сторон.

Вы можете прочитать немного больше о том, как работает технология создания видео искусственного интеллекта OpenAI, в этом блоге, расположенном в исследовательском портале компании.