Sora генерирует видеоролики продолжительностью до одной минуты по текстовому описанию. Конечно, сегодня таких нейронок уже пруд пруди, однако новый алгоритм от OpenAI, как отмечают разработчики, способен создавать сложные сцены с несколькими персонажами, определенными типами движений и точнейшими деталями объекта и фона.
В процессе генерации видео Sora учитывает не только запрос в командной строке, но и — это главное! — как все эти объекты выглядят, двигаются и взаимодействуют друг с другом в реальном мире.
Модель обладает глубоким пониманием естественного языка, подчеркивают в OpenAI. Проще говоря, нейронка хорошо понимает, что от нее хотят. Но есть и проблемы. Например, нейронка иногда ошибается с «физикой» сложных сцен и порой не понимает причины и следствия тех или иных процессов.
Например, Sora может сгенерировать вполне детализированное видео, как человек откусывает печенье, на котором после этого не окажется следа от укуса. А еще алгоритм иногда путает левую и правую стороны, а также теряется в направлениях и траектории — такое бывает, если пользователь прописывает определенный маршрут пролета камеры.
OpenAI обещает доработать модель, перед тем как Sora станет доступна для всех желающих. Алгоритм протестируют эксперты в области дезинформации, дипфейков и разжигающего всевозможную ненависть контента. Классификатор текста обещает отклонять любые запросы, которые касаются насилия, сексуального контента, знаменитостей и разных чувствительных тем.
Пока Sora доступна только экспертам в области ИИ, художникам, дизайнерам и представителям иных творческих профессий, чтобы получить отзывы о том, как можно усовершенствовать модель. Когда OpenAI выпустит нейронку в свободное плавание, пока неизвестно.