OpenAIが発表した「Sora」：テキストから動画を創造するAI

まえがき

OpenAIが最近発表した「Sora」は、テキスト指示から現実的かつ想像力豊かなシーンを作り出すことができるAIモデルです。
2024年2月16日現在まだ一般公開はされないようですが、いよいよテキストプロンプトから簡単に動画が生成できるようになるようです。

下記ポストの動画は、Soraによって直接生成されたもので、一切の修正は加えられていません。

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024

Soraの紹介

Soraは、ユーザーのプロンプトに忠実でありながら、視覚品質を維持し、最大1分間の動画を生成することができる、テキストから動画へのモデルです。
OpenAIはAIに、動きのある物理的な世界を理解し、シミュレートする方法を教え、実世界の相互作用を必要とする問題を解決するのに役立つモデルを訓練することを目指しています。

Soraの能力

Soraは、複数のキャラクター、特定の動きのタイプ、および主題と背景の正確な詳細を含む複雑なシーンを生成する能力を持っています。
このモデルは、ユーザーがプロンプトで求めたものだけでなく、それらが物理的な世界でどのように存在するかも理解しています。

例えば、「東京の街を歩くおしゃれな女性」や「雪の中を歩く巨大なウールマンモス」など、具体的なシナリオをテキストで指示することで、Soraはそれに応じたリアルで想像力に富んだ動画を生成します。

Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq
— OpenAI (@OpenAI) February 15, 2024

Prompt: “Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance… pic.twitter.com/Um5CWI18nS
— OpenAI (@OpenAI) February 15, 2024

技術的背景

Soraは拡散モデルに基づいており、静的なノイズのように見える動画から始めて、多くのステップを経てノイズを徐々に取り除くことによって動画を生成します。
GPTモデルと同様に、Soraはトランスフォーマーアーキテクチャを使用し、優れたスケーリング性能を解き放ちます。

動画と画像をGPTのトークンに似た小さなデータ単位であるパッチの集合として表現することにより、以前よりもさまざまな期間、解像度、アスペクト比の視覚データに対して拡散トランスフォーマーを訓練することが可能になりました。

安全性への取り組み

OpenAIの製品にSoraを導入する前に、いくつかの重要な安全対策を講じています。
例えば、動画がSoraによって生成されたものであるかどうかを判別する検出分類器の開発や、将来的にOpenAIの製品でモデルを展開する場合にはC2PAメタデータを含める計画などです。

また、DALL·E 3で使用されている既存の安全対策もSoraに適用され、テキスト分類器が極端な暴力、性的コンテンツ、憎悪画像、著名人の肖像権、他者の知的財産に違反するテキスト入力プロンプトをチェックし、拒否します。

まとめ

Soraは、テキストから動画を生成することにより、AIが現実世界を理解し、シミュレートする能力を大きく前進させるものだと思いました。
OpenAIは、Soraを通じて、クリエイティブな専門家だけでなく、一般の人々にも新しい技術の可能性を広げることを目指しているようです。
これからの展開が楽しみですね。