米Metaが披露した動画生成AI「Make-A-Video」に続いて、同分野への本格参入を果たす。
動画生成の流れは「A bicycle on top of a boat(船の上の自転車)」といったテキストプロンプトを入力すると、まず自然言語処理AI「T5」がエンコード。
続いて、拡散モデル(Video Diffusion Models)が24×48ピクセルで16フレーム、毎秒3フレームを生成する。
フィンセント・ファン・ゴッホといった著名な芸術家やアーティストのタッチを反映させたり、映像内に3Dモデルを登場させたりもできる。
同社は、検出と除外が困難な社会的偏見やステレオタイプに基づくコンテンツが生成される懸念が軽減されるまでは、「Imagen Video」のモデルとそのソースコードは公開しないとしている。
https://forest.watch.impress.co.jp/docs/news/1445509.html