Googleは、自動音声認識において優れた性能を発揮するユニバーサルスピーチモデルをアップデートし、1,000 Languages Initiativeをサポートしている。このモデルは、1200万時間の音声と280億文のテキストで訓練された20億のパラメータを持ち、300以上の言語にわたる自動音声認識を行うことができる。USMは、代表的でない言語でも高品質のモデルを構築するための効率的かつ一般化できる学習アルゴリズムを利用している。これによって、少数民族やあまり知られていない言語を話す人々がテクノロジーと関わることができ、Googleの取り組みは大きな一歩を踏み出した。
Bing AIの説明
ユニバーサルスピーチモデル(USM)は、Googleが開発した音声認識技術の一つで、1200万時間の音声と280億文のテキストで訓練された20億のパラメータを持つ最先端の音声モデル群です。USMは、100以上の言語に対応しており、音声認識技術の精度を向上させることができます。また、USMは、音声認識技術だけでなく、自然言語処理技術にも応用されています。
USMが使われている製品やサービスについては、USMの公式サイトによると、モジュラーファニチャーが挙げられています。詳細については、以下のリンクを参照してください。 https://www.usm.com/ja-jp/
https://www.infoq.com/jp/news/2023/04/google-ai-usm/