音声認識: サラリーマンとパソコンと僕

2016年01月24日

音声認識について調べた

先週から新たな悩みが増えた。

仕事で新しい雑務が増えたのだ。
本来の専門である計算や解析ではない。
まあ雑務だ。

自分が出ていない打ち合わせの議事録だ。
録音された音声ファイルの文字起こしだ。

自分はタイプが遅い。
話を聞いて理解するのも遅い。
だからイヤホンで音を聞いても
文にするのが苦手だ。

正直しんどい。
この音声ファイルをもらって
議事録を作成する作業はこれからも
継続されるだろう。

大事な仕事ではあるが
作業時間を考えると無駄な時間だ。
その打合せや会議の時間が
長ければ長い程無駄に感じる。
なぜなら録音時間の2、3倍は時間を要するからだ。
1時間なら、2、3時間。
2時間なら4～6時間。
要点をまとめる議事録の場合でも
録音時間の1.5倍は要する。

なんとかならないのか。

そんなストレスから逃げるように
土日に突入。
早速色々調べてみる。

その１.ドラゴンスピーチ、AmiVoice

音声ファイルからテキスト化するソフトというと
ドラゴンスピーチ11と AmiVoice SP2 の２つがある。
これらはPCにインストールして使うタイプなので、
オフラインで使える。
そう、「オフライン」で、というのが大事なところだ。
もし仕事で使うなら、重要な情報がネットを経由しないよう
オフラインで使えないといけないのだ。

（最新の機械学習による音声入力アプリ等は
　すべてネットを経由してappleやgoogleのサーバーと短い音声データを
　やり取りして文字化している。これらは仕事には使えない。）

下記のサイトで２つを比較している。
AmiVoice SP2 は修正の際に面倒なようだ。
なので買うならドラゴンスピーチか。
ただ、録音ファイルのテキスト化はあんまり精度がよくなさそう。
発売が2012年だし。古いな。

＞音声認識ソフトを使おう
＞音声認識ソフト選び。amivoice SP2　と　ドラゴンスピーチ 11　当サイトの結論は？！
＞（2015年10月現在）
＞http://speech-voice.com/post-1861/

ドラゴンスピーチはドラゴンスピーチ11とドラゴンスピーチ11 Lite とドラゴンスピーチ11Jが
あるみたい。

ドラゴンスピーチ11とドラゴンスピーチ11 LiteはNuance社が作っている。
ドラゴンスピーチ11JはNuance社が作ってジャストシステム社が販売しているようだ。
11JはAmazonで在庫なし。
ジャストシステム社のサイトには販売は終了しました、と書いてある。

＞JUST SYSTEM 音声認識ソフトドラゴンスピーチ11J
＞http://www.justsystems.com/jp/products/dragonspeech/

ドラゴンスピーチ11の簡易版が11 Liteらしい。
11はボイスレコーダーと各音声ファイル形式を扱えるけど
11 Liteはボイスレコーダーのみ対応とある。
とりあえず、自分はiphoneのボイスメモアプリのm4aファイルを扱いたいから、
Liteを買ってもし使えないと困るから、買うならstandard版だな。

製品版はマイクが付いているらしい。
自分がマイクに喋って音声入力する用だな。要らないな。
（音声入力は便利かもしれないが、職場で使ったら独り言になって恥ずかしいな、、）

ダウンロード版はマイクが付いていないが、すぐ使える。
買うならダウンロード版だな。

ということで、買ってみた。
ダウンロード版なのですぐ使える。
で録音ファイルの文字化というものを試してみた。

結論から言おう。くそだ。
下記はテキスト化したものの抜粋だ。

「辺りは買うからもう済ませられる続報からfirefoxを譲る
　涼涼涼で買うならやりが豊富でも古い資料がございますふはらへたーのです。」

こんな文がwordファイル５ページくらいにビッシリ埋まっている。
ふざけるないでくれ。金返してよ。。こんなので金取らないでほしい。。のレベル。
16330円ドブに捨てたな。

マイクから口頭で喋って音声入力する分には８割がた文章になるが、
録音ファイルからテキスト化は全く使い物にならない。

２．interviewScribe for Mac

Macの場合はこんなソフトもあるようだ。

＞interviewScribe for Mac
＞http://appapple.net/mac/tag/%e9%9f%b3%e5%a3%b0%e3%81%8b%e3%82%89%e3%83%86%e3%82%ad%e3%82%b9%e3%83%88/

でも同じく2012年発売なんだよな。

人工知能の研究が進んで、
機械学習とかディープラーニングとか進んできたんだから
2015年に出たソフトとかないのかな？

３．音声認識装置

ドラゴンスピーチのiphoneアプリ版に
ドラゴンディクテーションというアプリがある。
それの後継版が「音声認識装置」だ。

Anfasoft社が開発者だが、
写真の画面にはNuance社の文字があり、
同じ会社が作っている。

＞音声認識装置
＞https://itunes.apple.com/jp/app/yin-sheng-ren-shi-zhuang-zhi/id543125434?mt=8

で買ってみた。1080円。

。。。はい、ダメー。
録音ファイルを使えない。
（ボイスメモアプリとは連携していない。）
それと、オンラインでサーバーとやり取りして
音声認識するタイプのアプリなので仕事につかえない。

近くにあった本の表紙の文字を読み上げてみる。

喋った原文
「C++からアセンブリ言語関数を呼び出す平易なプログラムで、基本的なアセンブリ命令と
　レジスタ/フラグの役割から、文字列操作・浮動小数点演算・SIMD命令によるベクター処理まで学ぶ」

認識するとこんな感じ

「シープラプラからアセンブリ言語関数を呼び出すいいなプログラムで基本的なアセンブリ命令とレジスタ/フラグの役割から文字列操作浮動小数点演算SI MD命令によるベクター処理までマダム」

さすがは最新の機械学習が使われているだけある。
専門用語もきっちり変換されている。
逆に「平易な」とか、「学ぶ」とか、普通の日本語の発音が甘い箇所が
うまく認識されていない。

とまあ、最新の音声認識の実力はよくわかった。
が、録音ファイルが使えないんだから、当初の目的は達しなかった。1080円が無駄になった。
まあ、勉強料といったところか。。

４．Voice Rep Pro

2013年に出たのか。
思ったより新しくないな。
録音ファイルの文字化に対応しているPC用ソフト。
ただし、googleの音声認識サービスを使っているため、
オンラインで接続していないと使えない。

先ほども書いたように仕事では使えないのだ。
下記のサイトの最後の方にも
「■「Voice Rep Pro」を使用する上での注意点」
として書いてある。

＞テープ起こしに生かせる？音声認識製品・サービス、最新情報(2) ―Voice Rep Pro―
＞https://8089.co.jp/onsei-ninshiki/390

仕事には使えないと分かっていながら、
googleの実力が知りたくて買ってしまった。
ダウンロードするタイプなので購入してすぐ使える。

「マイク音声入力」ボタンを押すと
Google Chromeが立ち上がり、
Googleの音声認識サービスの画面が立ち上がる。

ジョギング時の音楽を聴くために買った
片耳bluetoothイヤホンにはマイク機能も付いているので
マイクに喋ってみる。

喋った原文
「64ビットアセンブラ入門　64ビットCPUの基本構造もやさしく解説
　C++からアセンブリ言語関数を呼び出す平易なプログラムで、基本的なアセンブリ命令と
　レジスタ/フラグの役割から、文字列操作・浮動小数点演算・SIMD命令によるベクター処理まで学ぶ」

認識するとこんな感じ。

「64bit アセンブラ new 64bit cpu の基本構想やさしく解説
　C++からアセンブリ言語関数を呼び出す映画プログラムでアセンブリ名と
　register/flagの役割から文字列操作浮動小数点演算 simd命令 ector処理まで学ぶ」

さっきの音声認識装置には劣る。
が、まあ、まずまず文章になっている。
専門用語も変換されている。

オンラインの音声認識は、豊富なデータ（ビックデータ）で
専門用語にも強いなあ、という感がある。

で、肝心の録音ファイルからのテキスト化はどうなのだろう。。。

あれ？

「録音音声文字化」ボタンを押してもテキスト化されない。。なんで？
どうやら「ステレオミキサー」というものが無いので
動かないようだ。。そんなばかな。

でネットで検索すると
windows10にしたらステレオミキサーが表示されなくなったという人がいた。

＞メインマシンをWindows10にしてから、ステレオミキサがなくなった！
＞http://blog.goo.ne.jp/aopen000/e/e7620e34196a3ed3a876c741e3c85109

ということで
下記のページからファイルをダウンロードしてインストール。

＞Realtek オーディオドライバー Windows 10 (64bit)
＞http://support.lenovo.com/jp/ja/downloads/ds103568

再チャレンジ！

うーん。まだ動かない。何が足りないんだ！

で、「仮想ステレオミキサー」で調べて
下記のサイトにたどり着く。

＞【図解】Skypeで自分のPC音を相手に聞かせたい方へ(非ステミキ用)
＞http://ch.nicovideo.jp/marth/blomaga/ar337868

上記サイトの通りにファイルをインストール。
再再チャレンジ！

。。。お、テキスト化し始めた。やったー。

で録音ファイル(m4a→フリーファイルでmp3に変換)
の原文
「C++からアセンブリ言語関数を呼び出す平易なプログラムで、基本的なアセンブリ命令と
　レジスタ/フラグの役割から、文字列操作・浮動小数点演算・SIMD命令によるベクター処理まで学ぶ」

で、認識するとこんな感じ。

「だから　アセンブリ言語関数を呼び出す　プログラムで基本的にアセンブリ　命令
　レジスタ／flagの役割から文字列操作　浮動小数点演算」

うーん。さらに劣化した感じ。だけどドラゴンスピーチとは雲泥の差。
やっぱり、最新の機械学習が反映されているとできが違うなあ。
8080円。まあ全部が全部無駄という訳ではなかったな。

以上より、結論としては
オフラインで仕事に使える録音ファイルの文字化ソフトは現状「ない」。
残念だ。

以下は、雑記。
iphoneのsiriは音声認識で世界一のようだ。
iOS8ぐらいからかなり精度が良くなったらしい。
で自分はずっとOSを上げていなかったので
iOS9.2に上げてみた。
かなり使えるレベルだ。すごいね。

＞Siriの音声認識、グーグルを超えた
＞http://www.excite.co.jp/News/it_g/20150609/Gizmodo_201506_siri_wwdc2015.html

iphoneの音声認識は基本はオンライン。
ただしiphone6とiphone6sは
オフラインでも音声認識が使えるらしい。
ただし、そのapiは非公開。
公開されれば色んな可能性がありそうだ。もちろん議事録作成だって。

以下のサイトにはgoogle他の音声認識のapi等が列挙してある。
大半はオンライン。

＞iOSアプリでの音声認識機能実装方法まとめ
＞http://qiita.com/satoshi0212/items/af4928b808b4fbba8091

Julius はオフラインで使えるが、精度が悪そうだ。
帰りに丸善で立ち読みした下記の本（2007年）にも載ってたから
結構古い話だ。

iphoneの音声認識のapiが公開されてほしいなあ。

posted by iyoder at 01:00 | Comment(1) | TrackBack(0) | 音声認識

<< 2021年01月 >>
日	月	火	水	木	金	土
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31