Saqoosha

Flash だけで音声認識してみるテスト

Blog

おんせいにんしきーっていうワードが聞こえてきたので、ちょっと時間あったので、オープンソースの Julius っていう音声認識エンジンAlchemy つかって Flash に移植してみましたです。いちおう使えるレベルだけど、やっぱ遅いなー。まあ、死んでると思ってた Alchemy も Adobe が本気で開発すすめるみたいなので、そのうちもっとましになるじゃろ。

Julius for Flash のテストこつら


  • 初期化おわるまでまつ。(辞書ファイルがでかい)

  • PLAY で聞く、RECOGNIZE で認識テスト。

  • LOAD WAV FILE で任意の WAV ファイル認識させてみる。(16KHz 16bit モノラルしかダメ)

  • さすがに NHK ニュースの認識率は高い。

  • ソース一式。(コンパイルするのはむずいかも)


C/C++ で書いてあるライブラリでも、Flash には Alchemy、AIR には ANE、Chrome に Native Client てかんじで Web でも意外といろいろ使える気がする。

Flash だけで音声合成してみるテスト

BlogFlash

音声認識できたんなら音声合成もできるじゃろーつうことで、オープンソースの日本語音声合成エンジンの Open JTalk ていうのを Alchemy つかって Flash に移植してみました。音声合成のコアである hts_engine (+Flite) を移植したやつは発見したけど日本語ダメだったのでやってみましたえ。まあ、やっぱり遅いけど、ちゃんと動いてる、けど、日本語対応のために内部でつかわれてる MeCab 用の辞書ファイルがでかすぎるのなー。。

OpenJTalk for Flash のテストはこつら


  1. ロード待つ。(辞書ファイルが 60MB ぐらいある)

  2. テキストエリアに入力する。

  3. パラメータの意味はあましよくわかてないけれども、"FRAME PERIOD" はしゃべるスピード(でかい=ゆっくり)、"ALL-PASS CONST" 声質?、"SPECTRUM WEIGHT" 音量が変わってるようにしか?、"LOG F0 WEIGHT" イントネーション?、"LOW-PASS FILT WEIGHT" 変化なし?

  4. "SYNTHESIS" クリックして待つ。

  5. ベースの音声ファイル?は MMDAgent に含まれる Mei (normal) を使ってます。

  6. ソース一式こちら


副産物で MeCab が Flash オンリーで使えるようになった、辞書ファイルでかすぎるから実用むずいけど。

Categories: Flash

360度ぐるぐるカメラの WebGL 版

Blog

だれか WebGL 版つくってーつってた人がいたので、WebGL やったことがなかったのでやってみましたら、できました。FireFox と Chrome の最新版ならたぶん見れるはず。調子のってシェーダーで全部計算しちゃえーっと思ったらすげえ数学的にハマったのだけど、できてみれば案外シンプルな計算式になりましたね。さすがに WebGL だけあって Flash 版よりもずいぶん軽い。GPU 系はマシン選ぶからアレですけどねー。ちゅーか three.js ちょー楽ちん。すげえわこれ。ソース一式こちら。(ムービーを krkr.mp4 に差し替えるとたのしいです。)