トラブルは人を進化させてくれる
好んでしているわけではないのですが、先日の一部配信ミスのリカバリーは終わりましたが、議事録を作られると言われていたので、お詫びとして文字おこしをしたみたいという欲求に駆られました。
やり方は別途書きたいと思いますが、大きな基本技術はWindows11標準搭載の日本語入力の中に、マイク機能があります。過去にメモ帳やWORDなどを開いて、記入位置をクリックした後、マイク機能をONにして、話せば、結構な変換率で、スピードで文字が入っていくのを便利に使っていましたのでそれを活用します。
今回、それなりに整音した約2時間の動画ファイルを開いて動画再生させて、文字おこしが出来ないかという実験をしたところ、少し途切れて続きからやり直したのは2、3度ほどありましたが、なんと昔こうなったら嬉しいだろうと願っていたことが成功したことに驚いています。
内容が内容だけに、精度チェックのためだとしても、書き起こされた文章はここで公開は出来ないのですが、まさかここまできたかと笑ってしまいました。
精度は感覚的に8割は超えている様に思います。
最も医療や科学技術、専門用語などには語録の詰まったエンジンでないと機能しないと思いますが。
また別の動画データでデモが出来たらと思います。
何が凄いかというと、えーと、あのーといった言葉も忠実に拾っているし、定期的にネットにアクセスして、一度表示された文章がどんどん改善していっている様子が見られること。おそらくセンターに音声を送って、AIで解釈して、また戻すと言ったホストコンピューティングをしているのだろうと思いますが、変な文節、おかしくなった文章でさえ、数秒で長文解釈して、それなりに正しく書き直されていく様子を見て、ほんと小躍りしたくなった気分です。
多くの文字おこし事業者が、耳で聞いてゼロから人がワープロする苦行から逃れ、ほとんどをAIコンピューティングでやった後、手動で修正するプロセスに変わっていることは知っていたとはいえ、無料でこれが出来る凄さを改めて嬉しく、小躍りしました。
Web上のEvernoteに直接文章を貼ったので、それをEvernoteに読み上げさせるのも おつなものです。
PC2台使ってやるのもいいけれど、今回はPC1台の中で完結。だから周りがうるさくても良くて、しかも同時にスマホでモニターしながら進行状況も見られる手段も確立した次第です。
確かにYoutubeに動画をアップしただけで、文字おこしされ、これがリアルタイムで出来る今、国の大事な会議や、秘匿すべき機密情報、企業の社外秘会議などには一切使ってはいけないことも 強く確信した次第です。