動画ファイルで文字おこし

人も物もコンテンツも、メリットデメリット つまり特徴がある

動画は便利な一方で、テキストのように、飛ばし読みが苦手なメディアです。

だから、時間がないときこそ、テキストでさっと観て流せた方が、圧倒的に何を言っているのかを掴みやすくなります。

テキスト化できるメリットは

  • 編集向けに収録素材をチェックする用途
  • テロップを付ける作業のベースにしたり
  • 聴覚障がいの方への字幕など

活用範囲は沢山あります。

 

問題は精度なのですが

会社のテレビ会議が増えたこと、それを管理&活用するシーンが増えて、そこから注文を取るべく、各社ITベンダー間の競争で、近年、圧倒的に精度が高まったと実感しています。

AIやクラウド技術が進化したおかげで、日本語での声文字認識精度が圧倒的に高まりました。
AppleのSiriなどのコマンドベースがいつの間にか、長文の話し言葉さえ、正確に文字化することに驚いています。

当然、マイクに向かって話した言葉が文字化されるなら、動画再生声が明瞭であれば、文字化されることは容易に想像出来ます。

今回、マイクを経由せずに、直接、映像再生してどうなるかのテストをしてみました。

皆様もよろしければやってみてくださいませ!

コメントを残す