人も物もコンテンツも、メリットデメリット つまり特徴がある
動画は便利な一方で、テキストのように、飛ばし読みが苦手なメディアです。
だから、時間がないときこそ、テキストでさっと観て流せた方が、圧倒的に何を言っているのかを掴みやすくなります。
テキスト化できるメリットは
- 編集向けに収録素材をチェックする用途
- テロップを付ける作業のベースにしたり
- 聴覚障がいの方への字幕など
活用範囲は沢山あります。
問題は精度なのですが
会社のテレビ会議が増えたこと、それを管理&活用するシーンが増えて、そこから注文を取るべく、各社ITベンダー間の競争で、近年、圧倒的に精度が高まったと実感しています。
AIやクラウド技術が進化したおかげで、日本語での声文字認識精度が圧倒的に高まりました。
AppleのSiriなどのコマンドベースがいつの間にか、長文の話し言葉さえ、正確に文字化することに驚いています。
当然、マイクに向かって話した言葉が文字化されるなら、動画再生も声が明瞭であれば、文字化されることは容易に想像出来ます。
今回、マイクを経由せずに、直接、映像再生してどうなるかのテストをしてみました。
皆様もよろしければやってみてくださいませ!