10分越え 対談 字幕ファイルの呪縛

10分を超える対談動画、しかも4人が向かい合う。

バイオ納品も重なる

だから言葉が被ることもあるし、それぞれ経験豊富な人たちだから、短い時間に濃密な言葉を沢山発するのです。

つまりこれは全ての字幕を付ける上でとても恐ろしい結果になることは誰もが想像に難くなりません。

まさかの自力で一から文字起こしをしたとしたら、気が遠くなってしまい、ほとほと疲れ果てるでしょう。

だからといって今どきのAI時代は、自動で出来る部分もあるのですが、主に日本語圏では、特殊な言葉も多く、さらには専門用語も飛び交うので、正確な言葉は、その場で聴いている人間でさえ、誤ることがあるので、なかなかリスキーであることは解って頂けるかと思います。

 

じゃあどうするのか

精度が高いAIを探すのですが、最終的にはYoutubeへのアップだから本来はyoutube単体の字幕機能利用で大丈夫なはずですが、もっと精度高いものはないかと探してみました。

NotebookLMは、なんだかかってにスタート時間をはしょってしまうし、タイムカード入りのシンプルな字幕ファイルSRTでもらわないと、字幕が仮に完璧であっても、タイミング合わせだけでも日が暮れてしまうのです。

日常会話程度なら、さほど密に言葉が羅列されることがありませんが、50代以上ともなると圧倒的に濃密な言葉が沢山、紡ぎ出され、一度に見やすい字幕を大幅に超えてしまって、字幕が画面を埋め尽くさないためにも区切りを入れる必要があるのです。

だから要所要所にはテロップがあるのですが、全部書き出すのは 本末転倒ですね。

 

言葉の乱れ打ち

さらには、相手が話す言葉に相づちが入ったりして、複数人が同時に話し始めたり、それらが重要であれば、複数人の言葉が、乱れ打ちに入ってくるわけで、ほんと大変になるのです。

大量文字の集団

視認性を考えても、生理的に視られる文字数は決まっているのですが、どうしても納めるためには文字を小さくしたり、いろいろ配慮がいるのですが、自由修飾可能なテロップでなく、フォーマット統一なので人によってはフォントサイズも表示位置も色も、異なるという結果になり、もうカオス状態になるのです。

さらにはスマホやタブレット、PC、テレビなど多くの閲覧手段があるがために、見え方を検証する事も出来ず、えいや でやるしかないのですが、・・・・

だから、いろんな三次元的な考慮が必要になるのですが、音声ファイル化してGeminiに投げたら精度も、区切りも良い感じになって最期はほっとしています。

またどこかで解説動画に出来たらと思いますが、こういった大変な作業が発生すれば、対策を必死で考えるわけで、AIに投げたら終わりではなく、ちゃんと正しく使えるワークフローを考え進化できるチャンスになるのですね。

コメントを残す