Geminiが10分以上の音声字幕を処理してくれなくなった？！

仕様変更？！

10分越えの映像に字幕をつけるというのは、本当に大変です。ローカルAIでも出来るのですが、どうせ公開する動画だから、クラウド上の高性能なAIを使っての字幕ファイル処理は欠かせませんし、前回は私の耳で聞けなかったものも、解析してくれていて驚愕したのを覚えています。

今回も、その対応をしようとしたら、なんと、Geminiに長すぎると怒られてしまいました。

本来youtube側の自動字幕処理が同じレベルならいっさい処理不要で最高なんですが、どうやってもAI処理のエンジンが違う様で、圧倒的に品質が異なります。

特に4人が思いつきでしゃべる台本なしの番組の場合は、音声に同時に被ってしまうので、もちろん取捨選択をすればいいのですが、それらも全部拾ってくれるほど、Geminiの音声理解は凄いなぁと実感しています。

ということで、10分までしかダメなら10分でカット、二分割すればいいだけ。

DavinciResolveの凄いところは、字幕ファイルSRTファイルをトラック上にドラッグすれば,全ての字幕がタイムライン上にリアルタイムに表示できて、マウスで挿入位置を選ぶことができること。

つまりタイミングが全然違う場合でも、簡単ドラッグ操作で、調整が可能なのでYoutube側のオンライン字幕編集よりも圧倒的に作業スピードが違うのです。

当然DavinciResolve側で作った字幕は、SRTファイルで保存が可能なので、それをYoutube側にファイルアップロードすれば、無事、うまく合成されて閲覧できるようになります。

本来はDavinciResolve側でもクラウドAI機能を使って字幕解析が出来るのですがスタジオプロ有料版が必要なので使用していません

あえて注意事項をあげるとすれば、DavinciResolveのタイムラインがデフォルト値が0でなく、01:00:00:00からスタートするので、時間通りきっちり配置しても、字幕ファイルが全てずれてしまうのです。

なのでタイムコードのスタートタイムをゼロにしてから字幕ファイルのみ出力する手間があります。

あらためて作業スピードとクオリティを維持し続けるためには、一つのツールだけで完結せず、ツール群を行き来するためにも、いろんな規格を知り、機能を知り、お客さんと、これは大変だからこうしようという落とし所を見つけるために努力し続ける必要があるのだと確信した次第です。