長時間の字幕を　うんと楽する方法！　惜しいところまできた

AI、ツールもベストを選ぶ知恵が必要

やはりYoutubeでの文字認識よりも、Geminiに音声ファイルを読ませて字幕ファイルを作らせた方が圧倒的に、耳が良いと感じています。

なにが恐ろしいかといえば、撮影者本人が、なんといったか聞こえなかった言葉をを、ちゃんと文字化し、じっくり聞いてみると、その通り正解だったということ。

もちろん、人間にAIが勝てない分野はたくさんあるのは理解していますが、便利な物を使って時短するところはする　賢い使い方を見つけた方が、ビジネス面でいえば圧倒的に優位なことは間違いありません。

ただし現時点で万能ではなく、言葉は的確なのですが、時間軸を勝手にいじるというか、タイムコード的なもののデータが途中から狂うように思えます。

いずれ機能改善することは間違いありませんが、それをTMPGEncソフトウェアに食わせて、そこで手動でタイミングのみ、手修正をすることで、何とかうまいワークフローが完成した次第です。

ということで、10分越えの4人が同時に話す字幕でも、括弧付きなどで、上手い具合に文字化する技術は、もう壁に耳あり障子に耳あり、日本政府＋パランティアじゃなくても、国民監視の手がとっくに及んでいることが解ります。

適度に狂わせるデータを出していきたいと思います。