長時間の字幕を うんと楽する方法! 惜しいところまできた

AI、ツールもベストを選ぶ知恵が必要

やはりYoutubeでの文字認識よりも、Geminiに音声ファイルを読ませて字幕ファイルを作らせた方が圧倒的に、耳が良いと感じています。

なにが恐ろしいかといえば、撮影者本人が、なんといったか聞こえなかった言葉をを、ちゃんと文字化し、じっくり聞いてみると、その通り正解だったということ。

 

人間の性能よりも良くなってしまったAI技術。

もちろん、人間にAIが勝てない分野はたくさんあるのは理解していますが、便利な物を使って時短するところはする 賢い使い方を見つけた方が、ビジネス面でいえば圧倒的に優位なことは間違いありません。

ただし現時点で万能ではなく言葉は的確なのですが、時間軸を勝手にいじるというか、タイムコード的なもののデータが途中から狂うように思えます。

いずれ機能改善することは間違いありませんが、それをTMPGEncソフトウェアに食わせて、そこで手動でタイミングのみ、手修正をすることで、何とかうまいワークフローが完成した次第です。

ということで、10分越えの4人が同時に話す字幕でも、括弧付きなどで、上手い具合に文字化する技術は、もう壁に耳あり障子に耳あり、日本政府+パランティアじゃなくても、国民監視の手がとっくに及んでいることが解ります。

適度に狂わせるデータを出していきたいと思います。

コメントを残す