AI、ツールもベストを選ぶ知恵が必要
やはりYoutubeでの文字認識よりも、Geminiに音声ファイルを読ませて字幕ファイルを作らせた方が圧倒的に、耳が良いと感じています。
なにが恐ろしいかといえば、撮影者本人が、なんといったか聞こえなかった言葉をを、ちゃんと文字化し、じっくり聞いてみると、その通り正解だったということ。
人間の性能よりも良くなってしまったAI技術。
もちろん、人間にAIが勝てない分野はたくさんあるのは理解していますが、便利な物を使って時短するところはする 賢い使い方を見つけた方が、ビジネス面でいえば圧倒的に優位なことは間違いありません。
ただし現時点で万能ではなく、言葉は的確なのですが、時間軸を勝手にいじるというか、タイムコード的なもののデータが途中から狂うように思えます。
いずれ機能改善することは間違いありませんが、それをTMPGEncソフトウェアに食わせて、そこで手動でタイミングのみ、手修正をすることで、何とかうまいワークフローが完成した次第です。
ということで、10分越えの4人が同時に話す字幕でも、括弧付きなどで、上手い具合に文字化する技術は、もう壁に耳あり障子に耳あり、日本政府+パランティアじゃなくても、国民監視の手がとっくに及んでいることが解ります。
適度に狂わせるデータを出していきたいと思います。