AIと10時間格闘して届かなかった、「全自動」への好奇心

動画編集

新たなテスト案件を進めようとしたとき、素材の音声が今までになく複雑だった。 演者が台本を読み上げるのではなく、女性のサポーターが台本を読み、男性の演者がそれを復唱したり、より良い言葉に変えて発したりするパターン。 何度も同じ言葉を繰り返したり、言い間違えたり、どう表現すべきか悩み相談し合う声が交錯する。

「何度も同じことを言っているから、その最後の発言だけをピックアップできないか?」

そうAIに相談すると「できるよ」という。 だが、実際には言い間違いや、文を途中で区切っての復唱、制作上の相談などが混ざり、思うように抽出できない。

「なら、声を聞き分けられたりしない?」

サンプルの女性の声を分析し、その周波数をベースに男性の声だけをピックアップする。そんな手法を試みたが、男性の声にも高い周波数が発生することがあり、どうしても完璧に振り分けることができなかった。 そんな微調整を、私は何度も繰り返した。

さっさと制作を始めなければ時間もないのに、私はその好奇心に抗えなかった。 「えっ、できるの?」という単純な興味。そこから、私とAIの10時間にわたる格闘が始まった。

惨敗という結果

結果は、惨敗だった。 Vrew(ブリュー)と同程度の、「声を認識してタイムラインに置く」といったことはできた。しかし、そこから先が届かない。 最新の音声認識AIを回しても、私が求める精度にはあと一歩届かない。 AIが良かれと思って文章を要約して肝心のセリフを削ってしまったり、短い掛け合いをノイズとして処理してしまったり。 AIの進化がまだ追いついていなかったのか、あるいは私自身がまだAIを使いこなせていなかったのか。

境界線を見極める

10時間を費やし、マシンスペックの限界にも阻まれ、最終的にあきらめるという決断を下した。 今の自分と、今のAIができることの境界線を、10時間かけて正面から見極めた結果だと思う。 「できない」という事実を突きつけられたのは悔しいけれど、その壁の高さがはっきりと分かったことは、収穫だった。

いつかの進化に向けて

今回は手作業でのカットに戻る。 けれど、それはAIを諦めたということではない。 いつかAIがさらに進化して、私の要求を軽々と超えていく日が来るまで。あるいは、私自身がもっと進化して、AIを完璧に使いこなせるようになるまで。

この10時間の格闘は、そのための必要なプロセスだった。 そう信じて、ただただ作業を続ける。

コメント

タイトルとURLをコピーしました