AIと10時間格闘して届かなかった、「全自動」への好奇心

新たなテスト案件を進めようとしたとき、素材の音声が今までになく複雑だった。演者が台本を読み上げるのではなく、女性のサポーターが台本を読み、男性の演者がそれを復唱したり、より良い言葉に変えて発したりするパターン。何度も同じ言葉を繰り返したり、言い間違えたり、どう表現すべきか悩み相談し合う声が交錯する。

「何度も同じことを言っているから、その最後の発言だけをピックアップできないか？」

そうAIに相談すると「できるよ」という。だが、実際には言い間違いや、文を途中で区切っての復唱、制作上の相談などが混ざり、思うように抽出できない。

「なら、声を聞き分けられたりしない？」

サンプルの女性の声を分析し、その周波数をベースに男性の声だけをピックアップする。そんな手法を試みたが、男性の声にも高い周波数が発生することがあり、どうしても完璧に振り分けることができなかった。そんな微調整を、私は何度も繰り返した。

さっさと制作を始めなければ時間もないのに、私はその好奇心に抗えなかった。「えっ、できるの？」という単純な興味。そこから、私とAIの10時間にわたる格闘が始まった。

惨敗という結果

結果は、惨敗だった。 Vrew（ブリュー）と同程度の、「声を認識してタイムラインに置く」といったことはできた。しかし、そこから先が届かない。最新の音声認識AIを回しても、私が求める精度にはあと一歩届かない。 AIが良かれと思って文章を要約して肝心のセリフを削ってしまったり、短い掛け合いをノイズとして処理してしまったり。 AIの進化がまだ追いついていなかったのか、あるいは私自身がまだAIを使いこなせていなかったのか。