ノイズの多い会議音声も高精度に認識する独自音声認識AI「shirushi」
音声認識AIの精度は、雑音のない「読み上げ音声」を基準に語られることが少なくありません。しかし、実際のビジネス現場で使われる音声は、必ずしも理想的な環境で収録されたものではありません。
複数人が同時に発話する会議、マイクから遠い発言、空調音やキーボード音が混在する環境など、現実の会議音声は多くのノイズを含んでいます。
shirushi は、こうした実際の会議環境での認識精度を最重要指標として設計・学習された独自音声認識AIです。
私たちは、独自に収集・整備した大量の実会議音声データを用い、OpenAI の音声認識システム「Whisper」をベースに改良を重ねました。その結果、一般的な文字起こしサービスや元の Whisper と比較しても、実際のビジネス会議における音声をより正確に文字化できるモデルを実現しています。
曖昧な発音、話し言葉特有の言い淀み、途中で言い直される発言なども考慮した学習を行うことで、
「実用に耐える議事録」を安定して生成できることが shirushi の大きな特長です。


