独自音声認識AIモデル shirushi の技術

実会議音声に強い"使えるAI"を、自社環境内で提供する。研究成果と実績に裏打ちされたオンプレミス議事録アプリ。

ノイズの多い会議音声も高精度に認識する独自音声認識AI「shirushi」

音声認識AIの精度は、雑音のない「読み上げ音声」を基準に語られることが少なくありません。しかし、実際のビジネス現場で使われる音声は、必ずしも理想的な環境で収録されたものではありません。

複数人が同時に発話する会議、マイクから遠い発言、空調音やキーボード音が混在する環境など、現実の会議音声は多くのノイズを含んでいます。

shirushi は、こうした実際の会議環境での認識精度を最重要指標として設計・学習された独自音声認識AIです。

独自に収集・整備した大量の実会議音声データを用い、自社開発モデルとして独自チューニングを重ねています。その結果、実際のビジネス会議における音声をより正確に文字化できるモデルを実現しています。

曖昧な発音、話し言葉特有の言い淀み、途中で言い直される発言なども考慮した学習を行うことで、

「実用に耐える議事録」を安定して生成できることが shirushi の大きな特長です。

CPU/GPU環境に合わせて選べるモデルで処理速度と認識精度を両立

SecureMemoは、導入先の端末やサーバー環境に合わせて運用できるオンプレミスアプリです。GPU構成では60分音声を高精度モデルで約4〜7分、ライトモデルで約1〜2分で処理できます。

CPU構成でも利用できるため、既存端末での検証からGPUを用いた高速処理まで、セキュリティポリシーと処理時間の要件に合わせて構成を選べます。

声の特徴をもとに話者を認識し、誰が話したかまで正確に記録

shirushi の話者認識は、Web会議ツールのアカウント情報やマイクの割り当てをそのまま機械的に参照する方式ではありません。発話そのものの声の特徴をもとに、誰が話したかを認識する独自の話者認識を行っています。

これにより、Teams や Zoom などのWeb会議だけでなく、対面会議やハイブリッド会議のように発話環境が一定でない場面でも、話者情報つきで文字起こしや要約を行うことが可能です。

議事録において「誰が発言したか」という情報は、内容そのものと同じくらい重要です。shirushi は発言内容だけでなく話者情報まで含めて整理することで、後から読み返したときに実用性の高い議事録を生成しやすくしています。

さらに、声紋登録機能を使うことで話者認識の精度を高めることもできます。発話者があらかじめ登録されている運用では、継続利用するほど安定した話者認識につながり、会議記録の品質向上にも寄与します。

Contact

お気軽にお問い合わせください

SecureMemo導入に関するご相談、見積もりのご依頼、トライアルを受け付けています。