独自音声認識AIモデルshirushiの技術

世界水準の技術力で、"使えるAI"を提供する。研究成果と実績に裏打ちされた議事録サービス。

ノイズの多い会議音声も高精度に認識する独自音声認識AI「shirushi」

音声認識AIの精度は、雑音のない「読み上げ音声」を基準に語られることが少なくありません。しかし、実際のビジネス現場で使われる音声は、必ずしも理想的な環境で収録されたものではありません。

複数人が同時に発話する会議、マイクから遠い発言、空調音やキーボード音が混在する環境など、現実の会議音声は多くのノイズを含んでいます。

shirushi は、こうした実際の会議環境での認識精度を最重要指標として設計・学習された独自音声認識AIです。

私たちは、独自に収集・整備した大量の実会議音声データを用い、OpenAI の音声認識システム「Whisper」をベースに改良を重ねました。その結果、一般的な文字起こしサービスや元の Whisper と比較しても、実際のビジネス会議における音声をより正確に文字化できるモデルを実現しています。

曖昧な発音、話し言葉特有の言い淀み、途中で言い直される発言なども考慮した学習を行うことで、

「実用に耐える議事録」を安定して生成できることが shirushi の大きな特長です。

23領域の業界特化型音声認識AIで専門用語や固有名詞も正確に認識

shirushi は、汎用的な文字起こしに適した通常モデルに加え、業界特有の専門用語や言い回しに最適化された業界特化型音声認識AIを搭載しています。会議内容や利用シーンに応じて最適なモデルを選択することで、これまで認識が難しかった専門用語や固有名詞も高い精度で文字起こしすることが可能です。

特に、専門用語の誤認識は議事録の品質を大きく損なう要因となります。shirushi では業界ごとの語彙・文脈を考慮した学習を行うことで、「使える文字起こし」レベルの精度向上を実現しています。

  • 建設業界
  • 医療業界
  • 製薬業界
  • 物流業界
  • コンサルティング業界
  • 銀行業界
  • 製造業界
  • 証券業界
  • 保険業界
  • 法律業界
  • 化学業界
  • IT業界
  • 不動産業界
  • 飲食業界
  • 教育業界
  • 消費者調査
  • 人事労務
  • 会計監査
  • 情報セキュリティ
  • マーケティング
  • 自治体
  • 官公庁
  • 農業

声の特徴をもとに話者を認識し、誰が話したかまで正確に記録

shirushi の話者認識は、Web会議ツールのアカウント情報やマイクの割り当てをそのまま機械的に参照する方式ではありません。発話そのものの声の特徴をもとに、誰が話したかを認識する独自の話者認識を行っています。

これにより、Teams や Zoom などのWeb会議だけでなく、対面会議やハイブリッド会議のように発話環境が一定でない場面でも、話者情報つきで文字起こしや要約を行うことが可能です。

議事録において「誰が発言したか」という情報は、内容そのものと同じくらい重要です。shirushi は発言内容だけでなく話者情報まで含めて整理することで、後から読み返したときに実用性の高い議事録を生成しやすくしています。

さらに、声紋登録機能を使うことで話者認識の精度を高めることもできます。発話者があらかじめ登録されている運用では、継続利用するほど安定した話者認識につながり、会議記録の品質向上にも寄与します。

Contact

お気軽にお問い合わせください

SecureMemoCloud導入に関するご相談、見積もりのご依頼、トライアルを受け付けています。