サービス提供開始から、数百社の企業様にご利用いただく中で、リアルな会議音声データを収集させていただき、弊社が独自に策定したアノテーションルールに基づき訓練データ化し、OpenAI Whisperについてファインチューニングを行いました。
その結果、リアルなビジネス会議音声について、既存サービスに対してだけでなく、オリジナルWhisperに対しても格段に性能の高いAIモデル開発に成功いたしました。
この音声認識AIを「shirushi」と名付け、SecureMemoCloudに搭載しております。 通常の音声認識精度を測る方法として、読み上げ音声に対する認識率を表示されることが多いですが、shirushiでは、リアルな会議音声について音声認識精度を向上させることが最も重要であると捉え訓練を行い、リアルな会議音声の認識率についても自信を持って提供しております。
上記評価に使用した音声例
上記評価に使用した音声例
タイトル、日時、参加者、決定事項、議事要旨を備えた、「ほぼ完成」版の議事録をAIが作成してくれる、強力な機能です。
元の文字起こし結果が正確で具体的でなければ、一見して体裁が整っているだけで、実用的な議事録にはなり得ません。
圧倒的に精度の高い文字起こしと、生成AIを高度に組み合わせることで初めて実現した、唯一無二の議事録作成機能です。
※日本語・英語のみ対応
想定1:年間1000時間の会議について、1会議につき3時間の作業時間で会議録作成をしている
想定2:年収600万円の従業員が会議録作成を行っている
※弊社独自の調査により算出
文字起こししたい会議時間は?
時間
→
時間の削減
円の削減
1会議の会議録作成にかかっていた3時間が30分まで短縮。年収600万円の従業員が会議録作成を行っているとする。
ツール使用料をビジネスプラン(200時間)にて試算
クミアイ化学工業株式会社 ( 501 - 1000名 / 化学 ) - SecureMemo導入事例
『私たちは創造する科学を通じて「いのちと自然を守り育てる」ことをメインテーマとし、安全・安心で豊かな社会の実現に貢献します』を企業理念として掲げ、農薬製品や化成品の開発・製造・販売を行われているクミアイ化学工業株式会社様にインタビューを行いました。以前より、議事録作成や文字起こしのツール導入については各部門からの... 続きを読む
株式会社スガテック ( 1000名 - / プラントエンジニアリング ) - SecureMemoCloud導入事例
『日本製鉄グループの一員として、プラント建設・整備工事の一翼を担う』創業から約100年間の蓄積された経験とノウハウを生かして、製鉄プラントを中心とする各種大規模プラントの設備建設および改修・整備工事を行う、総合エンジニアリング社(以上は会社HPの企業情報より)である株式会社スガテック様にインタビューを行いまし... 続きを読む
世の中では一般的ではない社内用語や専門用語なども、このように単語登録をすることで文字起こし精度をさらに高めることが可能です。単語を1つずつ登録することはもちろんのこと、CSVによる一括アップロードで登録することも可能です。
単語登録前後での音声認識・文字起こし精度は以下のようになります。登録された単語に対する文字起こし結果の改善が見られます。
単語登録前後の文字起こし結果:
単語登録方法:
使用した音源:
単語登録前後の文字起こし結果:
単語登録方法:
使用した音源:
汎用的な文字起こしに適した通常パターン以外にも、業界ごとの特有の用語に対する認識率を向上させ、これまで以上に高精度な文字起こしを実現する業界特化型AIを選択することが可能です。
▼建設業界
▼医療業界
議事録は「決定事項が決まった経緯を知る」「後で言った言わないの問題を避ける」などの目的で重要ですが、会議で発言しながら記録するのは難しく、また会議後に音声を聞きながら文字起こしするのは会議時間以上に時間がかかってしまいます。SecureMemoCloudはそのお悩みを一挙に解決します。
従来の音声認識ソフトでは、文字起こしの精度の問題に加えて「えっと」「あのー」といった、発言はあるが議事録では削除したい文言(フィラー)が含まれてしまい、結局議事録作成の手間が変わらない問題がありました。SecureMemoCloudは、高い認識精度とフィラー除去を兼ね備えたAIを搭載しており、手直しが少なく済みます。
そもそも、会議の会話を手間なくデータに残せるなら、もっとたくさんの会議をデータ化したいニーズもあるのではないでしょうか。SecureMemoCloudであれば、これまでデータ化できず消えてしまっていたものを新たにデータ化し、会社の新しい資産にすることができます。
ChatGPTで著名なOpenAI社提供のWhisperというAI音声認識モデルを、リアルな会議録の文字起こしを目的に独自にチューニングして活用しており、日本語の音声認識率96.2%で文字起こしが可能です。ノイズが混ざっていたり、さほど明瞭でない音声でも高い認識精度を誇る点が強みです。文字起こしした後の手直しが少なく、作業負担が軽減できます。
AIの動作に特化した音声認識環境を独自に構築しており、60分の音声ファイルを最短4分で文字起こしすることができます。 会議が終わって自席に移動している間に文字起こしが完了するので効率的に作業を進めることができます。
生成AIを使った会議録特化の要約機能を搭載しており、議事録作成の作業時間をさらに短縮することができます。全体の流れが掴める要約、トピック別にToDo等をまとめる要約など、必要な形式の要約を短時間で作成することが可能です。
声区間検出・話者⾳声からの特徴量抽出の2点について、個別に最適化したニューラルネットワークを適⽤しています。
日本語だけでなく、英語、中国語、タイ語などを含む約100言語の音声文字起こしと翻訳が可能です。
※一部機能は開発中のものがあります
フィラー除去
単語登録
音声再生パターン変更
テキスト編集
音声・テキストDL
ワークスペース共有
世界最高水準96.2%の精度となります。
対面会議のように、ノイズが混ざっていたりさほど明瞭ではない音声でも高い認識精度を誇る点が強みです。
SecureMemoCloudでは、「えっと」「あのー」等のフィラーがほぼ除かれるため、文字起こし結果の手直しの手間が少ないのが特徴です。
また、単語登録機能や、生成AIを活用した自動校正機能も搭載予定で、手直しをほとんど不要とすることも可能です。
事前の声紋登録が不要な、完全自動の話者特定AIを搭載しています。数名の音声であれば高い識別精度を実現します。
文字起こしにとどまらず、タイトル、日時、参加者、決定事項、議事要旨を備えた、「ほぼ完成」版の議事録をAIが作成する機能を提供しています。
60分の音声を4分程度で文字起こしが可能です。AWS上に構築したGPUサーバー環境にて、高速の処理を実現します。 文字起こしが完了した発話から順に表示しますので、文字起こし開始直後から処理結果を確認できます。全ての処理が終わるのを待つ必要もありません。
2024年4月のリリース以降、半年経過時点で1200社超にご利用いただいています。
建設、ITなど幅広い業界の民間企業様や、大学、医療機関、自治体様などにご利用いただいています。