株式会社Verbexは、音声対話AIのコア技術であるSTT(Speech to Text/音声認識)とTTS(Text to Speech/音声合成)を、単独の「Verbex STT・TTS API」として、外部提供を開始しました。
Verbex STT・TTS APIの概要
生成AIやAIエージェントの普及により、AIの活用はテキストチャットにとどまらず、音声を通じてやり取りする領域へと広がっています。コールセンター、電話応対、店頭端末、業務アプリケーション、ロボット、IoT機器など、さまざまな領域で音声AIへの需要が高まってきました。
一方で、音声AIの体験品質はLLMだけでは決まりません。人の発話を正確に認識するSTT、AIの応答を自然な音声に変換するTTS、そしてリアルタイムに処理する低遅延性が、音声AIの実用性を大きく左右します。
特に電話応対やコールセンターのような実運用環境では、電話回線特有の音質や周囲の雑音、住所や氏名、商品名、数字の認識精度などが課題となります。汎用的な音声技術だけでは、こうした課題への対応が難しいとされてきました。Verbex STT・TTS APIは、こうした実運用上の課題に対応するために開発・改善されてきた技術です。
Verbex STT APIとVerbex TTS APIの機能と特徴
Verbex STT APIは、電話応対や会話音声をテキスト化する音声認識APIです。問い合わせ内容や注文内容、顧客情報など、人の発話をAIや業務システムが処理しやすいテキストデータに変換します。
電話回線特有の音質や雑音環境、日本語における氏名や住所、商品名、数字といった業務利用で重要となる認識課題への対応を強化しています。
Verbex TTS APIは、テキストを自然な音声に変換する音声合成APIです。AIエージェントの応答、電話の自動応答、FAQ回答、予約受付、案内音声など、さまざまな音声インターフェースに利用できます。
業務利用における聞き取りやすさと自然な日本語の抑揚、リアルタイム対話に適した応答速度を重視した設計です。コールセンターや電話応対だけではなく、アプリ、Webサービス、店頭端末、ロボット、IoT機器などへの組み込みにも対応します。
Verbex STT・TTS APIの主な特徴は次の5点です。
- リアルタイム音声対話AIで培った実運用品質
- 日本語の電話応対・業務会話への特化対応
- 低遅延なリアルタイム処理
- CRM、CTI、PBX、LLMなど既存システムとの柔軟な連携
- 閉域接続・プライベートクラウド・オンプレミスを含むセキュリティ対応
特にセキュリティ面では、クラウド型のAPI提供に加え、金融機関、大企業、公共機関、BPO事業者など厳格な要件を持つ組織での活用も想定した複数の提供形態に対応しています。
想定ユースケースとVerbex STT・TTS APIの概要
| 項目 | 詳細 |
|---|---|
| 提供企業 | 株式会社Verbex |
| サービス名 | Verbex STT・TTS API |
| カテゴリ | 音声認識・音声合成API |
| 主な想定用途 | コールセンター・コンタクトセンター運営 電話応対AI・音声AIエージェント構築 SIer・BPO・AI開発企業向けソリューション開発 アプリ・Webサービス・IoT・ロボットへの組み込み |
| 提供形態 | クラウド型API・閉域接続・プライベートクラウド・オンプレミス |
| 主な対応領域 | 日本語電話応対・業務会話に特化 |
| 特許 | 日本を含む25カ国で56件保有 |
| 企業ミッション | 声で世界をつなぐ |
| WEBサイト | https://jp.verbex.ai/ |
trends編集部の一言
日本を含む25カ国で56件の特許を保有するという事実は、音声AI領域における研究開発の蓄積の厚さを示すものです。音声AI市場全体としては、「LLMさえあれば音声AIが実現できる」という前提が見直されつつある段階にあり、STT・TTSを独立したAPIとして切り出す動きはその流れを象徴しています。
認識精度や応答速度、自然な抑揚という三つの要素を実運用で積み上げてきた技術基盤をAPIとして提供するアプローチは、業界全体としての音声AI導入ハードルを下げる動きとして注目しておく価値があるでしょう。
バングラデシュと日本のシリアルアントレプレナーが組む国際チームという構成も、アジア発の音声AIスタートアップとして独自のポジションを生み出しています。金融や自治体、医療など厳格なセキュリティ要件が求められる領域での展開が今後どう進むか、引き続き動向を追いたいところです。
References
- ^ PR TIMES. 「Verbex、リアルタイム音声対話AIを支える独自音声認識・音声合成モデルをAPIとして提供開始 | 株式会社Verbexのプレスリリース」. https://prtimes.jp/main/html/rd/p/000000016.000172103.html, (参照 26-06-21).
※上記コンテンツの内容やソースコードはAIで確認・デバッグしておりますが、間違いやエラー、脆弱性などがある場合は、コメントよりご報告いただけますと幸いです。
ITやプログラミングに関するコラム
【Git】remote設定を変更する方法
【VBA】コメントアウトを設定する方法
マークダウンで改行する方法
【CSS】notで複数の件を除外する方法
x86とx64の違いを分かりやすく解説
GitLabとGitHubの違いを解説
パソコンのメモリの目安を用途別に選ぶ方法
Linuxで環境変数を確認する方法
CapsLockキーを解除する方法
UbuntuのIPアドレスを確認する方法
ITやプログラミングに関するニュース
クラウドワークス アカデミーが法人向け「AI活用研修」を提供開始、助成金活用で46,000円から受講可能
エルサイトがMCP接続に対応、ChatGPTやClaudeへの自然言語指示でチャットデータの確認・集計が可能に
ChatSenseがスライドマスターのみのPPTXファイルをテーマ登録可能に、社内共通テンプレートを自動生成に活用
Gausium(高仙ロボット)がAI清掃ロボットの小売導入効果を公開、清掃人件費40%減と顧客滞在時間15%向上を実証
T-4OOが「参考文書を参照した翻訳」機能を追加、対訳不要で業務資料の訳文資産を活用可能に
株式会社ProVisionが「AIシステム品質検証」の提供を開始、生成AI・AIエージェントの出力品質とリスクを可視化
エルグラムがChatGPT向けアプリを公開、AIとの対話でInstagram運用データの分析・レポート作成に対応
nocoがAIカスタマーサポートシステム「ヘルプドッグ」をオートウェイに導入、FAQやチャットボット、フォームを一元管理
Tokyo Artisan IntelligenceがAI人流解析「NIGIWAI」を提供開始、北九州市の実証から全国へ
株式会社BridgeがLLMOコンサルティングサービスを提供開始、SEOとPRを統合しAI時代のブランド設計を支援
