FlashLabs株式会社は、AI推論ゲートウェイ「OrcaRouter」が高速LLMサービングフレームワーク「SGLang」への対応を完了したことを発表しました。
OrcaRouterとSGLang統合の背景
2026年、企業のAI活用は「単一モデルの利用」から「複数モデルを組み合わせた高度なエージェントワークフロー」へと進化しています。こうしたエージェントワークフローへの進化に伴い、推論速度の向上と、増大するLLM利用料の最適化が開発現場の課題となってきました。
LMSYS Orgによって開発された「SGLang」は、従来のフレームワークと比較して最大5倍の推論速度を誇るランタイムです。一方、「OrcaRouter」は、プロンプトごとに難易度を判定し、最適なモデルへ自動ルーティングすることでコストと品質を両立するLLMゲートウェイとして機能します。今回の統合により、両者のそれぞれの強みが融合し、速度やコスト、品質を妥協しないインフラ環境が実現しました。
OrcaRouterがSGLangにもたらす4つの機能
今回の統合によってSGLangエコシステム内で利用可能になる機能は、以下の4点です。
- 200以上のモデルへ単一エンドポイントで統一アクセス
- プロンプト難易度をミリ秒単位で判定する適応型自動ルーティング
- 個人情報(PII)のマスキングとプロンプトインジェクション対策を行うAgent Firewall & Guardrails
- トークン上乗せ手数料0%のUnified Billing(統合請求)
適応型自動ルーティングでは、定型処理は低コストなオープンモデルへ、高度な推論はフロンティアモデルへと自動で振り分けます。Unified Billingは、OpenAIやAnthropic、Google、DeepSeekなど複数プロバイダーの利用に対応した統合請求の仕組みです。複数のプロバイダーを使う場合でも、支払いはOrcaRouterへ一本化されます。
OrcaRouter統合後に利用可能なモデルと企業にもたらす価値
統合後のSGLang環境では、以下をはじめとする多数のモデルが利用可能です。
- OrcaRouter Fable 5 Fusion API
- Anthropic Claude Opus 4.8 API
- OpenAI GPT 5.5 API
- Gemini 3.5 FlashAPI
- DeepSeek V4 Pro API
企業がこの統合から得られる価値は、大きく3点に整理できます。まず、モデルごとのAPI仕様の差異を意識することなく、最新モデルを即座に試作・導入できる開発スピードの向上です。次に、OrcaRouterによる自動モデル選択によって、品質を落とさずにLLM支出を最大40%削減できるコスト最適化です。
さらに、プロバイダー障害時に自動で代替モデルへ切り替える「ミッドストリーム・フェイルオーバー」によって、24時間365日の安定稼働を支援するエンタープライズグレードの信頼性も確保されます。
OrcaRouter / FlashLabs株式会社の概要
| 項目 | 詳細 |
|---|---|
| サービス名 | OrcaRouter |
| カテゴリ | AI推論ゲートウェイ |
| 開発元 | 米Continuum AI |
| 日本独占販売 | FlashLabs株式会社 |
| 対応モデル数 | 200以上 |
| 手数料 | トークン上乗せ手数料0% |
| 導入 | 1行から導入可能 |
| 安定稼働支援 | 24時間365日 |
| 会社名 | FlashLabs株式会社 |
| 所在地 | 東京都千代田区 |
| 代表取締役 | 細井 洋一氏 |
| 事業内容 | AIソリューションの開発・販売、AIゲートウェイ「OrcaRouter」の提供 |
trends編集部の一言
200以上のLLMを単一エンドポイントに束ね、プロンプト単位で最適なモデルへ自動振り分けるという設計は、マルチモデル活用が当たり前になりつつある今の開発現場に対して、かなり的確な応答といえます。AI開発基盤市場では、複数プロバイダーのモデルを組み合わせて利用するマルチモデル運用が主流となりつつあり、「どのモデルにどのタスクを投げるか」という判断コストの削減が業界横断の課題として語られてきました。その選択をルーティングエンジンに委ねる仕組みは、同種サービスの中でも注目されるアプローチです。
コスト面では、すべてのリクエストを最高性能モデルに流すのではなく、難易度に応じて割り振る設計が最大40%の削減につながるという点も現実的です。マーケティング業界の文脈に置き換えると、簡単なコピー生成と複雑な戦略立案を同一モデルで処理しているケースは少なくなく、用途に応じたモデルの使い分けをインフラレベルで自動化するアプローチは、AI活用におけるコスト管理手法の一つとして注目される動きといえるでしょう。
References
- ^ PR TIMES. 「AI推論ゲートウェイ「OrcaRouter」を高速LLMフレームワーク「SGLang」に統合 ― 200以上のモデルへの統一アクセスとコスト最適化を実現 | FlashLabs株式会社のプレスリリース」. https://prtimes.jp/main/html/rd/p/000000047.000138449.html, (参照 26-06-19).
※上記コンテンツの内容やソースコードはAIで確認・デバッグしておりますが、間違いやエラー、脆弱性などがある場合は、コメントよりご報告いただけますと幸いです。
ITやプログラミングに関するコラム
【Git】remote設定を変更する方法
【VBA】コメントアウトを設定する方法
マークダウンで改行する方法
【CSS】notで複数の件を除外する方法
x86とx64の違いを分かりやすく解説
GitLabとGitHubの違いを解説
パソコンのメモリの目安を用途別に選ぶ方法
Linuxで環境変数を確認する方法
CapsLockキーを解除する方法
UbuntuのIPアドレスを確認する方法
ITやプログラミングに関するニュース
AITORAがAI検索での競合比較を可視化、対策レポートをモニター価格月額10万円〜で提供
株式会社MIXIが「Romi(Lacatanモデル)」の選べる声を全4種類に拡大、キャラ変との組み合わせが広がる
藤枝市役所が国産LLM「Sarashina」活用の窓口AI実証事業で総務省採択、ソフトバンクと協定締結
Hanji株式会社がAIチューター「Knock」に赤入れ添削機能を追加、数十秒〜1分程度で大学入試レベルまで対応
KozotaiがAIネイティブ会計ソフト「KOZOTAI」を正式リリース、自然言語入力だけで仕訳から決算書まで一貫処理
NTT西日本株式会社が大阪・福岡に次世代AI対応型データセンターを新設、西日本のAIインフラ強化へ
パテント・インテグレーション株式会社が「サマリア」の弁理士法対応を強化、利用規約改訂と注意喚起機能を追加
アステリアキャンバスがAI業務プラットフォーム「Bakusoku.AI」を提供開始、最短3分で業務ソフトウェアを自動生成
合同会社DMM.comが「DMMキャラトーク」を提供開始、1,000以上のパターンのキャラクターと1対1でトーク
株式会社アスレバがゴリラセールスAI商談を正式リリース、顧客の検討熱度が高い瞬間にAIが商談化を自動化
