本ニュースの3行要約
- AmazonはWebブラウザでタスクを実行できるAI「Nova Act」を発表し、開発者向けSDKを公開。
- 複雑なブラウザ操作を分解し、API連携やPythonコードで柔軟に自動化できるのが特徴。
- SDKは米国在住かつAmazonアカウント保有者のみ利用可能で、公式サイトからアクセス可能。
Amazonの新AI「Nova Act」でブラウザ操作を革新
Amazonは2025年4月1日、Webブラウザ内でタスクを実行するAIモデル「Amazon Nova Act」を発表し、開発者向けの研究プレビュー版SDKをnova.amazon.comで公開しました。[1]
「Amazon Nova Act」を活用することで、開発者は内部システムでの休暇申請提出やカレンダーへの不在表示設定など、Webブラウザ上でさまざまなタスクを完了できるエージェントを構築できるようになります。
Amazon Nova Actの特徴
Amazon Nova Actの特徴は複雑なワークフローを分かりやすく分解し、さまざまな手段でブラウザ上のタスクを確実に実行できる点にあります。具体的には基本コマンドの活用からプログラムによる高度な制御まで、柔軟な対応が可能です。
- 複雑なワークフローを信頼性の高い基本コマンド(検索、チェックアウト、画面に関する質問への回答など)に分解
- 各コマンドに対して詳細な指示を追加可能
- API呼び出しとの組み合わせによる処理拡張
- Playwrightを用いたブラウザの直接操作に対応
- Pythonコードの組み込みによりテストやブレークポイント、並列処理が可能
これらの機能によりAmazon Nova Actは単なるタスク自動化ではなく、柔軟かつ拡張性の高いブラウザ操作エージェントを構築できるソリューションとして注目されています。
AmazonによるとNova Actは日付選択やドロップダウンメニュー、ポップアップなどほかのモデルが苦手とする操作において90%以上の精度を達成。ScreenSpotやGroundUI Webといったベンチマークでも最高クラスの性能を示しているとのことです。
この高い信頼性により、一度設定すれば監視不要でタスクを実行できるのが魅力。ヘッドレスモードの有効化やAPIとしての統合、スケジュールに基づく非同期実行なども可能です。
Amazon Nova Actは米国在住者のみ利用可能
「mazon Nova Act」はAmazonが新たに開設した専用サイト「nova.amazon.com」から、AIエージェント構築のための「Nova Act SDK(リサーチプレビュー版)」にアクセスすることが可能です。
このWebサイトは単にSDKを提供するだけでなく、Amazonが展開する独自の基盤モデル群「Amazon Nova」シリーズ(Nova Micro、Lite、Pro、Canvas、Reel)についても情報をまとめたポータルとして機能しています。
なお、このサイトの利用は「米国在住」かつ「Amazonアカウント保有者」に限られており、対象者は公式サイトからSDKを試すことができます。
AIエージェントの実用化に向けた重要な一歩
Amazon Nova Actの登場は、大規模言語モデル(LLM)を基盤としたAIエージェントの進化において重要な転換点を示しています。これまでのAIエージェントは主に自然言語での応答や知識ベースからの情報検索に限定されていましたが、Nova Actはブラウザ操作という具体的な「行動」を実行できる能力を持ち、より実用的なタスク自動化への道を開くものです。
特に注目すべきは、Nova ActがAPIが整備されていない多様なWebサイトやシステムでも動作できる点です。従来のシステム連携にはAPI連携が必須でしたが、現実には多くのサービスがAPI提供していないか、機能制限があります。
Nova ActはWebブラウザを介して操作することでこの制約を乗り越え、より広範なサービスとの連携を実現しています。
技術面では単純なLLMのプロンプト操作ではなく、信頼性の高い「原子的コマンド」に分解するアプローチを採用している点が革新的です。Webブラウザ操作に関するベンチマークで他社モデルを上回る性能を示しているのは、この設計思想の有効性を示すものと言えるでしょう。
特に日付選択やドロップダウンなど、従来のAIが苦手としていた操作での高い精度は実用上の大きな利点です。
また、Amazonはこれを「大きなトレーニングカリキュラムの初期段階」と位置づけており、単なる教師あり学習ではなく強化学習を通じて様々な環境でエージェントをトレーニングする長期ビジョンを示唆しています。
これは現在の単一タスク型エージェントから、より複雑なマルチステップタスクを自律的に遂行できるエージェントへの進化を目指す方向性を示しています。
AIエージェントの活用領域と産業への影響
短期的にはNova Actはビジネス向け内部システムの自動操作や、個人向けの定型タスク自動化などの用途で活用が進むと予想されます。特にプレスリリースで示されている毎週火曜日の夕食用サラダ配達注文の自動化のような、定期的で単調なタスクの自動化は、早期に普及する可能性があります。
中期的にはWebブラウザ操作と他のシステムやデバイスとの連携により、より複雑なワークフローの自動化が進むでしょう。Amazonは「結婚式の企画」や「複雑なIT業務の処理」などの例を挙げていますが、旅行予約や不動産検索、保険加入手続きなど複数のサービスを横断するプロセスの自動化が現実的になると考えられます。
産業への影響としては、カスタマーサービス業界での活用が最も早く進むと予想されます。Nova Actを活用することで顧客対応の自動化や個別化されたサービス提供が可能になり、人的リソースの最適化とサービス品質向上の両立が期待できます。
また、内部業務の自動化により、企業の生産性向上や業務効率化も加速するでしょう。
長期的にはNova Actのようなブラウザ操作型AIの進化により、人間とコンピュータの関係性が大きく変わる可能性があります。特定のタスクにおいては人間が高レベルの目標を設定し、AIが詳細な実行を担当するという役割分担が一般化して人間はより創造的で戦略的な活動に集中できるようになるでしょう。
これは個人の生産性向上だけでなく、新たな仕事の形や産業構造の変化にもつながる可能性を秘めています。
References
- ^ Amazon AGI Labs. 「Introducing Amazon Nova Act」. https://labs.amazon.science/blog/nova-act, (参照 2025-04-01).