AIが自動でブラウザを操作する「Browser Use」の使い方。Claude Computer Useとの違いも併せて紹介

AIが自動でブラウザを操作する「Browser Use」の使い方。Claude Computer Useとの違いも併せて紹介

公開: 更新:


Browser Useとは

Browser Useは生成AIAPIを活用し、AIがWebサイトを直接操作できるようにするためのPython向けライブラリです。このツールを使うとブラウザを自動的に制御しながらWebページの情報を収集したり、特定のタスクを自動で実行したりできます。

Python環境に「pip install」で簡単にインストールでき、フォームの自動入力やデータ抽出など幅広い用途に対応可能。視覚情報とHTMLの構造を同時に扱えるため、複雑な操作も正確に実行できます。


Python基礎・実践(Django)

企業・法人向けのPython研修では、基礎から応用まで体系的に学べます。

Python研修の詳細

DX社員研修

企業・法人向けのDX研修では、実務に繋がるリスキリングでITレベルを向上させます。

DX研修の詳細

Javaエンジニア育成研修

企業・法人向けのJavaエンジニア育成研修では、Javaの基礎から応用まで確実に習得できます。

Java研修の詳細

新卒・新入社員向け研修

企業・法人に新入社員・新卒社員に向けたプログラミング研修を提供しています。

新入社員研修の詳細

コードキャンプのIT研修を全て見る

Browser UseとClaude Computer Useの違い

Browser Useに似た機能として、Claudeで利用できるComputer Useがあります。

プロンプトでPCを操作できるClaude「computer use」を使ってみた
プロンプトでPCを操作できるClaude「computer use」を使ってみた

どちらもAIを活用した自動化ツールですが、それぞれの操作対象や実装方法には大きな違いがあります。

利用環境

Browser Use 所有者のPCで実際にブラウザを立ち上げて操作できる。
Claude Computer Use Anthropic社が提供する仮想環境内で、AIがブラウザ操作を含むPC操作を行う。

操作対象

Browser Use Webブラウザ内での操作に特化しており、ブラウザの制御やWebページの操作が可能。
Claude Computer Use コンピュータ全体のデスクトップ環境を操作対象としており、アプリケーションやファイル操作など幅広いタスクに対応。

実装方法

Browser Use Pythonライブラリとして提供され、プログラム内にコードを記述して直接操作を実行します。
Claude Computer Use Anthropic社のAPIを使用してAIモデルに指示を出し、操作を行わせる仕組みです。

このようにBrowser UseはWeb操作に特化したツールである一方、Claude Computer Useはコンピュータ全体を包括的に操作できる柔軟性を持っているのが特徴です。

とはいえ筆者の所感だとClaudeのComputer Useはまだ処理のエラーやミスが多く、精度に関してはBrowser useの方が優れているように感じます。

Browser Useの使い方

今回は下記の環境でBrowser Useを使ってみます。

  • OSWindows 11
  • 言語:Python(3.10以上必須)
  • エディタ:VSCode
  • ターミナル:Power Shell

はじめにBrowser Use実行用のフォルダを作成します。

Browser Useの使い方

今回は下記の手順でデスクトップ上にフォルダを作成します。

【デスクトップへ移動してtest-browser-useというフォルダを作成】
cd desktop
mkdir test-browser-use
おすすめのPython研修一覧

Python研修を提供しているおすすめの企業・法人を一覧で掲載しております。

Python研修の一覧を見る

おすすめのDX研修一覧

DX研修を提供しているおすすめの企業・法人を一覧で掲載しております。

DX研修の一覧を見る

おすすめのJava研修一覧

Java研修を提供しているおすすめの企業・法人を一覧で掲載しております。

Java研修の一覧を見る

おすすめのJavaScript研修一覧

JavaScript研修を提供しているおすすめの企業・法人を一覧で掲載しております。

JavaScript研修の一覧を見る

Pythonの開発環境を整える

Browser Useの使い方

次にPythonで仮想環境を作るためのツールである「venv」を使い、先ほど作成したフォルダにPythonの仮想環境を作ります。コマンドは下記の通りです。


python -m venv browser-use-env
Browser Useの使い方

apythonの仮想環境を作ったあとは、browser-useライブラリをインストールします。


pip install browser-use
Browser Useの使い方

インストール後は下記のコマンドでPythonの仮想環境を有効化します。


.\compute-use-env\Scripts\activate
Browser Useの使い方

a次に下記のコマンドでWebブラウザを自動で操作するための自動化ツール「playwright」をインストールします。


playwright install

生成AIのAPIを指定する

Browser Useの使い方

次に現在のtest-browser-useフォルダに環境変数を管理するための「.env」ファイルを作成します。実行コマンドは下記の通りです。


New-item -Path ".env" -ItemType "file"
Browser Useの使い方

作成したenvファイルをVSCodeで開き、Browser Useで利用する生成AIのAPIを入力します。

Browser UseのGithubではOpenAIとAnthropicのAPIの入力例が記載されています。しかし筆者がAnthropicのAPIでテストすると、モデルが認識できなかったり画像に対応していない(Claude 2.1の場合)などでうまくいきませんでした。

もし解決策を知っている人がいれば、コメントにて教えていただけると嬉しいです。

Open AIのAPIだとうまく行ったので、今回は下記のコードをenvファイルに入力して作業を進めていきましょう。


OPENAI_API_KEY=ここにOpen AIのAPIキーを入力
ANTHROPIC_API_KEY=

実行ファイルを作成してプロンプトを入力する

次に下記のコマンドで「browser-use.py」ファイルを作成します。ちなみにファイル名は任意で書き換えても構いません。


New-Item -Path "browser-use.py" -ItemType "file"

VSCodeでbrowser-useファイルを開き、下記のコードを入力します。


from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio

async def main():
    agent = Agent(
        task="沖縄県の明日の天気を調べてください。",
        llm=ChatOpenAI(model="gpt-4o-mini"),
    )
    result = await agent.run()
    print(result)

asyncio.run(main())

上記のtask欄にブラウザで操作したい内容をプロンプトとして入力します。

また、このコードを入力すると下記のようにエラーが表示される方もいるかもしれません。

Browser Useの使い方

上記のエラーは「langchain_openai」と「browser_use」のインストールがうまくいっていない可能性があります。そんな時は下記のコマンドを実行してこれらをインストールして下さい。


pip install langchain_openai browser_use

これで実行するための準備は整いました。

AIでブラウザを操作してみる

Browser Useの使い方

Power Shellに戻り、下記のコマンドを実行してください。

python .\browser-use.py
Browser Useの使い方

すると上記のようにAIが自律的にブラウザを開き、プロンプト通りの内容を調べて表示してくれます。

Browser Useの使い方

ブラウザは処理の実行が終わると自然に閉じ、プロンプトの回答は今回だとPower Shellに記載されます。

たとえば今回の回答では「沖縄の明日の天気は曇り時々晴れで、最高気温18.9°、降水確率40%、湿度61%、風速6.7m/sです。」と表示されました。

クリック作業や要約作業も対応できる

Browser Useは検索だけでなく、特定のURLへアクセスしてクリック処理したり、内容を要約することも可能。実際に下記のプロンプトを指定して実行してみました。

task="https://trends.codecamp.jp/このURLの「リスキリング」というタグで一番新しい記事をクリックし、内容を要約して下さい。"

実行結果は下記の通りです。

Browser Useはクリック作業や要約作業も対応できる

プロンプト通りtrendsのトップ画面を開いていますね。

Browser Useはクリック作業や要約作業も対応できる

プロンプトでは「リスキリング」と指定しましたが、それとは違うタグへアクセスしています。

Browser Useはクリック作業や要約作業も対応できる

「original-future」タグの記事を開き、内容を要約して終了しました。

上記記事の要約が英語としてPower Shellに表示されています。プロンプト通りの実行はできませんでしたが、どんどんAIによる自動処理が進んでいることを実感できるのではないでしょうか。

※上記コンテンツの内容やソースコードはAIで確認・デバッグしておりますが、間違いやエラー、脆弱性などがある場合は、コメントよりご報告いただけますと幸いです。

ITやプログラミングに関するコラム


ITやプログラミングに関するニュース

ブログに戻る

コメントを残す

コメントは公開前に承認される必要があることにご注意ください。

コードキャンプDX人材育成研修 - IT・プログラミングを知って学べるコネクトメディア 金融業界の業務効率化を加速するニッセイアセットマネジメントの生成AI×GAS活用研修事例 - IT・プログラミングを知って学べるコネクトメディア 【製造業のDX人材育成事例】デジタル人材の即戦力化を実現する、日本ガイシ株式会社の異動者向オンボーディング研修 - ITやプログラミングを知って学べるコネクトメディア フューチャーアーキテクト株式会社が実現した新入社員向けIT研修プログラムでタスクフォース制度が主体的な学びと成長を生み出す - IT・プログラミングを知って学べるコネクトメディア コードキャンプDX人材育成研修 - IT・プログラミングを知って学べるコネクトメディア コードキャンプIT・プログラミング研修事例/【IT新入社員研修】オンラインとオフラインの最適バランスを実現したFutureOneの導入事例 - IT・プログラミングを知って学べるコネクトメディア コードキャンプIT・プログラミング研修事例/【新入社員研修】柔軟なハイブリッド型Java研修で実現した新卒20名の成長と成果|サークレイス株式会社 - ITやプログラミングを知って学べるコネクトメディア コードキャンプIT・プログラミング研修事例/現場により近いところにデジタルを根付かせるDX基礎講座研修|株式会社ブリヂストン - ITやプログラミングを知って学べるコネクトメディア コードキャンプIT・プログラミング研修事例/業務の効率化・DX推進に向けたIT人材育成への第一歩|株式会社カナエ - ITやプログラミングを知って学べるコネクトメディア 企業・法人向けのIT・プログラミング研修 - ITやプログラミングを知って学べるコネクトメディア

新着記事

対象者別で探す

子供(小学生・中学生・高校生)向け
プログラミング教室検索する

子供(小学生・中学生・高校生)がロボットやプログラミング言語を学ぶことができるオフラインからオンラインスクールを検索、比較することが可能です。

子供(小学生・中学生・高校生)
プログラミング教室検索する

ITやプログラムなどの
最新情報を検索する

日々、新しいITやプログラミング言語の情報が流れていきますが、特定の情報を時系列でニュースやコラムを確認することができます。

ITやプログラムなどの
最新情報を検索する