【Python】BeautifulSoup版スクレイピングツール開発講座第1章1.1節「基本取得機能の作成」

現在の見出し:1.1節：基本取得機能の作成

【PR】『Python』を学べる企業・個人向けのプログラミングコース

requests.get()によるHTMLデータ取得機能の実装

第1章1.1節では、「requests.get()によるWebページ取得」と「BeautifulSoup()によるHTML解析処理」を実装し、スクレイピングツールの基盤を作成していきます。これからスクレイピングツールを開発していくにあたり、pyファイルを作成して「コマンドラインでの実行」をその都度行ってみてください。

まず、requests.get()関数関数は一定の処理をまとめたプログラムの塊です。でWebページを取得する機能を実装していきます。requests.get()関数はPythonでHTTPリクエストを送信して、WebページのHTMLデータを取得するための標準的な方法です。この関数を使用することによって、指定したURLからHTML文書を安全かつ簡単に取得できます。

requestsライブラリライブラリは再利用可能なソフトウェアの部品です。は外部ライブラリのため、事前にインストールが必要です。コマンドライン（ターミナル）でpip install requests beautifulsoup4を実行してインストールを完了させてから、以下のプログラムプログラムはコンピュータに対して何をすべきかを指示する一連の命令です。を実行してください。

# コード
import requests

# 固定URLでHTMLデータを取得
url = "https://example.com"
response = requests.get(url)
print("HTMLデータ取得完了")
print(f"データサイズ: {len(response.text)}文字")

# 実行結果
HTMLデータ取得完了
データサイズ: 1256文字

行数	種別	コード	解説
2行目	新規	`import requests`	HTTPリクエストを送信するためのrequestsライブラリをインポートします。Webページ取得の基盤となる機能を提供します。
5行目	新規	`url = "https://example.com"`	取得対象のWebページURLを変数変数はデータを一時的に記憶しておく場所です。に格納します。example.comは標準的なテストテストはプログラムが意図通りに動作するかを確認する作業です。サイトで、安定したHTMLデータを提供します。
6行目	新規	`response = requests.get(url)`	requests.get()関数を実行してWebページにHTTPリクエストを送信し、レスポンスオブジェクトオブジェクトはプログラムの要素の一つで、データとその操作手段を一つにまとめたものです。を取得します。このオブジェクトにHTMLデータが含まれます。
7行目	新規	`print("HTMLデータ取得完了")`	データ取得処理の完了を確認するためのメッセージを出力します。処理状況を把握するために必要な確認処理です。
8行目	新規	`print(f"データサイズ: {len(response.text)}文字")`	取得したHTMLテキストの文字数を表示してデータが正常に取得できたことを確認します。len()関数で文字列文字列は文字の並びを表現するデータ型で、テキストデータを扱うための基本的な構造として広く使用されています。の長さを計測しています。