【Python】Pandas版売上データ集計ツール開発講座第1章1.1節「Excel読み込みシステムの構築」

現在の見出し:1.1節：Excel読み込みシステムの構築

【PR】『Python』を学べる企業・個人向けのプログラミングコース

pd.read_excel()による売上データ読み込み機能の実装

第1章1.1節では、「pd.read_excel()」と「os.path.exists()」を使い、売上データ読み込み機能を実装していきます。これから売上データ集計ツールを開発していくにあたり、pyファイルを作成して「コマンドラインでの実行」をその都度行ってみてください。

まず、売上データ分析ツールの基盤となる「Excelファイル読み込み機能」を構築します。pd.read_excel()関数関数は一定の処理をまとめたプログラムの塊です。は、Excel形式のファイル（.xlsx/.xls）を読み込んで、pandasのDataFrameオブジェクトオブジェクトはプログラムの要素の一つで、データとその操作手段を一つにまとめたものです。に変換する専用関数です。内部でopenpyxlエンジンを使用するため、複雑なExcel構造も正確に解析して表形式データとして処理できます。

機能	説明	メリット
pd.read_excel()	ExcelファイルをDataFrameに変換	複雑なExcel構造も自動解析
DataFrame	行と列の2次元データ構造データ構造はプログラミングでデータを効率的に格納・管理するための仕組みで、適切な選択により操作の高速化が可能です。	効率的なデータ操作が可能
データ確認	読み込み結果の基本情報表示	処理成功の即座な確認

読み込み処理では、データの行数・列数・構造を表示して正常性を確認します。len()関数でDataFrameのサイズを取得し、head()メソッドメソッドは特定の処理をまとめたプログラムの塊です。で最初の5行を表示することによって、期待したデータが正しく読み込まれているかを視覚的に判断できます。また、f文字列文字列は文字の並びを表現するデータ型で、テキストデータを扱うための基本的な構造として広く使用されています。を使用した出力により、ユーザーは処理状況を直感的に把握できるようになります。

プログラム実行前に必要な準備について

pd.read_excel()を使用するには、openpyxlライブラリライブラリは再利用可能なソフトウェアの部品です。のインストールが必須です。コマンドプロンプトまたはターミナルで「pip install openpyxl」を実行し、ライブラリをインストールしてください。

また、読み込み対象のExcelファイル（sample.xlsx）は、実行するPythonファイルと同じディレクトリに配置する必要があります。

# ディレクトリ構成
project_folder/            ← プロジェクトのフォルダ
│
├─ sample.xlsx             ← 読み込むExcelファイル
├─ script.py               ← 作成したPythonファイル
└─ （その他のファイル）

ファイル配置とライブラリインストールが完了したら、作成したPythonファイルをコマンドラインで実行できます。正常に動作する場合は、データの行数・列数・先頭5行が表示され、「読み込み成功！」のメッセージが出力されます。エラーが発生した場合は、ファイルパスファイルパスはコンピュータ上でファイルを特定するための指示書のようなものです。の確認とopenpyxlのインストール状況を再度チェックしてください。

使用するサンプル売上データをダウンロード

以下のボタンから、サンプルの売上データをExcel形式（.xlsx）でダウンロードできます。

サンプルコード・実行結果

# コード
import pandas as pd
import os

def load_sales_data(filepath):
    """売上データの読み込み"""
    df = pd.read_excel(filepath)
    print(f"データ読み込み完了: {len(df)}行, {len(df.columns)}列")
    print("データ構造:")
    print(df.head())
    return df

# メイン処理
def main():
    filepath = "sample.xlsx"
    df = load_sales_data(filepath)
    
    if df is not None:
        print("読み込み成功！")
    else:
        print("読み込み失敗")

if __name__ == "__main__":
    main()

# 実行結果
データ読み込み完了: 100行, 4列
データ構造:
    Product    Area        Date  Price
0  ProductA  Tokyo  2024-01-15   1000
1  ProductB  Osaka  2024-01-16   1500
2  ProductC  Tokyo  2024-01-17   2000
3  ProductA  Nagoya 2024-01-18   1200
4  ProductB  Tokyo  2024-01-19   1800
読み込み成功！

行数	種別	コード	解説
2行目	新規	`import pandas as pd`	pandasライブラリをpdという短縮名でインポートします。Excelファイル読み込みとデータ操作の中核となるライブラリです。
3行目	新規	`import os`	osモジュールモジュールはプログラミングで機能や処理をまとめた再利用可能な単位で、コードの管理や保守を容易にします。をインポートしてファイル操作機能を利用可能にします。ファイル存在確認などのシステム関連処理で使用します。
5行目	新規	`def load_sales_data(filepath):`	売上データ読み込み用の関数を定義します。filepathパラメータでExcelファイルのパスパスはファイルやディレクトリの場所を示すために使われる言葉です。を受け取ります。
7行目	新規	`df = pd.read_excel(filepath)`	指定されたExcelファイルを読み込んでDataFrameオブジェクトに変換します。openpyxlエンジンが自動的に使用されます。
8行目	新規	`print(f"データ読み込み完了: {len(df)}行, {len(df.columns)}列")`	読み込んだデータの行数と列数を表示します。len()関数でDataFrameのサイズを取得して確認できます。
9行目	新規	`print("データ構造:")`	データ表示の見出しを出力します。ユーザーが次に表示される内容を理解しやすくするための説明文です。
10行目	新規	`print(df.head())`	DataFrameの最初の5行を表示してデータ構造を確認します。head()メソッドはデータの概要把握に適しています。
11行目	新規	`return df`	読み込んだDataFrameを呼び出し元に返します。後続処理でデータを使用できるようにするための重要な処理です。
14行目	新規	`def main():`	メイン処理関数を定義します。プログラムの実行起点となる関数で、全体の処理フローを管理します。
15行目	新規	`filepath = "sample.xlsx"`	読み込み対象のExcelファイルパスを設定します。実行ファイルと同じディレクトリに配置されたsample.xlsxを指定します。
16行目	新規	`df = load_sales_data(filepath)`	定義した関数を呼び出して売上データを読み込みます。戻り値をdf変数変数はデータを一時的に記憶しておく場所です。に格納して後続処理で使用します。
18行目	新規	`if df is not None:`	DataFrameが正常に読み込まれたかを確認します。None以外の値が返された場合に成功処理を実行します。
19行目	新規	`print("読み込み成功！")`	データ読み込みが成功した場合のメッセージを表示します。ユーザーに処理完了を明確に伝える確認出力です。
20行目	新規	`else:`	DataFrameがNoneの場合（読み込み失敗時）の処理分岐です。エラー状況に対応するためのelse節です。
21行目	新規	`print("読み込み失敗")`	データ読み込みが失敗した場合のエラーメッセージを表示します。問題発生をユーザーに通知する重要な出力です。
23行目	新規	`if __name__ == "__main__":`	スクリプトが直接実行された場合の条件分岐条件分岐はプログラム内で指定した条件によって処理の分岐を行う制御構造です。です。モジュールとしてインポートされた場合は実行されません。
24行目	新規	`main()`	メイン関数を呼び出してプログラムを実行します。プログラム全体の実行起点となる重要な処理です。