【Python】Pandas版売上データ集計ツール開発講座第2章2.1節「基本集計システムの構築」

現在の見出し:2.1節：基本集計システムの構築

【PR】『Python』を学べる企業・個人向けのプログラミングコース

df.groupby()による商品別売上集計機能の実装

前節(第1章 1.2節)で作成したコードを基盤として、df.groupby()による商品別の売上集計機能を実装します。現在のデータ前処理機能だとデータのクリーニングまでは完了していますが、ビジネス分析に必要な集計処理が実装されていないため、売上データから有意義な洞察を得ることができません。

df.groupby()メソッドメソッドは特定の処理をまとめたプログラムの塊です。は、指定した列の値に基づいてデータをグループ化し、各グループに対して統計処理を実行する機能です。今回は月別・商品別の組み合わせでグループ化を行い、sum()関数関数は一定の処理をまとめたプログラムの塊です。で売上金額を合計することで、商品ごとの月次パフォーマンスを定量的に分析できるようにしていきます。

処理手順	使用メソッド	目的
グループ化	df.groupby(['Date', 'Product'])	月と商品でデータを分類
集計	['Price'].sum()	各グループの売上合計を算出
構造化	reset_index()	結果をDataFrame形式に変換

新しく追加するanalyze_basic_sales関数では、データ分析処理を独立して管理します。この関数は集計結果をDataFrameとして構造化し、辞書形式で返すことで複数の分析データを効率的に管理できる設計になっています。この関数によって、後続の章で追加する分析機能との連携も容易になります。

# コード
import pandas as pd
import os

def load_sales_data(filepath):
    """売上データの読み込み"""
    if not os.path.exists(filepath):
        print(f"エラー: ファイルが見つかりません - {filepath}")
        return None
    
    df = pd.read_excel(filepath)
    print(f"データ読み込み完了: {len(df)}行, {len(df.columns)}列")
    print("データ構造:")
    print(df.head())
    return df

def preprocess_data(df):
    """データ前処理"""
    if df is None:
        return None
    
    print(f"元データ: {len(df)}行")
    
    # 日付変換
    df['Date'] = pd.to_datetime(df['Date']).dt.strftime("%Y-%m")
    print("日付変換完了")
    
    # 欠損値除去
    original_rows = len(df)
    df = df.dropna()
    print(f"欠損値除去: {original_rows - len(df)}行削除")
    
    print("処理済みデータ:")
    print(df.head())
    return df

def analyze_basic_sales(df):
    """基本売上分析"""
    if df is None:
        return None
    
    # 月別商品別集計
    monthly_product_sales = df.groupby(['Date', 'Product'])['Price'].sum().reset_index()
    print("\n月別商品別売上:")
    print(monthly_product_sales.head(10))
    
    return {
        'monthly_product': monthly_product_sales
    }

# メイン処理
def main():
    filepath = "sample.xlsx"
    df = load_sales_data(filepath)
    
    if df is not None:
        print("読み込み成功！")
        processed_df = preprocess_data(df)
        if processed_df is not None:
            print(f"最終データ: {len(processed_df)}行")
            print("データ型:")
            print(processed_df.dtypes)
            
            # 基本分析の実行
            analysis_results = analyze_basic_sales(processed_df)
            if analysis_results:
                print(f"\n基本分析完了")
    else:
        print("読み込み失敗")

if __name__ == "__main__":
    main()

# 実行結果
データ読み込み完了: 5行, 4列
データ構造:
    Product    Area       Date  Price
0  ProductA   Tokyo 2024-01-15   1000
1  ProductB   Osaka 2024-01-16   1500
2  ProductC   Tokyo 2024-01-17   2000
3  ProductA  Nagoya 2024-01-18   1200
4  ProductB   Tokyo 2024-01-19   1800
読み込み成功！
元データ: 5行
日付変換完了
欠損値除去: 0行削除
処理済みデータ:
    Product    Area     Date  Price
0  ProductA   Tokyo  2024-01   1000
1  ProductB   Osaka  2024-01   1500
2  ProductC   Tokyo  2024-01   2000
3  ProductA  Nagoya  2024-01   1200
4  ProductB   Tokyo  2024-01   1800
最終データ: 5行
データ型:
Product    object
Area       object
Date       object
Price       int64
dtype: object

月別商品別売上:
      Date   Product  Price
0  2024-01  ProductA   2200
1  2024-01  ProductB   3300
2  2024-01  ProductC   2000

基本分析完了

行数	種別	コード	解説
37行目	新規	`def analyze_basic_sales(df):`	基本売上分析専用の関数を定義します。データ分析処理を体系的に管理し、集計結果を構造化して返すための独立した関数です。
43行目	新規	`monthly_product_sales = df.groupby(['Date', 'Product'])['Price'].sum().reset_index()`	月と商品でグループ化して売上を集計します。groupby()で指定列によるグループ化、sum()で合計算出、reset_index()でDataFrame形式に変換します。
44行目	新規	`print("\n月別商品別売上:")`	集計結果の見出しを表示します。改行文字により前の出力と区別して、分析結果を見やすく整理します。
45行目	新規	`print(monthly_product_sales.head(10))`	集計結果の上位10件を表示して分析内容を確認します。head()メソッドで適切な件数に制限して可読性を向上させます。
47行目	新規	`return {`	分析結果を辞書形式で返却開始します。複数の集計データを構造化して管理し、後続処理で効率的に活用できるようにします。
65行目	新規	`analysis_results = analyze_basic_sales(processed_df)`	定義した分析関数を呼び出して基本集計を実行します。前処理済みデータを引数引数はプログラミングで関数やメソッドに渡される値や変数で、関数の動作を柔軟に制御し、コードの再利用性を高めます。として渡し、分析結果を変数変数はデータを一時的に記憶しておく場所です。に格納します。