ChatGPTユーザーから高い評価を得ている「Advanced data analysis」。ChatGPTでPythonを実行できる利便性の高さと、外部ファイルを読み込める機能を活かしてデータ分析を実施することも可能です。
そこで今回は、Advanced data analysisを使って、データセットや課題を提供しているKaggle(カグル)から取得したデータを分析してみました。
Kaggleのアカウントを作成する
はじめに、データセットを取得するためにKaggleのアカウントを作成します。
Kaggleより
Kaggleの公式サイトにアクセスし、画面右上にある「Sign in」というリンクをクリックします。
Kaggleより
SNSアカウントやメールアドレスで認証できるので、任意の方法をクリックしましょう。今回はGoogleアカウントでの認証を例に作業を進めます。
Kaggleより
「Full name」というに入力欄に、任意のアカウント名を入力し、右下にある「Next」ボタンをクリックしてください。
Kaggleより
利用規約画面を読み進め、「I Agree」ボタンを押すとアカウント作成完了です。
データセットを取得する
ChatGPTより
データセットは詳細ページの右上にある「Download」というボタンをクリックすると取得できます。ダウンロードしたデータはCSVファイルなので、ExcelやGoogleスプレッドシートなどを使って内容を表示することが可能です。
Advanced data analysisでデータ分析してみた
Kaggleで取得したデータを使ってどんな分析ができるのか、ChatGPTのAdvanced data analysisを使って聞いてみることから始めましょう。
ChatGPTより
データセットの名前とラベル名、その役割をChatGPTに入力して実行します。そのあと、下記のプロンプトを実行して分析できることを聞いてみましょう。
Q:このデータセットのラベルの名称とその役割から分析できることを教えてください。
A:
ChatGPTより
すると、ラベルとその役割から分析できる内容を出力してくれます。今回はその中から、リリースタイミングの影響に関する分析が面白そうだったので、こちらについて分析してもらいます。
データセットを指定して分析を始める
ChatGPTより
Advanced data analysisの左側にある「+」をクリックし、先ほどダウンロードしたデータセットのファイルを読み込みます。そして、下記のプロンプトを入力して実行しましょう。
Q:リリースタイミングの影響:
曲のリリース年、月、日とその人気度(再生数やチャート順位)の関係を分析して、特定の時期にリリースされた曲が人気になる傾向があるかどうかを調査できます。
調査するデータのファイルを指定したので、上記の分析や洞察をお願いします
A:
ChatGPTより
グラフから以下の洞察を得ることができます: 月別平均再生数: 1月、2月、3月にリリースされた曲は、他の月に比べて平均再生数が高い傾向にあります。これは、新しい年の初めにリリースされる曲が特に注目される、またはプロモーション活動が活発に行われる可能性が考えられます。 逆に、年の後半(特に11月と12月)にリリースされる曲の平均再生数は低いです。これは、年末に向けての新曲リリースが少なくなる、またはリスナーの注目が散漫になるためかもしれません。 日別平均再生数: 月の初めや中旬にリリースされる曲の平均再生数が高い傾向にあります。特に1日、15日、16日にリリースされた曲は注目されているようです。これは、リリーススケジュールやプロモーション戦略の影響を受けている可能性があります。 これらの洞察は、アーティストやレコード会社が新曲のリリースタイミングを考慮する際の参考になるかもしれません。ただし、これらの傾向は2023年のデータに基づいているため、年によっては異なる結果となる可能性も考慮する必要があります。
すると、分析した結果を出力するだけでなく、その内容をグラフで表示してくれました。こちらから指示せずとも、主体的に視覚的な情報も提供してくれるようです。
とはいえ、グラフだと詳細がわかりづらいので、分析結果を数字として表示してもらいましょう。
Q:月別平均再生数をグラフではなく詳細な数字として表示できますか?
A:
ChatGPTより
月ごとの詳細な平均再生数を表示してくれました。同じようなプロンプトで、日別の平均再生数も表示してもらいましょう。
Q:日別平均再生数も詳細な数字として表示してください
A:
ChatGPTより
月別と日別の平均再生数を調べた結果、最も再生数が高いのは1月31日だということがわかりました。
ほかにも、月のはじめと月の終わりの平均再生数が高いという傾向がわかったので、なぜこのような結果になったのかChatGPTに聞いてみましょう。
Q:なぜ月のはじめと終わりに再生数が高い傾向にあるのでしょうか?
A:
ChatGPTより
新曲のリリース プロモーション活動に適していることや、多くの国が月終わりに給与がもらえることなど興味深い分析結果を表示してくれました。
自分が想定できる内容から予想外の結果まで、自分以外の視点で分析するのに役立ちそうですね。
ライターのヒトコト
データ分析とは、手元にあるデータから特定の傾向やパターンを理解し、それに基づいて洞察や予測を行うことです。その過程で分析しやすいようにデータをクリーニングしたり、各データからどのようなことが予測できるのか考える必要があります。
今回利用した「Advanced data analysis」を使うことで、手元にあるデータからどのようなことを分析できるのかがわかります。また、分析する過程で生じるデータに関する問題も自動でクリーニングしてくれるのが魅力です。
データ分析初心者の方でも簡単な分析が可能なので、気になる方はぜひ利用してみてくださいね!
ChatGPTはAI技術を基にしたモデルであり、回答は状況や入力内容によって変動することが特徴です。上記は記事執筆時にChatGPTが回答した内容であり、同じ質問をしても別の答えを返すことがあります。
※上記コンテンツの内容やソースコードはAIで確認・デバッグしておりますが、間違いやエラー、脆弱性などがある場合は、コメントよりご報告いただけますと幸いです。
ITやプログラミングに関するコラム
- AGIの進化と影響とは?ビジネスから医療まで変えるAIの未来
- Pika Labsのウェイトリストに合格したので使ってみた!特徴と動画を生成する方法を紹介。
- Googleの「VideoPoet」が凄すぎる!プロンプトや画像から動画を自動生成。動画編集の常識が変わるかも。
- 【2024年】子どもにさせたい習い事は「英語」と「プログラミング教室」が人気。将来に必要だという理由が多数。
- AIに対する問題や否定的な意見とは?各国の動きや規制について紹介