スプレッドシートのREGEXEXTRACT関数とは
REGEXEXTRACT関数は正規表現パターンを使用してテキストデータから特定の部分文字列を抽出するGoogleスプレッドシートの組み込み関数です。この関数は英名でExtracts the first matching substringと呼ばれており、複雑なテキストから必要な情報だけを効率的に取得できます。
REGEXEXTRACT(テキスト, 正規表現)の基本構文で使用され、指定した正規表現パターンに最初にマッチした部分を戻り値として返します。マーケティング分野では顧客データの整理やURL解析、メールアドレスの抽出など様々な場面で活用されています。
【PR】プログラミングや生成AIを無料で学べる「コードキャンプフリー」
基本的な構文と引数の詳細
REGEXEXTRACT関数の第一引数textには抽出対象となる文字列を指定し、第二引数regular_expressionには抽出パターンを定義する正規表現を記述します。テキスト引数には直接文字列を入力するかセル参照を使用でき、数値を入力する場合は事前にTEXT関数で文字列に変換する必要があります。
=REGEXEXTRACT("My favorite number is 241, but my friend's is 17", "\d+")
上記のサンプルコードでは数字を表す正規表現パターン\d+を使用して文字列から最初の数値241を抽出しています。正規表現パターンは RE2エンジンに基づいており、Unicodeキャラクタークラスマッチングを除くすべての機能が利用可能です。
キャプチャグループによる複数値抽出
REGEXEXTRACT関数では括弧を使用してキャプチャグループを定義することで、一度に複数の値を異なる列に抽出できます。キャプチャグループが定義されていない場合は正規表現全体にマッチした部分が単一の結果として返され、複数のキャプチャグループがある場合は各グループの内容が別々の列に分割されます。
=REGEXEXTRACT("You can also extract multiple values from text.", "You can also (\w+) multiple (\w+) from text.")
このサンプルでは2つのキャプチャグループ(\w+)を使用して単語extractとvaluesを別々の列に抽出しています。\w+は英数字とアンダースコアにマッチする正規表現パターンで、各括弧で囲まれた部分が個別のキャプチャグループとして機能します。
※上記コンテンツの内容やソースコードはAIで確認・デバッグしておりますが、間違いやエラー、脆弱性などがある場合は、コメントよりご報告いただけますと幸いです。
ITやプログラミングに関するコラム
- Canvaとは?使い方やアカウント登録などを初心者向けに解説
- git configで設定情報を確認・表示する方法
- 「Pythonはやめとけ」と言われる理由と学習するメリット
- Ubuntuのversionを確認する方法
- Geminiで画像を生成する方法|ChatGPTとの比較結果も紹介