Javaについて徹底解説!

JavaのPatternで正規表現に触れてみよう! 使用例もたくさんご用意!

大石 英人

開発エンジニア/Java20年/Java GOLD/リーダー/ボールド歴2年

JavaでPatternと言えば、正規表現(Regular Expression)で使うクラスのjava.util.regex.Patternを指すのが普通でしょう。このPatternとは、Javaで正規表現のパターンを表すクラスです。

このページをご覧になっているということは、Javaでの正規表現に興味・関心をお持ちなのだと思います。せっかくですので、Patternを通じてJavaでの正規表現の使い方を学びませんか? 絶対に役に立ちますよ!!

正規表現の知識は、文字列検索や文字列操作の作業効率をとても向上させます。正規表現は、Javaに限らず大抵のプログラミング言語で同じように使えますので、どこかできちんと学べば一生ものの知識になります。

この記事では、正規表現の初心者向けに、Javaでの正規表現のサンプルプログラムを通じて、正規表現ではどういうことができるのかをお伝えします。すぐに使える便利なパターンのサンプルもご用意しています。

※この記事のサンプルは、Java 12の環境で動作確認しています

目次


1.Patternは正規表現の「パターン」

1-1.正規表現とは文字列のパターンのこと

そもそも正規表現(Regular Expression)とはナニモノかというと、文字列が持っている「パターン」を共通した言い方で表して、プログラムからまとめて使えればすごく便利じゃない? というものです。

身の回りにあるいろいろな文字列は、ルールやパターンを持つものが多いです。例えば、郵便番号ってどんなもの?と聞かれたら、「3桁の数字と4桁の数字が“-“でつながったもの」とパターンを説明できますよね。

そんな文字列のパターンを、コンピュータがわかる書き方にしたのが正規表現です。パターンを正規表現で書きさえすれば、何かの文字列がそのパターンにマッチするかは、コンピュータはすぐさま確認できます。

人間が持つパターンを見出す能力と、コンピュータが持つ文句ひとつ言わずに大量・高速にガンガン処理できる能力。この二つをあわせれば、大量の文字列を相手にした作業であっても、怖いものなしなのです。

1-2.Javaでの正規表現はPatternMatcherを使う

正規表現は世の中にあるほとんどのプログラミング言語で使えます。もちろんJavaでも正規表現を使えますが、プログラミング言語の文法には組み込まれていないので、Javaでは正規表現のためのクラスを使います。

Javaの正規表現では、パッケージjava.util.regexにあるPatternMatcherというクラスを使います。Patternが正規表現の「パターン」を表し、Matcherが検査したい文字列と正規表現との「マッチング」を行います。

java.util.regex (Java SE 11 & JDK 11)

https://docs.oracle.com/javase/jp/11/docs/api/java.base/java/util/regex/package-summary.html

 

Pattern (Java SE 11 & JDK 11)

https://docs.oracle.com/javase/jp/11/docs/api/java.base/java/util/regex/Pattern.html

 

Matcher (Java SE 11 & JDK 11)

https://docs.oracle.com/javase/jp/11/docs/api/java.base/java/util/regex/Matcher.html

ちなみに、パッケージ名のregexは、REGular EXpressionの略です。regexとかreは他のプログラミング言語でもよく使われる略称ですので、覚えておくと「ああ、正規表現に関係する何かだね」とすぐわかりますよ。

1-3.Patternは正規表現を「コンパイル」して作る

正規表現はそれだけで一つのプログラミング言語ともいえる高機能・複雑なものです。ですので、正規表現を使う時には、事前に正規表現の「コンパイル」をするプログラミング言語が多いのです。Javaはその仲間です。

Javaで正規表現をコンパイルするには、java.util.regex.Patternのメソッドcompileを呼び出します。Pattern.compileからはPatternのインスタンスが戻ります。正規表現の構文どおりでないと、例外がthrowされます。

以下のように正規表現の文字列を引数にcompileを呼び出すと、正規表現のPatternのインスタンスが戻ります。なお、後者は正規表現として正しい構文ではないので、実行時にPatternSyntaxExceptionthrowされます。

なお、Patternは外部からnewして作れないので(コンストラクタが公開されていない)、必ずPattern.compileを使うことになります。

1-4.PatternはMatcherと組み合わせて使う

Patternは正規表現を表しているクラスです。でも、Patternだけでは文字列とのマッチングは出来ません。文字列とマッチングをするには、Pattern.matcherで得られるMatcherのインスタンスのメソッドを使います。

Patternとは正規表現そのもので、Matcherとは何かの文字列とのマッチングを行うもの(match + er)です。例えば、以下のように使い分けますが、PatternMatcherの役割の違いがお判りいただけるでしょうか。

Matcherについては、この後で簡単な使い方をご紹介します。マッチさせるにも、完全一致なのか、部分的な一致なのかなど、いろいろなマッチのさせ方がありますので、使い方は覚えておきたいですね。

1-5.Patternは使いまわしができる

コンパイルして作ったPatternはずっと使えます。つまり、Patternを使えるのは一回こっきりではないのです。むしろ、Patternの使いまわしをするために、PatternMatcherが別のクラスになっているのです。

例えば、以下のプログラムでは最初に作ったPatternをループの中でずっと使っています。Matcherはループしている行ごとにPatternから作り直していますが、Patternはずっと同じインスタンスを使っていますよね。

もちろん以下のようにも書けますし動きもします。でも、同じ正規表現をループごとにコンパイルするのはいろいろと無駄だったりします。Patternは、あらかじめ先に作っておいて、使いまわすのがお勧めです。

Patternが使われる場所により、Patternのインスタンスを保持する場所を、ローカル変数やフィールドのどれにするか選べます。ちなみに、Patternはスレッドセーフなので、マルチスレッドな環境でも安全に使えます。

1-6.Patternのその他のメソッド

1-6-1.Pattern.splitで文字列を分割する

Stringには、文字列を正規表現で指定した区切り文字で分割する、String.splitというメソッドがあります。Patternには、それと同じ動きをするPattern.splitがあります。

Pattern.splitのいいところは、複数のStringを同じ正規表現でsplitする場合でも、Patternの生成が1回で済むことです。複雑な正規表現を使う場合などで、プログラムの実行時間を少し短くできるかもしれません。

なお、分割する位置を指定するString.split(String, int)と同じ動作をする、Pattern.split(String, int)もあります。

String.splitの詳細は、以下の記事でご紹介していますので、よろしければご覧になってください。

関連記事

1-6-2.Pattern.asPredicate/asMatchPredicateでマッチ確認用のPredicateを作る

Java 8からはPattern.asPredicate、Java 11からはPattern.asMatchPredicateが使えます。これらは、それぞれMatcher.findmatchesを実行し、結果を戻すPredicateを生成するメソッドです。

ですので、「この正規表現にマッチするかどうか」をチェックできるPredicateを、お手軽に作れるということです。正規表現での「チェック処理」をインスタンス化して、色々な場所へ持ち運ぶのに使えそうですね。


2.正規表現の作り方

2-1.【重要】正規表現の基本のキ

正規表現の全てを完璧にマスターするのは難しいです。きちんと解説するなら一冊の分厚い本になるくらいです。しかも、Javaの正規表現には他のプログラミング言語の正規表現と違う部分も、少しだけあったりします。

でも、以下の基本的なものは他のプログラミング言語と同じなので、必ず覚えておきましょう。さらにPatternJavadocにもJavaの正規表現について書いてありますので、きちんと読んでおけば、いずれ役に立ちますよ。

記号意味マッチするもの
.何か一文字にマッチする.、..、.+a、ab、あいうえお
?直前のパターンが0回あるいは1回続くa?a、””(空文字列)
+直前のパターンが1回以上続くa+a、aa、aaa
*直前のパターンが0回以上続くa*a、aa、aaa、””(空文字列)
[][]の中にあるどれか一文字、-で範囲指定[abcd]、[a-z]a、ab、abcd
[^][]の中にないどれか一文字、-で範囲指定[^abcd]、[^a-z]1、ABC、あいうえお
{n}直前のパターンがn回続くa{5}aaaaa
{n,}直前のパターンがn回以上続くa{5,}aaaaa、aaaaaa、aaaaaaa
{,n}直前のパターンがn回以下続くa{,5}a、aaa、aaaaa
{m,n}直前のパターンがm回以上m回以下続くa{2,3}aa、aaa
|どちらかのパターンに一致するabc|123abc、123
()()の中をグループ化する(abc|123)abc、123
^行頭^abcabc defg ※abcから始まる文字列
$行末xyz$※xyzで終わる文字列

実際には、これらを組み合わせます。例えば、“/”区切りでの年月日は“[0-9]{4}/[0-9]{2}/[0-9]{2}”です。つまり、4つの数字、2つの数字、さらに2つの数字が/で区切られているもの、ということです。

でも、これだと実際にはカレンダーにはない13月や40日がOKなので、実用ではさらに工夫が必要です。明らかにおかしくないか程度のチェックを正規表現で行い、追加のチェックは別に書くのもよく見られます。

2-2.正規表現での特殊文字はエスケープが必要

2-2-1.\はJavaの文字列では特別な意味を持つ

正規表現では \ が特別な意味を持ちます。ですが、Javaでは文字列中の \ は正規表現の前に文字列のエスケープを意味するので、正規表現で \ を使いたい場合は \\ として、\の効果を打ち消さなければなりません。

さらに面倒なのは、\ そのものを正規表現で使いたい場合は、\ 自体を正規表現中で特別な意味を持たないよう、さらに打ち消さなければならないことです。ですので、\\\\ \ が四つ繋がることになります。

2-2-2.その他の特殊文字もそのまま使うならエスケープする

そして、正規表現では \ 以外に [] {} | . + * ? () ^ $なども特別な意味を持ちますが、これらもただの文字としたい場合は、\ でエスケープしなければなりません。

ただ、文字列すべての中から正規表現で特別な意味を持つものをぜんぶ手でエスケープするのは大変です。漏れも出てくるでしょう。楽かつ確実に行うには、以下の二つの方法があります。

方法①:Pattern.quote(String)を使う

 

方法②:正規表現へ \Q と \E を自分でつける

正規表現での \Q \E は、この二つの文字で囲まれている文字はそのままの意味を持つことを指示するものです。Pattern.quoteの結果も、同じことをしていますよね。ちなみに、\Q \E は途中に出てきてもOKです。

2-3.正規表現の例

ここでは、プログラミングの現場で使えるかもしれない正規表現の例を、いくつかご紹介します。基本的に、他のプログラミング言語の正規表現でも使えます。

これらの正規表現は、Matcher.mathcesでマッチング確認をすることが前提です。

2-3-1.数値/金額

シンプルな数字の確認(0埋め可、最大桁数
(例では13)を明示する場合)
\d{1,13}
金額(10,000などの3桁区切りも受け付ける)-?([1-9]\d{0,2}(,\d{3})*|[1-9]\d{0,})
金額(100,000.00など、3桁区切りかつ小数点以下も受け付ける)-?([1-9]\d{0,2}(\,\d{3})*(\.\d{0,2})?|[1-9]\d{0,}(\.\d{0,2})?|0(\.\d{0,2})?|(\.\d{1,2})?)

2-3-2.日付・時刻

YYYY/MM/DD・YYYY-MM-DDYYYY MM DDのどれか\d{4}([/\-. ])(0?[1-9]|1[0-2])\1(0?[1-9]|[12][0-9]|3[01])
YYYY/MM/DDを、各月でありうる日付のみに制限したもの\d{4}([/\-. ])((0?[13578]|1[02])\1(0?[1-9]|[12][0-9]|3[01])|0?2\1(0?[1-9]|[12][0-9])|(0?[469]|11)\1(0?[1-9]|[12][0-9]|30))
時分秒(HH:MM:SS、24時間制)(0?[1-9]|1[0-9]|2[0-3]):(0?[0-9]|[12345][0-9]):(0?[0-9]|[12345][0-9])
時分秒(HH:MM:SS、12時間制、最後のAM/PMで判断)(0?[1-9]|1[0-2]):(0?[0-9]|[12345][0-9]):(0?[0-9]|[12345][0-9])(?i)(AM|PM)(?-i)
時刻に秒以下まで含む場合(ミリ秒まで必須)(0?[1-9]|1[0-9]|2[0-3]):(0?[0-9]|[12345][0-9]):(0?[0-9]|[12345][0-9])\.\d{3}

2-3-3.郵便番号(日本国内)

XXX-YYY か XXXYYYY\d{3}-?\d{4}

2-3-4.電話番号(日本国内)

携帯電話(IP電話含む)0[5789]0-\d{4}-\d{4}
固定電話(X-Y-Z形式)0(?=.{6})\d{2,4}-\d+-\d{4}
固定電話(X(Y)Z形式)0(?=.{6})\d{2,4}\(\d+\)\d{4}
全て数字の形式(区切り文字、()なし)0\d{9}
市内通話(Y-Z形式)\d{1,4}-\d{4}
市内通話((Y)Z形式)\(\d{1,4}\)\d{4}

2-3-5.メールアドレス

簡易的なもの[\w.-]+@[\w-]+\.[\w.-]+
HTML5仕様にて推奨されているもの[a-zA-Z0-9.!#$%&’*+\/=?^_`{|}~-]+@[a-zA-Z0-9](?:[a-zA-Z0-9-]{0,61}[a-zA-Z0-9])?(?:\.[a-zA-Z0-9](?:[a-zA-Z0-9-]{0,61}[a-zA-Z0-9])?)*

2-3-6.IPアドレス

IPv4 シンプルなもの(256999が除外できない)(\d{1,3}\.){3}.\d{1,3}
IPv4 各オクテットを0255まででチェックできるもの((25[0-5]|2[0-4]\d|1\d{2}|[1-9]?\d)\.){3}(25[0-5]|2[0-4]\d|1\d{2}|[1-9]?\d)
IPv6(参考)(([0-9a-fA-F]{1,4}:){7,7}[0-9a-fA-F]{1,4}|([0-9a-fA-F]{1,4}:){1,7}:|([0-9a-fA-F]{1,4}:){1,6}:[0-9a-fA-F]{1,4}|([0-9a-fA-F]{1,4}:){1,5}(:[0-9a-fA-F]{1,4}){1,2}|([0-9a-fA-F]{1,4}:){1,4}(:[0-9a-fA-F]{1,4}){1,3}|([0-9a-fA-F]{1,4}:){1,3}(:[0-9a-fA-F]{1,4}){1,4}|([0-9a-fA-F]{1,4}:){1,2}(:[0-9a-fA-F]{1,4}){1,5}|[0-9a-fA-F]{1,4}:((:[0-9a-fA-F]{1,4}){1,6})|:((:[0-9a-fA-F]{1,4}){1,7}|:)|fe80:(:[0-9a-fA-F]{0,4}){0,4}%[0-9a-zA-Z]{1,}|::(ffff(:0{1,4}){0,1}:){0,1}((25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])\.){3,3}(25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])|([0-9a-fA-F]{1,4}:){1,4}:((25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])\.){3,3}(25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9]))

2-3-7.バーコード・ISBN

※形式的な確認のみ、チェックサムがあるものでも、その確認までは行わない

JAN\d{8}|\d{13}
CODE39(可変長)[\dA-Z-. *$/+%]+
NW-7(可変長)[\dA-Z-.$/+]+
ITF(可変長)\d+
ISBN-10ISBN(?=.{13})\d{1,5}([- ])\d{1,7}\1\d{1,6}\1(\d|X)
ISBN-13(2019年時点)ISBN97[89]([- ])(?=.{13}$)\d{1,5}\1\d{1,7}\1\d{1,6}\1\d

3.【参考】Matcherの簡単な紹介

さきほどお伝えしたとおり、Javaでの正規表現はPatternだけでは使えず、Matcherがセットになります。ですので、ここでMatcherの基本的な使い方も押さえておきましょう。

どのように文字列とマッチさせるかは、Matcherのメソッドを使い分けます。Matcherにはmatches/lookingAt/findという3つの検索用のメソッドがあり、目的に応じてきちんと使い分ける必要があるのです。

また、Matcher.replaceAllreplaceFirstも便利に使えるものですので、ここでそれらも少し紹介します。Matcherの知識がないと、この記事の後半がよく分からないということにもなりかねませんからね。

3-1.Matcher.matchesで全体が一致するか調べる

matchesは文字列全体とパターンマッチします。つまり、文字列の最初から最後まで、正規表現と一致するかなので、「文字列がこのパターンを含んでいるかだけ知りたい」というケースでは使いづらいです。

matchesは、String.equalsの正規表現バージョンだと思っていただいてもいいかもしれませんね。

3-2.Matcher.lookingAtで先頭から一致するか調べる

lookingAtは文字列の先頭からマッチングします。ですので文字列が「このパターンから始まる」かどうかが分かります。lookingAtは、String.startsWithの正規表現版だと考えていただいても、それほどずれていません。

3-3.Matcher.findで途中で一致するか調べる

findは文字列中にパターンを一つでも含むかを判断します。このfindもよく使うと思います。そして、文字列中にマッチする箇所が複数あったとしても、findを複数回実行すれば何箇所にマッチしたかが分かります。

ですので、findString.indexOfに近いイメージです。String.indexOfは開始位置を指定できますが、findを複数回繰り返すということは、indexOfの開始位置を後ろにずらすのと同じです。その意味でも似ていますね。

3-4.Matcher.replaceAll/replaceFirstで一致部分を入れ替える

Matcher.replaceAllとreplaceFirstは、マッチング部分を入れ替えるメソッドです。String.replaceAllとString.replaceFirstの中で行われている処理そのものでもあるのです。

使い方だけ簡単にお伝えしておきます。replaceAllはマッチング部分すべてを入れ替えて、replaceFirstは最初にマッチング部分のみ入れ替えます。この二つのメソッドのもう少し便利な使い方については後述します。

3-5.Matcher.group/groupsでキャプチャー結果を取り出す

Matcherのとても便利なメソッドは、group/groupsです。これらのメソッドは正規表現のキャプチャー(capture)と呼ばれる機能を使うためにあり、Patternとのつながりがとても強いので、後で詳しくお伝えします。


4.正規表現の活用例

ここでは、正規表現の活用例をいくつかご紹介します。

なお、JavaではPatternMatcherを直接使う以外にも、Stringなどには正規表現が指定できるメソッドがいくつかあります。それらを便利に使うことが、Javaでの正規表現を活用するためのコツだったりするのです。

4-1.空白や区切り文字などの除去、置換

空白や区切り文字の除去や置換は、正規表現の独壇場です。以下に、いくつかのパターンを示します。

これは途中の空白をすべて除去するものです。置換先を“”にすれば、文字の削除と同じ効果があります。

PatternとMatcher.replaceAllを使う代わりに、String.replaceAllでも同じことが出来ます。String.replaceAllは内部的にPatternMatcherを使っているので、結果は同じになります。

正規表現ですから、空白だけでなく、いくつかの文字を置換対象として同時に指定できます。この例では、空白とタブと改行文字を指定しています。このどれかに該当すればOKです。

文字列の先頭あるいは末尾の空白文字を削除することも簡単です。String.trimではいわゆる全角空白を削除してくれませんし、先頭だけ・末尾だけの削除もできません。ですが、正規表現を使えば簡単にできます。

以下のように、String.replaceFirstでやっても同じ結果になります。

\s とは別の、空白文字を表す文字クラス \h を使ってもいいでしょう。こちらには全角空白も含みます。

String.replaceFirstでやる場合は以下のようになります。

これ以外にも、文字列からのtrimについては以下の記事もあります。いろいろなtrimの仕方について書きましたので、よろしければご覧いただければと思います。

関連記事

4-2.文字列の要素分解(空白・カンマ区切りなど)

先ほどは区切り文字の置換などを行いましたが、今度は分割です。文字列の分割はString.splitを使うのが普通だと思いますが、実は内部的にはPatternを使っています。ですから、このようにも書けるのです。

正規表現を空文字列にすると、文字の境界にマッチするという意味になります。ですので、以下のようにやると文字単位に分割できるのですね。少し裏技チックです。

正規表現は改行文字も指定できるので、複数行を含んだ文字列も行ごとに分解できます。

区切り文字そのものも、分割した後の文字列に含めたい? それなら、少し特殊な書き方をすればできます。これには、後述する肯定後読みと、肯定先読みという正規表現の機能を使っています。

4-3.文字列のマスク

正規表現は、例えば、何かの文字列をマスクするのにも使えたりします。Matcher.replaceAllの活用例の一つですね。

大文字小文字を無視したければ、大文字小文字を無視する埋め込みフラグ (?i) を使うのがいいでしょう。

4-4.区切り文字の統一

文字列置換のバリエーションの一つですが、複数の区切り文字が混在した文字列の区切り文字を、何かに統一することもできます。

4-5.音引きの統一

あまり見ない例かもしれませんが、微妙に違う音引き(““)を一発で統一できたりもします。こんなことはできないかな? ということは、正規表現では実はできてしまったりするのです。

4-6.HTML/XML中の属性値の削除

パターンが見つけられさえすれば、対象がHTMLXMLでも問題ありません。例えば、以下の例ではタグにある不要な属性値(height)について、属性名と値の両方を削除しています。

4-7.ログファイルの解析

ログファイルは決まった形式であることが多いものです。よく見る形式は、日時、ログレベル、ログ出力クラス、ログメッセージが1行にまとまったものです。

そんなログファイルの1行から、それぞれの情報を抜き取るのにも、正規表現は便利に使えます。この例では、後述する正規表現のキャプチャー機能を使っています。String.splitを使ってもいいのですが、少々面倒です。

4-8.テンプレートの文字列置換

正規表現でマッチングさせた文字列を、何かのルールで決めた文字列で置換することもできます。以下の例では、正規表現でマッチングさせた文字列に対応する文字列をMapから探して、置換するものです。

これは、ごく簡単なテンプレートエンジンのようなものですね。String.replaceでも同じことはできるのですが、こういうやり方も、やろうとすればできるということです。


5.【発展】Patternの便利な機能たち

さて、ここまでがJavaのクラスとしてのPatternMatcherの基本です。ここからは、PatternMatcher256%活用するために必要な知識やプログラミングの仕方をお伝えしていきます。

5-1.【重要】マッチング部分を取り出すキャプチャー

Patternの機能で絶対に使いたいのが、“()”を使ったグループ化とマッチング部分の参照です。正規表現の世界ではキャプチャー(capture)と呼ばれる機能ですが、これを知っているかどうかで作業効率は大違いです。

つまり、正規表現はパターンにマッチするか確認するだけのものではないのです!! マッチング部分をキャプチャーすれば、後から文字列を取得できたり、置換などに活用できることはぜひ知っておきましょう。

5-1-1.Matcher.group(int)を使ってみる

Matcher.groupを使うと、マッチング部分を後から取得できます。つまり、文字列のマッチングと抽出を一度にできるということです。これができれば、面倒なString.substringindexOfとはもうおさらばです。

groupへの数字は、パターン中にある()1からの連番です。0だとマッチング部分の全体が戻ります。どれだけマッチした箇所があるかは、Matcher.groupCountで分かります。この例では、groupCount3が戻ります。

もし一つの文字列にマッチする部分が複数あるのなら、findfalseを戻すまでループをしましょう。findは一つの文字列の中に複数マッチする部分があるなら、複数回実行するとマッチする部分を全部調べてくれます。

5-1-2.Matcher.group(String)を使ってみる

Matcher.group(int)では位置を数字で指定しましたが、グループが多いと分かりづらいですし、数字はずれやすいです。そういう時は?<名前>でグループに名前を付けます。これは「名前付きのキャプチャ」と呼びます。

あらかじめ名前を付けておけば、その名前でMatcher.group(String)を呼べば、その部分の文字列を取得できます。正規表現内のグループの順番が変わっても文字列取得処理を変えなくてもいいので、なかなか便利ですよ。

5-2.マッチング部分を置換時に$で参照する

()でのグループ化と似ていますが、こちらはMatcher.replaceAllreplaceFirstで使える機能で、置換先文字列の中で、マッチング部分を $ で参照できるのです。例えば、以下のようなことができます。

先ほどのgroupと似ていますね。matcher.group(1)“2019”ですが、これが$1に対応します。同じようにgroup(2)“04”$2group(3)“30”$3です。つまり、$の後ろにgroupの数字を付ければいいのです。

ということは、文字列を入れ替えるだけならgroupをしなくてもいいのです。replaceAll/replaceFirstの置換後文字列に入れ替えたい文字列を指定するだけで、並び替え程度ならサクッと済んでしまうのですね。

さらにグループに名前を付けて、それをreplaceAllでの置換文字列の中で参照させられます。これもMatcher.group(String)と同じ機能です。これらを使えば、文字列置換の処理をより分かりやすくできるのです。

ちなみに、Matcher.replaceAllやreplaceFirstは、String.replaceAllとreplaceFirstの内部で行われている処理なので、当然ながら以下のようにもできるのです。これの使い方はいろいろあると思いますよ!!

5-3.最短一致をさせてみる

Javaの正規表現は、デフォルトでは最長一致と呼ばれるアルゴリズムでマッチします。つまり、マッチした中でもっとも広い範囲をマッチした範囲とするということなのですが、具体的には以下のようになります。

このパターンでは、の後ろにがあって、さらに1つ以上連続しているものです。ここで、検索文字列から一番長くマッチする部分を探すので(最長一致)が連続している最後の部分までマッチしています。

これを一番少ないところまでとするのが「最短一致」です。最短一致にする場合は、繰り返しを指定するパターンの後ろへ“?”を付けます。以下の例だと、マッチする部分が一番短いあいになりましたね。

このように、正規表現ではマッチさせたい範囲をコントロールすることもできるのです。

5-3-1.【参考】強欲な数量子を使ってみる

Javaの正規表現には、少々珍しい機能の「強欲な数量子(Possessive Quantifiers)」があります(数量子の後ろにさらに+を付ける)。言葉での説明は少々難しいですが、例えば以下のようなマッチングの差が出てきます。

最初のパターンでは、まず[a-z]+の部分でabcdefgzの全体にマッチできますよね。でもパターンの最後にzがあるので、[a-z]+でマッチする部分をちょっとだけ少なくして、zもマッチするような調整が自動で入ります。

「強欲な数量子」だと、[a-z]+の部分でabcdefgzの全体にマッチした後に、パターン最後のz向けの調整が入りません。マッチング結果を手放さないので「強欲な」なのです。なので、[a-z]++zではマッチしないのです。

この強欲な数量子を使うのは、例えば正規表現のマッチング処理の速度が必要な時です。前述のとおり、強欲な数量子だと再マッチを試みないので、その分処理が速くなります。でも、結果が違ってくるので要注意です。

5-4.【発展】動作を変えるフラグを使ってみる

Patternの動作を変えるには、いくつかのフラグが使えます。これは、オーバーロードされているPattern.compile(String, int)の二つ目のintへ指定できる、Patternpublic staticな定数です。

複数の修飾子を同時に有効にする場合は、intの数値を論理和演算子(|)でつなぎ合わせます。

あるいは、正規表現中に特別な文字を埋め込むことでも、同じ効果が得られます(埋め込みフラグと呼びます)。埋め込みフラグを解除するには、(?-x)とします。

どういうフラグがあるかは、PatternJavadocのフィールド説明部分を参照してください。それぞれのフラグにはどういう意味があるか、埋め込みフラグとしてはどう指定すればいいのかもきちんと書かれています。

5-5.【発展】後方参照をしてみる

正規表現の中で、同じマッチ結果が出てくるか調べたいことがあります。そういうことを正規表現の「後方参照」を使えば一発で出来たりします。例えば、以下の正規表現で申請者と承認者の名前が同じか調べられます。

パターン中の \1 がポイントです。これは先の (.+?) の結果を参照しています。以前のマッチ結果を参照しているので「後方参照」と呼びます。\の後ろの数字は () の数に対応していて、Matcher.group(1)と同じです。

これも数字ではなく文字で名前を付けられます。名前は ?<名前> でつけて、\k<名前> で参照します。これなら ()の位置が変わっても、名前は変わらないので便利ですね。要はMatcher.group(“person”)と同じです。

5-6.【発展】先読み・後読みをしてみる

正規表現には先読みと後読みと呼ばれる機能があります。さらにパターンがマッチする・しないで肯定と否定の二種類がありますので、先読み・後読み、肯定・否定を組み合わせると以下の四種類のパターンがあります。

  • 肯定先読み
  • 否定先読み
  • 肯定後読み
  • 否定後読み

5-6-1.肯定先読み

肯定先読み(?=)とは、何かのパターンの「先」に、指定されたパターンがさらにあるか確認することです。普通のパターンとの違いは、マッチング結果には先にあると指定したパターンが含まれないことです。

この例では、猫はの後ろに、何かの文字がありつつかわいいがあるか肯定先読みで確認しています。実際には条件を満たすのでfindtrueを戻し、マッチング部分には先読みした部分は入っていないことに要注目です。

5-6-2.否定先読み

否定先読み(?!)とは、肯定先読みの逆で、何かのパターンの「先」に、指定されたパターンがないことを確認することです。では、これも例で見てみましょう。

この例では、猫はの後ろにはかわいくないという文字列は出現していませんよね。ですので、findの結果はtrueになり、マッチング部分も肯定先読みと同じように猫はとなるのです。

5-6-3.肯定後読み

さて、大体パターンはつかめてきたかもしれませんが、肯定後読み(?<=)とは何かのパターンの「前」に、指定されたパターンがあることを確認することです。これも例で見てみましょう。

ただし、Javaの後読みでは数量子が使えません。つまり、+*が使えないということです。{}?は使えます。これは、後読みの実装難易度が高いからのようで、プログラミング言語によって使えるものが違うのです。

5-6-4.否定後読み

最後の否定後読み(?<!)も例を出します。他のものと同じ流れですね。


6.まとめ

この記事では、JavaPatternを足掛かりにして、正規表現の世界に少し足を踏み入れてみました。

Javaでの正規表現はPattern.compilePatternのインスタンスを作って使うもので、一旦作ったPatternは流用ができるものです。そして、マッチングではPatternからMatcherを生成して、そのメソッドを呼び出します。

PatternとMatcherの重要な機能は、マッチング結果を後から参照できるキャプチャーです。キャプチャーを使えるかで、文字列処理の効率が大きく変わります。簡単なものでいいので、ぜひ使えるようになってください。

Javaの正規表現は、他のプログラミング言語のものに負けず劣らず強力です。プログラミング言語の組み込み構文ではありませんが、必要な機能は揃っていますので、ガンガン便利に活用しましょう。

私たちは、全てのエンジニアに市場価値を高め自身の望む理想のキャリアを歩んでいただきたいと考えています。もし、今あなたが転職を検討しているのであればこちらの記事をご一読ください。理想のキャリアを実現するためのヒントが見つかるはずです。

『技術力』と『人間力』を高め市場価値の高いエンジニアを目指しませんか?

私たちは「技術力」だけでなく「人間力」の向上をもって遙かに高い水準の成果を出し、関わる全ての人々に感動を与え続ける集団でありたいと考えています。

高い水準で仕事を進めていただくためにも、弊社では次のような環境を用意しています。

  • 定年までIT業界で働くためのスキル(技術力、人間力)が身につく支援
  • 「給与が上がらない」を解消する6ヶ月に1度の明確な人事評価制度
  • 平均残業時間17時間!毎週の稼動確認を徹底しているから実現できる働きやすい環境

現在、株式会社ボールドでは「キャリア採用」のエントリーを受付中です。

まずは以下のボタンより弊社の紹介をご覧いただき、あなたの望むキャリアビジョンをエントリーフォームより詳しくお聞かせください。

コメント