프로그래밍 언어/Python

파이썬(python) #19_ 정규 표현식이란? (1)

Tigercow.Door 2018. 3. 20. 16:14


안녕하세요. 문범우입니다.

지난 포스팅에서 파이썬의 내장 및 외장함수까지 알아보며 파이썬에 대한 전체적인 설명은 마무리 된 것 같습니다.

추가적으로 이번 포스팅에서는 정규 표현식이라는 개념에 대해서 알아보려고 합니다.

정규 표현식은 파이썬 이외에도 많은 곳에서 사용될 수 있습니다.


1. 정규 표현식(Regular Expressions)이란?


정규 표현식(Regular Expressions)은 복잡한 문자열을 처리할 때 사용하는 기법입니다. 위에서도 말씀드렸듯, 파이썬 만의 고유 무법이 아니라 문자열을 처리하는 모든 곳에서 사용되는 것입니다. 즉, 정규표현식을 배우는 것과 파이썬과의 직접적인 연관은 크게 없습니다.

정규 표현식은 고급 주제이기 때문에 아직 프로그래밍이 익숙하지 않으신 분들에게는 많이 어려울 수 있습니다.


정규식이라고도 불리는 정규표현식은 왜 필요할까요?

아래의 간단한 예제를 보면 쉽게 이해할 수 있을 것입니다.

다음과 같은 문제가 주어졌다고 가정합니다.


- 주민등록번호를 포함하고 있는 텍스트가 있다. 이 텍스트에 포함된 모든 주민등록번호의 뒷자리를 * 문자로 변경하시오.


먼저, 정규식을 몰랐다고 했을 때 여러개의 조건을 활용하여 위의 문제를 해결하기 위한 코드를 작성한다면 다음과 같을 것입니다.



이와 다르게, 정규식을 사용한다면 아래와 같은 코드를 통해 문제를 해결할 수 있습니다.



아직 정규식에 대해 제대로 배우지 않았으니 간편히 코드만 어떤느낌인지 보시면 됩니다.

이렇게 간단한 문제 하나를 비교해보아도 한눈에 보이는 것은 코드의 복잡성입니다.

정규식으로 해결한 코드는 코드가 매우 간단하고 직관적으로 보입니다.

문자열에 대해 우리가 보다 복잡한 문제가 주어졌을때 정규식은 보다 큰 효용성을 보여줄 것입니다.

그리고 이러한 것이 우리가 정규표현식을 배우고, 알아야 할 이유와 같습니다.



2. 정규 표현식의 기초, 메타 문자


먼저 정규 표현식에서는 메타 문자라는 것을 사용 합니다.

메타문자란, 원래 그 문자가 가진 뜻이 아닌 특별한 용도로 사용되는 것을 이야기 합니다.

정규 표현식에서 사용되는 메타 문자(meta characters)는 다음과 같은 것들이 있습니다.


. ^ $ * + ? { } [ ] \ | ( )


그럼 하나씩 알아보도록 하겠습니다.


먼저, 문자 클래스 [ ]

우리가 가장 먼저 살펴볼 메타 문자는 문자 클래스(character class)인 [ ] 입니다.

문자 클래스로 만들어진 정규식은 [ 과 ] 사이의 문자들과 매치하는 것 이라는 의미를 가집니다.

즉, [abc] 라는 정규 표현식이 있다면 해당 표현식의 의미는 'a, b, c 중 한개의 문자와 매치되는 것'이라는 의미를 가집니다.

예를 들어 본다면 [abc]는 문자열 "a", "before"와 매치되며 "dude"와는 매치되지 않습니다.


그리고 문자클래스 [ ] 안에서 하이픈(-)을 사용하게 되면 범위를 말하게 됩니다.

즉, [0-4] 는 [01234]와 같은 의미의 정규표현식이며 [a-e] 는 [abcde]와 같은 의미의 정규표현식 입니다.


또한 자주 사용되는 문자 클래스는 아래와 같이 별도의 표기법으로 표현할 수도 있습니다.


별도 표기법

정규 표현식

설명

\d

[0-9] 

모든 숫자와 매치되는 의미 

\D

[^0-9]

숫자가 아닌 것과 매치됨을 의미

\s

[ \t\n\r\f\v]

whitespace 문자와 매치되는 것을 의미

\S

[^ \t\n\r\f\v]

whitespace 문자가 아닌 것과 매치됨을 의미

\w

[a-zA-Z0-9]

문자+숫자와 매치 되는 것을 의미 

\W

[^a-zA-Z0-9]

문자+숫자가 아닌 것과 매치됨을 의미



두번째로, Dot(.)

정규 표현식의 Dot(.) 메타 문자는 줄바꿈 문자인 \n을 제외한 모든 문자와 매치됨을 의미합니다.

즉, a.b 는 a와 b사이에 줄바꿈 문자를 제외한 어떤 문자가 들어가도 모두 매치되는 것입니다.

하지만 주의할 점은 a와 b 사이에 어떤 문자라도 하나 이상은 꼭 들어가야 매치 됩니다.

예를 들어보면, a.b 정규식과 "aab"와 "a0b"는 매치되지만 "abc"는 매치되지 않습니다. 문자 a와 b 사이에 어떤 문자가 최소 하나 존재하지 않기 때문입니다.


추가적으로, a[.]b 라는 정규식은 "a.b"와 매치되는 정규식입니다.



세번째, 반복(*)

go*gle 이라는 정규식을 보겠습니다.

여기서 반복의 의미를 가진 메타문자 * 는 해당 메타문자 앞의 문자가 0번이상 무한대로 반복될 수 있음을 의미합니다.

즉, go*gle 이라는 정규식은, "ggle", "gogle", "google", "goooooooogle" 과 모두 매치됩니다.



네번째, 반복(+)

반복을 나타내는 메타문자는 하나 더 있습니다. 바로 + 인데 *와 다른 점은, + 메타문자는 반복 회수가 최소 1번이상이어야 합니다.

즉, go+gle 이라는 정규식에 대해 "ggle"은 매치되지 않습니다.



다섯번째, 반복({m,n})

그런데, 반복 회수를 정하고 싶다면 어떻게 해야될까요?

무한번 반복까지 매치되는 것이 아니라, 예를 들어, 3번 또는 2번만 반복되는 문자열만 매치되게 하고 싶다면?

이럴떈 { } 메타문자를 이용하면 됩니다.

{m, n} 정규식을 사용하면 반복 횟수가 m부터 n까지 인 것을 매칭할 수 있습니다. 또한 m 이나 n 둘중 하나를 생략할 수 있습니다. 즉, {,3} 이라면 반복회수가 3이하인 것을 의미합니다.

이를 통한 몇가지 예시를 보면 다음과 같습니다.

go{2}gle : 해당 정규식은 o가 반드시 2번 반복되는 문자열과 매치됩니다.

go{2,4}gle : 해당 정규식은 o가 반드시 2번이상, 4번이하 반복되는 문자열과 매치됩니다.



여섯번째, 반복(?)

마지막으로 알아볼 메타문자는 ? 입니다.

? 가 의미하는 메타문자는 {0,1} 입니다.

즉 0번~1번 반복되는 것을 의미합니다.


이렇게 해서 정규식에 대한 기본적인 개념과 몇가지 메타문자에 대해 알아보았습니다.

다음 포스팅에서는 파이썬에서 정규 표현식을 지원하는 re 모듈에 대해 알아보도록 하겠습니다.

728x90