TigerCow.Door

'파이썬 re 모듈'에 해당되는 글 1건


안녕하세요.

이번 포스팅에서는 파이썬에서 정규 표현식을 지원하는 re모듈, 정규식을 이용한 문자열 검색과 정규식 컴파일 수행시 가능한 옵션에 대해서 알아보도록 하겠습니다.

지난 포스팅에서도 말씀 드렸듯, 정규표현식은 단순히 파이썬에서만 사용되는 것이 아닙니다. 기본적인 정규표현식을 익혀두시면 그 쓰임새는 무궁무진하며, 단순히 프로그래밍 언어에 따라 사용법만 약간의 차이가 있을 뿐 입니다.



1. re 모듈


파이썬에서는 정규 표현식을 사용하기 위해 re(regular expression) 모듈을 제공합니다. 파이썬이 설치될 때 함께 설치되는 라이브러리로 단순히 import 하여 사용할 수 있습니다.


import re


그리고 re모듈을 이용하여 우리가 작성하는 정규표현식을 컴파일합니다.

여기서 컴파일한다는 의미를 쉽게 생각해본다면, 우리가 작성한 정규표현식을 이해하라고 명령을 내린다고 생각해 볼 수 있습니다.

예를 들어서, 아래와 같이 코드를 작성했다고 생각합니다.


1
2
import re
= re.compile('[a-z]')
cs


1번 줄에서 re 모듈을 불러 왔고, 2번 줄에서 re모듈의 compile함수를 사용합니다. 그리고 해당 함수의 인자로 정규표현식을 넣어주었습니다.

이렇게 하면 정규식을 컴파일한 '패턴'이라는 객체가 나오게 됩니다.

즉, p는 [a-z]라는 정규식을 이해한 객체, 패턴이 되는 것입니다.

그리고 우리는 해당 객체 (위에서는 p)를 이용하여 문자열 검색을 수행할 수 있습니다.



2. 문자열 검색하기


정규식을 컴파일한 패턴 객체를 이용한 문자열 검색을 하는데 총 4가지의 메서드가 제공됩니다.


 Method

목적 및 기능

 match()

 문자열의 처음부터 정규식과 매치(일지)하는지 확인한다.

 search()

 문자열 전체를 검사하여 정규식과 일치하는지 확인한다.

 findall()

 정규식과 매치되는 모든 문자열(substring)을 리스트로 반환한다.

 finditer()

 정규식과 매치되는 모든 문자열(substring)을 iterator 객체로 반환한다.


이때, match()와 search()는 정규식과 매치될 때, match 객체를 반환하고 그렇지 않을 때는 None을 반환합니다.


하나씩 코드를 보며 확인해보도록 하겠습니다.



- match()


위에서 언급했던 것 처럼, match() 함수는 문자열에 대해 처음부터 검사하여 정규식과 매치될 때 match 객체를 반환하고 그렇지 않으면 None을 반환합니다.

이때, match 객체로 반환되었다면 group() 함수를 통해 매치된 문자열을 확인할 수 있습니다.

match는 search와 다른점을 구별하기 위해서, match 는 문자열의 처음부터 검사한다는 것을 기억하시길 바랍니다.



위의 코드에서와 같이, 먼저 p 에 정규식 '[a-z]+' 을 컴파일 하였습니다.

그리고 총 3개의 테스트를 진행해보았습니다.


첫번째 테스트에서는 itsfine 이라는 문자열 모두가 정규식에 매치되어 그대로 반환되었습니다.

두번째 테스트에서는 3이라는 숫자로 시작하는 문자열이기 때문에 애초 3부터 정규식과 매치되지 않아 None을 반환하였고, None에 대해 group() 함수는 오류를 발생시킵니다.

세번째 테스트에서는 중앙에 있는 숫자 4의 위치전까지의 what 이라는 문자열이 정규식에 매치되어 그 값을 반환할 수 있었습니다.



- search()


search() 함수는 문자열 전체를 검사하여 정규식과 매치되는지 확인합니다.

match() 함수와 거의 동일하지만, match 는 문자열 처음부터 검사하고, search는 문자열 전체를 검사하는 차이가 있습니다.

이 차이가 실질적으로 어떤 차이가 있을지 코드를 통해 확인해보도록 하겠습니다.



위에서 확인해본 match() 함수에서 사용한 코드에서 단순히 검색 메소드를 search() 로 바꾸어보았습니다.

아까는 오류가 났었던 두번째 테스트에서 fail을 잘 반환해주고 있습니다.

즉, match() 함수는 문자열 처음부터 검색을 시작하다가 정규식과 매치되지 않는 문자열이 발견되면, 검색을 멈추고 지금까지 매치된 것을 반환하게 됩니다.

이와 다르게 search() 함수는 정규식과 매치되지 않는 문자열이 발견되더라도 지금까지 매치된 문자열이 없으며 탐색을 계속합니다. 세번째 테스트에서 확인할 수 있듯이, 매치되지 않는 문자열이 발견되었는데, 그 전에 매치된 문자열이 있었다면 match() 와 동일한 행동을 취하게 됩니다.



- findall()


이번에 알아볼 함수는 문자열 전체에서 정규식과 매치되는 모든 문자열을 리스트로써 반환하는 findall() 함수 입니다.

위에서 확인했던 테스트들과 동일한 값으로 테스트를 진행해보았습니다.



차이점이 보이시나요?

일단 findall() 함수는 특정 객체가 반환되는 것이 아니고, 정규식과 일치되는 모든 문자열을 리스트로 묶어서 반환해주기 때문에 group() 과 같은 함수를 사용할 필요가 없습니다.

또한 세번째 테스트를 확인해보면 match() 와 search()에서는 반환되지 않았던 'o'가 반환되는 것을 볼 수 있습니다.



- finditer()


finditer() 함수는 findall() 함수와 기능적으로 동일하지만 반환하는 형태가 다릅니다.

코드를 통해 어떻게 다른지 확인해보겠습니다.


위의 코드를 보시면, finditer() 함수는 findall() 함수와 같이 정규식과 매치되는 모든 문자열을 반환하지만 리스트형이 아닌 iterator객체로 반환합니다.

이를 확인하기 위해서 for 문을 이용하였고, 세번째 테스트를 보시면 그 결과를 확인할 수 있습니다.

해당 iterator 객체에서 문자열을 꺼내기 위해서는 match() 와 search() 에서 이용했던 group() 함수를 이용하면 됩니다.



+ 모듈로 한번에 실행하기


지금까지 우리는 아래 두줄의 코드와 같이 p 라는 것을 re.compile() 에 대한 객체로 두고, 해당 객체를 통해 검사 메소드를 실행시켜 m 객체를 얻었습니다.


p = re.compile('[a-z]+')

m = p.match('hello')


하지만 단순히 모듈에서 실행할 수 있는 방법이 있습니다. 즉, 위의 두줄 코드를 한줄로 줄일 수 있는 방법입니다.


m = re.match('[a-z]+', 'hello')


이와 같이 작성해도 위에서와 같은 결과를 반환합니다.

물론, match 이외의 나머지 함수또한 동일한 방법으로 사용가능합니다.



3. 컴파일 옵션


우리는 위에서 정규식을 컴파일하고, 특정 함수들의 특징에 따라 문자열에 대해 검색하는 방법에 대해서 알아보았습니다.

추가적으로 알아볼 내용은, 정규식을 컴파일할 때 추가할 수 있는 옵션들에 대해서 입니다.

추가할 수 있는 옵션으로는 총 4개가 있습니다.

옵션을 사용하는 방법으로는, 컴파일 함수에 두번째 인자로 옵션값을 입력해주면 됩니다.

예를 들어,


p = re.compile('[a-z]+', DOTALL)


과 같은 식으로 DOTALL 옵션을 사용할 수 있습니다. 이후 검색메소드를 사용하는 등의 행위는 그전과 동일합니다.


하나씩 천천히 알아보도록 하겠습니다.



- DOTALL or S


우리가 지난 포스팅에서 메타문자에 대해서 알아볼 때, dot( . )이라는 메타문자는 줄바꿈(\n) 을 제외한 모든 문자에 대한 의미라고 설명드렸습니다.

이때, 줄바꿈 조차 포함을 하기 위해서는 DOTALL 또는 S 컴파일 옵션을 사용하면 됩니다.


ex)

p = re.compile('[a.b]', re.DOTALL)

또는

p = re.compile('[a.b]', re.S)



- IGNORECASE or I


해당 옵션은 문자의 대소문자를 무시하는 옵션입니다.

즉, 원래대로라면 알파벳에서 대소문자 모두를 포함한 문자열을 의미하는 정규식은, '[a-zA-Z]' 이었겠지만, 해당 옵션을 사용하면 단순히 '[a-z]' 를 사용해도 됩니다.


ex)

p = re.compile('[a-z]', re.IGNORECASE)

또는

p = re.compile('[a-z]', re.I)



- MULTILINE or M


해당 옵션은 우리가 추후에 더 알아볼 메타문자 ^ 와 관련이 되어 있습니다.

옵션에 대한 설명을 위해 간단히 말씀드리면, 메타문자 ^ 는 문자열의 처음(시작)을 의미합니다. 즉 정규식 '^hello' 라고 한다면, hello 로시작하는 문자열을 의미하는 것입니다.

그런데 일반적으로 '^hello\s\w+' 라는 정규식을 이용하면

'''

hello python

Im beomwoo

hello everyone

'''

과 같은 여러개의 줄로 이루어진 문장에 대해서 첫번째 문장인 hello python 만을 반환하게 됩니다. findall() 함수를 사용해도 첫번째 문장만 반환하게 되는데 그 이유는 위의 문단이 결국 'hello python\nIm beomwoo\nhello everyone' 과 같은 문장이기 때문입니다.

이때 MULTILINE 옵션을 사용하면 각 문장에 대해서 정규식에 대해 검색을 진행합니다.

즉, MULTILINE을 사용한 컴파일에서 findall 메소드를 사용한다면 위의 문단이 반환하는 리스트는, ['hello python', 'hello everyone'] 이 될 것입니다.


ex)

p = re.compile('^hello\s\w+', re.MULTILINE)

또는

p = re.compile('^hello\s\w+', re.M)



- VERBOSE or X


해당 옵션은 특정 기능에 대한 것이라기 보다는 정규식을 보다 시각적으로 좋게 보기 위한 옵션입니다.

예를 들어서,

charref = re.compile(r'&[#](0[0-7]+|[0-9]+|x[0-9a-fA-F]+);')

이러한 정규식이 있다고 생각해봅시다. 아직 우리가 정규식에 대해 100% 공부를 하고 이해가 된것이 아니라는 것을 감안해도, 해당 정규식을 제대로 이해하기 어려운 부분이 있습니다. 하지만 VERBOSE 또는 X 정규식을 사용하면, 아래와 같이표현이 가능합니다.


charref = re.compile(r""" &[#] # Start of a numeric entity reference ( 0[0-7]+ # Octal form | [0-9]+ # Decimal form | x[0-9a-fA-F]+ # Hexadecimal form ) ; # Trailing semicolon """, re.VERBOSE)

아직 우리는 이렇게 되어있어도 이해가 어려울 수 있지만 나중에 정규식을 더 공부하고나면 위의 코드가 더 이해하기 편할 것입니다. 또한 # 을 통해 주석을 쓸 수 있기 때문에, 보다 쉽게 코드를 이해할 수 있습니다.



이렇게 해서 정규식에 대한 두번째 포스팅을 진행하였습니다.

이번 포스팅에서는 정규식에서 사용되는 4가지 메소드와 4가지 컴파일 옵션에 대해서 알아보았습니다.

추가적으로 궁금한 사항은 댓글 및 이메일을 이용해주세요 :)

블로그 이미지

Tigercow.Door

Web Programming / Back-end / Database / AI / Algorithm / DeepLearning / etc

댓글을 달아 주세요