TigerCow.Door

안녕하세요. 문범우입니다.

오랜만에 파이썬으로 필요한 프로그램을 만들어 공유하려고 글 작성합니다.

소개해드리고자 하는 프로그램은


중고나라에서 키워드 검색후 게시글 크롤링 및 메일 발송

기능을 가진 프로그램입니다.


모든 소스코드는 아래의 github주소에 공개되어있습니다.

https://github.com/doorBW/joonggonara_crawl


간단하게 활용 스택 및 배운점 등을 공유하겠습니다.


1. 활용 스택


- Python 3.7.1

- pyenv 및 virtualenv를 통한 가상환경설정

- Selenium / BeautifulSoup / smtplib / dotenv 라이브러리 활용

- ubuntu crontab 활용


위와 같은 언어 및 라이브러리를 활용하였습니다.

crawl.py 에서 중고나라 사이트에 접속하여 사전에 설정해놓은 키워드로 검색을 하고

50개씩 보기를 선택한 후에 중복 글쓴이를 제외한 나머지 게시글을 리스트로 만들어서 메일로 발송합니다.

해당 파일은 aws의 개인서버에 두고 crontab을 활용하여 정해진 시각에 실행되도록 설정하였습니다.



2. 배운 점


과거에 selenium을 활용해본적은 있으나, 이번에 보다 많이 활용해본 것 같습니다.

네이버 카페에서 게시글이 나오는 쪽이 iframe으로 설정되어 있어 selenium에서 frame도 바꿔주어야 했고,

50개씩 보기를 선택하면서 보다 활용도가 높았던 것 같습니다.

활용할수록 매우 재미있는 라이브러리 같아서, 여름쯤 시간내서 한번 더 깊게 공부해보면 재미있을 것 같습니다.

관련되서 재밌는 프로젝트들에 대해서 아시는게 있다면 알려주세요 :)

이 외에 다른 라이브러리나 ubuntu crontab 활용에 대해서는 과거에 사용해봤던 것과 동일했기 때문에 따로 언급하지 않겠습니다.



3. 더 공부해볼 점


사실상 게시글 제목을 중심으로 크롤링을 진행했지만, 그러한 제목에는 상품의 가격이 제대로 나와있지 않습니다.

가격 또한 쉽게 보려면 게시글에 들어가서 내용을 검토해야 하는데, 그렇게 하지 않은 이유는 게시글 내용에서도 가격이 정확하게 나와 있지 않기 때문입니다.

중고나라에서 가격을 적는 칸이 있지만, 사실 대다수가 지키지 않고 있는 실정입니다.

이에 따라서 게시글 내용을 text로 반환 받아 그 내용 중 상품 가격을 추출할 수 있다면 매우 활용적일 수 있습니다.

인공지능 분야에서도 자연어처리 분야에 대해 지식이 필요할 것 같은데, 혹시 관련되서 내용을 아시거나, 다른 방법으로 해당 문제를 해결할 수 있는 방안에 대해서 아신다면 댓글 부탁드립니다!


블로그 이미지

Tigercow.Door

Web Programming / Back-end / Database / AI / Algorithm / DeepLearning / etc

댓글을 달아 주세요

파이썬 클린 코드

[해당 리뷰는 터닝포인트 출판사에서 서적을 지원받고 작성하게 되었습니다.]

파이썬 클린코드

기초적인 파이썬 내용을 넘어, 보다 전문적인 파이썬 개발자가 되고자 하는 분

 

안녕하세요. 문범우입니다.

최근 개인적인 사정으로 인해 블로그에 글을 많이 못올리는데,

오랜만에 IT 도서리뷰로 포스팅을 하게 되었습니다.

이번에 소개해드릴 서적은, 터닝포인트 출판사에서 나온 '파이썬 클린코드'라는 서적입니다.

그럼 간단하게 나마 해당 책에 대한 소개를 드려보도록 하겠습니다.

 

누가 읽으면 좋을까?

사실 이 책에 대해서 이야기를 할 때, 대상 독자에 대한 고려가 제일 필요하다고 생각됩니다.

솔직하게 말씀드려서 아직 파이썬이라는 프로그래밍 언어가 낯설거나, 처음이신분들, 유지보수에 대해서 아직 정확히 파악하지 못했거나 소프트웨어 공학에 대해서 전혀 알지 못하시는 분들에게는 절대 추천드리지 않습니다.

그런 분들께서는 오히려 책의 내용이 지루할 뿐만 아니라, 하나하나 이해하기도 힘들 수 있을 것이라 생각됩니다.

반대로, 파이썬 언어에 대해서 익숙하신 분들, 팀 프로젝트를 하며 코드의 유지보수성에 대해서 고민하신 분들에게는 적극적으로 추천드리고자 하는 책 입니다.

 

소프트웨어 공학의 중요 개념과 파이썬의 연결고리

사실 저는 소프트웨어 공학에 대해서 학습하면서, 당연히 이론적인 내용도 중요했지만 실제로 코드에서 그것들이 어떻게 반영되는지를 무척이나 궁금해했습니다. 하지만 대학에서 이에 대해서 학습할 때에는 자바(Java)언어에 대해 한정적으로 배울 수 있었습니다.

물론 해당 내용이 이론적으로 잘 이해하고 공부한다면 언어는 단순히 도구적으로 사용될 뿐이지만, 개인적으로 파이썬을 좋아하는 개발자로써 파이썬에서의 소프트웨어 공학의 이론들은, 개념들은 어떻게 적용되고 있을까, 실제로 파이썬 언어만의 특징을 어떻게 더 살려낼 수 있을까? 에 대해서 고민한 적이 많습니다.

그리고 이번에 소개시켜드리는 책에서는 그러한 부분들을 많이 해소시킬 수 있었습니다.

책의 목차에서도 그렇듯, '파이썬 클린코드' 서적에서는 우리가 그동안 배웠던 소프트웨어 공학의 내용들과 파이썬 언어만의 특징을 잘 살려내서 설명해주고 있습니다.

 

아쉬웠지만 극복할 수 있는 키워드 설명

책을 읽으면서 아쉬웠던 점은, 가끔 특정 키워드나 개념에 대해 충분한 설명없이 넘어가는 점들이 있습니다.

하지만 이를 '극복할 수 있는' 이라고 말씀드리는 것은, 그러한 것들이 엄청나게 많다거나, 그러한 것들 때문에 다른 내용이 읽히지 않는 정도는 아니기 때문입니다.

오히려 저는 책의 중간중간 포스트잍을 붙여가면서 모르는 키워드에 대해서 정리하고, 그것을 기반으로 해당 챕터의 내용을 다시 상기할 수 있게끔 하는 방법을 사용했는데, 더 공부한 느낌도 나고 정리도 잘 되는 것 같아서 내심 뿌듯했습니다 :)

 


이렇게 '파이썬 클린코드' 서적에 대해 개인적으로 생각하는 특징을 바탕으로 짧게나마 정리해보았습니다.

사실 무엇보다 개인적으로는, 최근 파이썬 언어가 핫해지면서 기초적인 책들이 많이 나오고 있는데, 그 와중에 오랜만에 적당히 깊이있고 잘 정리되어 있는 책이 나와서 너무나 반갑고 재미있게 읽은 책인 것 같습니다.

 

자신이 파이썬 언어에 대해서 보다 깊이 공부하고 싶고, 어느정도 자신이 있다면 꼭 한번 읽어보시기를 적극적으로 추천드립니다.

블로그 이미지

Tigercow.Door

Web Programming / Back-end / Database / AI / Algorithm / DeepLearning / etc

댓글을 달아 주세요


안녕하세요. 문범우입니다.

오랜만에 파이썬 관련 내용을 포스팅하게 되었습니다.

최근 자바 언어에 대해 다시 공부하면서 멀티 쓰레딩 개념을 학습중인데, 파이썬에서 해당 내용을 다뤄보지 않은 것 같아 간략하게나마 공부하고 이를 정리해보았습니다.


즉, 이번 글에서는 파이썬에서의 멀티 프로세싱, 멀티 쓰레딩에 대해서 알아보도록 하겠습니다.



글에 앞서서, 멀티 프로세싱, 멀티 쓰레딩 등, 동시성 프로그래밍에 대한 개념적인 내용은 아래 글을 참고하시면 되겠습니다.

https://doorbw.tistory.com/26


먼저 전체적인 코드입니다.


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
from functools import partial 
from threading import Thread
import multiprocessing
import time
 
def singleCount(cnt,name):
    for i in range(1,10000001):
        cnt += 1
        if(i%2500000 == 0):
            print(name,":",i)
 
lists = ['1','2','3','4']
# single process start
cnt = 0
print(" # # SINGLE PROCESSING # # ")
start_time = time.time()
for each in lists:
    singleCount(cnt,each)
print("SINGLE PROCESSING TIME : %s\n" %(time.time()-start_time))
 
# multi process start
cnt = 0
print(" # # MULTI PROCESSING # # ")
start_time = time.time()
pool = multiprocessing.Pool(processes=4)
func = partial(singleCount, cnt)
pool.map(func, lists)
pool.close()
pool.join()
print("MULTI PROCESSING TIME : %s\n" %(time.time()-start_time))
 
#multi threading start
cnt = 0
print(" # # MULTI THREADING # # ")
start_time = time.time()
th1 = Thread(target=singleCount, args=(cnt,"1"))
th1.start()
th1.join()
th2 = Thread(target=singleCount, args=(cnt,"2"))
th2.start()
th2.join()
th3 = Thread(target=singleCount, args=(cnt,"3"))
th3.start()
th3.join()
th4 = Thread(target=singleCount, args=(cnt,"4"))
th4.start()
th4.join()
print("MULTI THREADING TIME : %s\n" %(time.time()-start_time))
 
cs


코드에서는 싱글 프로세싱, 멀티 프로세싱, 멀티 쓰레딩 총 3개의 로직이 구현되어 있으며 이에 대한 결과는 아래와 같습니다.


* 싱글 프로세싱


* 멀티 프로세싱


* 멀티 쓰레딩


위의 결과를 보시면 사실상 싱글 프로세싱과 멀티 쓰레딩의 시간차이는 크게 없고, 멀티 프로세싱에서만 시간 효율이 존재함을 알 수 있습니다.


파이썬에서는 GIL(Global Interpreter Lock)이라는 동작때문에 사실상 여러개의 스레드가 동일한 자원에 대해 접근하지 못합니다.

즉, 우리가 기대한 것과 달리 하나의 스레드가 종료함에 따라 다른 스레드가 진행되는 것이죠. 이러한 GIL때문에 오히려 멀티 쓰레딩이 싱글 쓰레딩보다 I/O작업이 많아 짐에 따라 시간소요가 커질 수 있기도 합니다.

이에 대해 보다 자세한 내용은 아래 링크에서 확인하실 수 있습니다.

https://medium.com/@mjhans83/python-gil-f940eac0bef9


그리고, 멀티 프로세싱은 개념적으로 공부한 것과 같이 다수의 프로세스를 띄워 작업을 처리하기 때문에 당연히 싱글 프로세싱보다 처리 시간이 단축되는 것을 볼 수 있습니다.



오랜만에 다시금 동시성 프로그래밍 개념들에 대해 공부하다보니 또 헷갈리는 내용들과 질문들이 생기게 되었습니다..

위의 글에서 설명이 부족한 이유는 아마 아직 해결되지 못한 궁금증과 질문들 때문일겁니다.. 따로 위에는 적어두지 않았지만 추후에 보다 깊이 이해하게 된다면 한번더 제대로 정리하고 싶어지네요 :-(


잘못된 점이나 궁금하신 점들 언제든지 연락주시면 저도 많이 부족하지만 같이 이야기해보면서 답을 찾아나가면 좋을 것 같습니다 :)

블로그 이미지

Tigercow.Door

Web Programming / Back-end / Database / AI / Algorithm / DeepLearning / etc

댓글을 달아 주세요

 

안녕하세요. 문범우입니다.

최근 파이썬을 활용할 일이 많이 없었는데, 엊그제 문득 필요한게 생각나서 후다닥 파이썬으로 만들어보았습니다.


뭐라고 이름을 지어야할지 모르겠는데..

많은 분들도 만들어서 사용하시기도 하는 것으로 알고 있습니다.

제가 자주 보는 커뮤니티에서의 특정 게시판 상위 n개에 대해서 크롤링하여 링크를 포함한 헤드라인만 정해진 시각에 제 메일로 보내는 프로그램입니다.


저는 OKKY라는 커뮤니티에서 스터디, 뉴스, 행사에 관련된 3개 게시판에 대해 상위 5개 또는 3개의 글을 정해진 시각(오전, 점심, 오후)에 메일로 보내도록 하였습니다.


메일 내용을 더 꾸밀 수도 있겠지만..

일단은 심플하게 아래와 같이 메일이 전송됩니다 :)




실제로 이렇게 해두고 나니, 정해진 시각에 한번쯤 더 쳐다보게 되고 요새 바빠서 다양한 행사에 대해 관심가지지 못하고 있는데 이를 보완할 수 있을 것 같다는 생각이 듭니다.


관련 코드는 github에 올려두어 아래 링크에서 확인해보실 수 있습니다.


https://github.com/doorBW/event_crawl


코드에서도 확인하실 수 있으며, 사용된 내용들은 크게


1. requests와 bs4를 이용한 웹 크롤링

2. SMTP 서버를 통한 메일 보내기

3. crontab 활용하여 일정시간에 쉘스크립트 실행시키기


입니다. 각각에 대해서는 구글에 검색해보시면 다양한 자료를 찾아보실 수 있으니 추가적인 설명은 접어두도록 하겠습니다.


코드가 깔끔할지는 모르겠으나, 필요하신분들 참고하셔도 될 것 같습니다.

추가적으로 궁금한 점등의 문의사항은 언제든 댓글이나 카톡, 이메일로 연락주세요 :)

블로그 이미지

Tigercow.Door

Web Programming / Back-end / Database / AI / Algorithm / DeepLearning / etc

댓글을 달아 주세요

안녕하세요. 문범우입니다.

이번에 소개해드릴 알고리즘 문제는, 2017년 카카오톡 블라인드테스트 1차 코딩시험에서 나왔던 문제중 난이도가 제일 낮다는 소개된 '비밀지도' 문제입니다.


해당 문제는 프로그래머스를 통해, 아래 주소에서 만나보실 수 있습니다.

https://programmers.co.kr/learn/courses/30/lessons/17681?language=python3


난이도가 가장 낮다고 소개된 만큼, 문제자체도 간단하고 풀이도 어렵지 않습니다.

따라서 해당 문제는 추가적인 설명대신 코드만 첨부해드리도록 하겠습니다.

추가적으로 궁금한 사항이 있으시면 언제든지 댓글 및 카카오톡이나 이메일을 통해서 연락주시면 바로 답변드리도록 하겠습니다.


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
def solution(n, arr1, arr2):
    answer = []
    decode_arr1 = []
    decode_arr2 = []
    tmp_str = ''
    tmp_answer = ''
    for i in arr1:
        tmp_str = str(bin(i))[2:]
        while(len(tmp_str) < n):
            tmp_str = '0'+tmp_str
        tmp_str = tmp_str.replace('0',' ')
        tmp_str = tmp_str.replace('1','#')
        decode_arr1.append(tmp_str)
    for i in arr2:
        tmp_str = str(bin(i))[2:]
        while(len(tmp_str) < n):
            tmp_str = '0'+tmp_str
        tmp_str = tmp_str.replace('0',' ')
        tmp_str = tmp_str.replace('1','#')
        decode_arr2.append(tmp_str)
    
    for i in range(n):
        for j in range(n):
            if (decode_arr1[i][j] == '#'or (decode_arr2[i][j] == '#'):
                tmp_answer += '#'
            else:
                tmp_answer += ' '
        answer.append(tmp_answer)
        tmp_answer = ''
    return answer
cs


블로그 이미지

Tigercow.Door

Web Programming / Back-end / Database / AI / Algorithm / DeepLearning / etc

댓글을 달아 주세요

안녕하세요. 문범우입니다.

요새 많은 기업들이 공채시즌이 다가와서 그런지, 평소보다 알고리즘 문제풀이에 대한 학원이나 온라인강의에 대한 광고가 많아진 것 같네요.


요새보면 대부분의 기업에서 SW인원들은 다른 시험보다 코딩테스트를 중요시하고 있고 많은 사람들이 제일 까다로워 하는 부분인 것 같습니다.


요새 개인적으로 공부하는 기계학습이나, 리액트네이티브때문에 블로그활동을 자주못하고 있는데, 오랜만에 프로그래머스에 들어갔다가 2017년 카카오톡 블라인드테스트 1차 코딩문제를 공개해두었길래 이번주에 하나씩 풀어보려합니다.


처음에는 쉬운문제부터 풀어보려했는데.. 나중에 확인해보니 이번에 소개해드릴 '추석트래픽' 문제가 가장 어려웠다고 하네요.


프로그래머스에서 제공하는 작년 카카오톡 코딩테스트 문제는 아래에서 만나보실수 있으며,

https://programmers.co.kr/learn/challenges


이에 대한 전체적인 해설은 아래에서 만나보실수 있습니다.

http://tech.kakao.com/2017/09/27/kakao-blind-recruitment-round-1/



오늘 소개해드릴 '추석트래픽' 문제의 정답률이 약18%라고 하지만, 개인적인 생각으로는 2017 카카오톡 블라인드테스트 1차 코딩테스트에서 총 5시간이 주어졌기때문에 어려웠다기보단 시간이 부족했다는 이야기가 많았을 듯 합니다.


문제에 대한 전체적인 안내나, 난이도정도등에 대해서는 위에 소개해드린 해설에서 확인해보시길 바랍니다.



1. 추석 트래픽


추석 트래픽 문제에 대한 설명은 따로 진행하지 않겠습니다.

제가 말로 주구장창 설명하는 것보다 직접 문제와 예제를 보시는게 이해가 빠를 것 같아서요 :'(


특별히, 예제3번에서 하나의 그림을 보여주고 있습니다.

x축을 시간으로 두고 각각의 트래픽을 bar형태로 표시해두었죠.

그리고 1초라는 시간범위(구간)를 정해서, 가장 많은 트래픽이 포함되는 구간에서의 트래픽 개수를 찾아내고 있습니다.


해당 그림을 보면서 어디서 많이 낯익다 싶었습니다.

바로, An activity-selection problem 문제입니다.

작년 알고리즘수업을 들으면서 봤던 문제인데, 잘 모르시는 분들은 한번 쯤 찾아보셔도 좋을 듯 합니다.


먼저 저는 입력되는 lines 를 하나씩 가져와서 datetime 객체로 바꾸고 이를 end_datetime으로 두었으며 lines에서 주는 실행시간을 가져와서 실행시간의 초단위 값 processing_s 와, 실행시간의 micro second단위 값 processing_ms 를 만들었습니다.

그리고 이 세개의 값를 이용해서, 트래픽의 시작시간을 구해 datetime객체로 하여 start_datetime으로 두었습니다.


이들을 이용해 같은 트래픽끼리 하나의 리스트로 묶어서, start_end_datetime 리스트에 저장하였고, 추후 answer를 탐색하기 위해 sorted_time 리스트를 만들어 start_datetime과 end_datetime의 모든 요소를 같이 저장하였습니다.

그리고 모든 lines에 대한 처리가 끝나면 sorted_time 리스트는 sort함수를 통해 오름차순으로 정렬합니다.


즉, 예제 1번과 같이 입력이 다음과 같다면,

입력: [
2016-09-15 01:00:04.001 2.0s,
2016-09-15 01:00:07.000 2s
]


start_end_datetime = [[ '2016-09-15 01:00:02.002000', '2016-09-15 01:00:04.001000' ], [ '2016-09-15 01:00:05.001', '2016-09-15 01:00:07.000']]


sorted_time = [ '2016-09-15 01:00:02.002000', '2016-09-15 01:00:04.001000', '2016-09-15 01:00:05.001', '2016-09-15 01:00:07.000']


과 같이 만들어지게 됩니다.


이제 문제에서 원하는 답을 찾을 차례입니다.

여기서 저도 한번 헤매고, 1000 micro second마다 탐색하는 방법으로 시도해봤더니 역시나 시간초과에 걸렸었습니다....


하지만 조금 더 생각해보면, 구하고자 하는 초당 최대 처리량이 변하는 순간은 단지 어떤 트래픽의 시작 또는 종료 시점뿐 입니다.

즉, 위에서 만들어두었던 sorted_time 리스트에 있는 시간에서만 초당 최대 처리량의 변화가 발생합니다.

따라서 우리는 sorted_time 리스트를 범위로 for문을 돌리면 되고, sorted_time 리스트에서 꺼낸 하나의 요소를 compare_time으로 두었고, 여기에 1초를 더한 시간을 compare_time_one으로 두었습니다.

그리고 start_end_datetime에서 하나씩 꺼내어 compare_time과 compare_time_one이라는 범위에 해당 트래픽이 속하여있는지를 탐색하고 각각의 탐색에 따른 최대값을 찾아 정답으로 반환하면 됩니다.


설명이 잘 된지는 모르겠으나, 실제로 코드를 보시면서 이해해보시면 잘 이해할 수 있을 것이라고 생각됩니다.


전체적인 python 코드는 다음과 같습니다.


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
import datetime
 
def solution(lines):
    start_end_time = []
    sorted_time = []
    tmp_answer = 0
    answer = tmp_answer
    for line in lines:
        split_line = line.split()
        split_day = split_line[0].split('-')
        split_time = split_line[1].split(':')
        split_s = split_time[2].split('.')
 
        Y = int(split_day[0]); M = int(split_day[1]); D = int(split_day[2])
        h = int(split_time[0]); m = int(split_time[1])
        s = int(split_s[0]); ms = int(split_s[1])*1000
        
        end_datetime = datetime.datetime(Y,M,D,h,m,s,ms)
        
        split_processing = split_line[2][:-1].split('.')
        processing_s = int(split_processing[0])
        if len(split_processing) == 1:
            start_datetime = end_datetime - datetime.timedelta(seconds=processing_s)
        else:
            processing_ms = int(split_processing[1]) * 1000
            start_datetime = end_datetime - datetime.timedelta(seconds=processing_s) - datetime.timedelta(microseconds=processing_ms)
        start_datetime = start_datetime + datetime.timedelta(microseconds=1000)
        start_end_time.append([start_datetime,end_datetime])
        sorted_time.append(start_datetime)
        sorted_time.append(end_datetime)
    sorted_time.sort()
    
    for compare_time in sorted_time:
        compare_time_one = compare_time + datetime.timedelta(seconds=1)
        if compare_time >= start_end_time[-1][1]:
            break;
        for each in start_end_time:
            if (compare_time <= each[0])and(each[0< compare_time_one):
                tmp_answer += 1
            elif (compare_time <= each[1])and(each[1< compare_time_one):
                tmp_answer += 1
            elif (each[0<= compare_time)and(compare_time_one <= each[1]):
                tmp_answer += 1
        if answer < tmp_answer:
            answer = tmp_answer
        tmp_answer = 0
    if answer == 0:
        answer += 1
    return answer
cs


만약 코드에 대해 궁금한 사항이나, 보다 효율적인 방법에 대해서 말씀해주실 점이 있다면 언제든지 댓글 또는 카카오톡, 이메일을 이용해서 말씀해주세요 :)

블로그 이미지

Tigercow.Door

Web Programming / Back-end / Database / AI / Algorithm / DeepLearning / etc

댓글을 달아 주세요

  • 잘보았습니다 2019.04.02 16:07  댓글주소  수정/삭제  댓글쓰기

    안녕하세요. 코드 잘 보았습니다. 아무리 해도 해결이 되지 않아서1초 구간과 line(lines의 element)을 비교할 때 막혀서 못 풀고 있었는데 선생님 코드를 보고 제가 뭘 잘못 생각했는지 알았어요. 아래는 제 코드입니다.

    from datetime import datetime, timedelta

    def convert_lines(lines):
    result = []
    for line in lines:
    line = line.split()
    end = ' '.join(line[:-1])
    end = datetime.strptime(end, '%Y-%m-%d %H:%M:%S.%f')
    duration = timedelta(seconds=float(line[-1][:-1]))
    start = end - duration + timedelta(milliseconds=1)
    result.append([start, end])
    return result

    def solution(lines):
    lines = convert_lines(lines)
    times = [x for line in lines for x in line]
    times.sort()
    max_count = 0
    for time in times:
    count = 0
    for line in lines:
    if line[0] <= time + timedelta(seconds=0.999) and line[1] >= time:
    count += 1
    if count > max_count:
    max_count = count
    return max_count

    • Favicon of https://doorbw.tistory.com BlogIcon Tigercow.Door 2019.04.03 16:29 신고  댓글주소  수정/삭제

      도움이 되었다니 뿌듯합니다^^
      현재 외부에 있어서 코드는 자세히 살펴보지 못하네요. 더 좋은 글들로 도움될 수 있도록 노력하겠습니다 :)


안녕하세요. 문범우입니다.


최근 멋쟁이 사자처럼 6기 운영진으로 활동하며, 지난 8월말에 해커톤을 진행하였습니다.

저는 방학간 파이썬, 장고 스터디를 진행하며 함께 공부한 친구들과 장고를 활용한 공유일기장 플랫폼 웹사이트를 개발하였습니다.


aws ec2 프리티어을 이용하여 배포까지 완료하였으나, 실제로 서비스 론칭등의 계획은 없습니다.

장고를 직접 활용해보고 6기 인원들에게는 배포까지 해보는 경험으로써의 토이 프로젝트였습니다.


활용된 스택은 다음과 같습니다.


python: 3.6.5


django: 2.0


postgresql: 10.4



해당 프로젝트에서 저는, 프로젝트 전체 기획 및 진행을 담당하며 세부적으로는 데이터베이스 설계 및 구축, 교환일기장 기능 개발을 담당하였습니다.



- 서비스 소개


카카오톡 소셜 로그인



장고를 활용한 공유일기장 플랫폼에서는 카카오톡 소셜로그인을 통해 누구나 쉽게 서비스를 이용할 수 있도록 개발하였습니다.



메인화면 달력 및 작성한 일기 확인하기


사용자는 메인화면에서 달력을 확인할 수 있고, 그 전에 작성한 일기들은 해당 요일에 제목이 표시됩니다. 제목을 누르면 해당 일기로 이동할 수 있습니다.



일기 작성하기


사용자는 일기 쓰기 탭을 눌러서 일기를 작성할 수 있습니다.

제목, 작성할 교환일기장, 감정, 날씨, 사진, 내용을 입력합니다.

하나라도 작성되지 않을시에는 저장되지 않고 빈칸을 알려줍니다.



교환일기장


교환일기장에서는 개인이 작성한 일기 뿐아니라 다른 사람의 일기를 확인할 수 있습니다. 관심사가 같거나, 친구들끼리 함께 일기를 작성하고 싶을때는 교환일기장을 만들거나, 참여하여 함께 일기를 작성할 수 있습니다.



이 외에도 일기를 보관할 수 있는 '뜯어가기' 기능과 댓글기능 등을 구현하였습니다.



배포된 프로젝트의 모든 코드는 아래 깃헙에서 확인하실 수 있습니다.

https://github.com/doorBW/LAN-Diary


이 외에도 추가적인 질문등은 언제든지 댓글 및 이메일, 카카오톡을 이용해주세요 :)

블로그 이미지

Tigercow.Door

Web Programming / Back-end / Database / AI / Algorithm / DeepLearning / etc

댓글을 달아 주세요


안녕하세요. 문범우입니다.

이번 포스팅부터는 aws 서버에 장고 프로젝트를 배포하는 방법에 대해서 알아보도록 하겠습니다.


먼저 진행되는 환경은 다음과 같습니다.


macOS High Sierra

python version: 3.6.5

django version: 2.0


이번 포스팅에서 진행되는 가상환경을 구성하기 위해 필요한 pyenv, virturalenv 등을 제외하고는 윈도우도 거의 비슷한 진행방식으로 가능할 것이라 생각됩니다.


1. pyenv 설치


장고 프로젝트를 배포할때 먼저 로컬에서 가상환경을 구성하고, 그 위에 배포할 장고 프로젝트를 구성해야 합니다.

또한 aws 서버에서 ubuntu를 이용하며 똑같이 가상환경을 이용합니다.

먼저 pyenv 설치하기 전에 아래와 같은 추가적인 패키지들을 설치해줍니다.


1
2
3
$ sudo apt-get install -y make build-essential libssl-dev zlib1g-dev libbz2-dev \
libreadline-dev libsqlite3-dev wget curl llvm libncurses5-dev libncursesw5-dev \
xz-utils tk-dev
cs


위의 내용들은 서버 배포시에 공통적으로 발생하는 문제들을 막기 위해 설치하는 것들이며 pyenv 사이트에도 나오는 내용입니다.

https://github.com/pyenv/pyenv/wiki/Common-build-problems


이제 git clone을 통해 실제로 pyenv를 설치하고 환경변수 설정까지 진행해 보도록 하겠습니다.


1
2
3
4
$ git clone https://github.com/pyenv/pyenv.git ~/.pyenv
echo 'export PYENV_ROOT="$HOME/.pyenv"' >> ~/.bash_profile
echo 'export PATH="$PYENV_ROOT/bin:$PATH"' >> ~/.bash_profile
echo 'eval "$(pyenv init -)"' >> ~/.bash_profile
cs


저와 같은 경우에는 zsh를 사용하기 때문에 위의 명령어 중 아래 3줄에 대해서 ~/.bash_profile 대신 ~/.zshrc 를 입력합니다.


1
2
3
$ source ~/.bash_profile
$ pyenv versions
* system (set by /home/nelp/.pyenv/version)
cs


이제 위의 명령어로 터미널창을 재시작해주고 정상적으로 설치되었는지 확인하기 위해 pyenv versions 명령어를 입력합니다. 현재 우리는 pyenv를 통해 추가적으로 설치한 것이 없기 때문에 단순히 system만 나올 것 입니다.


이제 pyenv를 통해 원하는 파이썬 버전을 설치하고 즉각적으로 이용할 수 있습니다.

특정 버전을 설치하는 방법은 아래와 같습니다.


1
$ pyenv install 3.6.5
cs


위와 같이 pyenv install ~ 뒤에 특정 버전을 입력해주면 설치가 되고, 해당 버전을 사용하기 위해서는


1
$ pyenv shell 3.6.5
cs


와 같이 입력하면 됩니다.



2. virtualenv 설치


먼저 pyenv와 같이 git clone을 이용하여 설치합니다.


1
2
3
$ git clone https://github.com/yyuu/pyenv-virtualenv.git ~/.pyenv/plugins/pyenv-virtualenv
echo 'eval "$(pyenv virtualenv-init -)"' >> ~/.bash_profile
$ source ~/.bash_profile
cs


이를 통해 virtualenv가 설치되었으면 이제 우리는 특정 파이썬 버전을 가지는 가상환경을 구성할 수 있습니다.


가상환경을 만드는 방법은,


1
pyenv virtualenv 3.6.5 myenv
cs


와 같이, pyenv virtualenv <원하는 파이썬 버전> <가상환경 이름> 을 입력해주면 됩니다.

이때 파이썬 버전은 pyenv 를 통해 설치되어 있는 버전만 가능합니다.


현재 생성되어 있는 가상환경 목록을 보기 위해서는 다음의 명령어를 입력하면 됩니다.


1
pyenv virtualenvs
cs


또한, 자신이 만든 가상환경으로 진입하기 위해서는,


1
pyenv activate myenv
cs


와 같이, pyenv activate <가상환경 이름> 을 입력하면 됩니다.


가상환경에 진입하면 터미널에서 유저이름 앞에 (myenv) 와 같이 진입되어 있는 가상환경의 이름을 보여줍니다.


만약 가상환경을 나가고 싶다면,


1
pyenv deactivate
cs


를 입력하시면 됩니다.



3. 서버 배포를 위한 장고 환경 구성하기


위에서 pyenv 와 virtualenv의 설치가 정상적으로 되었다면, 실제로 서버 배포를 위해 장고프로젝트의 가상환경을 구성해보도록 하겠습니다.


먼저 파이썬 3.6.5 버전의 django_deploy라는 가상환경을 만듭니다.


1
pyenv virtualenv 3.6.5 django_deploy
cs


그리고 django_deploy라는 이름의 폴더를 새로 만들고 해당 폴더로 들어갑니다.


1
2
mkdir django_deploy
cd django_deploy
cs


그리고 해당 위치에서 다음과 같은 명령어를 입력합니다.


1
pyenv local django_deploy
cs


위의 명령어는 해당 위치에 .python-version 파일을 만들어주면서, 해당 폴더로 가면 바로 django_deploy라는 가상환경에 진입하도록 해주는 명령어 입니다.



이렇게 장고 프로젝트를 위한 기본적인 가상환경 구성은 완료입니다.

이제 해당 가상환경에서 django를 설치하고, pip freeze > requirements.txt 명령어를 통해 패키지목록을 저장해둡니다.

또한 자유롭게 git 설정을 하시면 됩니다.

블로그 이미지

Tigercow.Door

Web Programming / Back-end / Database / AI / Algorithm / DeepLearning / etc

댓글을 달아 주세요


안녕하세요.

이번 포스팅에서는 django에서 admin 페이지를 사용해보도록 하겠습니다.



1. Admin 계정 만들기


먼저 우리는 지난 포스팅까지해서 django와 postgresql의 django_test라는 데이터베이스를 만들어서 연결하였습니다.

그리고 django에서 post라는 모델을 생성하여 migrate 해줌으로써 실제 django_test라는 데이터베이스 내부에 blog_post라는 테이블이 생성된 것을 확인하였습니다.


django에서는 model에 대한 data를 간편하게 확인하고 조작할 수 있는 admin 페이지를 제공해주는데, 이때 admin페이지에는 아무나 접근 가능한 것이 아니고, 서버개발 과정에서 admin 계정을 직접 만들어주어야 합니다.

admin 계정을 만들기 위해서 manage.py 파일이 있는 위치에서 아래 명령어를 입력해줍니다.


python manage.py createsuperuser



명령어를 입력하면 위와 같이 admin 계정에 대한 정보를 입력할 수 있습니다.

여기서 입력한 Username과 password를 통해 admin 페이지에 접근가능합니다. 



2. Admin 페이지 사용하기


이렇게 admin 계정을 만들었다면 이제 서버를 돌려서 주소의 가장 끝에 /admin 을 붙여 admin 페이지에 접근해보겠습니다.



이렇게 접근하면, 아래와 같은 화면이 나타나게 됩니다.



이제 위에서 만들었던 admin 계정의 username과 password를 입력해서 로그인을 합니다.


그런데 로그인을 하고나서 확인을 해보아도 우리가 이전에 만들었던 post와 관련된 것은 찾아볼 수 없습니다.

우리가 마이그레이션을 통해 만들었던 post 모델을 admin 페이지에서 보기 위해서는 이를 admin 페이지에 등록을 해주어야 합니다.


우리가 만든 blog라는 app의 폴더로 들어가보면 admin.py 라는 파일이 있습니다. 해당 파일을 켜서 아래와 같이 작성해줍니다.


1
2
3
4
5
from django.contrib import admin
from .models import Post
# Register your models here.
 
admin.site.register(Post)
cs


그리고 해당 파일을 저장한 뒤에 다시 admin 페이지를 새로고침 해보면,



위와 같이 blog 라는 app에 Posts 라는 것이 새로 생긴것을 확인할 수 있습니다.

실제로 저것을 통해 Posts 라는 테이블에 저장된 값들을 확인할 수 있으며 우리가 직접 데이터를 추가할 수도 있습니다.


이를 직접 확인해보기 위해서, admin 페이지에서 데이터를 입력해보고 postgresql에서 확인해보도록 하겠습니다.


admin 사이트에서 Posts 우측에 있는 Add 버튼을 눌러서 데이터를 추가해보겠습니다.



위와 같이 제목과 내용을 입력하고 Save 버튼을 눌러 데이터를 저장합니다.


그럼 실제로 admin 페이지에서 데이터가 성공적으로 입력되었다는 문구가 뜨고, Posts object도 하나 생긴것을 볼 수 있습니다.


이제 postgresql에서 확인해보도록 하겠습니다.



간단한 SQL문장으로 해당 테이블을 확인해보니 정상적으로 데이터가 입력된 것을 볼 수 있습니다.



이렇게 해서 admin 페이지 사용에 대한 간략한 설명을 진행해보았습니다.

추후에 지속될 포스팅 내용으로는, 개발된 django 어플리케이션을 aws를 이용하여 배포하는 방법을 진행해보도록 할 예정입니다.

블로그 이미지

Tigercow.Door

Web Programming / Back-end / Database / AI / Algorithm / DeepLearning / etc

댓글을 달아 주세요

안녕하세요. 문범우입니다.

오랜만에 파이썬으로 풀이한 재밌는 알고리즘 문제를 가져왔습니다.

알고리즘 문제는 프로그래머스의 알고리즘 연습에 나온 야근 지수 문제이며 해당 문제는 아래 주소에서 풀어볼 수 있습니다.

문제에 대한 설명도 해당 주소에 나와있기에 문제에 대한 설명은 생략하겠습니다.

https://programmers.co.kr/learn/courses/30/lessons/12927


사실 예전에 매우 간단히 풀이한 문제인데

다시 확인해보니 문제 개편이 되면서..

테스트 케이스가 매우 까다롭게 변했더라구요.

그래도 정확도 통과는 비교적 무난했지만, 효율성 테스트에서 계속 막혀 씨름을 하다가 마침내 풀게되었습니다.

코드와 함께 간단한 해설을 첨부합니다.

추가적으로 궁금하신점이 있으신분들은 이메일이나 카카오톡으로 언제든지 문의해주세요 :)


1. 정확도 통과, 효율성 실패


먼저 정확도는 통과했지만 효율성에서 실패한 처음 코드입니다.


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
def solution(n, works):
    result = 0 # 결과를 담을 변수
    sumOfWorks = 0 # 모든 일의 합을 담을 변수
    for i in works: # 모든 일의 합을 구한다.
        sumOfWorks+=
    # 남은 일보다 n이 클때는 0을 반환
    if(n >= sumOfWorks): return 0
 
    # n이 0이될때 까지 반복
    while(n!=0):
        works[works.index(max(works))]-=1 # works에서 가장큰 값을 하나 줄이면서
        n-=1 # n의 값을 하나 줄인다.
        if(min(works) == max(works)): break
        # 만약 works에서 가장큰 값과 가장 작은 값이 같아지면 반복문을 나간다.
 
    # n이 0까지 줄어들어든 것이 아니라면
    if not n==0:
        # 이때는, works에서 가장큰값과 가장 작은 값이 같은 상황
        # 즉, works의 모든 값이 동일한 상황이다.
        # 따라서, n의 크기만큼의 요소를 -1씩해서 각각을 제곱하여 결과에 더하고
        # 나머지는 -1을 하지 않고 제곱해서 결과에 더한다.
        return n*((min(works)-1)**2+ (len(works)-n)*((min(works))**2)
    # n이 0까지 줄어든 것이라면 남은 works의 모든 값을 제곱해서 더한다.
    else:
        for i in works:
            result += i**2
 
    # 야근 지수를 최소화 하였을 때의 야근 지수는 몇일까요?
    return result
cs


코드에 대한 상세한 내용은 주석으로 설명하였습니다.

전체적인 알고리즘을 말씀드리면,

단순히 works 리스트에서 가장 큰 값을 찾아 이를 하나씩 줄이는 방법입니다.

추가로, 처음에 모든 남은 일의 합이 n 보다 작으면 0을 반환하게 하는 특수조건이 있습니다.

또한, works 리스트에서 값을 하나씩 줄이다가 최소값과 최대값이 동일한 시점, 즉 works 리스트의 모든 요소가 같아지는 시점도 따로 빼내어서 바로 계산하게끔 처리하였습니다.


위와 같은 풀이는 제목과 같이 정확도 테스트 케이스는 모두 통과하였으나 효율성 테스트 케이스에서 통과하지 못했습니다.

이에 따라 조금 다른 방식으로 생각해서 풀어보았습니다.



2. 정확도 통과, 효율성 통과


먼저 두번째로 풀이하여 정확도와 효율성 모두 통과한 코드는 다음과 같습니다.


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
def solution(n, works):
    result=0 # 결과를 담을 변수
    works.append(0# 최소값을 위해 works에 0추가
    works.sort() # works를 오름차순으로 정렬
    for i in range(1,len(works)): 
        # works에 대해 맨뒤에서 부터 확인할 것임
        # 인덱싱하기 편하게 하도록 i는 1부터 시작
        tmp = works[-i] - works[-(i+1)] # works에서 첫번째로 큰 숫자와 두번째로 큰 숫자의 차이 구함
        if tmp*< n: # 해당 차이 x 몇번째인지가 n보다 작으면
            n -= tmp*# 그만큼 n을 빼주고
            for j in range(1,i+1):
                works[-j] -= tmp # 첫번째로 큰 숫자를 두번째로 큰숫자와 같게 만든다.
        else# 해당 차이 x 몇번째인지가 n보다 작은게 아니라면
            q = n//# n에 대해서 몇번째인지로 나눈다. 이때 몫은 q, 나머지는 n
            n = n%i
            for j in range(1,i+1):
                works[-j] -= q # 제일 뒤의 숫자부터, i번째까지 몫만큼 빼준다.
            for j in range(1,n+1):
                works[-j] -= 1 # 나머지 처리
            break # 끝
    for i in works:
        result += i**2
 
    # 야근 지수를 최소화 하였을 때의 야근 지수는 몇일까요?
    return result
cs


해당 코드또한 주석으로 설명을 달아놓았지만, 적절한 예시가 없으면 바로 이해하기 힘들수 있기에 하나의 예시를 통해 어떤식으로 알고리즘이 result를 찾아내는지 확인해보도록 하겠습니다.


먼저 입력으로 n = 100, works = [10,9000,9997,9998,9999,10000] 이 들어온다고 가정합니다.

works가 위와 같이 정렬된 상태가 아니어도 4번째줄 코드에서 오름차순으로 정렬합니다.

5번째줄의 for문부터 확인해보도록 하겠습니다.

먼저 첫번째 for문은 i가 1부터 (works의 길이)-1 이므로, 해당 예시에서는 1부터 5까지 반복됩니다.

다음 줄을 보시면 아시겠지만 works의 뒤의 요소부터 인덱싱을 할때 -i 라고 명시하기때문에 i값이 1부터 시작되도록 하였습니다.

(works[-1]은 works의 가장 뒤에 있는 요소를 인덱싱합니다.)

따라서 첫번째 반복에서 tmp = 1 이 됩니다.

그리고 9번째줄 if문을 확인하면 tmp = 1 * i = 1 => 1이 되기 때문에 n보다 작아서 10~12번째줄을 수행하게 됩니다.

10번째줄에 의해서 n이 1000에서 999로 줄어들게 되고, works는 다음과 같이 변화합니다.

works = [10,9000,9997,9998,9999,9999]

즉, 뒤에서 첫번째 요소를 두번째 요소와 같게 만듭니다.


그리고 i가 하나 증가하고 첫번째 for문의 두번째 반복이 진행됩니다.

같은 방법에 의해서, n은 999에서 997로 줄어들게 되고, works는 다음과 같이 변화합니다.

works = [10,9000,9997,9998,9998,9998]

첫번째 반복에서는 n이 1만큼 감소했지만 두번째 반복에서는 i가 2이기 때문에 n이 2만큼 감소합니다. 즉, 뒤에서 첫번째, 두번째 요소를 세번째요소와 같게 만드는 것입니다.


세번째 반복에서도 동일하여, n은 994가 되고, works은 다음과 같이 됩니다.

works = [10,9000,9997,9997,9997,9997]


이제 네번째 반복입니다.

이때 tmp = 9997 - 9000 = 997 이 됩니다.

현재 i = 4이기 때문에 9번째 줄의 코드에서, tmp*i = 3988 로써 현재 n = 994 보다 크게 되므로 10~12번째줄을 수행하지 않고 13번째, else문이 실행됩니다.

그리고 14번째 줄에 의해 q = 994//4 = 248이 되고, n = 994%4 = 2 가 됩니다.

그리고 16~17번째 줄에 의해서 현재 9997의 값을 갖고있는 요소들이 q = 248 만큼 감소합니다. 즉, works가 다음과 같이 변화합니다.

works = [10,9000,9749,9749,9749,9749]


총 줄어든 값은 248 * 4 = 992 인데, 위에서 나머지 계산을 통해 n = 2가 되었습니다. 두 값을 더해서 생각해보면 이전의 n 값인 994와 같음을 알 수 있습니다.

그리고 나머지 2를 처리하기 위해 n이 0이 될때까지 works의 가장 뒤의 요소부터 1씩 감소시킵니다.


n은 i로 나눈 나머지이기 때문에 절대로 (해당 예시에서는)9749의 값을 갖는 요소를 벗어날 수 없습니다.

따라서 works는 다음과 같이 변화합니다.

works = [10,9000,9749,9749,9748,9748]


그리고 break문을 만나 반복문을 벗어나 결과를 출력하게 됩니다.



해당 알고리즘을 어떻게 간단하게 설명해야 할지 몰라서 까다로웠던 예시를 하나 들어서 설명드렸습니다.

조금이나마 간단하게 설명해본다면 처음 입력받는 works에 대해 가장 큰 값들부터 고려하여, 그 다음 큰 값과 같게하면서 줄여나가는 방법입니다. 이는 단순히 1씩 감소시키는 것이 아니라, 큰 값들의 차이만큼 감소 시키며 그 전의 큰 값들도 같이 감소시키게 됩니다. 그리고 감소시킬 값과 n을 비교해가면서 감소시킬 값이 n보다 크면 안되므로 이럴때는 n값을 지금까지 줄여나간 요소의 개수 만큼으로 나누어 그 몫을 줄여나간 요소들에 대해 동등하게 감소시키고, 나머지는 그 요소들에 대해 1씩 줄이는 방법입니다.



블로그 이미지

Tigercow.Door

Web Programming / Back-end / Database / AI / Algorithm / DeepLearning / etc

댓글을 달아 주세요