'2018/06 글 목록

알고리즘 #11_ KNN 최근접 이웃 알고리즘이란?

안녕하세요. 문범우입니다. 이번 포스팅에서는 분류나 회귀에서 사용되는 KNN(K - Nearest Neighbors) 알고리즘에 대해서 알아보도록 하겠습니다. 1. KNN(K - Nearest Neighbors) KNN, K-최근접 이웃 알고리즘은 특정공간내에서 입력과 제일 근접한 k개의 요소를 찾아, 더 많이 일치하는 것으로 분류하는 알고리즘입니다. 말로 이해하는 것보다 아래 그림을 통해 이해하는 것이 훨씬 쉬울 것 입니다. 위의 그림과 같은 좌표공간을 예시로 확인해보겠습니다.위에서 파란색 점으로 되어 있는 그룹을 A그룹이라고 생각하고, 주황색 점으로 되어 있는 그룹을 B라고 하겠습니다.이때 우리는 별 모양으로 표시된 입력값이 A그룹에 속하는지, B그룹에 속하는지를 알고 싶습니다. 그리고 이럴때 사용되..

Algorithm/알고리즘 이론 2018.06.30

파이썬(python) #23_ 컴프리헨션(Comprehension) 이란?

안녕하세요. 문범우입니다.이번 포스팅에서는 파이썬에서 사용되는 컴프리헨션(Comprehension)이라는 개념에 대해서 알아보도록 하겠습니다. 1. 컴프리헨션(Comprehension)이란? 일단, 파이썬에서 사용되는 Comprehension이 무엇인지 알아보기 전에, 어떤 의미를 가지고 있는 단어인지 살펴보았습니다.사전적으로는 이해, 이해력, 포용, 포용력, 포함, 압축 등의 뜻을 가지고 있습니다.단순히 이런 의미로는 대체 어떻게 파이썬에서 사용되는지 감이 쉽게 안오실텐데, 하나씩 천천히 살펴보시면 충분히 이해하실 수 있을 것입니다. 앞으로 알아보는 Comprehension을 보다 제대로 이해하기 위해서는 기본적으로 파이썬의 조건문, 반복문 등의 개념을 알고 있으셔야 하며 해당 개념은 리스트, 집합(s..

프로그래밍 언어/Python 2018.06.14

Matplotlib 기초 정리

안녕하세요. 문범우입니다. 이번 포스팅에서는 파이썬 기반 시각화 라이브러리인 matplotlib에 대해서 알아보도록 하겠습니다. 해당 내용은 flearning의 김길호님의 강의를 바탕으로 작성되었습니다. https://www.flearning.net/courses/61. Matplotlib 이란? matplotlib은 다양한 데이터를 많은 방법으로 도식화 할 수 있도록 하는 파이썬 라이브러리로써, 우리는 matplotlib의 pyplot을 이용하게 됩니다. 이는 mathworks에서 개발한 매트랩(MATLAB)과 비슷한 형태를 가지고 있습니다. matplotlib을 이용하면 우리가 이전에 알아본 numpy나 pandas에서 사용되는 자료구조를 쉽게 시각화 할 수 있습니다. matplotlib을 사용하기 ..

AI & BigData/데이터분석 관련 2018.06.11

pandas(판다스) 기초 정리

안녕하세요. 문범우입니다. 이번 포스팅에서는 파이썬 라이브러리인 pandas(판다스)에 대해서 알아보도록 하겠습니다. 해당 내용은 flearning의 김길호님의 강의를 바탕으로 작성되었습니다. https://www.flearning.net/courses/6 1. Pandas 란? Pandas는 파이썬에서 사용하는 데이터분석 라이브러리로, 행과 열로 이루어진 데이터 객체를 만들어 다룰 수 있게 되며 보다 안정적으로 대용량의 데이터들을 처리하는데 매우 편리한 도구 입니다. 먼저 pandas를 사용하기 위해서는 pandas를 설치한 이후에 아래와 같이 import를 해야 합니다. import pandas as pd 아래 실습에서는 jupyter notebook을 사용하였습니다. Pandas 기초¶ 1. Pan..

AI & BigData/데이터분석 관련 2018.06.08

numpy(넘파이) 기초 정리

Numpy_clear 안녕하세요. 문범우입니다. 이번 포스팅에서는 python을 통해 데이터 분석을 할때 기초 라이브러리로 사용되는 Numpy에 대해서 알아보도록 하겠습니다. 해당 내용은 flearning의 김길호님의 강의를 바탕으로 작성되었습니다.https://www.flearning.net/courses/6 1. Numpy란 Numpy는 C언어로 구현된 파이썬 라이브러리로써, 고성능의 수치계산을 위해 제작되었습니다. Numerical Python의 줄임말이기도 한 Numpy는 벡터 및 행렬 연산에 있어서 매우 편리한 기능을 제공합니다. 또한 이는 데이터분석을 할 때 사용되는 라이브러리인 pandas와 matplotlib의 기반으로 사용되기도 합니다. numpy에서는 기본적으로 array라는 단위로 데..

AI & BigData/데이터분석 관련 2018.06.07

카카오톡 플러스친구 챗봇 개발 후기

안녕하세요. 문범우입니다.최근 지인분을 통해 사례금을 받고 카카오톡 플러스친구 챗봇 개발을 진행하였습니다. 개발 내용은 다음과 같습니다. - 사용자가 플러스친구를 등록하고 특정 키워드를 '#키워드'와 같이 메세지를 전송하면 그에 대응되는 텍스트 및 이미지를 전송한다. 해당 개발 내용은 자연어 처리나 기타 복잡한 로직없이, 단순하게 A키워드에 대한 요청이 들어오면 그에 대응되는 응답을 반환하면 되기 때문에 크게 어려움이 없습니다. 이를 통해 개발이 완료된 결과는 다음과 같습니다. 해당 플러스친구의 이름은 혹시나 하여 모자이크 처리하였습니다.어떤 식으로 작동되는지 보다 궁금하신 분들은 연락주시면, 개인적으로 개설한 테스트 서버를 통해 확인할 수 있도록 알려드리겠습니다. 서버는 aws의 EC2를 프리티어로 하..

포트폴리오 2018.06.04

Kaggle 타이타닉(Titanic) 80.3% 성공 후기 및 코드

안녕하세요. 문범우입니다. 최근 데이터분석, 인공지능 분야에 관심이 있어서 스터디를 시작하여 kaggle문제를 풀어보기 시작했습니다.개인적으로는 김성훈 교수님의 '모두를 위한 딥러닝'과 '머신러닝 이론 및 파이썬 실습'이라는 온라인 강의를 듣고 바로 도전해보았습니다. '머신러닝 이론 및 파이썬 실습'에서 타이타닉 문제를 바탕으로 파이썬 실습을 진행하여 해당 내용을 통해 타이타닉 문제에서 어떤식으로 데이터를 보아야 하는지 감을 익혔고 이후 정확도 80%를 목표로 생각하고 진행하였습니다. 어떻게 시작해야 할지 막막하기도 했지만 이것저것 해보고, 아래의 사이트도 참고하면서 코드를 작성하였습니다.https://towardsdatascience.com/how-i-got-a-score-of-82-3-and-ende..

AI & BigData/Kaggle 2018.06.04

Tigercow.Door

2018/06 7

티스토리툴바