TigerCow.Door


안녕하세요. 문범우입니다.

이번 포스팅에서는 조인의 개념에 대해서 알아보고 기초적인 이너조인(Inner JOIN), 아우터조인(Outer JOIN), 크로스조인(Cross JOIN), 셀프조인(Self JOIN)에 대해서 함께 알아보도록 하겠습니다.



1. 조인(JOIN)이란 무엇일까?


DB에서 자주 사용되는 조인이란 개념은 무엇일까요?

조인은 '어울리다'라는 의미를 가지고 있는데 이 말대로, 데이터베이스에서 테이블간의 결합(어울림)을 이야기합니다.

즉, 두개 이상의 테이블에 대해서 결합하여 나타낼 때 조인이라는 것을 이용합니다.

물론 셀프조인에서는 사실 하나의 테이블을 다루는 것입니다. 이에 대해서는 뒤에서 다시 이야기해보겠습니다.


예시데이터를 가지고 살펴보겠습니다.

예시데이터는 이전의 글들에서 사용된 employee 테이블과 department 테이블을 사용하며, employee테이블에 아래와 같이 하나의 데이터를 추가해서 진행해보도록 하겠습니다.


insert into employee (empNo, empName, job, manager, hireDate, salary, commission)

values (1015, '문정진', '대리', 1001, '2009-11-11', 350, 50);


select * from employee;


select * from department;



만약 우리가 사원의 이름과 그가 속한 부서를 알고 싶을 땐 어떻게 해야할까요?

기존의 방법으로 employee 테이블을 통해 조회한다면 다음과 같을 것 입니다.


select empName, deptNo from employee;



하지만 위와 같은 결과는 부서이름이 아니라 부서 코드를 넣어 주었기 때문에 사실 어떤 직원이 어떤 부서에 속했는지 한눈에 보기 힘듭니다.

그런데 어떤 부서코드가 어떤 부서인지에 대한 정보는 department 테이블에 있습니다.

즉, 아래와 같이 하나의 결과에서 employee 테이블과 departement 테이블을 매핑시켜준다면 직원의 이름과 그 직원이 속한 부서의 이름을 보다 쉽게 알 수 있겠죠?

이럴 때 사용되는 것이 바로 조인(JOIN)입니다.



조인의 종류에는 처음에 말씀드렸듯 크게4가지, 이너조인, 아우터조인, 크로스조인, 셀프조인이 있습니다.

그럼 각각의 조인에 대해서 간단하게 알아보겠습니다.



2. 이너 조인(INNER JOIN)


이너조인은 위와 같이 우리가 조인하고자 하는 두개의 테이블에서 공통된 요소들을 통해 결합하는 조인방식입니다. 즉 우리가 위에서 하고자 했던, 직원들의 이름과 부서명을 같이 출력하는데 있어서 사용되는 가장 일반적인 조인이죠. sql에서도 단순히 조인을 사용할때는 암묵적으로 이너조인을 뜻하게 됩니다.


기본적인 이너조인의 SQL형태는 다음과 같습니다.


SELECT table1.col1, table1.col2, ..., table2.col1, table2.col2, ...

FROM table1 [table1의 별칭]

JOIN table2 [table2의 별칭] ON table1.col1 = table2.col2


위의 쿼리에서 대괄호로 사용된 각 테이블의 별칭은 SELECT 절에서 컬럼이름 앞에 붙는 테이블명에서 사용될 수 있습니다.

조인시에 table1과 table2의 어떤 컬럼을 기준으로 할지는 ON 뒤에 작성합니다.

즉 위의 쿼리에서는 table1의 col1 컬럼과 table2의 col2 컬럼이 같은 행들에 대해서 조인을 실시합니다.


그럼 바로 이너조인을 통해서 직원의 이름과 부서명을 함께 출력해보도록 합시다.


select employee.empName, department.deptName

from employee

join department on employee.deptNo = department.deptNo



위와 같이 join문을 통해서 직원의 이름과 부서명을 함께 출력하였습니다.

employee 테이블의 deptNo과 department 테이블의 deptNo이 같은 것끼리 결합하여 직원이름과 부서명을 출력한 것이죠.



3. 아우터 조인(OUTER JOIN)



아우터 조인은 위의 그림과 같이 레프트 아우터 조인, 라이트 아우터 조인 그리고 그 두개를 합친 풀 아우터 조인 총3개가 있습니다.

아우터 조인은 그림과 같이 두 테이블의 공통영역을 포함해 한쪽 테이블의 다른 데이터를 포함하는 조인방식입니다.

아우터 조인을 보다 쉽게 이해하기 위해서 위에서 진행한 이너 조인의 결과를 한번 더 살펴보겠습니다.



위의 결과에서는 사실 누락된 데이터가 있습니다.

employee 테이블을 기준으로 보면 '문정진'이라는 이름의 사원데이터가 누락되어 있으며, department 테이블을 기준으로 보면 '전산부'라는 부서가 누락되어 있습니다.

해당 데이터들이 누락된 이유는 두 테이블간의 공통된 데이터가 없기 때문이죠.

다시말해서, '문정진'사원의 deptNo가 NULL이기 때문에 department 테이블과 공통된 점이 없으며, '전산부' 또한 employee 테이블에서 같은 부서코드를 가진 데이터가 없기 때문에 출력되지 않은 것 입니다.

하지만 이러한 데이터들도 함께 보고싶은 경우가 있고, 그런 경우에 우리는 아우터 조인을 사용합니다.


이때 left와 outer를 정하는 기준은 from절에 적어준 테이블이 left가 되고, join절에 적어준 테이블이 right가 됩니다. 그럼 먼저 부서코드가 NULL이거나 부서테이블의 deptNo과 일치하는 값이 없는 사원까지 출력하는 left 아우터 조인을 쿼리로 확인해보도록 합시다.


select employee.empName, department.deptName

from employee

left outer join department on employee.deptNo = department.deptNo



위의 결과를 보시면 이전에 실습했던 이너조인과 달리 '문정진'사원의 데이터도 함께 나오는 것을 확인할 수 있습니다.


그럼 이어서 right 아우터 조인과, full 아우터 조인도 확인해보겠습니다.


select employee.empName, department.deptName

from employee

right outer join department on employee.deptNo = department.deptNo



select employee.empName, department.deptName

from employee

full outer join department on employee.deptNo = department.deptNo



앞에서 설명한 바와 같이 right 아우터 조인은 '전산부' 데이터도 함께 출력되고 있으며, full 아우터 조인은 left 아우터 조인과 right 아우터 조인의 결과를 합친 것과 같습니다.



4. 크로스 조인(CROSS JOIN)


크로스 조인은 사실 앞에서 진행한 이너 조인 및 아우터 조인과 약간의 차이가 존재합니다.

이너 조인과 아우터 조인은 두 테이블간의 특정 기준에 의해 데이터 결합의 결과를 보여주는 방식이었다면, 크로스 조인은 특정 기준 없이, 두 테이블간 가능한 모든 경우의 수에 대한 결합을 결과로 보여주는 방식입니다.


쿼리를 작성할 때에도, 특정한 기준이 필요없으므로 on절이 없어지게 됩니다.

바로 쿼리로 확인해보도록 하겠습니다.


select employee.empName, department.deptName

from employee

cross join department



위와 같이 모든 경우에 수에 대한 결과가 출력되기 때문에 출력 데이터의 행수는 총 15(employee의 모든 행의 개수) * 4(department의 모든 행의 개수) 으로써 60개 입니다.



5. 셀프 조인(SELF JOIN)


셀프조인은 말 그대로 자기 스스로를 결합시키는 조인입니다. 셀프조인은 이너조인 및 아우터 조인, 크로스 조인과 동일한 방식으로 사용될 수 있지만 조인을 할 때에 기본 테이블 이외에 참조하는 테이블이 다른 테이블이 아닌 자기 자신이라는 점이 중요합니다.

셀프조인이 어떤식으로 사용되는지에 대해서 employee 테이블의 데이터를 한번 더 보면서 설명드리겠습니다.



위의 결과를 보면 사원들이 이름과 더불어 manager라는 항목이 존재합니다.

만약 우리가 사원들의 이름과 함께 그 사원의 manager의 이름도 함께 알고 싶다면 어떻게 할까요?

참조할 다른 테이블도 존재하지 않습니다. 이럴 때 우리는 셀프조인을 이용합니다. 즉 employee 테이블, 자기 자신을 조인하는 것 입니다.

이때 우리는 위에서 각 테이블에 대한 별칭을 선택적으로 사용했지만 셀프 조인시에는 별칭을 필수로 입력해주어야 합니다. 같은 테이블을 2개 또는 그 이상 사용하는데 별칭을 정해주지 않으면 혼동되기 때문이죠.


그럼 앞서 말씀드린 상황, 직원의 이름과 그 manager의 이름을 동시에 출력하는 쿼리를 셀프조인 방식으로 확인해보도록 하겠습니다.


select emp1.empNo 사원번호, emp1.empName 직원이름,

emp1.manager 매니저번호, emp2.empName 매니저이름

from employee emp1

join employee emp2 on emp1.manager = emp2.empNo



위와 같이 쿼리의 기본형태는 이너조인과 동일하지만 참조하는 테이블이 from절에 오는 기본 테이블과 동일하며, 별칭을 적어줌으로써 구별하는 모습을 볼 수 있습니다.



블로그 이미지

Tigercow.Door

Web Programming / Back-end / Database / AI / Algorithm / DeepLearning / etc

댓글을 달아 주세요


안녕하세요. 문범우입니다.

이번 포스팅에서는 rollup, cube, case, pivot에 대해서 함께 알아보도록 하겠습니다.



먼저 이전의 글에서 만들었던 sample데이터를 통해 실습을 진행해보도록 하겠습니다.


SELECT * FROM employee;




1. ROLLUP


먼저 알아볼 함수는 ROLLUP 입니다.

ROLLUP은 GROUP BY문과 함께 사용되는 함수인데, GROUP BY로 GROUPING된 행들 데이터 총합을 나타는데 사용합니다.

즉, employee테이블에서 부서별 그리고 직급 별 급여 합과 총합을 구하기 위해서 ROLLUP이 사용될 수 있습니다.


SELECT deptNo, job, SUM(salary) 급여총합

FROM employee

GROUP BY deptNo, job with ROLLUP;



사실상 부서별 그리고 직급별 급여의 합을 구하는 것은 SUM함수를 통해서 할 수 있었습니다.

하지만 위의 결과에서 빨간색으로 음영처리해놓은 결과는 이전의 SUM함수를 통해서 얻을 수 없었습니다.

첫번째 빨간색 음영 박스가 의미하는 것은 deptNO이 10인 부서에서 모든 직급(모든 job)의 급여총합을 의미합니다.

즉, deptNO이 10인 행들끼리 job을 모두 감았다(roll up)는 의미로 생각하시면 될 것 같습니다.

그리고 우리가 GROUP BY를 deptNo, job 로 GROUPING하였기 때문에, job으로 ROLLUP된 행 3개와 deptNO으로 ROLLUP 된 마지막 행(15번째 행)까지 총 4개의 추가 행이 결과로 나오게 됩니다.



2. CUBE


이번에는 CUBE에 대해서 알아봅니다.

쉽게 생각하면 CUBE는 ROLLUP 함수의 확장 형태라고 볼 수 있습니다.

우리가 위의 예에서 deptNo, job으로 ROLLUP을 진행하니, deptNo 끼리 job으로 묶인 salary의 총합(3개 행)과 deptNo와 job으로 묶인 salary의 총합(1개행)의 추가 데이터를 얻을 수 있었습니다.

만약 ROLLUP을 job, deptNo으로 진행했다면 어떨까요?

job끼리 deptNo으로 묶인 salary의 총합(6개 행 = job의 종류가 6개)과 job과 deptNo로 묶인 salary의 총합(1개행)의 추가 데이터를 얻을 수 있습니다.

CUBE는 이렇게 GROUPING 할 때 언급한 열의 순서에 따라 나타날 수 있는 ROLLUP의 경우의 수를 모두 나타내주게 됩니다. 그럼 바로 확인해보도록 하겠습니다.


SELECT deptNo, job, SUM(salary) 급여총합

FROM employee

GROUP BY deptNo, job with CUBE;



위의 결과를 보시면 먼저 3행은 과장 직급의 급여총합을 구한 것이며, 동일하게 5행, 9행, 13행, 15행, 17행은 각 직급별 급여총합을 나타내고 있습니다.

그리고 18행은 모든 deptNo와 job의 급여 총합을 나타내주고 있으며, 19행, 20행, 21행은 deptNo별 급여총합을 나타내고 있습니다.

위의 쿼리문을 아래와 같이 하면 행의 순서는 바뀔 수 있지만 결과는 동일합니다


SELECT deptNo, job, SUM(salary) 급여총합

FROM employee

GROUP BY job, deptNo with CUBE;



3. CASE


이번에 알아볼 CASE문은 C언어나 Java와 같은 프로그래밍 언어에서 사용되는 if ~ else ~ 문 또는 switch 문과 개념적으로 동일합니다.

기본적인 형식은 아래와 같습니다.


CASE when 조건식1 then 결과 1

          when 조건식1 then 결과2

          ...

          [ELSE 결과]

END [AS 칼럼 명]


여기서 대괄호로 표시된 것들은 생략할 수 있습니다.


CASE문은, 우리가 employee 테이블에서 부서별로 부서명을 직접 나타내고 싶을 때와 같은 경우에 사용할 수 있습니다. 부서번호가 10인 경우 전산부, 20인 경우 인사부, 30인 경우 경리부, 40인 경우 영업부로 나타내고 이 외에는 미정이라고 나타내보도록 합시다.


SELECT empName, deptNo,

CASE WHEN dpetNo = 10 THEN '전산부'

WHEN deptNo = 20 THEN '인사부'

WHEN deptNo = 30 THEN '경리부'

WHEN deptNo = 40 THEN '영업부'

ELSE '미정'

END AS 부서명

FROM employee;



위와 같이 우리가 조건을 설정한 대로 부서명이 올바르게 출력되었습니다.

조건식에는 범위에 대한 조건도 설정할 수 있습니다.


만약 부서번호가 20이하인 경우는 부서위치가 1층, 20초과인 경우에는 부서위치가 2층인 것으로 나타내고자 하면 다음과 같이 할 수 있습니다.


SELECT empName, deptNo,

CASE WHEN deptNo <= 20 THEN '1층'

WHEN deptNo > 20 THEN '2층'

END AS 부서위치

FROM employee;




4. PIVOT / UNPIVOT


마지막으로 알아볼 것은 PIVOT과 UNPIVOT입니다.

먼저 PIVOT에 대해서 알아보도록 하겠습니다.

PIVOT은 행으로 되어 있는 데이터를 열로 변환해서 표현하는 함수입니다.


우리가 가지고 있는 employee 테이블에서 열을 deptNo과 각 직급으로 나타내어 그 값을 표현하려면 어떻게 해야 할까요? 기존의 직급 데이터는 'job'이라는 속성에 행으로써 존재 했습니다. 하지만 사원, 부장 과 같이 행으로 되어있던 데이터를 열로 나타내려면 PIVOT을 사용하면 됩니다.

PIVOT문의 기본 형태는 다음과 같습니다.


SELECT [PIVOT열1], [PIVOT열2], ...

FROM 테이블명

PIVOT(나타내고자하는 값, FOR 행->열로 바꿀 열 IN ([PIVOT열1], [PIVOT열2], ...)) as 별칭


PIVOT문은 조금 어려울 수 있기 때문에 바로 실제 쿼리를 보면서 이해하시는 것을 추천드립니다.

위에서 이야기한 바를 쿼리로 나타내면 다음과 같습니다.


SELECT deptNo, [사원], [대리], [과장], [부장], [차장], [사장]

FROM employee

PIVOT(SUM(salary) FOR job In([사원], [대리], [과장], [부장], [차장], [사장])) AS job

ORDER BY deptNo;



위와 같이 행으로 되어있던 값을 열로 나타내어 테이블의 형태를 재구축 할 수 있습니다.

UNPIVOT과 같은 경우도 PIVOT과 활용법이 동일하지만 PIVOT이 행->열의 방식이었다면 UNPIVOT은 열->행의 방식인 것만 고려하면 됩니다.


블로그 이미지

Tigercow.Door

Web Programming / Back-end / Database / AI / Algorithm / DeepLearning / etc

댓글을 달아 주세요


안녕하세요. 문범우입니다.

이번 포스팅에서는 SUM, AVG, MIN, MAX와 같은 집계함수들에 대해서 알아보면서 GROUP BY절HAVING절에 대해서 다뤄보도록 하겠습니다.


1. 집계함수


집계함수는 값에 대해서 특정 연산을 수행하는 함수들을 이야기합니다.

합계를 구하는 SUM함수나 평균을 구하는 AVG함수, 개수를 세는 COUNT함수 등이 대표적입니다.

그럼 아래와 같이 이전 포스팅에서 사용했던 SampleDB를 사용하여 몇가지 집계함수에 대해서 함께 알아보도록 하겠습니다.




- SUM


SUM함수는 말 그대로 합계를 구하는 함수 입니다.

employee 테이블에서 연봉의 합계를 구하고자 할 때와 같은 경우에 아래와 같이 사용할 수 있습니다.


SELECT SUM(salary) FROM employee;




그럼 이번에는 employee 테이블에서 commission의 합계를 구해볼까요?

하지만 commission에는 NULL값이 포함되어 있습니다. 이전에는 NULL에 대한 연산을 진행할 때 그 결과가 NULL이 나오게 되어서 ISNULL이라는 함수를 이용했습니다.

그럼 집계함수에서는 어떨지 한번 확인해볼까요?


SELECT SUM(commission) FROM employee;



위의 결과에서 볼 수 있듯이 집계함수에서의 NULL은 무시가 됩니다.



- AVG


이어서 AVG함수에 대해서 알아봅시다.

AVG함수는 평균을 구하는 함수입니다. 그럼 월급의 평균은 어떠한지 확인해보도록 하겠습니다.


SELECT AVG(salary) FROM employee;



AVG함수 또한 NULL값이 존재할 때에는 NULL값은 무시하고 평균을 구하게 됩니다.



- MIN, MAX


MIN과 MAX는 최대값과 최소값을 구하는 함수 입니다.

다음과 같이 월급의 최소값과 최대값을 구해보도록 하겠습니다.


SELECT MIN(salary), MAX(salary) FROM employee;




- COUNT


마지막으로 알아볼 COUNT 함수는 개수를 세는 함수입니다.

이때 COUNT 또한 NULL값은 무시하게 됩니다. 즉, 값이 존재하는 데이터에 대한 개수만 세는 것이죠.

따라서 salary의 COUNT값과 commission의 COUNT값은 서로 다릅니다.


SELECT COUNT(salary), COUNT(commission) FROM employee;





2. GROUP BY


그런데 만약, 직급별 월급 평균, 월급 합계 등 특정 그룹별로 집계함수를 사용하고 싶을때는 어떻게 할까요?

테이블에서 특정 그룹을 만들 수 있도록 하는 것이 바로 GROUP BY 절 입니다.


즉, GROUP BY 'A' 라고 한다면 A칼럼에서 같은 것끼리 묶어서 하나의 GROUP를 만드는 것이죠.


그럼 바로 GROUP BY를 활용해보도록 하겠습니다.

위에서 이야기한 바와 같이 직급별 월급 평균은 다음과 같이 구할 수 있습니다.


SELECT job 직급, AVG(salary) 월급평균

FROM employee GROUP BY job;



위와 같이 직급별로 GROUP이 되어 AVG함수의 값이 나오는 것을 볼 수 있습니다.


하지만 우리가 다음과 같이 SELECT 문을 구성한다면 어떻게 될까요?


SELECT empName 이름, job 직급, AVG(salary) 월급평균

FROM employee GROUP BY job;


위의 구문을 실행시키면 아래와 같이 오류가 발생하게 됩니다.



오류메세지를 읽으며 한번 왜 오류가 발생하는지 생각해봅시다.

우리가 출력하고자 하는 empName 값이 집계함수에도 없고, GROUP BY 절에도 없어서 사용할 수 없다고 하네요.

그럼 empName이 집계함수나 GROUP BY 절에 있어야 한다는 의미인데, 왜 그럴까요?


우리가 결과를 출력하는 입장이라고 한번 생각해봅시다.

empName이 없을 때는 이전의 결과와 같이 직급과 월급평균을 잘 출력할 수 있었습니다.

예를 들어 과장의 월급평균은 483이란 결과를 가져왔죠.

그런데 이때 해당 레코드(행)에 empName을 출력해야 한다면, 어떠한 empName을 출력해야 할까요?

즉, 과장 직급의 483의 평균월급이라는 레코드는 '과장'이라는 값으로 여러개의 레코드가 그룹이 되어 있는 레코드 입니다. 즉 해당 레코드에는 여러개의 empName이 존재하는 것이죠.

따라서 SQL에서는 그 여러개 중에서 하나를 출력할 수 없기에 오류가 발생하는 것입니다.

만약 empName이 집계함수를 적용시키면 집계함수에 따른 값이 나오겠죠, 물론 문자열 값이기에 또 다른 오류가 발생하겠지만..

또한 empName을 GROUP BY절에 다시 써주면 아래와 같이 job과 empName이 동일한 레코드끼리 묶여서 나오기 때문에 사실상 현재 데이터에서는 모든 데이터를 출력하는 것과 같게 됩니다.


SELECT empName 이름, job 직급, AVG(salary) 월급평균

FROM employee GROUP BY job, empName;




3. HAVING


이번 포스팅에서 마지막으로 알아볼 것은 HAVING절 입니다.

HAVING은 간단하게 말해서, 우리가 위에서 배운 GROUP BY절을 통해 만들어진 GROUP에 대해서 조건을 거는 것 입니다.


그런데 우리는 이전에 조건을 거는 WHERE절에 대해서 학습하였습니다.


WHERE절과 HAVING절의 차이는 무엇일까요?


기본적으로 WHERE절은 모든 레코드(행)에 대해서 조건을 적용하게 됩니다.

하지만 HAVING절은 GROUP BY절을 통해 만들어진 GROUP 들에만 조건을 적용하는 것이죠.


이를 잘 이해하지 못하면 추후에 HAVING과 WHERE 사용에 있어 헷갈릴 수 있습니다.


그럼 바로 사용해보도록 하겠습니다.

각 직급에 대해 3명 이상인 직급과 그 인원수를 출력해보도록 하겠습니다.


SELECT job 직급, COUNT(job) '직급 수' FROM employee

GROUP BY job HAVING COUNT(job) >= 3;



위와 같이 사용됩니다.


그럼 만약,

"월급이 300만원 이상인 사람들에 대해서 직급별로 2명이상인 직급과 그 직급의 월급 평균을 구해라."

라면 어떻게 해야 할까요?

위와 같은 경우에 바로 WHERE절과 HAVING절이 같이 사용하게 됩니다.


SELECT job 직급, AVG(salary) 월급평균 FROM employee

WHERE salary >= 300

GROUP BY job HAVING COUNT(job) >= 2;



추후에 더 많은 데이터들을 대상으로 복잡한 쿼리문을 다루게 되면 충분히 헷갈릴 수 있는 점들이니 꼭 스스로 쿼리문을 작성해보면서 이해하기를 바랍니다.



이렇게 해서 집계함수와 GROUP BY, HAVING 절에 대해서 알아보았습니다.

궁금하거나 잘못된 점은 언제든 댓글이나 이메일, 카카오톡을 통해서 문의주시면 감사하겠습니다.


블로그 이미지

Tigercow.Door

Web Programming / Back-end / Database / AI / Algorithm / DeepLearning / etc

댓글을 달아 주세요


안녕하세요. 문범우입니다.

이번 포스팅에서도 SELECT 문을 기반으로 한 심화적인 내용에 대해서 알아보겠습니다.

LIKE 연산자와 ORDER BY, TOP(n) 등에 대해서 함께 알아보도록 하겠습니다.



1. LIKE


만약, 다음과 같은 조건에 대한 데이터를 조회하려면 어떻게 해야 할까요?


"이씨 성인 사람의 데이터를 조회하라."

"이름에 '범'이 들어가는 사람의 데이터를 조회하라"


우리가 이전에 배운 내용들로 쉽게 할 수 있을까요?

위와 같이 정확하게 어떤 값인지 모르지만 검색이 필요한 경우가 있을 것입니다.

우리는 이럴때 검색을 용이하게 하기 위해서 와일드카드를 사용합니다.

와일드카드로는 '%'와 '_' 두 개의 특수 문자가 존재하는데 각각의 의미하는 바는 다음과 같습니다.


% : 문자가 없거나, 한개이상의 어떠한 문자도 대치함. 즉 0~무한대의 글자가 될 수 있음.

_ : 어떠한 문자가 와도 되지만 단 한글자를 의미함.


설명이 대략적으로 이해가 가시나요?

아래 예제 쿼리들을 통해 확인해보도록 합시다.


먼저, 이름의 성이 '이'씨인 사람들을 찾아보도록 합니다.


SELECT * FROM employee

WHERE empName LIKE '이%';



위와 같이 이름의 첫글자가 '이'로 시작되는 데이터들이 조회되었습니다.

그럼 이번엔 이름에 '범'이 들어가는 데이터를 조회해보도록 합시다.


SELECT * FROM employee

WHERE empName LIKE '%범%';



위와 같이 이름에 '범'이 들어가는 모든 데이터가 조회되었습니다.

그런데 이름의 가운데 글자가 '범'인 사람의 데이터를 조회하고 싶을 때는 어떻게 할까요?

위에서 사용된 '%' 말고, '_'를 사용하면 됩니다.


SELECT * FROM employee

WHERE empName LIKE '_범_';



이렇게 언더바(_) 와일드카드는 무조건 그 자리에 한글자의 문자가 존재해야 합니다.

하지만 퍼센트(%) 와일드카드는 0 ~ 무한대 글자를 포함하기 때문에 와일드카드 위치에 문자가 없어도 되고, 여러 문자가 있어도 되는 것이죠.


언더바와 퍼센트 와일드 카드의 차이점을 한번 더 확인해보도록 하죠.


SELECT * FROM employee

WHERE empName LIKE '장%';



SELECT * FROM employee

WHERE empName LIKE '장_';



언더바와 퍼센트의 차이를 아시겠나요?


또한 LIKE 연산자는 NOT을 붙여서 반대의 의미로도 사용할 수 있습니다.


예를 들어, 이름에 '우'가 들어가지 않는 사람들의 데이터를 조회하고자 한다면 다음과 같이 할 수 있습니다.


SELECT * FROM employee

WHERE empName NOT LIKE '%우%';





2. IS NULL / IS NOT NULL


이번에는 NULL 체크시에 자주 사용되는 IS NULL / IS NOT NULL에 대해서 알아보겠습니다.

IS NULL / IS NOT NULL 은 간단하니 바로 예제 쿼리를 보고 확인해보도록 하겠습니다.


SELECT * FROM employee

WHERE manager IS NULL;



위와 같이 사용됩니다.

또한 주로는 아래와 같이 특정 칼럼값이 NULL이 아닌 데이터들만 조회하는데 주로 사용됩니다.


SELECT * FROM employee

WHERE commission IS NOT NULL;





3. ORDER BY


이번에 배워볼 구문은 ORDER BY 로써, 정렬을 하는데 사용하는 것 입니다.

만약 salary 값의 오름차순으로 데이터를 정렬해서 보여달라고 할 땐 어떻게 할까요?

아래 쿼리와 같이 ORDER BY 를 사용하고 어떤 컬럼을 기준으로 할지 함께 적어주면 됩니다.


SELECT * FROM employee

ORDER BY salary ASC;



이때 ASC는 오름차순을 뜻하며, 내림차순은 DESC 입니다.

만약 둘 중 아무것도 적어주지 않으면  기본적으로 오름차순 정렬이 됩니다.


그런데 결과를 보시면 첫번째와 두번째행의 salary가 250으로 같습니다.

추가적으로 이럴경우에는 empNo의 내림차순으로 정렬하고 싶어한다면 어떻게 할까요?

다음과 같이 이전의 쿼리에서 ORDER BY 뒤에 두번째로 정렬할 기준은 무엇인지 함께 적어주면 됩니다.


SELECT * FROM employee

ORDER BY salary ASC, empNo DESC;





4. TOP(n)


이번 포스팅에서 마지막으로 알아볼 것은 TOP(n) 입니다. 

TOP(n)은 결과 데이터의 상위 n개만 보여주라는 명령어입니다.

이는 MS SQL Server에서의 특징인데, 다른 데이터베이스에서는 LIMIT등으로 표현되고는 합니다.

TOP은 이전과 다르게 FROM 이후에 적어주는 것이 아니라 다음 쿼리와 같이 SELECT 뒤에 적어줍니다.


SELECT TOP 4 * FROM employee

ORDER BY salary;



위와 같이 TOP 뒤에 오는 숫자는 괄호로 묶지 않아도 괜찮습니다.


그런데 기존의 데이터를 보면 salary가 300인 사람은 2명입니다.

위의 쿼리와 같이 결과를 확인하면 salary가 300으로 동점인 2명 중 한명만 출력되고 있는 것인데, 만약 위와 같이 동점이 존재할 때, 모든 동점자를 함께 출력하려면 TOP n 뒤에 WITH TIES 옵션을 같이 붙여주면 됩니다.


SELECT TOP 4 WITH TIES * FROM employee

ORDER BY salary;



위와 같이 salary가 300으로 동점인 2명이 함께 출력되는 것을 확인하실 수 있습니다.

또한 TOP 구문에서는 단순히 정수를 사용하는 것이 아니라 전체 데이터의 퍼센트만큼 출력할 행의 수를 지정할 수 있습니다. 

예를 들어 전체 데이터의 10퍼센트에 해당하는 개수의 데이터만 조회하고 싶다면 다음과 같이 TOP n 뒤에 PERCENT 옵션을 붙여주면 됩니다.


SELECT TOP 10 PERCENT * FROM employee

ORDER BY empNo;




이렇게 해서 LIKE연산자를 비롯해 ORDER BY, TOP n 등에 대해서 알아보았습니다.

다음 포스팅에서는 집계함수(sum, max, min, avg 등)에 대해서 알아보며 동시에 GROUP BY, HAVING 절에 대해서도 함께 알아보도록 하겠습니다.

블로그 이미지

Tigercow.Door

Web Programming / Back-end / Database / AI / Algorithm / DeepLearning / etc

댓글을 달아 주세요


안녕하세요. 문범우입니다.

이번 포스팅에서는 먼저 샘플 데이터세트를 구성해보고, 이를 바탕으로 select 문에 대해서 보다 자세히 다뤄보도록 하겠습니다.



1. 샘플 데이터세트 구성하기


아래의 쿼리를 실행시킴으로써 샘플 데이터베이스 생성 부터 데이터 입력까지 진행합니다.

단순 CREATE 및 INSERT 문이기 때문에 복사 붙여넣기를 하셔도 되지만

복습 및 익숙해짐을 위해서 직접 타이핑 해보시는 것도 좋을 것 같습니다.


-- CREATE SAMPLE_DB

CREATE DATABASE SampleDB;


USE SampleDB;


-- CREATE TABLE

CREATE TABLE department(

deptNo INT PRIMARY KEY,

deptName NVARCHAR(20),

location NCHAR(20)

);


CREATE TABLE employee(

empNo INT PRIMARY KEY,

empName NVARCHAR(20),

job NVARCHAR(20),

manager INT,

hireDate DATETIME,

salary INT,

commission INT,

deptNo INT FOREIGN KEY REFERENCES DEPARTMENT(deptNo)

);


-- INSERT DATA

INSERT INTO department (deptNo, deptName, location)

VALUES (10, '경리부', '서울');

INSERT INTO department (deptNo, deptName, location)

VALUES (20, '인사부', '인천');

INSERT INTO department (deptNo, deptName, location)

VALUES (30, '영업부', '대전');

INSERT INTO department (deptNo, deptName, location)

VALUES (40, '전산부', '부천');


INSERT INTO employee (empNo, empName, job, manager, hireDate, salary, deptNo)

VALUES (1001, '최범우', '사원', 1013, '2007-03-21', 300, 20);

INSERT INTO employee (empNo, empName, job, manager, hireDate, salary, commission, deptNo)

VALUES (1002, '김범수', '대리', 1005, '2007-04-11', 250, 80, 30);

INSERT INTO employee (empNo, empName, job, manager, hireDate, salary, commission, deptNo)

VALUES (1003, '장태훈', '과장', 1005, '2005-02-01', 500, 100, 30);

INSERT INTO employee (empNo, empName, job, manager, hireDate, salary, deptNo)

VALUES (1004, '최상우', '부장', 1008, '2003-09-01', 600, 20);

INSERT INTO employee (empNo, empName, job, manager, hireDate, salary, commission, deptNo)

VALUES (1005, '변봉중', '과장', 1008, '2003-10-02', 450, 200, 30);

INSERT INTO employee (empNo, empName, job, manager, hireDate, salary, deptNo)

VALUES (1006, '송원철', '부장', 1005, '2003-08-02', 480, 30);

INSERT INTO employee (empNo, empName, job, manager, hireDate, salary, deptNo)

VALUES (1007, '문서연', '부장', 1008, '2004-03-08', 520, 10);

INSERT INTO employee (empNo, empName, job, manager, hireDate, salary, commission, deptNo)

VALUES (1008, '장웅', '차장', 1003, '2004-03-01', 500, 0, 30);

INSERT INTO employee (empNo, empName, job, hireDate, salary, deptNo)

VALUES (1009, '최상범', '사장', '1996-10-04', 1000, 20);

INSERT INTO employee (empNo, empName, job, manager, hireDate, salary, deptNo)

VALUES (1010, '이명근', '과장', 1003, '2005-04-01', 500, 10);

INSERT INTO employee (empNo, empName, job, manager, hireDate, salary, deptNo)

VALUES (1011, '서은혜', '사원', 1007, '2007-02-03', 280, 30);

INSERT INTO employee (empNo, empName, job, manager, hireDate, salary, deptNo)

VALUES (1012, '이철진', '사원', 1006, '2007-08-06', 300, 20);

INSERT INTO employee (empNo, empName, job, manager, hireDate, salary, deptNo)

VALUES (1013, '한태범', '부장', 1003, '2002-10-09', 560, 20);

INSERT INTO employee (empNo, empName, job, manager, hireDate, salary, deptNo)

VALUES (1014, '김광우', '사원', 1006, '2007-11-09', 250, 10);


위의 쿼리들을 이용해서 데이터세트를 구성하고 나서 아래의 기본 SELECT문을 이용하여 각각의 테이블을 조회하면 아래 사진과 같은 결과가 나와야 합니다.


-- SELECT TABLE

SELECT * FROM department;




SELECT * FROM employee;



그럼 위의 데이터들을 바탕으로 SELECT 문에 대해서 학습해보도록 하겠습니다.



2. SELECT


기본적으로 SELECT 문은 아래와 같은 형태를 띄고 있습니다.


SELECT <COLUMN NAME1, COLUMN NAME2, ...>

FROM <TABLE NAME>;


물론 해당 SELECT 문에 WHERE 문이라는, 조건절이 추가적으로 붙어서 사용되는 경우가 많지만 이번 포스팅에서 해당 내용은 제외하고 심플하게 SELECT문에 대해서만 알아보도록 하겠습니다.


SELECT문 에서는 특정 테이블에서 내가 원하는 컬럼에 대한 데이터만 조회할 수 있습니다.

이때 조회하고자 하는 테이블이름과 조회하고자 하는 컬럼명을 적어주어야 합니다.

그럼 employee 테이블에서 empName과 job, salary를 조회해보도록 하겠습니다.


SELECT empName, job, salary

FROM employee;




* SELECT문에서 연산자 이용하기


이번에는 SELECT 문에서 연산자를 이용해보는 실습을 진행해보겠습니다.

현재 우리는 salary에 대한 데이터를 가지고 있는데, 만약 연봉값을 알고 싶을 땐 어떻게 해야할까요?

간단하게 생각해보면, salary는 월급이므로 salary에 12를 곱하면 연봉이 될 것입니다.

SELECT 문에서는 연산자 이용이 가능합니다. 따라서 연봉을 구하기 위해 salary에 12를 곱해주면 되는 것이죠.


아래와 같이 쿼리문을 작성함으로써 employee들의 연봉 값을 같이 구할 수 있습니다.


SELECT empName, job, salary, salary*12

FROM employee;




위의 결과를 보면 salary에 12를 곱한 값들도 함께 출력되는 것을 확인할 수 있습니다.

하지만 해당 열이름을 보면 (열 이름 없음) 이라는 값으로 나와서 그것이 연봉인지는 모두가 알기 쉽지 않을 것 입니다.

그럼 우리가 원하는 열 이름을 지정해줄 수 있다면 어떨까요?

당연히 해당 기능을 지원하고 많이 이용되고 있습니다.



* as 를 이용한 열 이름 별칭 사용하기


해당 기능을 열 이름에 별칭을 사용한다고 표현합니다.

별칭이라는 말 그대로, 원래 이름대신 별명을 이용하는 것이라고 생각하시면 됩니다.

이는 위에서 본 (열 이름 없이)와 같이 새롭게 생성된 열 이외에도, 기존의 열에도 사용 가능합니다.

아래의 쿼리와 같이 작성함으로써 각각의 열에 대해서 우리가 원하는 이름을 지정할 수 있습니다.

SELECT empName as 사원이름, job as 직급, salary as 월급, salary*12 as 연봉

FROM employee;



위와 같이 as 뒤에 설정한 이름이 출력되는 열의 이름이 된 것을 확인할 수 있습니다.


추가로, 아래와 같이 as 라는 예약어는 생략가능하며, 만약 우리가 지어주는 열 이름에 띄어쓰기를 넣고 싶다면 아래와 같이 별칭 값을 홀 따옴표로 묶어줘야 합니다.




그런데 사실 연봉에는 commission 값도 포함되어야 합니다.

그럼 연봉에 해당 값을 같이 더해서 출력해보겠습니다.

우리가 * 연산을 활용한 것과 같이 그대로 + 연산을 활용하면 됩니다.


SELECT empName 사원이름, job 직급, salary 월급, (salary*12) + commission '연  봉'

FROM employee;



하지만 결과를 보면, 우리가 생각하지 못했던 NULL 값이 출력되고 있습니다.

왜 이런 결과가 나오는 것 일까요?



* NULL 값


먼저 그 이유를 알아보자면, NULL과 함께 연산했기 때문에 그 결과가 NULL로 나오는 것 입니다.


기존의 데이터를 살펴보면 commission 값을 NULL로 설정한 행들이 있습니다.

그리고 위의 결과와 대조해 보았을 때 commission 값이 NULL인 행들의 연봉이 NULL로 나온 것을 볼 수 있습니다.

즉, 덧셈 연산을 통해 특정 값에 NULL을 더했기 때문에 그 결과도 NULL이 나오는 것 입니다.

도대체 NULL이 정확이 무엇이길래, 그러한 결과가 될까요?


NULL은 0이라는 값이나, 문자열에서의 공백을 의미하는 것이 아닙니다.

그렇다고 해서 값이 저장되는 공간을 의미하는 것도 아닙니다.

NULL은 정말 단순하게, 인식되지 않는 값, 미확정 값을 의미합니다.


즉 NULL 값이란 어떠한 값이 존재하는 것이지만 어떠한 값인지 우리가 알 수 없는 것 입니다.

NULL 값이 단순하게 하나로 정의되기 보다는 우리가 인식하지 못하는, 어떠한 값이라고 이야기할 수 없는 모든 값이 NULL로 표현됩니다.

이해를 위해 특정 NULL의 값이 3a937f8b13 이라고 해봅시다.

그런데 만약 해당 값에 5000 이라는 값을 더하면, 우리가 인식할 수 있는 값이 될까요?

그렇지 않습니다. 우리가 5000 이라는 인식할 수 있는 값이 있었지만 해당 값과 인식하지 못하는 값을 더했기 때문에 결국 그 결과도 인식할 수 없는 결과가 되어 버립니다.


따라서 연산에서도, NULL을 이용한 연산을 한다면 그 결과 또한 항상 NULL이 되어버립니다.


그럼 이렇게 NULL이 포함된 값에 대해서 연산을 수행할 때, 그 결과가 NULL이 나오지 않게 하려면 어떻게 해야 할까요?



* isnull 함수 사용하기


바로, isnull() 이라는 내장함수를 사용하면 됩니다.

내장함수라는 것은 말 그대로, 외부에서 호출(import)을 하지 않아도 내부에 저장되어 있어 즉시에 사용할 수 있는 함수를 이야기합니다.

isnull함수는 다음과 같이 사용될 수 있습니다.


isnull(field, val)


위와 같이 사용되는 isnull함수는 field의 값이 null일때 val값으로 대치(변경)되어 처리됩니다.


말이 조금 어렵다면 바로 아래와 같이 쿼리를 작성하여 그 결과를 보고 이해해보도록 합시다.


SELECT empName 사원이름, job 직급, salary 월급, isnull(commission, 0) 보너스, (salary*12) + isnull(commission, 0) '연  봉' FROM employee;



아까와 달리 NULL이라는 결과가 나오지 않고, 제대로 결과가 출력됨을 볼 수 있습니다.



* distinct


그럼 이번에는 회사에 있는 직급들에 대해서만 한번 출력해보도록 하겠습니다.


SELECT job as 직급 FROM employee;


위와 같이 회사내의 직원들의 직급이 전부 출력되었습니다.

하지만 위의 결과에서는 직급에 대해 중복되는 결과들이 있기에 실제로 회사에 어떤 직급들이 존재하는지 보기가 편리한 결과는 아닙니다.

즉, 중복되는 값들을 출력되지 않게 한다면 회사 내에 존재하는 직급들을 확인하는데 보다 편리할 것 입니다.

이렇게, 중복되는 값들은 출력되지 않도록 하는 것이 distinct 입니다.

아래의 쿼리를 통해 확인해보도록 하겠습니다.


SELECT DISTINCT job as 직급 FROM employee;


그럼 아래와 같은 쿼리는 어떨까요?


SELECT DISTINCT job as 직급, empName as 사원이름 FROM employee;


이전의 쿼리와 달리, 직급의 중복 데이터가 존재합니다.

즉 DISTINCT는 특정 칼럼에 대해서만 중복을 확인하는 것이 아니라, 출력되는 각 행(레코드)의 중복을 체크하는 것입니다.

다시 말해서, 출력된 결과의 1번과 2번의 직급은 과장으로 동일하지만 사원이름이 서로 다르기 때문에 중복된 행이 아닙니다. 따라서 DISTINCT에 의해 생략되지 않고 둘 다 출력되는 것 입니다.



* 애스터리스크(*)


마지막으로는 애스터리스크라고도 불리는, 별표(*)에 대해서 알아보고 오늘 글을 마무리하려 합니다.

사실 이전에도 몇번 만나보았고 간단하게 설명드렸던 내용입니다.

이전에 우리가 아래와 같은 쿼리를 작성했던 것 기억하시나요?


SELECT * FROM employee;

위의 쿼리에서 *를 애스터리스트, 별표라고 합니다.

그리고 그 의미는 모든 값을 의미하는 것이죠.

즉, employee에 있는 모든 칼럼을 의미하기 때문에 해당 쿼리의 결과는 아래 사진과 같이 employee 테이블의 모든 칼럼에 대한 값을 출력하게 됩니다.




이렇게 해서 SELECT 문에 대한 글을 마무리합니다.


물론 추후에 WHERE절이 붙거나 JOIN, 서브쿼리를 이용하는 등의 작업에 있어서 SELECT 문에 대해서도 더 알아보아야 할 내용들이 많겠지만, 간단한 내용부터 하나씩 알아갈 예정입니다.

처음 SQL을 공부하시는 분들은 꼭 위의 내용에 대해서 이해해주셔야 추후에 더 복잡한 쿼리문에 있어서 어렵지 않게 공부하실 수 있을 것이라 생각됩니다.

더 궁금한 점이나 잘못된 부분에 대해서는 언제든지 거침없이 말씀해주시면 감사하겠습니다 :)


블로그 이미지

Tigercow.Door

Web Programming / Back-end / Database / AI / Algorithm / DeepLearning / etc

댓글을 달아 주세요