관리 메뉴

RUBY

[220614] SQL개발자 _ 02. 반정규화 본문

자격증/SQL 개발자

[220614] SQL개발자 _ 02. 반정규화

ruby-jieun 2022. 6. 14. 16:54

 


 

 


반정규화

(Denormalization)

 

 

반정규화란 시스템의 성능 향상, 개발 및 운영의 편의성 등을 위해 정규화 된

데이터 모델을 통합, 중복, 분리하는 과정으로, 의도적으로 정규화 원칙을 위배하는 행위이다.

 

 

 

 


 

 

 

 

 

 

 

 

반정규화란?

 

 - 반정규화는 조회(select) 속도를 향상시키지만, 데이터 모델의 유연성을 낮아진다.

 - 데이터베이스의 성능 향상을 위하여, 데이터 중복을 허용하고 조인을 줄이는 데이터베이스 성능 향상 방법이다.

 

 

 

 

 

 

반정규화를 수행하는 이유

 

  1. 정규화에 충실하여 종속성, 활용성은 향상 되었지만 수행속도가 느려진 경우
  2. 다량의 범위를 자주 처리해야하는 경우
  3. 특정 범위의 데이터만 자주 처리하는 경우
  4. 요약 / 집계 정보가 자주 요구되는 경우

 

 

 

 

 

반정규화의 절차

 

 

 

 

 

  1. 반정규화의 대상을 조사

    - 자주 사용되는 테이블에 접근하는 프로세스의 수가 많고 항상 일정한 범위만을 조회하는 경우
    - 테이블에 대량의 데이터가 있고 대량의 데이터 범위를 자주 처리하는 경우, 처리 범위를 줄이지 않으면 성능을 보장할 수 없는 경우
    - 통계성 프로세스에 의해 통계 정보를 필요로 할 때 별도의 통계테이블을 생성
    - 테이블에 지나친 조인이 걸려 있을 때



  2. 반정규화의 대상에 대해 다른 방법으로 처리할 수 있는지 검토


    가급적 데이터를 중복하여 데이터 무결성을 깨뜨릴 위험을 제어하기 위해 다음과 같이 다른 방법을 모색하도록 한다.


      - 지나치게 많은 조인이 걸려있어, 데이터를 조회하는 작업이 기술적으로 어려운 경우 뷰(VIEW)를 생성하여 개발자별로 SQL 문장을 만드는 방법에 따라 성능저하가 나타날 수 있는 위험을 예방한다.

      - 대량의 데이터처리나 부분처리에 의해 성능이 저하되는 경우 클러스터링을 적용하거나 인덱스를 조정함으로써 성능을 향상시킬 수 있다. 이 때 데이터의 조회가 대부분 이루어지고 인덱스를 통해 성능향상이 불가능할 경우 클러스터링을 고려해볼 수 있다. 또한 인덱스를 통해 성능향상이 불가능하다면 클러스터링을 고려할만 하다.

      - 대량의 데이터는 Primart Key 성격에 따라 부분적인 테이블로 분리할 수 있다. 즉 파티셔닝 기법(Partitioning)이 적용되어 성능저하를 방지할 수 있다. 인위적인 테이블을 통합 / 분리하지 않고 물리적인 저장기법에 따라 성능을 향상시킬 수 있다. 따라서 특정 기준에 의해 물리적인 저장공간이 구분될 수 있고 트랜잭션이 들어올 때 일정한 기준에 의해 들어온다면 파티셔닝 테이블을 적용하여 조회의 성능을 향상시키도록 한다.

      - 응용 애플리케이션에서 로직을 구사하는 방법을 변경함으로써 성능을 향상 시킬 수 있다.




  3. 반정규화를 적용

    테이블 반정규화 / 칼럼 반정규화 / 관계 반정규화 3가지 기법 중 선택하여 반정규화를 적용한다.

 

 

 

 

반정규화 기법

 

  1. 테이블 반정규화

    1) 테이블 병합

        ① 1 : 1 관계 테이블 병합
           - 1 : 1 관계를 통합하여 성능 향상

        
    ② 1 : M 관계 테이블 병합
           - 1 : M 관계를 통합하여 성능 향상

        
    ③ 슈퍼 / 서브 타입 테이블 병합
           - 슈퍼 / 서브 관계를 통합하여 성능 향상


    2) 테이블 분할

        ① 수직분할
           - 칼럼단위의 테이블을 디스크 I / O를 분산처리 하기 위해 테이블을 1 : 1 로 분리하여 성능향상
            (트랜잭션의 처리되는 유형을 파악)이 선행되어야 함


        
    ② 수평분할
           - 로우 단위로 집중 발생되는 트랜잭션을 분석하여 디스크 I / O 및 데이터접근의 효율성을 높여
             성능을 향상하기 위해 로우 단위로 테이블을 쪼갬 (관계가 없음)



    3) 테이블 추가

        ① 중복테이블 추가
           - 다른 업무이거나 서버가 다른 경우 동일한 테이블구조를 중복하여 원격조인을 제거하여 성능을 향상

        
    ② 통계테이블 추가
           - SUM, AVG 등을 미리 수행하여 계산해 둠으로써 조회 시 성능을 향상

        
    ③ 이력테이블 추가
           - 이력테이블 중에서 마스터 테이블에 존재하는 레코드를 중복하여 이력테이블에 존재하는 방법

        
    ④ 부분테이블 추가
           - 하나의 테이블이 전체 칼럼 중 자주 이용하는데 자주 이용하는 집중화된 칼럼들이 있을 때
             디스크 I / O를 줄이기 위해 해당 칼럼들을 모아놓은 별도의 반정규화된 테이블을 생성



  2. 칼럼 반정규화


    1) 중복칼럼 추가

        조인에 의해 처리할 때 성능저하를 예방하기 위해 즉, 조인을 감소시키기 위해 중복된 칼럼을 위치시킴

    2) 파생칼럼 추가
        트랜잭션이 처리되는 시점에 계산에 의해 발생되는 성능저하를 예방하기 위해 미리 값을 계산하여 칼럼에 보관함.  Derived Column이라고 함

    3) 이력테이블 칼럼추가
        대량의 이력데이터를 처리할 때 불특정 날 조회나 최근 값을 조회할 때 나타날 수 있는 성능저하를 예방하기 위해 이력테이블에 기능성 칼럼(최근값 여부, 시작과 종료일자 등)을 추가함

    4) PK에 의한 칼럼 추가
        복합의미를 갖는 PK를 단일 속성으로 구성하였을 경우 발생됨. 단일 PK안에서 특정값을 별도로 조회하는 경우 성능저하가 발생될 수 있음, 이 때 이미 PK안에 데이터가 존재하지만 성능향상을 위해 일반속성으로 포함하는 방법이 PK에 의한 칼럼추가 반정규화임

    5) 응용시스템 오작동을 위한 칼럼 추가
        업무적으로는 의미가 없지만 사용자가 데이터처리를 하다가 잘 못 처리하여 원래 값으로 복구하기를 원하는 경우 이전 데이터를 임시적으로 중복하여 보관하는 기법.
        칼럼으로 이것을 보관하는 방법은 오작동 처리를 위한 임시적인 기법이지만 이것을 이력데이터 모델로 풀어내면 정상적인 데이터 모델의 기법이 될 수 있음
     

  3. 관계 반정규화


    중복관계 추가

        데이터를 처리하기 위한 여러 경로를 거쳐 조인이 가능하지만, 이 때 발생할 수 있는 성능저하를 예방하기 위해 추가적인 관계를 맺는 방법이 관계의 반정규화임


    * 테이블과 칼럼의 반정규화는 데이터 무결성에 영향을 미치게 되나 관게의 반정규화는 데이터 무결성을 깨뜨릴 위험을 갖지 않고서도 데이터처리의 성능을 향상시킬 수 있는 반정규화의 기법이 된다. 데이터 모델 전체가 관계로 연결되어 있고 관계가 서로 먼 친척간의 조인관계가 빈번하게 되어 성능저하가 예상이 된다면 관계의 반정규화를 통해 성능 향상을 도모할 필요가 있다.
Comments