검수요청.png검수요청.png

데이터 웨어하우스

해시넷
이동: 둘러보기, 검색

데이터 웨어하우스(Data Warehouse, DW)는 비즈니스 인텔리전스(BI) 활동, 특히 분석 작업을 지원하도록 설계된 일종의 데이터 관리 시스템이다. 데이터 웨어하우스는 오로지 쿼리와 분석을 수행하기 위해 개발된 것으로, 주로 대량의 과거 데이터를 포함한다. 데이터 웨어하우스에 있는 데이터는 일반적으로 애플리케이션 로그 파일이나 트랜잭션 애플리케이션과 같은 다양한 출처에서 수집된다.[1]

개요[편집]

 데이터 웨어하우스(Data Warehouse)는 1980년대 중반 IBM이 자사의 하드웨어를 판매하기 위해 처음으로 도입했던 개념으로, IBM은 ‘정보창고’의 의미로 인포메이션 웨어하우스(Information Warehouse)라는 용어를 사용하였다. 이후 이 개념은 많은 하드웨어, 소프트웨어 및 툴(tool) 공급 업체들에 의해 이론적, 현실적으로 성장하였으며, 1980년대 후반 W.H Inmon에 의해 최초로 데이터 접근 전략으로 데이터 웨어하우스 개념을 사용함으로써 많은 관심과 집중을 받게 되었다. 데이터 웨어하우스의 일반적인 정의는 의사결정에 필요한 정보처리 기능을 효율적으로 지원하기 위한 통합된 데이터를 가진 양질의 데이터베이스이다.[2]

목적[편집]

데이터 웨어하우스는 기존 정보를 활용해 더 나은 정보를 제공하고, 데이터의 품질을 향상시키며, 조직의 변화를 지원하고 비용과 자원관리의 효율성을 향상시키는 것을 주목적으로 하고 있다. 데이터웨어하우스는 사용자의 의사결정을 지원하기 위해 기업이 축적한 많은 데이터를 사용자 관점에서 주제별로 통합하여 운영시스템과 사용자 사이의 별도의 장소에 저장해 놓은 데이터베이스로 이해할 수 있다.[2]

필요성[편집]

  • 데이터 웨어하우스 시스템의 필요성

이러한 기존 시스템의 문제점을 보완하기 위하여 통합데이터베이스 방식의 시스템이 제안되기도 하였으나, 이러한 비정형화된 결과 생성을 위한 프로그래밍, 개발기간의 장기화 등의 단점으로 새로운 시스템을 요구하게 되었다.[2]

  • 기존 데이터베이스와 데이터웨어하우스 차이점
구분 기존 데이터베이스 데이터 웨어하우스
기능 업무 프로세스 의사결정
데이터 형태 기능별 상세 데이터 주제별 요약 데이터
데이터 조작 read/write/update/delete read only
지향방향 신속한 처리 다차원 분석 제공

특징[편집]

주제지향성[편집]

데이터 웨어하우스 내의 데이터는 일상적인 트랜잭션을 처리하는 애플리케이션과 기능성들을 중심으로 하는 운영시스템의 데이터와는 달리 정보 이용자 관점에서 접근이 가능한 일정한 주제별 데이터로 분류 가능한 특징을 지닌다. 예를 들어 금융기관에서의 운영시스템은 대출, 예금, 은행, 카드 신탁 처리 등과 같은 애플리케이션과 기능들을 중심으로 디자인 되어 있지만, 데이터 웨어하우스 방식에서는 고객 거래처, 상품, 활동 등과 같은 주제 영역을 중심으로 조직화된다. 따라서 데이터 웨어하우스의 데이터는 의사결정시스템에 사용되지 않은 데이터는 저장하지 않는 반면, 운영시스템의 데이터는 의사결정 분석자의 의도와는 관계없는 즉시적인 요구를 만족시킬 수 있는 상세 데이터를 포함하게 된다.[2]

통합성[편집]

데이터하우스에 보관되는 데이터는 애플리케이션 환경에서 발생되는 다양한 운영 데이터를 표준적이고 일관된 웨어하우스용 데이터베이스로 변환되어야 하며, 이를 위해서는 데이터 웨어하우스 내의 데이터는 고도의 통합과 데이터에 대한 품질 보증과 과정이 필요하다. 이러한 통합성은 데이터의 이름 작성 방법, 일관된 변수 측정, 일관된 코드와 구조, 일관된 물리적 특성 등 여러 가지 면에서 나타난다. 예를 들어, 기존의 애플리케이션 중심의 운영 환경에서는 남자와 여자를 남/여, Male/Female, 1/0 등으로 다양하게 적용할 수 있으나, 데이터 웨어하우스에서는 이들을 통합할 필요가 있다(예: 남자와 여자는 ‘남’과 ‘여’로 통합). 이러한 데이터의 통합을 위한 운영시스템의 데이터베이스 내에서 데이터 변환 작업은 데이터 웨어하우스 구축의 중요한 작업 중 하나를 차지하게 된다.[2]

시계열성[편집]

데이터 웨어하우스에 있는 모든 데이터는 일정 기간 동안 정확성을 유지한다. 이러한 특성은 엑세스 순간에 데이터의 정확성이 유지되는 운영시스템과는 매우 다르다고 볼 수 있다. 즉, 데이터웨어하우스에는 과거의 데이터와 현재의 데이터를 동시에 유지한다는 점에서 시간 가변적이라고 볼 수 있는 것이다. 데이터 웨어하우스의 시계열성은 어떤 자료가 시간에 따라 변경되어야 하는 것이 아니고, 시간에 따른 변경을 항상 반영하고 있어야 함을 의미한다. 이러한 데이터 웨어하우스의 데이터는 일정한 시간동안 데이터를 대변하는 것으로 스냅 샷(Snap Shot)이라고 할 수 있으며, 데이터의 구조상 ‘시간’이 아주 중요한 요소로 작용한다. 따라서 데이터 구조상에 데이터하우스의 데이터에는 수시적인 갱신이나 변경이 발생할 수 없다. 즉, 데이터 웨어하우스란 데이터를 정보로 활용할 수 있도록 저장해 놓은 창고라 할 수 있으며, 이와 같은 목적은 의사결정을 지원하는데 있다. 일반적으로 데이터웨어하우스의 데이터는 5~10년 정도의 장기간의 데이터를 나타내며, 운영시스템에서는 60~90일 정도의 짧은 시간 간격을 가진다.[2]

비휘발성[편집]

데이터 웨어하우스용 데이터는 한 시점에서 대량의 데이터가 적재되고 액세스 되는 반면 데이터의 갱신이 발생하지 않은 조회전용 데이터이다. 데이터 웨어하우스에서는 수행과정에서 단지 두 가지 오퍼레이션(operation)을 갖게 되는데, 첫째는 데이터를 로딩(loading)하는 것이고, 두 번째는 데이터를 읽는 것 즉, 엑세스(access) 하는 과정이다. 일반적인 운영시스템에서의 데이터 갱신과 삭제는 이루어지지 않고, 데이터 웨어하우스에 일단 데이터가 로드 되면, 읽기 전용형태의 스냅 샷 데이터로 존재하게 되는 것이다. 따라서 데이터 웨어하우스에는 운영시스템에서 새로운 데이터를 주기적인 일괄작업으로 새롭게 하는 작업 외에는 수시로 변하지 않는 비휘발성의 특징을 갖게 된다.[2]

구조[편집]

일반적인 데이터 웨어하우스 구조는 운영시스템에서 데이터를 추출하여 로드시키는 데이터 웨어하우스 서버와 서버에 로드 된 데이터를 다차원 모델링으로 분석, 저장하는 저장고(repository) 그리고 데이터 웨어하우스의 데이터를 다양한 방식으로 액세스하고 분석하는 데이터 웨어하우스 애플리케이션으로 구성된다. 데이터 저장고를 시스템 측면에서 좀 더 자세하게 분류하면 관리 하드웨어, 관리 소프트웨어, 추출변환정렬도구, 데이터베이스 마케팅 시스템, 메타 데이터, 최종사용자의 접근 및 활용도구 6가지로 분류하기도 한다.[2]

구축[편집]

구축 단계[편집]

데이터 웨어하우스 구축은 사용 도구와 저장 데이터베이스의 종류에 따라 조금씩 다르지만 일반적으로 우선 소스 시스템, 즉 운영시스템으로부터 데이터를 데이터 웨어하우스에 로드(load)시키고, 다차원 모델링을 통해 데이터를 테이블 내에 저장하고 최적의 성능을 내도록 관리한다. 그리고 의사결정 지원을 위해 구축된 데이터웨어하우스를 액세스하기 위한 사용자 인터페이스 애플리케이션을 개발하고 분석하면 완료된다.[2]

구분 의미 내용
1단계 실행계획 수립 - 조직의 전략계획, 이행계획, 기술적 검토, 데이터 웨어하우스 구성요소에 대한 평가 보고서 작성
2단계 데이터 모델 검토 - 데이터베이스 설계와 프로젝트 관리 과정을 포함
- 기존 논리모델에 대한 검토 작업과 현업의 개괄적인 요건 조사를 통해 프로젝트 범위 확정
3단계 데이터 성격 규정 - 데이터 웨어하우스 내에서 데이터를 입력, 보관, 관리하여 최종 사용자가 가장 효율적으로 활용할 수 있도록 데이터의 성격을 규정하는 작업
- 유지 관리 시 중요한 정보로 활용
4단계 데이터 변환 프로그램 작성 - 운영환경에 있는 데이터를 데이터 웨어하우스 데이터베이스로 변환하기 위해 필요한 정보를 정리한 후, 데이터변환 도구에 의해 작성하고 그 결과를 확인
5단계 소스 데이터 추출 - 생성된 데이터 변환 프로그램을 이용하여 실제로 데이터 웨어하우스를 구축하는 반복적 작업
6단계 메타 데이터 설정 - 특정 기능별 부분에 대한 자료의 집중과 질의를 위해 이미 구축된 데이터 웨어하우스로부터 데이터 복제기능을 이용하여 필요한 부분과 기능별 데이터마트를 별도 구성
7단계 데이터 액세스 도구 지원 - 데이터 웨어하우스를 구축한 후에 최종 사용자가 데이터를 가장 완벽하게 활용할 수 있도록 하는 과정, 즉 데이터마이닝의 과정
8단계 운영환경 점검, 테스트 - 구축 후 지속적 모니터링을 통하여 문제점을 파악하여 시스템을 개선
- 사용자에게 데이터 웨어하우스 프로토타입 제시

고려사항[편집]

  • 정보시스템 팀과 현업의 조화와 협조로 시작되어야 한다. 정보시스템 팀은 현업의 요구사항을 충분히 반영해야 하며 현업도 요구사항을 현실적으로 조정할 수 있도록 IT의 능력에 대한 이해가 있어야 한다.
  • 최고 경영층의 의지가 중요하다. 데이터 웨어하우스의 효과에 대한 강한 믿음과 중요성을 인식할 수 있어야 한다.
  • 성급하게 진행해서는 안 된다. 데이터 웨어하우스를 2~3년 내에 끝내겠다는 생각보다는 시간적인 여유를 가지고 구축에 대한 충분한 검토와 과정을 거쳐 구축하는 것이 바람직하다.
  • 처음부터 과도한 투자를 해서는 안 된다. 이것은 데이터 웨어하우스가 병원에 어느 정도 기여할 것인지 정확히 알 수 없는 상황에서 과도한 투자는 경영의 경제적 상황을 악화시킬 수 있다.[2]

각주[편집]

참고자료[편집]

같이 보기[편집]


  검수요청.png검수요청.png 이 데이터 웨어하우스 문서는 데이터에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.