검수요청.png검수요청.png

"데이터 통합"의 두 판 사이의 차이

해시넷
이동: 둘러보기, 검색
(새 문서: '''데이터 통합'''(data integration)이란 생체 시스템 및 시스템 구성원에 대한 복수의 데이터들을 종합하여, 개별 데이터로는 알 수 없는 포괄...)
 
1번째 줄: 1번째 줄:
'''데이터 통합'''(data integration)이란 생체 시스템 및 시스템 구성원에 대한 복수의 데이터들을 종합하여, 개별 데이터로는 알 수 없는 포괄적이며 새로운 시각을 제공하는 행위이다.
+
'''데이터 통합'''(data integration)이란 유사항 성격의 데이터, 동질성을 가진 데이터를 더 큰 주제로 합치는 것을 의미한다. 확상성이 좋은 유연한 모델 작성으로 요구사항을 추가/변경에 따른 모델 변경을 최소화하는 것을 목적으로 가지고 있다.
<ref name="데이터 통합"> 〈[https://terms.naver.com/entry.nhn?docId=5141520&cid=60266&categoryId=60266 데이터 통합]〉, 《데이터 통합》</ref>
+
<ref>〈[https://pronician.tistory.com/1052?category=527453 데이터 통합]〉, 《DB모델링 - 4. 데이터통합》, 2015-11-20</ref>
 +
즉, 자료의 중복을 배제한 데이터의 모임이다.<ref>〈[https://coding-factory.tistory.com/214 데이터 통합]〉, 《[DB기초] 데이터베이스의 정의와 특징》, 2018-08-08</ref>
  
 
==개요==
 
==개요==
데이터 통합이란 기업 내 산재되어 있는 다양한 데이터 소스들과 시스템, 애플리케이션 등으로부터 데이터를 모으고, 이 데이터들이 가치있고 재사용 가능한 정보가 되도록 만들어 주는 과정으로 데이터 소스에 질의를 보내면 그 질의가 네트워크를 돌아 다니면서 XML 문서, 전자우편, 멀티미디어 파일 등 구조화 데이터와 비구조화 데이터들을 모두 한 곳에 저장돼 있는 것처럼 가상 데이터베이스를 구축해 줌으로써 데이터를 복제하거나 애플리케이션의 기존 소스를 변경하지 않고도 즉시 이용할 수 있겠하는것이다.
+
 
<ref> 〈[https://terms.naver.com/entry.nhn?docId=864453&cid=42346&categoryId=42346 데이터 통합]〉, 《데이터 통합》</ref>
 
  
 
==특징==
 
==특징==
* 자주 사용되는 용어<ref name="데이터 통합"/>
+
===통합 기준===
:{|class=wikitable cellpadding="10" cellspacing="0" border="1" style="margin:0 auto;"
+
데이터의 성격(주제)가 유사하다(동질성) 식별자가 동일하면서 유사한 속성이 존재한다(유사성) 식별자는 다르지만 기초 속성이 유사하다(유사성) 현행 데이터가 존재하면 마이그레이션하는데 문제가 없다. 별개의 요건으로 사용되지 않고 주로 같이 조회된다. 통합해서 성능문제를 일으키지 않는다.
|+
+
 
!width = "200px"| 용어
+
===통합 대상===
!width ="700px"| 설명
+
* 속성: 여러 엔티티에서 동일한 성질로 관리되는 속성을 도출하여 새로운 엔티티로 통합한다.
|-
+
* 관계: 엔티티간 존재하는 많은 개별 관계를 상위 개념의 관계로 통합한다.
|width = "200px" align=center| 도식(Schema)
+
* 엔티티: 공통된 속성이 존재하는 엔티티를 통합해 슈퍼타입을 도출한다. 조인의 불편함, 성능에 영향을 미치는 배타적 관계의 엔티티를 통합한다.
|width ="700px"| 보관된 데이터들을 구조화.질의 가능(queryable)한 형태로 정리하는 방식
+
 
|-
+
===고려사항===
|width = "200px" align=center| [[데이터베이스]](Database)
+
데이터를 통합하는 과정에서는 고려해야할 몇가지 사항들이 있다. 첫째, 동질성이 빈약한 엔티티간 통합. 둘째, 지나친 유연성, 확장성만을 고려한 통합. 셋째, 엔티티 통합에 따른 인스턴스 증가로 인한 성능 문제. 넷째, 실체 엔티티는 최대한 통합하고, 행위 엔티티는 가능한 통합.
|width ="700px"| 하나 혹은 다수의 도식을 이용하여 데이터를 유기적으로 정리한 집합체
 
|-
 
|width = "200px" align=center| 출처(Source)
 
|width ="700px"| 데이터를 포함한 데이터베이스의 개수. 각각의 출처에 속하는 데이터들은 다른 출처의 데이터들과 중복되거나 상호보완적일 수 있음.
 
|-
 
|width = "200px" align=center| 데이터 표준(Data standards)
 
|width ="700px"| 데이터에 대한 정의·표시 형식 등에 대한 동의된 기준
 
|-
 
|width = "200px" align=center| 데이터 형식(Data formats)
 
|width ="700px"| 데이터나 메타데이터 파일을 표시하는 형식·형태
 
|-
 
|width = "200px" align=center| 데이터 창고(Data warehouse)
 
|width ="700px"| 여러 출처의 데이터들을 한 군데에서 통합하여 보관하는 곳.
 
|-
 
|width = "200px" align=center| 연합 데이터베이스(Federated databases)
 
|width ="700px"| 여러 출처의 데이터들을 통합하여 사용자들이 통일된 양식이나 관점으로 데이터를 볼 수 있게 만든 것.
 
|-
 
|width = "200px" align=center| 연관 데이터(Linked data)
 
|width ="700px"| 데이터들의 연관 관계를 네트워크 등의 방식으로 표현한 것. 의미상으로 공유되는 항목들을 엮음으로써 전자기기에서 읽을 수 있도록 정리한 것.
 
|-
 
|width = "200px" align=center| 존재론(Ontology)
 
|width ="700px"| 데이터를 묘사하는 구조화된 방법으로, 생물정보학에서는 존재론들을 애매모호하지 않고 전반적으로 동의할 수 있는 항목들로 구성함으로써 생물학적 현상이나 특성을 묘사할 수 있음.
 
|-
 
|width = "200px" align=center| 특성 어휘(Iled vocabulary)
 
|width ="700px"| 특정 관심 분야를 묘사하는 용어들의 집합체
 
|-
 
|width = "200px" align=center| 고유 식별자(Unique identifier)
 
|width ="700px"| 분자, 생물종, 존재론 등 특정 생물학적 용어를 대표하는 기호·문자·숫자를 일컫음.
 
|-
 
|width = "200px" align=center| 메타데이터(Metadata)
 
|width ="700px"| 데이터의 정보를 묘사하는 데이터로, 데이터에 대한 생물학적 용어·의미 등 부가 설명을 담당함.
 
|-
 
|width = "200px" align=center| 주석달기(Annotation)
 
|width ="700px"| 생물학적 용어·단어 개체에 관련된 기능 따위의 정보를 추가로 부여한 것.
 
|-
 
|width = "200px" align=center| 자동 주석달기(Automatic annotation)
 
|width ="700px"| 컴퓨터 소프트웨어를 이용하여 주석을 다는 것으로, 많은 양의 메타데이터를 생성할 때 적용되는 방법임.
 
|-
 
|width = "200px" align=center| 수동 주석달기(Manual annotation)
 
|width ="700px"| 자동 주석달기의 반대되는 용어로, 개인이 직접 주석을 다는 것.
 
|-
 
|width = "200px" align=center| GUI
 
|width ="700px"| 컴퓨터 그래픽 기능을 이용한 사용자 친화적인 인터페이스로 생물학자들이 손쉽게 통합된 생물학적 데이터들을 찾거나 읽거나 수정할 수 있도록 프로그램을 구성한 것.
 
|-
 
|width = "200px" align=center| API
 
|width ="700px"| 응용프로그램 인터페이스. 고급 사용자들이 자동적으로 툴 기능이나 데이터에 접근할 수 있도록 툴이나 프로토콜에서 제공하는 설정
 
|-
 
|width = "200px" align=center| UX
 
|width ="700px"| 사용자 경험, 생산물의 유용성에 집중하여 사용자의 만족을 높이기 위한 노력 및 행위
 
|-
 
|width = "200px" align=center| 시각화 도구(Visualization tools)
 
|width ="700px"| 네트워크를 시각화하여 볼 수 있는 Cytoscape과 같이, 생물학자들이 데이터를 인간 친화적인 방식으로 이해할 수 있도록 만들어진 응용프로그램.
 
|}
 
  
 +
===장단점===
  
 
{{각주}}
 
{{각주}}
  
 
==참고자료==
 
==참고자료==
*데이터 통합〈[https://terms.naver.com/entry.nhn?docId=5141520&cid=60266&categoryId=60266 데이터 통합]〉, 《Naver 지식백과》
+
* DB모델링 - 4. 데이터통합〈[https://pronician.tistory.com/1052?category=527453 데이터 통합]〉, 2015-11-20《Tistory - 데카의 Daily Review》
*데이터 통합〈[https://terms.naver.com/entry.nhn?docId=864453&cid=42346&categoryId=42346 데이터 통합]〉, 《Naver 지식백과》
+
* [DB기초] 데이터베이스의 정의와 특징〈[https://coding-factory.tistory.com/214 데이터 통합]〉, 2018-08-08《Tistory - 코딩팩토리》
 +
 
  
 
==같이 보기==
 
==같이 보기==

2020년 8월 19일 (수) 16:57 판

데이터 통합(data integration)이란 유사항 성격의 데이터, 동질성을 가진 데이터를 더 큰 주제로 합치는 것을 의미한다. 확상성이 좋은 유연한 모델 작성으로 요구사항을 추가/변경에 따른 모델 변경을 최소화하는 것을 목적으로 가지고 있다. [1] 즉, 자료의 중복을 배제한 데이터의 모임이다.[2]

개요

특징

통합 기준

데이터의 성격(주제)가 유사하다(동질성) 식별자가 동일하면서 유사한 속성이 존재한다(유사성) 식별자는 다르지만 기초 속성이 유사하다(유사성) 현행 데이터가 존재하면 마이그레이션하는데 문제가 없다. 별개의 요건으로 사용되지 않고 주로 같이 조회된다. 통합해서 성능문제를 일으키지 않는다.

통합 대상

  • 속성: 여러 엔티티에서 동일한 성질로 관리되는 속성을 도출하여 새로운 엔티티로 통합한다.
  • 관계: 엔티티간 존재하는 많은 개별 관계를 상위 개념의 관계로 통합한다.
  • 엔티티: 공통된 속성이 존재하는 엔티티를 통합해 슈퍼타입을 도출한다. 조인의 불편함, 성능에 영향을 미치는 배타적 관계의 엔티티를 통합한다.

고려사항

데이터를 통합하는 과정에서는 고려해야할 몇가지 사항들이 있다. 첫째, 동질성이 빈약한 엔티티간 통합. 둘째, 지나친 유연성, 확장성만을 고려한 통합. 셋째, 엔티티 통합에 따른 인스턴스 증가로 인한 성능 문제. 넷째, 실체 엔티티는 최대한 통합하고, 행위 엔티티는 가능한 통합.

장단점

각주

  1. 데이터 통합〉, 《DB모델링 - 4. 데이터통합》, 2015-11-20
  2. 데이터 통합〉, 《[DB기초] 데이터베이스의 정의와 특징》, 2018-08-08

참고자료

  • DB모델링 - 4. 데이터통합〈데이터 통합〉, 2015-11-20《Tistory - 데카의 Daily Review》
  • [DB기초] 데이터베이스의 정의와 특징〈데이터 통합〉, 2018-08-08《Tistory - 코딩팩토리》


같이 보기

  검수요청.png검수요청.png 이 데이터 통합 문서는 프로그래밍에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.