㈜해시넷이 2019년 10월 15일(화)에 2019년 해시넷 블록체인 콘퍼런스를 진행합니다.

별.png별.png별.png

빅데이터

해시넷
이동: 둘러보기, 검색
빅데이터(big data)

빅데이터(big data)란 생성된 양이 많고 생성 속도가 빠른 비정형 데이터를 말한다. 기존의 데이터는 일정한 형식에 맞게 정리하여 체계적으로 관리할 수 있었으나, 소셜 네트워크 서비스(SNS), 자율 주행 자동차, 기타 각종 기계장치 등에서 생성된 방대한 양의 비정형 데이터는 새로운 접근방법을 필요로 하게 되었다. 빅데이터는 기존의 오라클(Oracle) 등 관계형 데이터베이스 관리 시스템(RDBMS)으로는 분석이 어려워, 새로운 빅데이터 분석 도구가 필요하게 되었다. '빅데이타'가 아니라 '빅데이터'가 올바른 표기법이다.

개요[편집]

빅데이터는 기존 데이터에 비해 양이 너무 방대해, 이전의 분석 방법이나 도구로 수집, 저장, 검색, 분석, 시각화하기 어려운 정형 또는 비정형 데이터를 의미한다.[1] 빅데이터 기술은 빅데이터로부터 의미 있는 자료를 추출하고 결과를 분석하는 기술이다.[2]

빅데이터는 기존의 오라클(Oracle) 등 관계형 데이터베이스 관리 시스템(RDBMS)으로는 분석이 어려워, 하둡(Hadoop)이나 노에스큐엘(NoSQL) 계열의 몽고디비(MongoDB), 에이치베이스(HBase), 카산드라(Cassandra) 등을 사용하여 분석한다. 빅데이터 분석 솔루션에는 스플렁크(Splunk) 등이 있다.

빅데이터는 과거에 비해 데이터의 양이 폭발적으로 증가했다는 점과 함께 종류도 다양해져서 사람들의 위치정보와 행동뿐만 아니라 SNS를 통해 개인의 의견까지 분석하고 예측할 수 있다. 빅데이터는 규모가 방대한 만큼, 정치, 경제, 사회, 문화, 과학기술 등 많은 영역에서 인류와 사회에게 필요한 정보를 제공할 수 있는 가능성을 보여주고 있으며 그 중요성이 부각되고 있다. 세계경제포럼은 2012년 떠오르는 10대 기술 가운데 그 첫 번째를 빅데이터로 선정했으며,[3] 대한민국 지식경제부 R&D 전략기획단은 IT 10대 핵심기술 가운데 하나로 빅데이터를 선정하는 등[4] 빅데이터 기술에 전 세계가 주목하고 있다.

등장 배경[편집]

컴퓨터인터넷, 스마트폰 등 모바일 기기 이용이 보편화되면서 사람들이 남긴 흔적 데이터는 기하급수적으로 증가하고 있다. 예를 들어 쇼핑의 경우, 과거에는 옷 가게에서 물건을 살 때만 데이터가 기록되었으나, 인터넷 쇼핑의 경우에는 구매하지 않고 클릭만 해도 방문자의 기록이 데이터로 저장된다. 쇼핑뿐 아니라 자료 검색과 이메일, 교육과 학습, 은행·증권과 같은 금융거래, 취미생활 등 다양한 활동들이 PC인터넷에서 이루어지고 있다.

사용자들이 직접 제작하는 UCC를 비롯한 동영상 콘텐츠를 인터넷에 업로드하고, 영상 속의 정보들을 통해 정보를 얻는 것이 일반화되고 있다. 또한 스마트폰SNS에서 생성되는 문자나 대화 등으로 인해, 데이터의 증가 속도가 더 빨라지고 있을 뿐 아니라, 데이터의 질과 형태에서도 예전과 다른 양상을 보이고 있다. 특히 블로그, 인터넷 카페, SNS 등에서 유통되는 텍스트는 내용을 통해 글쓴이의 성향과 감정뿐만 아니라, 소통하는 상대방과의 관계까지도 분석할 수 있다.

위의 예시들처럼 PC, 인터넷, 스마트폰 등 정보통신 기기가 생활화되면서 과거에 비해 축적할 수 있는 데이터의 범위와 양이 급격하게 증가하게 되고, 이를 찾아볼 수 있는 수단 역시 발달되면서, 기존의 데이터에 개인의 평가를 비롯한 다양한 정보를 추가해 더 광범위한 데이터를 만들 수 있게 되었다.

특징[편집]

빅데이터의 특징 - 3V

빅데이터의 특징은 크게 3V로 설명할 수 있다. 3V란 데이터의 다양성(variety), 데이터의 생성 속도(velocity), 데이터의 양(volume)을 나타낸다.[5]

  • 다양성(variety) : 빅데이터는 다양한 형태의 데이터를 포함한다. 정형 데이터뿐만 아니라, 사진, 오디오, 비디오, 소셜 미디어 데이터, 위치 데이터, 로그 파일 등과 같은 비정형 데이터가 빅데이터에 포함된다.
  • 속도(velocity) : 빅데이터는 데이터의 생성 속도가 매우 빠르다. 기존 데이터와 달리, 빅데이터는 새로 생성되고, 저장되며, 시각화되는 과정이 매우 빠르게 이루어진다.
  • (volume) : 빅데이터는 저장되는 물리적 데이터 양이 매우 많다. 빅데이터의 가장 기본적인 특징이다.

처리 기술[편집]

빅데이터를 분석하고 활용하기 위해서 다양한 처리 기법이 존재한다. 이 다양한 기법들을 크게 분석기술과 표현기술로 분류한다.

분석기술[편집]

빅데이터 분석을 위해 대부분 기존 전산학이나 통계학에서 사용하던 기계학습, 데이터 마이닝, 패턴 인식, 자연 언어 처리 기술 등을 사용한다.[6] 소셜 미디어 등 비정형 데이터의 증가로 인해, 텍스트 마이닝, 오피니언 마이닝, 소셜 네트워크 분석, 군집 분석 등의 분석 기술이 주목을 받고 있다.[7]

  • 텍스트 마이닝(text mining) : 자연어 처리 기반 텍스트 마이닝은 언어학, 통계학, 기계 학습 등을 기반으로 한 자연언어 처리 기술을 활용하여, 반정형/비정형 텍스트 데이터를 정형화하고, 특징을 추출하기 위한 기술과 추출된 특징으로부터 의미 있는 정보를 발견할 수 있도록 하는 텍스트 마이닝 기술이다.[8]
  • 오피니언 마이닝(opinion mining) : 웹사이트와 소셜 미디어에 나타난 여론과 의견을 분석하여 유용한 정보로 재가공 하는 기술이다.[9]
  • 소셜 네트워크 분석(SNA; social network analysis) : 수학의 그래프 이론을 이용하여 사람, 그룹, 데이터 등 객체 간의 관계 및 관계 특성 등을 분석하고 시각화하는 측정 기법이다.[10]
  • 군집 분석(cluster analysis) : 각 대상의 유사성을 측정하여 유사성이 높은 대상 집단을 분류하고, 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체 간의 상이성을 규명하는 통계 기법이다.[11]

표현기술[편집]

활용[편집]

정치[편집]

2008년 미국 대통령 선거

2008년 미국 대통령 선거에서 버락 오바마(Barack Obama) 미국 대통령 후보는 '유권자 맞춤형 선거 전략'을 전개했다. 나이, 종교, 인종, 가구 형태 등 기본적인 인적사항을 바탕으로 유권자들을 분류하고, 더 나아가 구독 중인 잡지, 마시는 음료, 과거 투표 여부까지 전화나 개별 방문 또는 소셜 미디어를 통해 정보를 수집하였다. 수집한 데이터는 온라인으로 데이터베이스를 통합 관리하는 보트빌더(Votebuilder) 시스템을 이용해 유권자를 분석해 예측을 진행했다. 이를 바탕으로 '유권자 지도'를 작성한 뒤 '유권자 맞춤형 선거 전략'을 전개하는 등 오바마 캠프는 효과적인 선거를 치를 수 있었다.[6]

경제[편집]

자라의 성공 비결

자라(Zara)는 빅데이터 처리 기술을 이용해 성공한 브랜드 중 하나이다. 자라의 빅데이터 전략은 아래와 같다.

  • 무재고 시스템 : 소매단위별로 정확한 수요변화 체크를 바탕으로 무재고 시스템을 실현했다.
  • 수직적 통합 : 디자인부터 판매까지 수직적 업무 통합을 통해 데이터를 기반으로 분석한 신제품을 2주일이라는 매우 빠른 시일 안에 출시했다.
  • 실시간 분석 알고리즘 : 전 세계 매장의 판매 데이터를 실시간으로 분석하는 알고리즘을 개발해 활용했다.

위와 같이 자라는 전 세계인이 자라를 방문하도록 데이터를 수집, 분석 및 활용하여 매출 증가의 효과를 얻었다.[13]

빅데이터 경영

방대한 규모의 데이터를 활용한 빅데이터 경영이 주목받으며, 데이터 품질을 높이는 동시에 데이터의 처리를 돕는 데이터 통합의 중요성이 떠오르고 있다. 데이터 통합(DI; Data Integration)은 데이터의 추출, 적재, 변환을 위한 ETL 솔루션이 핵심이다. ETL 솔루션을 활용하면 수많은 데이터를 일일이 기업 데이터 포맷으로 코딩하지 않아도, 데이터 품질을 제고할 수 있다. 이런 점에서 데이터 통합은 빅데이터 환경에 필수적인 데이터 분석 기술로 평가받고 있다.

한편 비즈니스 인텔리전스(BI)보다 발전된 빅데이터 분석 방법은 비즈니스 애널리틱스(BA)인데, 고급분석 단계에 있는 BA는 BI를 기본적으로 포함하면서, 확률 분석, 통계 분석, 미래 예측 기능 등을 포함해 최적의 데이터 기반 의사결정을 가능하게 하는 것으로 평가된다.[6]

사회[편집]

빅데이터를 활용한 심야버스

심야 시간에 일하는 근로자는 교통수단의 부재, 택시 승차 거부, 할증 교통비 부담 등 어려움이 많다. 서울특별시는 심야시간에 대중교통의 편의 증대를 위한 방안을 마련했다. 서울시는 통신사업자 KT와 협력하여 저녁 시간의 위치정보, 즉 지역 데이터를 활용했다. 먼저 서울시 전체를 1km 단위로 작게 구역을 나눈 뒤, 사람들이 많이 몰려드는 장소와 요일, 이동경로 데이터 등을 수집하고 분석해 심야버스의 노선을 정했다.[14]

빅데이터와 독감 예방

2008년 2월 구글은 독감 트렌드라는 웹사이트에서 사람들에게 전 세계의 독감 유행 현황을 알렸다. 구글의 이러한 시도는 정부 발표보다 약 2주일 정도 빠르게 알려졌는데, 이것은 사람들의 검색어를 수집해 빅데이터를 분석하고 활용한 것이다. 구글은 감기와 관련된 단어와 클릭이 증가한 데이터를 분석한 뒤, 독감이 유행 중임을 발견했다. 이를 활용해 독감환자의 지역과 확산정보를 제공함으로써 독감을 예방하는데 기여했다.

문화[편집]

머니볼 이론과 데이터 야구

머니볼(money ball) 이론이란 경기 데이터를 철저하게 분석해 오직 데이터를 기반으로 적재적소에 선수들을 배치해 승률을 높인다는 이론이다.[15] 미국 프로야구 메이저 리그에서 오클랜드 어슬레틱스의 빌리 빈(William Beane) 단장이 낮은 구단 지원금에도 불구하고 최소 비용으로 최대 효과를 거둔 일에서 유래되었다. 빌리 빈은 최하위에 그치던 팀을 4년 연속 포스트시즌에 진출시키고 메이저 리그 최초로 20연승이라는 신기록을 세우며 팀을 변화시켰다. 미국 월스트리트 저널은 미국 경제에 큰 영향을 끼치는 파워 엘리트 30인에 워렌 버핏(Warren Buffett), 앨런 그린스펀(Alan Greenspan)과 함께 빌리 빈을 선정하는 등 머니볼 이론은 큰 주목을 받았다.[16] 최근 과학기술 및 카메라 기술의 발달을 통해 더 정교한 데이터 수집이 가능해졌으며, 외야수의 움직임, 타구 방향, 투구의 궤적 및 투수의 그립까지 잡아낼 수 있게 되었다. 기존의 정형 데이터뿐만 아니라 비정형 데이터의 수집과 분석, 그리고 적절한 활용을 통해 최근 야구경기에서 빅데이터의 중요성은 더욱 커지고 있다.

문제점[편집]

빅데이터의 가장 큰 문제점은 개인의 사생활 침해이다. 정보기술의 발달로 인해 많은 분야에서 개인의 데이터를 축적하게 되면서 빅데이터는 가공할 위력으로 다가오고 있다. 개인 신상정보가 유출되면, 비록 본인은 의도하지 않았지만 자신도 모르게 개인의 사적 정보가 불특정 다수에게 공개되며, 기존에 비해 빠른 속도로 확산되고, 본인조차도 해당 정보를 차단할 수 없는 문제가 있다. 개인정보 유출 문제는 스마트 시대에 심각하게 고민해야 할 가장 중요한 문제이다.

더불어 인터넷 사기 같은 문제도 소셜 커머스에서 발생하고 있다. 한국소비자원에 따르면 소셜 커머스 소비자 피해구제 접수 건수는 2010년 3건에서 2011년 8월까지 492건이 발생하여 무려 164배가 증가한 것으로 나타났다. 개인의 자발적인 참여를 기본으로 하는 소셜 네트워크 서비스의 특성상 본질적으로 소셜 커머스는 금융 사기를 미리 방지하기가 쉽지 않다.[17] 빅데이터의 주 생산 매체인 소셜 미디어 안에서 다양한 방면의 신뢰성을 확보하는 것이 필요하다.[18] 이처럼 빅데이터의 홍수 속에서 편리함도 누릴 수 있지만, 개인정보가 유출되어 악용되지 않도록 유의하여 사용할 필요성이 있다.

각주[편집]

  1. 빅 데이터〉, 《네이버 국어사전》
  2. John Gantz & David Reinsel, "Extracting Value from Chaos", IDC IVIEW, IDC, 2011-06
  3. Global Agenda Council on Emerging Technologies, "The top 10 emerging technologies for 2012", World Economic Forum, 2012-02-15
  4. 지식경제부 보도자료, 〈융합·스마트시대 IT산업 주도를 위한 잰걸음〉, 《산업연구원 홈페이지》, 지식경제부, 2012-04-05
  5. 국립중앙과학관, 〈빅데이터의 속성 3V, 4V〉, 《과학학습콘텐츠》
  6. 6.0 6.1 6.2 빅 데이터〉, 《위키백과》
  7. 조성우, 〈Big Data 시대의 기술〉, 중앙연구소, 2011-09-27
  8. 국립중앙과학관, 〈텍스트 마이닝〉, 《네이버 지식백과》
  9. 한국정보통신기술협회, 〈오피니언 마이닝〉, 《IT용어사전》, 네이버 지식백과
  10. 한국정보통신기술협회, 〈소셜 네트워크, 분석〉, 《IT용어사전》, 네이버 지식백과
  11. 한국정보통신기술협회, 〈군집분석〉, 《IT용어사전》, 네이버 지식백과
  12. R〉, 《과학학습콘텐츠》, 국립중앙과학관
  13. 심뫼만이, 〈자라(ZARA), SCA에서 빅 데이터의 길을 열다〉, 《네이버 블로그》, 2012-11-17
  14. 스쿨잼, 〈심야버스 노선을 정할 때 사용된 '빅데이터'가 뭐야?'〉, 《네이버 블로그》, 2017-03-31
  15. pmg 지식엔진연구소, 〈머니볼〉, 《시사상식사전》, 네이버 지식백과
  16. "Those Who Influence The Markets Most", The Wall Street Journal, 2003-11-10
  17. 김효선 기자, 〈'짝퉁 천국' 소셜커머스, 소비자 피해 급증〉, 《서울파이낸스》, 2011-12-15
  18. 한국전자통신연구원(ETRI), 〈건강한 빅데이터 생산을 위한 환경 조성〉, 《빅데이터 플랫폼 전략》, 네이버 지식백과

참고자료[편집]

같이 보기[편집]


  별.png별.png별.png 이 빅데이터 문서는 4차 산업혁명에 관한 좋은글로 선정되었습니다.