텍스트마이닝

텍스트 마이닝(Text Mining)은 언어학, 통계학, 기계 학습 등을 기반으로 한 자연언어 처리 기술을 활용하여 반정형/비정형 텍스트 데이터를 정형화하고, 특징을 추출하기 위한 기술과 추출된 특징으로부터 의미 있는 정보를 발견할 수 있도록 하는 기술이다.

개요

텍스트 마이닝은 비정형 데이터 마이닝의 유형 중 하나이다. 텍스트 마이닝은 비정형 및 반정형 데이터에 대하여 자연어 처리 기술과 문서 처리 기술을 적용하여 유용한 정보를 추출, 가공하는 목적으로 하는 기술이다. 실생활에서 만들어지는 대부분의 자료는 문서 형태인데, 여러 분야의 논문, 신문 또는 잡지의 기사, 여론조사, 콜센터의 전화 보고서, 이메일, 디지털 형태의 문서 등의 형태를 가지고 있다. 문서 형태의 데이터는 기존의 통계분석이나 데이터 마이닝 기법을 적용하기에 부적합한 데이터 형태를 가지고, 대부분 텍스트 데이터베이스에 저장된 데이터는 반구조적 데이터이다.

기술

텍스트마이닝의 주요 기술은 다음과 같다.

자연어 처리

자연어처리 기술(NLP, Natural Language Processing)이란, 컴퓨터가 인간의 언어를 알아들을 수 있게 만드는 학문 분야다. 인공지능의 하위 분야로, 일반적인 인공지능을 만들려던 1960년대의 시도가 실패한 후 인간의 언어를 분석하고 해석하여 처리하는 인공지능이 세분화되면서 생긴 학문 분야로 흔히 우리가 아는 말하는 컴퓨터와 인간과 대화하는 컴퓨터 관련 기술이 이쪽에 속한다. 언어공학, 컴퓨터과학, 인공지능, 전산언어학(Computational Linguistics)의 연구 분야이며, 자연어를 컴퓨터로 해석하고, 의미를 분석하여 이해하고, 자동으로 생성하는 것 등에 관련된 분야다. 자연어는 프로그래밍 언어와 같이 사람이 인공적으로 만든 언어가 아닌, 사람이 일상생활과 의사소통에 사용해 온 한국어, 영어와 같이 오랜 세월에 걸쳐 자연적으로 만들어진 언어라는 의미로, 우리가 흔히 말하는 언어를 뜻한다.^[1]

언어모델링

언어 모델(Language Model)이란, 언어라는 현상을 표현, 모델링하는 모델을 말한다. 언어라는 현상을 표현한다는 것은 다르게 말하면 기계가 자연어를 생성(NLG, Natural Language Generation)하는 일들을 한다는 것이다. 언어 모델은 자연어 생성 작업에 속하는 음성 인식, 기계 번역, 광학 문자 인식(OCR, Optical Character Recognition), 검색어 자동 완성, 문서 요약과 같은 일들을 수행한다. 조금 더 구체적으로 표현하자면, 언어 모델은 문장(단어 시퀀스)의 확률을 예측하는 모델이다. 언어 모델이 하는 일은 문장의 확률을 예측하는 일을 한다. 이전 단어들을 줬을 때 다음 단어가 나올 확률을 예측한다.

머신 러닝 알고리즘

머신러닝 알고리즘(Machine Learning)이란, 데이터를 이용해서 컴퓨터를 학습시키는 방법론이다. 머신 러닝 알고리즘은 크게 세 가지 분류로 나눌 수 있다.

지도 학습(Supervised Learning) : 지도 학습은 데이터에 대한 레이블(Label/정답)이 주어진 상태에서 컴퓨터를 학습시키는 방법론이다. 즉, (데이터(data), 레이블(label)) 형태로 학습을 진행하는 방법이다.

비지도 학습(Unsupervised Learning) : 비지도 학습은 데이터에 대한 레이블(Label/정답)을 주지 않는 상태에서 컴퓨터를 학습시키는 방법론이다. 즉, (데이터(data)) 형태로 학습을 진행하는 방법이다.

강화 학습(Reinforcement Learning) : 강화 학습은 지도 학습과 비지도 학습과는 다른 학습 알고리즘이다. 지도 학습과 비지도 학습과는 달리 주어진 환경에 대해 어떤 행동을 취하고 이로부터 어떤 보상을 얻으면서 학습을 진행하는 방식이다.^[2]

데이터 마이닝

데이터 마이닝(Data Mining)이란, 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아내는 것이다. 또한, 통계학에서 패턴 인식에 이르는 다양한 계량 기법을 사용한다. 데이터 마이닝 기법은 통계학 쪽에서 발전한 탐색적자료 분석, 가설 검정, 다변량 분석, 시계열 분석, 일반 선형모형 등의 방법론과 데이터베이스 쪽에서 발전한 온라인 분석 처리(OLAP, On-Line Analytic Processing), 인공지능 진영에서 발전한 자기 조직화 지도(SOM, Self-Organizing Map), 신경망, 전문가 시스템 등의 기술적인 방법론이 쓰인다. 응용 분야로는 신용평점 시스템(Credit Scoring System)의 신용평가모형 개발, 사기탐지시스템(Fraud Detection System), 장바구니 분석(Market Basket Analysis), 최적 포트폴리오 구축과 같이 다양한 산업에서 광범위하게 사용되고 있다. 데이터 마이닝 기술의 적용 분야는 다음과 같다.

분류(Classification) : 일정한 집단에 대한 특정 정의를 통해 분류 및 구분을 추론한다.
군집화(Clustering) : 구체적인 특성을 공유하는 군집을 찾는다.
연관성(Association) : 동시에 발생한 사건 간의 관계를 정의한다.
연속성(Sequencing) : 특정 기간에 걸쳐 발생하는 관계를 규명한다.
예측(Forecasting) : 대용량 데이터 집합 내의 패턴을 기반으로 미래를 예측한다.

활용

개인 신용 측정

은행들은 자연어처리 기술을 사용하여 개인의 신용정보가 부족한 경우에도 고객의 신용도를 측정할 수 있게 되었다. 설령 신용거래 기록이 전무하더라도, 여전히 대다수의 사람은 스마트폰을 사용하고 있으며 이로 인해 인터넷 검색기록과 디지털화된 기록들을 많이 남기게 된다. 자연어처리 알고리즘은 위치 데이터, 소셜네트워크 활동, 인터넷 검색기록들을 분석하여 고객들의 습관이나 인적 네트워크들을 파악하게 되는데, 이러한 고객들의 다양한 정보 변수들을 분석해냄으로써, 자연어처리 소프트웨어는 고객별 신용도를 계량화해낼 수 있다.

인공신경망 기반의 자동번역 서비스

자동번역 서비스는 신경 기계 번역(NMT, Neural Machine Translation)의 등장으로 비약적인 발전을 이루게 된다. 2016년 마이크로소프트사의 빙(Bing)을 필두로, 구글 및 아마존과 같은 업체들이 해당 분야에서 치열하게 경쟁하고 있다. 여기서 자연어처리 기술의 역할은 인공신경망을 훈련하는 역할을 담담하게 된다. 기업은 이메일 번역과 같은 업무에 이를 활용하여 고객과의 커뮤니케이션 응답시간을 단축하고 있다.

챗봇

1966년에 등장한 챗봇은 선보인 지 꽤 오래되었지만, 음성과 자연어처리 기술의 만남은 챗봇을 새로운 경지의 서비스로 탈바꿈시켰다. 오늘날 챗봇은 인간과 유사한 수준의 지능을 탑재하고 인간의 감정까지 파악할 정도로 발전했다. 챗봇은 개인별 맞춤 서비스를 제공하는데, 고객과 관련된 데이터를 수집하고 고객의 성향을 미리 파악해냄으로써, 사람 간 커뮤니케이션에서 발생할 수 있는 불필요한 스트레스를 줄일 수 있다. 더욱이 챗봇은 세일즈 분야에서 그 영역을 확대해 가고 있는데, 잠재 고객을 찾아내어 대화를 유도하고, 미팅 일정을 잡는 등의 일들을 담당하는 경우가 많아졌다.

감정 분석

판매 및 마케팅 전략 수립 시에 자연어처리 기술을 통한 감정분석 기술은 회사 브랜드에 대해 고객들이 어떻게 느끼고 있는지를 판단하는 데 큰 도움을 준다. 흔히 오피니언 마이닝이라 불리는 이러한 기술은 뉴스나 소셜네트워크서비스 등의 분석을 통해 그 안에 사용된 단어마다 그 단어가 가지는 부정적, 긍정적 혹은 중립과 같은 감정을 이해하고 표현의 강도에 따른 정량적인 값을 부여한다.

채용 및 고용

채용담당자는 자연어처리 기술을 활용하여 일일이 수작업에 의존하지 않고도 이력서를 빠르게 검토할 수 있게 되었고, 특정 지원자로의 편향을 막는 객관적이고 중립적인 채용공고를 작성할 수 있도록 지원하여 더욱 효율적으로 구직자를 찾아낼 수 있게 되었다. 자연어처리 기술 소프트웨어는 이력서에 사용된 단어와 표현과 의미 분석을 통해 채용공고에 가장 적합한 지원자들을 빠르게 찾아낸다.

자연어처리 기술은 개인의 소셜네트워크서비스, 이메일, 검색기록과 같은 소위 디지털 발자취들을 분석하여, 광고주들이 잠재고객을 발견하는 데 큰 공을 세우고 있다. 단순한 검색 키워드 매칭을 통해서 자연어처리 소프트웨어는 어디에 광고를 해야 할 지에 대한 정보를 제공하며, 이를 통해 기업은 광고 예산을 보다 효율적으로 집행할 수 있게 되었다.

마켓 인렐리전스

자연어처리 소프트웨어는 경쟁사 동향 및 최신 업계 소식을 지속적으로 업데이트하여 마케터들이 맞춤 전략을 구사할 수 있도록 도와준다.

의료 분야

의료 분야에서 자연어처리 기술이 활용되는 사례를 크게 세 가지로 분류할 수 있다.

본연적 기능 : 음성인식, 임상 기록 개선, 데이터마이닝 리서치, CAC(Computer-Assisted Coding : 의료 기록지를 분석하여 문서 내의 진료 관련 특정 단어나 어구들을 찾아내어 코드화하는 작업)
개발 진행 중인 기능 : 임상시험 매칭, 임상 의사결정 지원, 환자 리스크 관리
차세대 기능 : Virtual Scribe(진료 중 환자의 상태 등을 진료 중 차트에 자동으로 기록해주는 도구), 유전 표현 형질 발견, 개체군 조사

비교

데이터 마이닝

대상 : 수치 또는 범주화된 데이터
구조 : 관계형 데이터 구조
목적 : 미래 상황 결과의 예견 및 예측함
방법 : 기계학습