검수요청.png검수요청.png

크롤링

해시넷
sosodam (토론 | 기여)님의 2021년 9월 28일 (화) 18:42 판
(차이) ← 이전 판 | 최신판 (차이) | 다음 판 → (차이)
이동: 둘러보기, 검색

크롤링(crawling)이란 데이터를 수집하고 분류하는 것을 의미한다. 주로 인터넷상의 웹페이지를 수집해서 분류하고 저장하는 것을 뜻하며 데이터가 어디에 저장되어 있는지 위치에 대한 분류 작업이 크롤링의 주요 목적이다. 크롤링의 주요 대상은 다양한 형태로 존재하는 데이터로, 데이터 생성 스타일에 따라, 정형, 반정형 그리고 비정형 데이터로 구분되기도 하지만, 데이터를 생산하는 주체에 따라 기업과 사용자가 생성하는 데이터로 분류할 수 있다.[1]

개요[편집]

크롤링은 웹페이지를 그대로 가져와서 거기서 데이터를 추출하는 행위이다. 크롤링하는 소프트웨어크롤러(crawler)라고 한다. 검색엔진(search engine)에서도 유사한 것을 필수적으로 사용한다. 검색엔진(search engine)은 상에 존재하는 정보와 웹사이트를 검색하기 위한 프로그램이며 스파이더(spider), (bot), 지능 에이전트라고도 한다.[2] 일일이 해당 사이트의 정보를 검색하는 것이 아니라 컴퓨터 프로그램의 미리 입력된 방식에 따라 끊임없이 새로운 웹페이지를 찾아 종합하고, 찾은 결과를 이용해 또 새로운 정보를 찾아 색인을 추가하는 작업을 반복 수행한다. 단, 로봇의 검색 기능을 역이용하여 순위를 조작하거나 검색을 피할 수 있는 단점도 있다. 참고로 네이버㈜(Naver), 구글(Google) 등도 이런 봇을 이용해 운영된다.[3]

원리[편집]

크롤링의 원리를 알기 전에 먼저 웹페이지의 구성을 알아야 한다. 웹페이지는 HTML 문서로 작성되어 있다. 그리고 CSS를 참조하여 디자인을 활용할 수 있으며 자바스크립트(JavaScript)까지 참조하면 상호작용이 가능해진다. 그리고 크롤러를 만들 때, HTML 태그 등을 찾아서 원하는 데이터를 추출이 가능하다. 예를 들어, 영화 목록을 크롤링하려고 한다. "영화"라고 검색된 페이지의 HTML문서를 확인해 보면 영화 제목을 어떤 HTML 태그로 사용했는지 알 수 있고, 원하는 데이터를 추출하기 위해서 HTML 문서를 확인한 뒤 원하는 데이터를 추출할 수 있도록 크롤러를 만들면 된다.[4]

종류[편집]

정적 크롤링[편집]

정적 크롤링은 정적인 데이터를 수집하는 방법을 말한다. 정적인 데이터란 변하지 않는 데이터를 의미한다. 한 폐이지 안에서 원하는 정보가 모드 드러날 때 정적 데이터라고 할 수 있다. 즉 정적 크롤링은 주소를 통해 단발적으로 접근하여 한 페이지 내에서 모든 작업이 이루어지기 때문에 속도가 매우 빠르다는 장점이 있지만, 수집 데이터의 한계가 존재한다는 단점이 있다.

동적 크롤링[편집]

동적 크롤링은 동적인 데이터를 수집하는 방법을 말한다. 동적인 데이터란 입력, 클릭, 로그인 등과 같이 페이지 이동이 있어야 보이는 데이터를 의미한다. 예를 들어서, 메일함에 있는 메일 제목 데이터를 수집할 때 로그인 과정을 거친 후 메일함에 들어가야 하는 동적인 과정이 필요하다. 이런 경우가 동적인 크롤링이다. 동적인 크롤링은 브라우저를 사용하여 연속적으로 접근하여 수집 데이터의 한계가 없지만, 속도가 느리다는 단점이 있다.[5]

웹크롤러[편집]

웹크롤러란 인터넷에 있는 웹페이지에 방문하여 자료를 수집하는 일을 하는 프로그램을 말한다. 이때 한 페이지만 방문하는 것이 아니라 그 페이지에 링크된 또 다른 페이지를 차례대로 방문하고 이처럼 링크를 따라 웹을 돌아다니는 모습이 마치 거미와 비슷하다고 하여 스파이더(Spider)라고 부르기도 한다. 엄청난 분량의 웹 문서를 사람이 일일이 구별하여 모으는 일은 사실상 거의 불가능에 가깝다고 볼 수 있기 때문에 웹 문서 검색에서는 사람이 일일이 하는 대신에 이를 자동으로 수행해 준다. 예를 들어 '현재 음악 차트 순위 자료'가 필요할 경우에 물론 사이트에 들어가서 일일이 보고 정리할 수는 있다. 하지만 음악 차트에도 카테고리, 순위, 제목, 그룹 이름 등 여러 정보가 있어서 이 데이터를 다른 프로그램이나 무언가를 만들 때 사용하려면 데이터베이스(Database) 형태로 저장해 놓을 필요가 있다. 웹은 기본적으로 HTML 형태로 되어 있어 해당 정보가 HTML 형태로 어떻게 보이는지도 '페이지 소스 보기' 또는 '개발자 검사'로 볼 수 있다. 이런 소스들은 보통 개발자들이 정형화된 형태로 관리하는데, 이런 규칙을 분석해서 우리가 원하는 정보들만 뽑아오는 것을 웹크롤링 작업이라고 볼 수 있다.[6]

사례[편집]

기업의 고객 정보 또는 마케팅 정보, 금융 데이터, 국내 지리 정보와 같은 데이터들의 공통점이 있다. 그건 바로 데이터의 양이 어마어마하다는 것이다. 이런 데이터를 분석하는 과정에서 단순 반복 과정을 기술의 도움 없이는 일의 효율성이 매우 떨어지게 될 것이다. 각종 비즈니스 모델을 만드는 것의 시작은 데이터를 수집하는 것으로부터 시작하는 만큼 크롤링은 4차 산업혁명 시대의 주요한 대응 전략으로 손꼽히고 있다. 웹 크롤링을 통해 가지고 올 수 있는 정보의 종류에는 HTML기반의 웹 사이트, 이미지, 문서 등이 있고, 얻을 수 있는 정보의 종류와 양이 많아 활용 분야도 다양하다. 다양한 대화 지식이 필요한 챗봇 구현이나 빅데이터 분석 연구에도 활용 할 수 있고 사람들이 자주 이용하는 구글과 네이버 등이 다양한 검색 서비스를 제공할 수 있는 이유도 수많은 웹사이트를 크롤링하기 때문이다.[7]

관련 소프트웨어[편집]

파이썬[편집]

파이썬(Python)은 크롤링의 선두 주자로서, 컴퓨터 프로그래밍이 익숙하지 않은 비전공자들이 쓰기 쉽도록 라이브러리들이 발달하면서 급격히 발전하고 있다. 대표적인 파이썬 라이브러리로 뷰티풀 수프(Beautiful Soup) 이 있다. 그 외에도 셀레니움(selenium)이라는 라이브러리가 인기를 끌고 있고, webdriver과 headless 옵션을 함께 이용해서 웹을 자동화시킬 수도 있다.[3]

자바[편집]

자바(Java)는 jsoup이라는 HTML 파싱 라이브러리가 존재한다. 파이썬의 뷰티풀 수프처럼 특정 조건을 가진 태그들을 선택하는 것이 가능하고 GET/POST 요청을 보내서 응답을 받아오는 것도 가능하다. 즉, URL을 가져오고 데이터를 추출 및 조작하는데 매우 편리한 API를 제공한다.[8] 전문적인 크롤링 소프트웨어는 아니지만, 일반인들이 사용할 만한 도구로 httrack과 wget-curl 정도가 있고, 2000년대 초반에는 웹집(WebZIP)이라는 것도 자주 사용되었다.[3]

법적 문제[편집]

웹사이트 콘텐츠를 긁어오는 '크롤링'을 이용해 확보한 콘텐츠를 자신의 영업에 무단 사용하는 것은 데이터베이스 침해 행위라는 대법원 판단이 나왔다. 온라인 웹사이트를 운영하는 사업자 사이에서 광범위하게 이용되는 크롤링에 대한 법적 판단의 기준을 세웠다는 점에서 주목되었다.[9] 최근 크롤링 행위자에 대한 민·형사상 책임이 인정되는 법원의 판례들이 속속 등장하고 있다. 크롤링 행위 그 자체는 위법하지도 적법하지도 않은 무색투명한 개념이라 우리 형법 어디에도 '크롤링 죄'를 두고 있지는 않다. 하지만 문제 되는 것은 크롤링 행위가 우리 형법이 보호하고 있는 다른 법익을 침해하여 별개의 죄를 구성하는 경우다. 예를 들어, 요리의 도구로서 식칼을 사는 행위는 위법하지는 않는다. 하지만 살인의 도구로서 사는 행위는 살인예비죄로서 위법한 행위가 될 수 있는 것과 같다. 크롤링 행위에서 문제 되는 대표적인 두 가지 법적 문제가 있다. 하나는 '정당한 접근 권한 없이 또는 허용된 접근 권한을 넘어 정보통신망에 침입'하는 행위를 금지하는 '정보통신망법' 위반이 대표적이다. 두 번째는 저작권 법 침해 문제이다. 크롤링의 최종 목적은 데이터 수집으로 수집과 저장의 과정을 알고리즘화한 프로그램으로 하여금 자동적이고 효율적으로 데이터를 수집하기 위함이다. 정보통신망 침입의 문제를 별개로 수집하는 것이 낱개의 데이터인 경우라면 큰 문제는 발생하지 않는다. 하지만 크롤링의 목적을 고려한다면 가장 효율적인 대상으로는 이미 타인이 수집해 체계화가 된 데이터베이스일 것이다. 우리 저작권법 역시 데이터베이스 제작자의 권리를 명시적으로 보호하고 있다. 그러므로 크롤링을 계획하는 경우 그 데이터 수집 행위가 이미 타인이 인적·물적 투자로 제작·관리하고 있는 데이터베이스 전부 혹은 상당한 부분을 복제하는 것은 아닌지를 신중히 검토해야 할 것이다. 이렇듯 크롤링 행위는 그 자체가 언제나 위법은 아니지만 그 행위가 형법이 금지하는 위법 행위를 구성하는 경우에 한해 위법한 것이다.[10]

각주[편집]

  1. 원하는 정보만 수집한다! 크롤링과 빅데이터 분석 활용〉, 《삼성디스플레이 뉴스룸》, 2020-04-22
  2. 검색 엔진〉, 《나무위키》
  3. 3.0 3.1 3.2 크롤링〉, 《나무위키》
  4. 투얼쓰 Hula_Hula, 〈크롤링이란?〉, 《티스토리》, 2018-10-30
  5. Jaaa_mj, 〈크롤링 종류(정적vs동적)〉, 《티스토리》, 2021-01-17
  6. Junee01, 〈Web Scraping(웹 크롤링) 이란?〉, 《네이버 블로그》, 2016-01-22
  7. 과학기술정보통신부, 〈지루한 검색은 이제 그만! 정보를 빠르게 수집하는 '크롤링'〉, 《네이버 블로그》, 2020-03-09
  8. jsoup〉, 《jsop》
  9. 김동훈 기자, 〈대법원 "웹사이트 무단 크롤링은 불법"〉, 《비즈니스워치》, 2017-09-27
  10. 장영은 기자, 〈(민후의 기·꼭·법)크롤링의 위법성은?〉, 《이데일리》, 2021-07-08

참고자료[편집]

같이 보기[편집]


  검수요청.png검수요청.png 이 크롤링 문서는 데이터에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.