의견.png

웹개방성

해시넷
js001018 (토론 | 기여)님의 2020년 7월 30일 (목) 14:58 판
이동: 둘러보기, 검색

웹개방성(Web Openness)이란 웹에 공개된 정보에 이용자가 아무런 제약 없이 접근하여 이용할 수 있는 것을 의미하며, 웹사이트의 정보를 자유롭게 공개ㆍ공유하여 정보의 투명성과 개방성이 향상되는 것을 말한다.

개요

우리나라는 세계에서 가장 빠른 인터넷 환경과 전세계 4위에 달하는 스마트폰 보급률로 정확한 정보를 쉽고 빠르게 얻을 수 있는 훌륭한 정보 환경에서 살고 있다. 그만큼 좋은 정보들에 정확하게 접근하는 것 역시 중요하다. 검색이 정확히 이뤄지지 않는 정보들은 쓸모없는 정보와 다를 바 없기 때문이다. 무슨 말인가 싶겠지만, 이것이 바로 현재 우리나라 인터넷 환경이 직면한 상황이다. 우리는 구글, 네이버, 다음 등의 포털사이트에서 많은 양의 데이터를 검색하며 살고 있지만, 실제로는 매우 제한적인 검색이 이뤄지고 있다. 그 이유는 검색엔진 배제선언에 있다. 일반적으로 검색로봇이 웹사이트의 정보를 수집하는 알고리즘에서 검색엔진 배제선언을 하게 되면, 웹사이트에 검색로봇의 접근을 막아 정보를 수집할 수 없게 되는 것이다. 그래서 2011년에 행정안전부, 현 행정자치부에서 검색로봇 배제 표준 적용방법 가이드라인을 배포했다. 웹개방성의 수준을 체계적으로 강화해 개인정보와 같은 중요 정보는 검색할 수 없도록 하고, 필요한 자료는 효율적으로 개방할 수 있게 만드는 가이드라인이지만, 대부분의 웹사이트에서는 이러한 가이드라인을 준수하는 비율이 낮다.[1] 단순히 검색엔진에 키워드를 입력하는 것만으로도 웹사이트 내의 내용을 모두 찾을 수 있으면, 웹개방성이 높은 것으로, 해당 웹사이트에 일일이 접속해 원하는 내용을 찾아야 하면 웹개방성이 낮은 것으로 간주한다. 국내의 웹개방성은 낮은 편으로, 국내의 대학교, 학술/연구기관은 정보접근을 완전 차단하여 검색으로 정보를 찾을 수 없게 해뒀다. 정보를 얻는 대부분의 사람들의 특성 상 양질의 정보가 있더라도 얻기 힘들다.[2] 이처럼, 웹 개방성이 낮으면 양질의 자료가 있더라도 검색으로 자료를 찾을 수 없기에 검색으로 나온 자료만을 사용하거나, 양질의 자료를 얻고싶다면 일일이 다 뒤져서 정보를 찾아야 하는 수고스러움을 동반한다. 그러므로 웹개방성을 높혀 양질의 정보를 공유하는 것이 중요하다.

웹개방성의 필요성

웹사이트 개방 확인 방법

문서 접근 완전 허용
문서 접근 부분 차단

robots.txt 파일

로봇 차단을 확인할 때는 웹사이트에 접속한 후 브라우저 주소창에 해당 웹사이트의 주소 뒤에 /robots.txt를 추가로 입력하고 엔터키를 누른 뒤 해당 페이지에 나타나는 결과에 따라 로봇을 배제하는지 안 하는지 여부를 확인할 수 있다. robots.txt가 존재하지 않는다면 화면에 Not Found라는 글자가 출력되고, 이는 모든 로봇에 대한 문서 접근을 허용하는 형태이다. 또 다른 형태로는 User-Agent와 Allow가 출력된다. User-Agent에서 *은 모든 로봇을 지칭하는 뜻이며, Allow에서 /는 모든 디렉터리에서 로봇의 접근을 허용한다는 뜻이다. Allow 대신 Disallow:/ 형태로 되어있으면, 검색 로봇이 모든 문서에 접근할 수 없도록 차단한 상태이다. 부분적으로 차단도 가능하다.[3]

Noindex / Nofollow 태그 확인

Meta태그 Content속성 중 nofollow

noindex / nofollow 태그는 해당 웹페이지에서 마우스 우측 클릭 시 '소스보기'에서 해당 태그가 포함되어 있는지를 Ctrl+F키로 검색하여 쉽게 확인할 수 있다. noindex는 색인이 되지 않도록 하고, nofollow는 해당 웹페이지에 포함된 링크를 따라가지 않도록 하는 역할을 한다. 다음 그림은 검색 엔진이 문서 정보를 알 수 있도록 안내하는 역할을 하는 Meta태그의 Content속성 중 noindex는 해당 페이지에 대한 색인작업(index)을 제외하는 역할로, 로봇이 색인을 못하게 되면 해당 페이지에 대한 정보가 저장되지 않기 때문에 검색에서 제외된다. Content속성 중 nofollow를 설정하게 되면 검색 로봇이 해당 페이지에 수록된 링크를 따라갈 수 없게 제한하여 효율적인 검색을 방해할 수 있다.[3]

URL 공개 또는 비공개 여부 확인

웹사이트와 그 안에 포함된 내용은 고유의 URL을 가지고 있다. 다만, 해당 페이지의 URL이 변경되었음에도 불구하고 주소창의 URL이 변하지 않는 경우, 검색 로봇은 이를 인식하지 못해 검색이 제한될 수 있다.[3]

웹개방성 지수

웹개방성 지수란 웹개방성을 평가하기 위해 웹 발전연구소에서 최초로 개발한 평가모형으로, 웹사이트의 검색엔진 접근 차단, 특정 페이지 접근 차단, 페이지별 정보 수집 거부 등을 평가해 점수화한 것이다.

웹개방성 지수(WOI) 개발 및 고도화

  • 검색엔진 접근 차단
웹 방화벽이나 웹 서버의 운역 정책에 따라 특정 검색엔진의 접속이나 특정 내용에 대한 접근 및 열람을 필터링을 통해 차단한다.
  • 검색엔진 배제선언
웹 루트 디렉터리에 저장한 robots.txt 파일에 검색엔진 접근 거부에 대한 정책을 선언함으로써 거부 선언된 검색엔진이 방문 시 이를 통해 검색을 수행하지 않는다.
  • 특정 페이지 접근 차단
웹사이트 초기 접속 시 액티브X, 자바 등의 실행을 목적으로 하는 특정 웹페이지로 접속을 연결함으로써 검섹엔진의 웹사이트 크롤링이 불가능하다.
  • 페이지 별 정보 수집 거부
웹페이지 소스코드에 검색엔진 접근 거부에 대한 정책을 선언함으로써 거부 선언된 검색엔진이 이 웹페이지에 대해서는 검색을 수행하지 않는다.
  • 신기술 적용에 의한 차단
웹사이트의 특정 콘텐츠 영역이나 링크 정보를 플래시(Flash), 자바 애플릿(JAVA Applet), 자바스크립트(JAVA Script), 이미지 파일 등으로 구현함으로써 해당 영역의 검색을 차단한다.
  • 페이지별 URL 차단
검색엔진이 웹 서버의 구현 특성에 따라 웹사이트의 하부 웹페이지 URL을 추출하지 못하여 발생하는 검색을 중단한다.[4]

웹개방성 평가 목적 및 기대효과

웹에 공개된 정보는 높은 사회, 경제적 가치를 지닌 중요한 자산으로 합리적인 정보 공개가 필요하다. 웹사이트의 정보 접근성 향상과 정보 개방에 대한 정보 제공자 측의 인식 제고 및 개선이 목적이며, 정보 개방에 대한 공공과 민간 기업 등 정보 제공자 측의 인식 개선과 참여 공유 투명성 제고, 정보 공개로 사용자의 합리적인 정보 활용도 향상, 정보의 자유로운 흐름 측면에서의 웹 정보 접근성 향상, 효율적인 웹 정보 제공이 가능하며 이를 통한 비용 절감 효과 기대, 향상된 각 웹사이트의 정보 제공으로 스마트 미디어 시대의 웹 서비스를 선도, 개방된 정보를 사회ㆍ경제적 가치가 높은 자산으로 활용하여 새로운 경제적 효과 창출 등이 있다.[5]

각주

  1. 써미, 〈(최신 웹 기술 사례) 웹 개방성의 이해와 필요성〉, 《네이버 블로그》, 2016-05-11
  2. 강일용, 〈여전히 형편없는 국내 웹개방성... 대학, 연구기관 78%가 검색 제한〉, 《아이티동아》, 2013-03-11
  3. 3.0 3.1 3.2 광고컬럼, 〈23. 검색이 잘 되는 비밀! 웹 개방의 필요성〉, 《플레이디》, 2013-10-04
  4. 웹 개방성 인코덤 - http://www.incodom.kr/%EC%9B%B9_%EA%B0%9C%EB%B0%A9%EC%84%B1
  5. 웹발전연구소 - http://www.smartebiz.kr/new/subpage03_01.html

참고 자료

같이 보기

  의견.png 이 웹개방성 문서는 인터넷에 관한 토막글입니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 이 문서의 내용을 채워주세요.