의견.png

"웹개방성"의 두 판 사이의 차이

위키원
이동: 둘러보기, 검색
(웹사이트 개방 확인 방법)
11번째 줄: 11번째 줄:
  
 
== 웹사이트 개방 확인 방법 ==
 
== 웹사이트 개방 확인 방법 ==
[[파일:문서 접근 허용.jpg|썸네일|200픽셀|문서 접근 완전 허용]]
+
[[파일:문서 접근 허용.jpg|썸네일|400픽셀|문서 접근 완전 허용]]
[[파일:문서 접근 부분 차단.jpg|썸네일|200픽셀|문서 접근 부분 차단]]
+
[[파일:문서 접근 부분 차단.jpg|썸네일|400픽셀|문서 접근 부분 차단]]
 
=== robots.txt 파일 ===
 
=== robots.txt 파일 ===
 
로봇 차단을 확인할 때는 웹사이트에 접속한 후 브라우저 주소창에 해당 웹사이트의 주소 뒤에 /robots.txt를 추가로 입력하고 엔터키를 누른 뒤 해당 페이지에 나타나는 결과에 따라 로봇을 배제하는지 안 하는지 여부를 확인할 수 있다. robots.txt가 존재하지 않는다면 화면에 Not Found라는 글자가 출력되고, 이는 모든 로봇에 대한 문서 접근을 허용하는 형태이다. 또 다른 형태로는 User-Agent와 Allow가 출력된다. User-Agent에서 *은 모든 로봇을 지칭하는 뜻이며, Allow에서 /는 모든 디렉터리에서 로봇의 접근을 허용한다는 뜻이다. Allow 대신 Disallow:/ 형태로 되어있으면, 검색 로봇이 모든 문서에 접근할 수 없도록 차단한 상태이다. 부분적으로 차단도 가능하다.<ref name="플레이디">광고컬럼, 〈[https://www.playd.com/contents/business/AD_column.html?type=view&page=&no=153 23. 검색이 잘 되는 비밀! 웹 개방의 필요성]〉, 《플레이디》, 2013-10-04</ref>
 
로봇 차단을 확인할 때는 웹사이트에 접속한 후 브라우저 주소창에 해당 웹사이트의 주소 뒤에 /robots.txt를 추가로 입력하고 엔터키를 누른 뒤 해당 페이지에 나타나는 결과에 따라 로봇을 배제하는지 안 하는지 여부를 확인할 수 있다. robots.txt가 존재하지 않는다면 화면에 Not Found라는 글자가 출력되고, 이는 모든 로봇에 대한 문서 접근을 허용하는 형태이다. 또 다른 형태로는 User-Agent와 Allow가 출력된다. User-Agent에서 *은 모든 로봇을 지칭하는 뜻이며, Allow에서 /는 모든 디렉터리에서 로봇의 접근을 허용한다는 뜻이다. Allow 대신 Disallow:/ 형태로 되어있으면, 검색 로봇이 모든 문서에 접근할 수 없도록 차단한 상태이다. 부분적으로 차단도 가능하다.<ref name="플레이디">광고컬럼, 〈[https://www.playd.com/contents/business/AD_column.html?type=view&page=&no=153 23. 검색이 잘 되는 비밀! 웹 개방의 필요성]〉, 《플레이디》, 2013-10-04</ref>
  
 
=== Noindex / Nofollow 태그 확인 ===
 
=== Noindex / Nofollow 태그 확인 ===
[[파일:메타태그 콘텐츠 노인덱스.jpg|썸네일|200픽셀|Meta태그 Content속성 중 nofollow]]
+
[[파일:메타태그 콘텐츠 노인덱스.jpg|썸네일|400픽셀|Meta태그 Content속성 중 nofollow]]
 
noindex / nofollow 태그는 해당 웹페이지에서 마우스 우측 클릭 시 '소스보기'에서 해당 태그가 포함되어 있는지를 Ctrl+F키로 검색하여 쉽게 확인할 수 있다. noindex는 색인이 되지 않도록 하고, nofollow는 해당 웹페이지에 포함된 링크를 따라가지 않도록 하는 역할을 한다. 다음 그림은 검색 엔진이 문서 정보를 알 수 있도록 안내하는 역할을 하는 Meta태그의 Content속성 중 noindex는 해당 페이지에 대한 색인작업(index)을 제외하는 역할로, 로봇이 색인을 못하게 되면 해당 페이지에 대한 정보가 저장되지 않기 때문에 검색에서 제외된다. Content속성 중 nofollow를 설정하게 되면 검색 로봇이 해당 페이지에 수록된 링크를 따라갈 수 없게 제한하여 효율적인 검색을 방해할 수 있다.<ref name="플레이디"></ref>
 
noindex / nofollow 태그는 해당 웹페이지에서 마우스 우측 클릭 시 '소스보기'에서 해당 태그가 포함되어 있는지를 Ctrl+F키로 검색하여 쉽게 확인할 수 있다. noindex는 색인이 되지 않도록 하고, nofollow는 해당 웹페이지에 포함된 링크를 따라가지 않도록 하는 역할을 한다. 다음 그림은 검색 엔진이 문서 정보를 알 수 있도록 안내하는 역할을 하는 Meta태그의 Content속성 중 noindex는 해당 페이지에 대한 색인작업(index)을 제외하는 역할로, 로봇이 색인을 못하게 되면 해당 페이지에 대한 정보가 저장되지 않기 때문에 검색에서 제외된다. Content속성 중 nofollow를 설정하게 되면 검색 로봇이 해당 페이지에 수록된 링크를 따라갈 수 없게 제한하여 효율적인 검색을 방해할 수 있다.<ref name="플레이디"></ref>
  

2020년 7월 30일 (목) 15:11 판

웹개방성(Web Openness)이란 웹에 공개된 정보에 이용자가 아무런 제약 없이 접근하여 이용할 수 있는 것을 의미하며, 웹사이트의 정보를 자유롭게 공개ㆍ공유하여 정보의 투명성과 개방성이 향상되는 것을 말한다.

개요

우리나라는 세계에서 가장 빠른 인터넷 환경과 전세계 4위에 달하는 스마트폰 보급률로 정확한 정보를 쉽고 빠르게 얻을 수 있는 훌륭한 정보 환경에서 살고 있다. 그만큼 좋은 정보들에 정확하게 접근하는 것 역시 중요하다. 검색이 정확히 이뤄지지 않는 정보들은 쓸모없는 정보와 다를 바 없기 때문이다. 무슨 말인가 싶겠지만, 이것이 바로 현재 우리나라 인터넷 환경이 직면한 상황이다. 우리는 구글, 네이버, 다음 등의 포털사이트에서 많은 양의 데이터를 검색하며 살고 있지만, 실제로는 매우 제한적인 검색이 이뤄지고 있다. 그 이유는 검색엔진 배제선언에 있다. 일반적으로 검색로봇이 웹사이트의 정보를 수집하는 알고리즘에서 검색엔진 배제선언을 하게 되면, 웹사이트에 검색로봇의 접근을 막아 정보를 수집할 수 없게 되는 것이다. 그래서 2011년에 행정안전부, 현 행정자치부에서 검색로봇 배제 표준 적용방법 가이드라인을 배포했다. 웹개방성의 수준을 체계적으로 강화해 개인정보와 같은 중요 정보는 검색할 수 없도록 하고, 필요한 자료는 효율적으로 개방할 수 있게 만드는 가이드라인이지만, 대부분의 웹사이트에서는 이러한 가이드라인을 준수하는 비율이 낮다.[1] 단순히 검색엔진에 키워드를 입력하는 것만으로도 웹사이트 내의 내용을 모두 찾을 수 있으면, 웹개방성이 높은 것으로, 해당 웹사이트에 일일이 접속해 원하는 내용을 찾아야 하면 웹개방성이 낮은 것으로 간주한다. 국내의 웹개방성은 낮은 편으로, 국내의 대학교, 학술/연구기관은 정보접근을 완전 차단하여 검색으로 정보를 찾을 수 없게 해뒀다. 정보를 얻는 대부분의 사람들의 특성 상 양질의 정보가 있더라도 얻기 힘들다.[2] 이처럼, 웹 개방성이 낮으면 양질의 자료가 있더라도 검색으로 자료를 찾을 수 없기에 검색으로 나온 자료만을 사용하거나, 양질의 자료를 얻고싶다면 일일이 다 뒤져서 정보를 찾아야 하는 수고스러움을 동반한다. 그러므로 웹개방성을 높혀 양질의 정보를 공유하는 것이 중요하다.

웹개방성의 필요성

웹 개방성 측면에서 웹사이트 검색을 전체 차단하거나 부분 차단하는 것은 정보수집 및 검색에 영향을 미치는 것으로 이는 웹 개방성 위배에 해당된다. 또한 검색엔진의 접근을 차단하면 국민들이 검색엔진을 통해 원하는 각 해당 사이트의 정확하고 자세한 정보를 찾을 수 없게 된다. 즉, 검색엔진 배제선언(robots.txt)은 보안을 위한 도구가 아닌 약속된 선언에 불과해 부분차단을 사용하게 되면 오히려 해킹의 타겟(target)이 될 수도 있으므로 검색엔진에 대한 부분차단은 보안에 위협이 될 수 있으므로 부분차단은 하지 않는 것이 중요하다. 숙명여대 경영전문대학원 주임교수 겸 웹발전연구소 대표인 문형남 교수는 “웹사이트에 정보를 공개해놓고 검색엔진의 접근을 차단하는 것은 매우 잘못된 것이고, 정보가 많은 웹사이트를 무용지물로 만드는 것이다. 검색에 중요한 영향을 미치는 검색엔진 배제선언을 통해 검색을 완전 차단 또는 부분 차단한 것은 대부분 검색엔진 차단의 의미를 제대로 알지 못하고 개인정보보호나 보안에 도움이 되는 줄로 잘못 알고 있기 때문”이라고 말했다. 또한 그는 “공공기관이 검색엔진의 접근을 차단하는 것은 국민의 정보 접근을 차단하는 것과 마찬가지이며, 주요 고객인 국민들을 공개된 정보에 빠르고 쉽게 접근하지 못하고 여러 번 시행착오를 겪고 나서야 접근하게 하는 것은 하루빨리 개선돼야 한다”고 강조했고, “행정기관과 공공기관의 모든 대국민 사이트에서 제공하는 공공정보는 높은 가치를 지닌 중요한 자산이므로 모두 검색엔진 접근을 완전 개방하여 적극 활용돼야 하며, 국민과의 소통과 대국민 홍보 효과가 기대된다”고 말했다. 그는 “공공기관들이 웹사이트의 정보 검색을 차단한 것은 국민들에게 불편을 주며 예산을 낭비하는 것이므로 즉시 시정돼야 하며, 공공기관 평가 항목에 웹 개방성 항목을 반드시 추가해서 반영해야 한다”고 주장했다.[3]

웹개방성 국내 현황

웹사이트에 올라온 공개된 정보는 누구나 손쉽게 검색하고 접근해서 볼 수 있어야 한다. 공개된 정보에 접근을 차단할 아무런 이유가 없다. 그런데 정보 접근을 차단하면 개인정보 보호나 보안에 도움이 되는 것으로 잘못 알고있거나, 차단한 줄도 모르고 차단해 놓은 웹사이트가 적지 않다.[4] 웹개방성 평가ㆍ인증기관인 웹발전연구소가 기타 공공기관 147개 웹사이트의 웹개방성을 조사한 결과 56곳의 웹개방성이 매우미흡 또는 미흡한 것으로 나타났다. 전체 허용은 91개(61.9%), 부분 차단은 40개(27.2%), 전체 차단은 16개(10.9%)인 것으로 나타났다. 문형남 교수는 “개인정보보호·보안은 웹 개방성과 별개 문제인데, 일부 기관과 업체들이 보안에 대한 잘못된 인식과 고정관념으로 인해 정보 접근을 차단하는 것은 시정되어야 하며, 각 기관 담당자들의 웹 정보 개방에 대한 인식을 개선하여 사용자들의 정보 접근성을 높여야한다”고 강조했다. 또한 “공공기관뿐만 아니라 민간 기업에서도 웹 개방성을 준수하는 것이 바람직하다”고 말했다. 문 교수는 “행정기관과 공공기관의 담당자 및 웹사이트 제작사들이 잘 모르고 웹 개방성을 준수하지 않는 경우가 많다”면서 “행정기관과 공공기관 및 모든 대국민 웹사이트들의 웹 개방성이 준수될 때까지 지속적으로 평가해서 결과를 발표해 개선되도록 하겠다”고 덧붙였다.[3]

웹사이트 개방 확인 방법

문서 접근 완전 허용
문서 접근 부분 차단

robots.txt 파일

로봇 차단을 확인할 때는 웹사이트에 접속한 후 브라우저 주소창에 해당 웹사이트의 주소 뒤에 /robots.txt를 추가로 입력하고 엔터키를 누른 뒤 해당 페이지에 나타나는 결과에 따라 로봇을 배제하는지 안 하는지 여부를 확인할 수 있다. robots.txt가 존재하지 않는다면 화면에 Not Found라는 글자가 출력되고, 이는 모든 로봇에 대한 문서 접근을 허용하는 형태이다. 또 다른 형태로는 User-Agent와 Allow가 출력된다. User-Agent에서 *은 모든 로봇을 지칭하는 뜻이며, Allow에서 /는 모든 디렉터리에서 로봇의 접근을 허용한다는 뜻이다. Allow 대신 Disallow:/ 형태로 되어있으면, 검색 로봇이 모든 문서에 접근할 수 없도록 차단한 상태이다. 부분적으로 차단도 가능하다.[5]

Noindex / Nofollow 태그 확인

Meta태그 Content속성 중 nofollow

noindex / nofollow 태그는 해당 웹페이지에서 마우스 우측 클릭 시 '소스보기'에서 해당 태그가 포함되어 있는지를 Ctrl+F키로 검색하여 쉽게 확인할 수 있다. noindex는 색인이 되지 않도록 하고, nofollow는 해당 웹페이지에 포함된 링크를 따라가지 않도록 하는 역할을 한다. 다음 그림은 검색 엔진이 문서 정보를 알 수 있도록 안내하는 역할을 하는 Meta태그의 Content속성 중 noindex는 해당 페이지에 대한 색인작업(index)을 제외하는 역할로, 로봇이 색인을 못하게 되면 해당 페이지에 대한 정보가 저장되지 않기 때문에 검색에서 제외된다. Content속성 중 nofollow를 설정하게 되면 검색 로봇이 해당 페이지에 수록된 링크를 따라갈 수 없게 제한하여 효율적인 검색을 방해할 수 있다.[5]

URL 공개 또는 비공개 여부 확인

웹사이트와 그 안에 포함된 내용은 고유의 URL을 가지고 있다. 다만, 해당 페이지의 URL이 변경되었음에도 불구하고 주소창의 URL이 변하지 않는 경우, 검색 로봇은 이를 인식하지 못해 검색이 제한될 수 있다.[5]

웹개방성 지수

웹개방성 지수란 웹개방성을 평가하기 위해 웹 발전연구소에서 최초로 개발한 평가모형으로, 웹사이트의 검색엔진 접근 차단, 특정 페이지 접근 차단, 페이지별 정보 수집 거부 등을 평가해 점수화한 것이다.

웹개방성 지수(WOI) 개발 및 고도화

  • 검색엔진 접근 차단
웹 방화벽이나 웹 서버의 운역 정책에 따라 특정 검색엔진의 접속이나 특정 내용에 대한 접근 및 열람을 필터링을 통해 차단한다.
  • 검색엔진 배제선언
웹 루트 디렉터리에 저장한 robots.txt 파일에 검색엔진 접근 거부에 대한 정책을 선언함으로써 거부 선언된 검색엔진이 방문 시 이를 통해 검색을 수행하지 않는다.
  • 특정 페이지 접근 차단
웹사이트 초기 접속 시 액티브X, 자바 등의 실행을 목적으로 하는 특정 웹페이지로 접속을 연결함으로써 검섹엔진의 웹사이트 크롤링이 불가능하다.
  • 페이지 별 정보 수집 거부
웹페이지 소스코드에 검색엔진 접근 거부에 대한 정책을 선언함으로써 거부 선언된 검색엔진이 이 웹페이지에 대해서는 검색을 수행하지 않는다.
  • 신기술 적용에 의한 차단
웹사이트의 특정 콘텐츠 영역이나 링크 정보를 플래시(Flash), 자바 애플릿(JAVA Applet), 자바스크립트(JAVA Script), 이미지 파일 등으로 구현함으로써 해당 영역의 검색을 차단한다.
  • 페이지별 URL 차단
검색엔진이 웹 서버의 구현 특성에 따라 웹사이트의 하부 웹페이지 URL을 추출하지 못하여 발생하는 검색을 중단한다.[6]

웹개방성 평가 목적 및 기대효과

웹에 공개된 정보는 높은 사회, 경제적 가치를 지닌 중요한 자산으로 합리적인 정보 공개가 필요하다. 웹사이트의 정보 접근성 향상과 정보 개방에 대한 정보 제공자 측의 인식 제고 및 개선이 목적이며, 정보 개방에 대한 공공과 민간 기업 등 정보 제공자 측의 인식 개선과 참여 공유 투명성 제고, 정보 공개로 사용자의 합리적인 정보 활용도 향상, 정보의 자유로운 흐름 측면에서의 웹 정보 접근성 향상, 효율적인 웹 정보 제공이 가능하며 이를 통한 비용 절감 효과 기대, 향상된 각 웹사이트의 정보 제공으로 스마트 미디어 시대의 웹 서비스를 선도, 개방된 정보를 사회ㆍ경제적 가치가 높은 자산으로 활용하여 새로운 경제적 효과 창출 등이 있다.[7]

각주

  1. 써미, 〈(최신 웹 기술 사례) 웹 개방성의 이해와 필요성〉, 《네이버 블로그》, 2016-05-11
  2. 강일용, 〈여전히 형편없는 국내 웹개방성... 대학, 연구기관 78%가 검색 제한〉, 《아이티동아》, 2013-03-11
  3. 3.0 3.1 문형남 전문기자, 〈[hhttp://www.newsfirst.co.kr/news/articleView.html?idxno=2831 기타 공공기관 147개 웹 개방성평가, 38.1%인 56개 기관 검색 차단]〉, 《뉴스퍼스트》, 2020-05-26
  4. 문형남 숙명여대 경영전문대학원 주임교수, 〈(시시비비)웹 개방성 준수, 법제화가 필요하다〉, 《아시아경제》, 2019-08-22
  5. 5.0 5.1 5.2 광고컬럼, 〈23. 검색이 잘 되는 비밀! 웹 개방의 필요성〉, 《플레이디》, 2013-10-04
  6. 웹 개방성 인코덤 - http://www.incodom.kr/%EC%9B%B9_%EA%B0%9C%EB%B0%A9%EC%84%B1
  7. 웹발전연구소 - http://www.smartebiz.kr/new/subpage03_01.html

참고 자료

같이 보기

  의견.png 이 웹개방성 문서는 인터넷에 관한 토막글입니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 이 문서의 내용을 채워주세요.