"블룸필터"의 두 판 사이의 차이

2019년 8월 16일 (금) 13:58 판

블룸필터(Bloom Filter)는 특정 원소가 집합에 속하는지 검사하는데 사용할 수 있는 확률형 자료 구조이다.^[1]

블룸필터(Bloom Filter)

개요

블룸필터(Bloom Filter)는1970년 Burton Howard Bloom에 의해 고안되었다. 블룸 필터에 의해 어떤 원소가 집합에 속한다고 판단된 경우 실제로는 원소가 집합에 속하지 않는 긍정 오류가 발생하는 것이 가능하지만, 반대로 원소가 집합에 속하지 않는 것으로 판단되었는데 실제로는 원소가 집합에 속하는 부정 오류는 절대로 발생하지 않는다는 특성이 있다. 집합에 원소를 추가하는 것은 가능하나, 집합에서 원소를 삭제하는 것은 불가능하다. 집합 내 원소의 숫자가 증가할수록 긍정 오류 발생 확률도 증가한다.^[2]

등장배경

블룸필터(Bloom Filter)는 1970년도에 Burton H. Bloom이 고안한 것으로 공간 효율적인 probabilistic data structure이며 구성요소가 집합의 구성원인지 점검하는데 사용된다.^[3]

특징

집합의 크기가 굉장히 크거나 집합의 속해있는 원소의 크기가 커서 원소가 집합에 속해있는지 정확히 판단하는데 시간이 오래걸리는 경우 이 과정의 전처리 과정으로 Bloom Filter를 이용해서 아예 집합에 속할 일이 없는 원소를 미리 걸러낼 수 있다. Google Chrome은 위험한 사이트 검사에 Bloom Filter를 사용한다고 알려져 있다. Bloom Filter를 사용해서 빠르게 대충 검사한 다음, 의심이 가는 사이트인 경우 데이터베이스에 다시 정확하게 검사하는 것이다. 아마 위험 사이트 데이터베이스의 크기가 크고, 검사 요청이 굉장히 빈번하게 일어나기 때문에 Bloom Filter를 전처리 과정으로 사용해서 데이터베이스 요청 부하를 줄이는 것으로 보인다. 비트코인도 내부적으로 Bloom Filter를 사용하는 것으로 알려져 있다. 보통은 Disk IO를 줄이기 위한 최적화 방법으로 많이 사용한다.^[1]

활용

스펠링체크, 사전, 웹 검색, IP Filtering, Router 등에 활용되고 Squid Web, Venti Storage System, SPIN model checker, Google Chrome Browser 등에도 활용되고 있다.
Cassandra : SSTable 생성시(Index용으로 활용) - Read 성능 향상(Disk IO를 줄임).

 - SMHasher & MurmurHash hash 함수 사용 : http://code.google.com/p/smhasher/

HBase : HFile안에 로우와 컬럼이 존재하는 지 검사하기 위해 사용.
Bigtable : 불필요한 디스크 접근을 피하기 위해.
Oracle

 - Parallel Join시 Slave간의 communication 데이터량을 줄이기 위해.(10gR2)
 - Join-Filter Pruning 사용시.(11gR1)
 - Result Cache 지원 (11gR1).

Guava Bloom Filter : http://code.google.com/p/guava-libraries/issues/detail?id=12
pyreBloom = Python + Redis + Bloom Filter
bloomfilter-rb = Ruby + Redis + Bloom Filter^[3]

종류

장.단점

장점

블룸필터는 많은 양의 데이터를 중여서 공간 효율적으로 빠르게 검색 할 수 있다.^[4]
처리능력대비 적은 메모리 공간만을 필요하다.^[5]
Bloom Filter 는 (Join Filter Pruning) Hash Join 이나 Merge Join 을 하기에 앞서 조인 대상건수를 미리 줄임 으로써 Join 의 부하 를 감소 시킨다.
Parallel Processing 의 경우 Slave 에서 조인을 하기 위해 Co or dinate 로 전송하는 통신양을 감소 시키고 , 조인의 부하까지 감소 시킨다.^[6]

단점

동적으로 원소를 추가하기에 효율적이지 않다.
원소의 개수가 동적으로 계속 변경된다면 블룸필터를 구성하는 시점에 최적의 hash 함수 개수, 메모리 사이즈를 결정할 수가 없게 된다. 또한 원소가 예상보다 훨씬 많아지게 된다면 FPP 가 너무 커져서 문제가 생길 수 있다.
원소의 삭제가 불가능하고 원소의 개수가 많아질수록 false positive 의 확률이 높아진다.^[7]

평과와 전망

동영상

각주

↑ ^1.0 ^1.1 , 〈알아두면 좋은 자료 구조, Bloom Filter〉, 《steemit》, 2017
↑ 〈블룸 필터〉, 《위키백과》
↑ ^3.0 ^3.1 , 〈Bloom Filter 개요〉, 《개인 블로그》, 2013-05-13
↑ itbrain, 〈BLOOM FILTER(블룸 필터)〉, 《티스토리》, 2009-12-16
↑ 임지홍, 〈BloomFilter는 언제 쓰나요?〉, 《toast meetup》, 2019-07-25
↑ 한국데이터산업진흥원, 〈데이터 기술 자료〉, 《한국데이터산업진흥원》
↑ Taeguk, 〈Bloom Filter 자료구조〉, 《개인 블로그》, 2019-05-18

참고자료

〈알아두면 좋은 자료 구조, Bloom Filter〉, 《steemit》, 2017
미물,〈Bloom Filter 개요〉, 《개인 블로그》, 2013-05-13
tbrain, 〈BLOOM FILTER(블룸 필터)〉, 《티스토리》, 2009-12-16
임지홍, 〈BloomFilter는 언제 쓰나요?〉, 《toast meetup》, 2019-07-25
한국데이터산업진흥원, 〈데이터 기술 자료〉, 《한국데이터산업진흥원》
Taeguk, 〈Bloom Filter 자료구조〉, 《개인 블로그》, 2019-05-18

같이보기

이 블룸필터 문서는 블록체인 지원기관에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.

단체 : 공공기관, 대학교, 협회, 블록체인 지원기관^□^■^⊕



연구소 • 학회	451리서치 • MIT 디지털화폐 이니셔티브 • 경희대학교 블록체인학회 • 고려대학교 블록체인연구소 • 고려대학교 블록체인학회 • 고려대학교 암호화폐연구센터 • 광동챈하이핀테크연구원 • 국가블록체인경제과제연구팀 • 국립전자암호연구소 • 국회 4차산업혁명포럼 • 글로벌 칼리지 블록체인 얼라이언스 • 다빈치연구소 • 단국대학교 자율형 블록체인 융합연구소 • 독일 공학한림원 • 동국대학교 블록체인연구센터 • 디사이퍼(서울대학교 블록체인학회) • 딜로이트 블록체인 연구소 • ㈜링스톤 • 매사추세츠 공과대학교 미디어랩 • 메이든 • 미국경제연구소 • 시큐리티토큰연합 • 버클리 블록체인 엑셀러레이터 • 블록데이터 • 블록엔 • 블록체인 기후연구소 • 블록체인 리서치 인스티튜트 • 블록체인법학회 • 블록체인앳버클리 • 블록체인 앳 연세 • 서울대학교 전력연구소 • 성균관대학교 블록체인학회(스콘) • 소프트웨어정책연구소 • 싸이디블록체인연구원 • 씨씨이지(CCEG) • 아이비이포럼(IBE포럼) • 아시아블록체인산업연구원 • 아시아블록체인연구원 • 아시아 자본시장연구소 • 암호자산 연구소 • 와이즈만 연구소 • 오스트리아 블록체인 센터 • 오픈머니 이니셔티브 • 와이스 레이팅스 • 인민대학 핀테크연구소 • 인텔리콘연구소 • 인티콜롬비아 리서치 그룹 • 응용과학기술연구원 • 중국과학원 소프트웨어연구소 • 중국공정원 • 중국모바일연구원 • 중국블록체인연구센터 • 중국블록체인응용연구센터 • 중국전자정보산업발전연구원(CCID) • 중국정보통신연구원 • 중국컴퓨터학회 • 중국전자기술표준화연구원 • 중앙대학교 블록체인서비스 연구센터 • 중차오블록체인기술연구원 • 지구라트 글로벌기술연구소 • 차세대융합기술연구원 • 칭화대학 인터넷산업연구원 • 키프로스 블록체인 테크놀로지스 • 탭스콧그룹 • 플래닛비 • 한국금융ICT융합학회 • 한국디지털화폐연구원(KDC) • 한국블록체인산업학회 • 한국블록체인학회 • 한국정보통신산업연구원 • 한국정보통신설비학회 • 한국통신학회 • 한국핀테크학회 • 한양대학교 블록체인 연구교육그룹 • 후룬연구소 • 홍콩 혁신과학기술부

교육기관	2019년 블록체인 캠퍼스 • 고려대학교 블록체인 전략 전문경영자과정 • 고려대학교 제4기 블록체인 전략 전문경영자과정 • 대시타일랜드 • 두바이 블록체인 센터 • 룬사테크놀로지 • 룬사학원 • 마이애미 블록체인 센터 • 마이애미 비트코인 센터 • 마켓 리벨리온 • 멀티캠퍼스 • 바이낸스아카데미 • 블로코아카데미 • 블록샬라 • 블록체인아이에스티 • 블록체인아카데미 • 비즈럽트 • 비캐피탈리스트 • 비티원랩 • 빅데이터 얼라이언스 • 슈퍼제로 블록체인 비즈니스 스쿨 • 엠아이티 홍콩 혁신노드 • 즈미대학(크립토 칼리지) • 진써스쿨 • 체인스아카데미 • 칭화엑스랩 • 컨스트럭션 블록체인 컨소시엄 • 포스텍 블록체인 최고경영자 과정 • 프랑크푸르트스쿨 블록체인센터 • 프리코드캠프 • 플루럴사이트 • 한국블록체인연구교육원(월튼체인연구교육원) • 홍콩대학 평생교육원 • 후오비대학

지원기관	MIT 프레스 • 광둥 파이낸셜 하이테크단지 블록체인+핀테크산업 인큐베이팅센터 • 국가국제금융문제사무국 • 국제노동기구 • 글로벌 디지털 파이낸스 • 글로벌핀테크산업진흥센터 • 기술협력센터 • 나카모토 하우스 • 노스캐롤라이나 블록체인 이니셔티브 • 뉴아메리카 • 뉴캐슬헬릭스 • 대전창조경제혁신센터 • 독일스타트업그룹 • 디스트리뷰티드 벤처스 • 디아이지아이 • 디지다오 • 라디앤파트너 • 레벨39 • 로이드인증원 • 마네투 • 맥케슨 • 모덱스 • 미국보험서비스협회 • 미국인권재단 • 미국 통화감독청 • 부산 블록체인 특구 추진단 • 블록체인포임팩트 • 블록체인 애플리케이션 커뮤니티 • 블록체인 액셀러레이션 재단 • 비바리즈캐피탈 • 비에스아이그룹 • 비트트라이브 랩 • 서울블록체인지원센터 • 서울파이낸셜포럼 • 선전문화재산권거래소 • 세피어 • 슈아 • 슈타트비엔나 • 스리랑카핀테크협회 • 스티비츠 • 시카고 블록체인 센터 • 시타 • 싱가포르 정보통신 미디어 개발청 • 아이알유 • 아티팩츠 • 알원스페이스 • 어피니티 아이티 시큐리티 • 업비트투자자보호센터 • 윈윈솔루션 • 오에스디 • 오피리아 • 유엔유-이지오브이 • 유엔 무역 촉진 및 전자 비즈니스센터 • 이더리움 커뮤니티 재단 • 이아이파스 • 이오스노드원 • 자루나 • 정보기술연구소 • 중관촌빅데이터산업연합 • 중국금융인증센터 • 지지비에이 서부스위스투자 • 첸하이연합거래센터 • 충북블록체인진흥센터 • 카필렌도 • 컨퍼드 • 코어레저 • 토큰경제실천연맹 • 토큰경제협회 • 토킹데이터 • 트러스티드 블록체인 이니셔티브 • 패러다임글로벌 • 퐁짓 • 푸르덴셜파이낸셜 • 피피케이펍 • 핀테크 앤 이노베이션 그룹 • 한국 분산원장기술표준포럼 • 한국핀테크지원센터 • 헤이시블록체인랩스 • 헬레닉 블록체인허브 • 호들팩

법무 • 회계법인	EY한영 • 갈릭앤마키슨 • 굿윈프록터 • 김앤장 • 나겔러 • 노튼 로즈 풀브라이트 • 대주회계법인 • 더바름 노무법인 • 데이비스포크 앤드 워드웰 • 듀안모리스앤설밤 • 법무법인 디라이트 • 디엘엑스로 • 디엘티로 • 딜로이트 • 딜로이트 안진회계법인 • 딜로이트컨설팅 • 딜로이트코리아 • 레이텀 앤 왓킨스 • 렌쯔앤스테이헬른 • 로벨스 • 리버티 체임버스 • 마낙 솔리시터스 • 머피앤맥고니글 • 모리슨앤드포스터 • 바이런앤스톰 • 법무법인 가헌 • 법무법인 강남 • 법무법인 동인 • 법무법인 린 • 법무법인 바른 • 법무법인 세움 • 법무법인 세종 • 법무법인 오킴스 • 법무법인 율촌 • 법무법인 이랑 • 법무법인 정향 • 법무법인 제하 • 법무법인 주원 • 법무법인 태평양 • 베이커마르쿼트 • 베이커 맥켄지 • 브라이언 케이브 레이튼 페이즈너 • 블룸버그 로펌 • 비엘티 특허법률사무소 • 비제이강 법률사무소 • 삼정KPMG • 스텝토앤존슨 • 스튜어트 워커 허전트 험프리스 • 씨에스 글로벌 파트너 • 씨케이알로 • 에이비알 아보캣츠 • 엘리어스 파트너십 • 엘지피 • 엠에이앤에이 • 엠엠이 • 오멜베니 • 오킴스 • 오피스 블럼 • 워커스 • 우로보로스 • 이엠디 애드버케이츠 • 존스데이 • 주버롤러 • 차앤권 법률사무소 • 충정 • 케이앤엘게이츠 • 케이에스아이몰타 • 케이피엠지(KPMG) • 케이피엠지몰타 • 켈만 로펌 • 코브레앤김 • 쿨리 • 크레이머-레빈 • 크립토로 파트너스 • 클레이먼 • 키나니스 • 테크앤로 • 퍼킨스코이 • 퐁세 투레티니 아보캣 • 프로리프 • 프리드먼 • 프레스톤 게이츠 • 프레쉬필즈 브룩하우스 데링거 • 호건로벨스 • 호건앤하트슨

자선 단체	가비 • 기브크립토 • 디지털문예부흥재단 • 바이낸스 자선재단 • 완커재단 • 왓록스재단 • 위키미디어재단 • 정더자선재단 • 챈 저커버그 이니셔티브

공익 단체	다음세대재단 • 에스이이 서남프로젝트센터 • 오이스트재단

위키 : 자동차, 교통, 지역, 산업, 기업, 단체, 업무, 쇼핑, 블록체인, 암호화폐, 인공지능, 개발, 인물, 행사, 일반

[heejin-1] 1.0 ^1.1 , 〈알아두면 좋은 자료 구조, Bloom Filter〉, 《steemit》, 2017

[2] 〈블룸 필터〉, 《위키백과》

[.EB.AF.B8.EB.AC.BC-3] 3.0 ^3.1 , 〈Bloom Filter 개요〉, 《개인 블로그》, 2013-05-13

[4] tbrain, 〈BLOOM FILTER(블룸 필터)〉, 《티스토리》, 2009-12-16

[5] 임지홍, 〈BloomFilter는 언제 쓰나요?〉, 《toast meetup》, 2019-07-25

[6] 한국데이터산업진흥원, 〈데이터 기술 자료〉, 《한국데이터산업진흥원》

[7] Taeguk, 〈Bloom Filter 자료구조〉, 《개인 블로그》, 2019-05-18

[1]

[2]

[3]

[4]

[5]

[6]

[7]

@@ 4번째 줄: / 4번째 줄: @@
 블룸필터(Bloom Filter)는1970년 Burton Howard Bloom에 의해 고안되었다. 블룸 필터에 의해 어떤 원소가 집합에 속한다고 판단된 경우 실제로는 원소가 집합에 속하지 않는 긍정 오류가 발생하는 것이 가능하지만, 반대로 원소가 집합에 속하지 않는 것으로 판단되었는데 실제로는 원소가 집합에 속하는 부정 오류는 절대로 발생하지 않는다는 특성이 있다. 집합에 원소를 추가하는 것은 가능하나, 집합에서 원소를 삭제하는 것은 불가능하다. 집합 내 원소의 숫자가 증가할수록 긍정 오류 발생 확률도 증가한다.<ref>〈[https://ko.wikipedia.org/wiki/%EB%B8%94%EB%A3%B8_%ED%95%84%ED%84%B0 블룸 필터]〉, 《위키백과》</ref>
 ==등장배경==
-==역사==
+블룸필터(Bloom Filter)는 1970년도에 Burton H. Bloom이 고안한 것으로 공간 효율적인 probabilistic data structure이며 구성요소가 집합의 구성원인지 점검하는데 사용된다.<ref name="미물">, 〈[http://www.mimul.com/pebble/default/2012/03/30/1333089490367.html Bloom Filter 개요]〉, 《개인 블로그》, 2013-05-13</ref>
 ==특징==
+집합의 크기가 굉장히 크거나 집합의 속해있는 원소의 크기가 커서 원소가 집합에 속해있는지 정확히 판단하는데 시간이 오래걸리는 경우 이 과정의 전처리 과정으로 Bloom Filter를 이용해서 아예 집합에 속할 일이 없는 원소를 미리 걸러낼 수 있다. Google Chrome은 위험한 사이트 검사에 Bloom Filter를 사용한다고 알려져 있다. Bloom Filter를 사용해서 빠르게 대충 검사한 다음, 의심이 가는 사이트인 경우 데이터베이스에 다시 정확하게 검사하는 것이다. 아마 위험 사이트 데이터베이스의 크기가 크고, 검사 요청이 굉장히 빈번하게 일어나기 때문에 Bloom Filter를 전처리 과정으로 사용해서 데이터베이스 요청 부하를 줄이는 것으로 보인다. 비트코인도 내부적으로 Bloom Filter를 사용하는 것으로 알려져 있다. 보통은 Disk IO를 줄이기 위한 최적화 방법으로 많이 사용한다.<ref name="heejin"></ref>
 ==활용==
-집합의 크기가 굉장히 크거나 집합의 속해있는 원소의 크기가 커서 원소가 집합에 속해있는지 정확히 판단하는데 시간이 오래걸리는 경우 이 과정의 전처리 과정으로 Bloom Filter를 이용해서 아예 집합에 속할 일이 없는 원소를 미리 걸러낼 수 있다. Google Chrome은 위험한 사이트 검사에 Bloom Filter를 사용한다고 알려져 있다. Bloom Filter를 사용해서 빠르게 대충 검사한 다음, 의심이 가는 사이트인 경우 데이터베이스에 다시 정확하게 검사하는 것이다. 아마 위험 사이트 데이터베이스의 크기가 크고, 검사 요청이 굉장히 빈번하게 일어나기 때문에 Bloom Filter를 전처리 과정으로 사용해서 데이터베이스 요청 부하를 줄이는 것으로 보인다. 비트코인도 내부적으로 Bloom Filter를 사용하는 것으로 알려져 있다. 보통은 Disk IO를 줄이기 위한 최적화 방법으로 많이 사용한다.<ref name="heejin"></ref>
+* 스펠링체크, 사전, 웹 검색, IP Filtering, Router 등에 활용되고 Squid Web, Venti Storage System, SPIN model checker, Google Chrome Browser 등에도 활용되고 있다.
+* Cassandra : SSTable 생성시(Index용으로 활용) - Read 성능 향상(Disk IO를 줄임).
+  - SMHasher & MurmurHash hash 함수 사용 : http://code.google.com/p/smhasher/
+* HBase : HFile안에 로우와 컬럼이 존재하는 지 검사하기 위해 사용.
+* Bigtable : 불필요한 디스크 접근을 피하기 위해.
+* Oracle
+  - Parallel Join시 Slave간의 communication 데이터량을 줄이기 위해.(10gR2)
+  - Join-Filter Pruning 사용시.(11gR1)
+  - Result Cache 지원 (11gR1).
+* Guava Bloom Filter : http://code.google.com/p/guava-libraries/issues/detail?id=12
+* pyreBloom = Python + Redis + Bloom Filter
+* bloomfilter-rb = Ruby + Redis + Bloom Filter<ref name="미물"></ref>
 ==종류==
-==문제점.대안==
+==장.단점==
+===장점===
+*블룸필터는 많은 양의 데이터를 중여서 공간 효율적으로 빠르게 검색 할 수 있다.<ref>itbrain, 〈[https://itbrain.tistory.com/entry/Bloom-filter블룸-필터 BLOOM FILTER(블룸 필터)]〉, 《티스토리》, 2009-12-16</ref>
+*처리능력대비 적은 메모리 공간만을 필요하다.<ref>임지홍, 〈[https://meetup.toast.com/posts/192 BloomFilter는 언제 쓰나요?]〉, 《toast meetup》, 2019-07-25</ref>
+*Bloom Filter 는 (Join Filter Pruning) Hash Join 이나 Merge Join 을 하기에 앞서 조인 대상건수를 미리 줄임 으로써 Join 의 부하 를 감소 시킨다.
+*Parallel Processing 의 경우 Slave 에서 조인을 하기 위해 Co or dinate 로 전송하는 통신양을 감소 시키고 , 조인의 부하까지 감소 시킨다.<ref>한국데이터산업진흥원, 〈[https://www.kdata.or.kr/info/info_04_view.html?field=&keyword=&type=techreport&page=17&dbnum=183978&mode=detail&type=techreport 데이터 기술 자료]〉, 《한국데이터산업진흥원》</ref>
+===단점===
+*동적으로 원소를 추가하기에 효율적이지 않다.
+*원소의 개수가 동적으로 계속 변경된다면 블룸필터를 구성하는 시점에 최적의 hash 함수 개수, 메모리 사이즈를 결정할 수가 없게 된다. 또한 원소가 예상보다 훨씬 많아지게 된다면 FPP 가 너무 커져서 문제가 생길 수 있다.
+*원소의 삭제가 불가능하고 원소의 개수가 많아질수록 false positive 의 확률이 높아진다.<ref>Taeguk, 〈[http://taeguk2.blogspot.com/2019/05/bloom-filter.html Bloom Filter 자료구조]〉, 《개인 블로그》, 2019-05-18</ref>
 ==평과와 전망==
+==동영상==
+<youtube>skrfSnsOOfw</youtube>
 {{각주}}
 ==참고자료==
+*〈[https://steemit.com/kr-dev/@heejin/bloom-filter 알아두면 좋은 자료 구조, Bloom Filter]〉, 《steemit》, 2017
+*미물,〈[http://www.mimul.com/pebble/default/2012/03/30/1333089490367.html Bloom Filter 개요]〉, 《개인 블로그》, 2013-05-13
+*tbrain, 〈[https://itbrain.tistory.com/entry/Bloom-filter블룸-필터 BLOOM FILTER(블룸 필터)]〉, 《티스토리》, 2009-12-16
+*임지홍, 〈[https://meetup.toast.com/posts/192 BloomFilter는 언제 쓰나요?]〉, 《toast meetup》, 2019-07-25
+*한국데이터산업진흥원, 〈[https://www.kdata.or.kr/info/info_04_view.html?field=&keyword=&type=techreport&page=17&dbnum=183978&mode=detail&type=techreport 데이터 기술 자료]〉, 《한국데이터산업진흥원》
+*Taeguk, 〈[http://taeguk2.blogspot.com/2019/05/bloom-filter.html Bloom Filter 자료구조]〉, 《개인 블로그》, 2019-05-18
 ==같이보기==
 {{블록체인 지원기관|검토 필요}}

위키

이름공간

변수

보기

더 보기

검색