BLOG main image
분류 전체보기 (30)
이야기 (14)
코드 (6)
스압쥘 (6)
에라모르겠다 (2)
Visitors up to today!
Today hit, Yesterday hit
daisy rss
tistory 티스토리 가입하기!
2008. 4. 15. 15:32
1회: 베이지언(Bayesian) 룰을 이용한 스팸 필터 구현
2회: 스팸 필터 개선하기

데이터를 수집해 인덱싱하고, 들어온 문장(문서)를 얼마나 정확하게 쪼개느냐가 중요하다는 면에서 은근히 닮아있는 것들. 문서간 유사성을 판별하는 논문, 숙제 표절 검사. 중복 문서 체크 등등 결국 다 비슷비슷한 이야기.

간단하게 보면 스팸판정의 경우 스팸에서 잘 나오는 단어, 어휘가 새로 들어온 문서에 얼마나 자주 등장하는지를 판별해서 문서의 스팸여부를 판단하는 것이고, 검색엔진은 검색어가 자주 언급되는 단어가 검색어와 일치할 확률이 높다고 판단하겠지.

물론 실제로 만들어 돌리면 스팸필터를 피해가거나, 검색엔진을 속여서 검색순위를 높이기 위한 수 많은 꽁수들이 등장해서 그런걸 피해가는 알고리즘이 중요해 지겠지만.

일단 가장 중요한건 '얼마나 잘 쪼개느냐'기 때문에 단어를 쪼개는 형태소 분석기가 제일 중요하지 않을까..?