바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

피벗 역문헌빈도 가중치 기법에 대한 연구

A Study on the Pivoted Inverse Document Frequency Weighting Method

정보관리학회지 / Journal of the Korean Society for Information Management, (P)1013-0799; (E)2586-2073
2003, v.20 no.4, pp.233-248
https://doi.org/10.3743/KOSIM.2003.20.4.233
이재윤 (경기대학교)
  • 다운로드 수
  • 조회수

초록

역문헌빈도 가중치 기법은 문헌 집단에서 출현빈도가 낮을수록 색인어의 중요도가 높다는 가정에 근거하고 있다. 그런데 이는 중간빈도어를 중요하게 여기는 여타 이론과는 일치하지 않는 것이다. 이 연구에서는 저빈도어보다 중간빈도어가 더 중요하다는 가정에 근거하여 역문헌빈도 가중치 공식을 수정한 피벗 역문헌빈도 가중치 기법을 제안하였다. 제안된 기법을 검증하기 위해서 세 실험집단을 대상으로 검색실험을 수행한 결과. 피벗 역문헌빈도 가중치기법이 역문헌빈도 가중치 기법에 비해서 특히 검색결과 상위에서의 성능을 향상시키는 것으로 나타났다.

keywords
역문헌빈도, 정보검색, 용어가중치, Information Retrieval, Inverse Document Frequency, Term Weights

Abstract

The Inverse Document Frequency (IDF) weighting method is based on the hypothesis that in the document collection the lower the frequency of a term is, the more important the term is as a subject word. This well-known hypothesis is, however, somewhat questionable because some low frequency terms turn out to be insufficient subject words. This study suggests the pivoted IDF weighting method for better retrieval effectiveness, on the assumption that medium frequency terms are more important than low frequency terms. We thoroughly evaluated this method on three test collections and it showed performance improvements especially at high ranks.

keywords
역문헌빈도, 정보검색, 용어가중치, Information Retrieval, Inverse Document Frequency, Term Weights

정보관리학회지