바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

종합목록의 중복레코드 검증을 위한 알고리즘 연구

한국문헌정보학회지 / 한국문헌정보학회지, (P)1225-598X; (E)2982-6292
2003, v.37 no.4, pp.69-88
조순영 (한국교육학술정보원)
  • 다운로드 수
  • 조회수

초록

본 연구는 KERIS 종합목록의 품질 개선을 위하여 새로운 유형의 중복 데이터 색출 알고리즘을 개발한 것이다. 새로운 알고리즘에서는 현재 적용하고 있는 것과 같은 MARC 데이터 일치여부 비교 방식에서 탈피하여 언어별 서지 유형별 다른 비교방식을 적용하였다. 아울러 비교 요소간의 유사성을 측정하고, 각 요소의 중요도에 따라 가중치를 차등 부여하는 방식을 병행하였다. 새로 개발한 알고리즘의 효용성을 입증하기 위하여 최근 종합목록에 업로드된 데이터 210,000건을 추출하여 실험용 마스터 파일을 구축하고 7,649건을 두개의 알고리즘으로 처리한 결과 새로운 알고리즘에서 중복레코드의 색출 비율이 36.2% 더 높게 나타났다.

keywords
종합목록, 오류데이터, 중복데이터, 데이터 품질관리Union Catalog, Duplicate Detection Algorithm, MARC, 종합목록, 오류데이터, 중복데이터, 데이터 품질관리Union Catalog, Duplicate Detection Algorithm, MARC

Abstract

This study intends to develop a new duplicate detection algorithm to improve database quality. The new algorithm is developed to analyze by variables of language and bibliographic type, and it checks elements in bibliographic data, not just MARC fields. The algorithm computes the degree of similarity and the weight values to avoid possible elimination of records by simple input error. The study was performed on the 7,649 newly uploaded records during the last one year against the 210,000 sample master database. The findings show that the new algorithm has improved the duplicates recall rate by 36.2%.

keywords
종합목록, 오류데이터, 중복데이터, 데이터 품질관리Union Catalog, Duplicate Detection Algorithm, MARC, 종합목록, 오류데이터, 중복데이터, 데이터 품질관리Union Catalog, Duplicate Detection Algorithm, MARC

한국문헌정보학회지