ISSN : 1225-598X
이 연구는 492편의 한국소설 영어번역서에 부여된 주제명을 분석하고, 기계학습 기반 주제명 자동분류 모델의 성능 평가를 목표로 한다. 이를 위해 한국문학 디지털도서관과 WorldCat에서 서지데이터를 수집하였다. 주제명 빈도와 FAST 패싯별 주제명의 분포 등을 시각화하고, 다중 레이블 분류를 위한 주제명 라벨을 선정하였다. 분류 자질과 모델 아키텍처에 따라 모델의 성능을 검증한 결과, 요약문을 분류 자질로 사용한 딥러닝 모델이 가장 우수한 성능(F1=0.62, AUC=0.89)을 보였다. 모델의 성능을 평가한 결과, 10개의 라벨 중 9개에서 AUC 값이 0.8 이상으로 분류 성능이 우수함을 확인하였다. 또한 ROC 커브와 혼동 행렬을 근거로 성능이 낮은 일부 라벨과 라벨 간 연관성을 밝혔다. 이 연구는 한국문학 번역작품을 대상으로 주제별 정량 분석을 수행하고, 소설의 주제 분류에서 딥러닝 모델의 활용 가능성을 검토한 기초연구이다.
This study analyzes the subject headings of 492 English translations of Korean fictions and evaluates machine learning-based automatic classification models. Bibliographic data were collected from the Digital Library of Korean Literature and WorldCat. Subject heading frequencies and FAST facet distributions were visualized, and key labels were selected for multi-label classification. Among various models, deep learning models using summaries as features showed the highest performance (F1 = 0.62, AUC = 0.89), with AUC values above 0.8 for 9 out of 10 labels. Additionally, based on ROC curves and confusion matrices, the study identified labels with lower performance and explored the relationships between certain labels. This study demonstrates the potential of deep learning models for classifying subjects in translated Korean literature.