바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

  • P-ISSN1225-598X
  • E-ISSN2982-6292

한국소설 영어번역서에 부여된 주제명의 현황 분석과 자동분류에 관한 연구

A Study on Analysis and Automatic Classification of Subject Headings in English Translations of Korean Fictions

한국문헌정보학회지 / Journal of the Korean Society for Library and Information Science, (P)1225-598X; (E)2982-6292
2025, v.59 no.1, pp.599-624
https://doi.org/10.4275/KSLIS.2025.59.1.599
성유경(You Kyung Sung) (중앙대학교 문헌정보학과 대학원)
남영준(Young Joon Nam) (중앙대학교)

초록

이 연구는 492편의 한국소설 영어번역서에 부여된 주제명을 분석하고, 기계학습 기반 주제명 자동분류 모델의 성능 평가를 목표로 한다. 이를 위해 한국문학 디지털도서관과 WorldCat에서 서지데이터를 수집하였다. 주제명 빈도와 FAST 패싯별 주제명의 분포 등을 시각화하고, 다중 레이블 분류를 위한 주제명 라벨을 선정하였다. 분류 자질과 모델 아키텍처에 따라 모델의 성능을 검증한 결과, 요약문을 분류 자질로 사용한 딥러닝 모델이 가장 우수한 성능(F1=0.62, AUC=0.89)을 보였다. 모델의 성능을 평가한 결과, 10개의 라벨 중 9개에서 AUC 값이 0.8 이상으로 분류 성능이 우수함을 확인하였다. 또한 ROC 커브와 혼동 행렬을 근거로 성능이 낮은 일부 라벨과 라벨 간 연관성을 밝혔다. 이 연구는 한국문학 번역작품을 대상으로 주제별 정량 분석을 수행하고, 소설의 주제 분류에서 딥러닝 모델의 활용 가능성을 검토한 기초연구이다.

keywords
번역문학, 한국소설, 주제명, 다중 레이블 분류, 자동 주제 분류

Abstract

This study analyzes the subject headings of 492 English translations of Korean fictions and evaluates machine learning-based automatic classification models. Bibliographic data were collected from the Digital Library of Korean Literature and WorldCat. Subject heading frequencies and FAST facet distributions were visualized, and key labels were selected for multi-label classification. Among various models, deep learning models using summaries as features showed the highest performance (F1 = 0.62, AUC = 0.89), with AUC values above 0.8 for 9 out of 10 labels. Additionally, based on ROC curves and confusion matrices, the study identified labels with lower performance and explored the relationships between certain labels. This study demonstrates the potential of deep learning models for classifying subjects in translated Korean literature.

keywords
Translated Literlature, Korean Fictions, Subject Headings, Multi-label Classification, Automated Subject Classification

한국문헌정보학회지