자연어 처리의 개체명 인식을 통한 기록집합체의 메타데이터 추출 방안
A method for metadata extraction from a collection of records using Named Entity Recognition in Natural Language Processing
한국기록관리학회지 / Journal of Korean Society of Archives and Records Management, (P)1598-1487; (E)2671-7247
2024, v.24 no.2, pp.65-88
https://doi.org/10.14404/JKSARM.2024.24.2.065
송치호
((사)한국국가기록연구원 원장)
송치호.
(2024). 자연어 처리의 개체명 인식을 통한 기록집합체의 메타데이터 추출 방안. 한국기록관리학회지, 24(2), 65-88, https://doi.org/10.14404/JKSARM.2024.24.2.065
Abstract
본 연구는 인공지능의 하위분야인 자연어 처리(NLP)의 개체명 인식(NER)을 통하여 기록에 내재된 메타데이터 값과 기술 정보를 추출하는 방안에 대한 시험적 연구이다. 연구 대상은 1960~1970년대에 생산된 구로공단 수기 기록물(약 1,200 쪽, 8만여 단어)을 대상으로 하였다.
디지털화를 포함하는 전처리 과정과 함께 기록 텍스트에 대해서 구글의 BERT 언어 모델에 기반하여 구현되어 공개된 언어 API를 사용하여 개체명을 인식하였다. 그 결과로 구로공단의 과거 기록에 포함된 173개의 인명과 314개의 조직 및 기관 개체명을 추출할 수 있었고, 이는 기록의 내용에 대한 직접적인 검색어로 사용될 수 있다고 기대된다.
그리고 자연어 처리의 이론적 방법론을 반·비정형의 텍스트로 이루어진 실제 기록물에 적용할 때 발생하는 문제점을 파악하여 해결 방안과 고려해야 할 시사점을 제시했다.
- keywords
-
인공지능,
자연어 처리,
메타데이터,
언어 모델,
개체명인식,
AI,
NLP,
Metadata,
LLM,
NER