A method for metadata extraction from a collection of records using Named Entity Recognition in Natural Language Processing

Chiho Song; 송치호

doi:10.14404/JKSARM.2024.24.2.065

ACOMS+ 및 학술지 리포지터리 설명회

한국과학기술정보연구원(KISTI) 서울분원 대회의실(별관 3층)
2024년 07월 03일(수) 13:30

사전등록 바로가기

오늘 하루 그만보기

P-ISSN1598-1487
E-ISSN2671-7247

홈으로

OA 정책

ISSN : 1598-1487

논문 상세

이전 다음

논문 투고

Vol.24 No.2

Citation Share

자연어 처리의 개체명 인식을 통한 기록집합체의 메타데이터 추출 방안

A method for metadata extraction from a collection of records using Named Entity Recognition in Natural Language Processing

한국기록관리학회지 / Journal of Korean Society of Archives and Records Management, (P)1598-1487; (E)2671-7247

2024, v.24 no.2, pp.65-88

https://doi.org/10.14404/JKSARM.2024.24.2.065

송치호 ((사)한국국가기록연구원 원장)

송치호. (2024). 자연어 처리의 개체명 인식을 통한 기록집합체의 메타데이터 추출 방안. 한국기록관리학회지, 24(2), 65-88, https://doi.org/10.14404/JKSARM.2024.24.2.065

복사

Abstract

본 연구는 인공지능의 하위분야인 자연어 처리(NLP)의 개체명 인식(NER)을 통하여 기록에 내재된 메타데이터 값과 기술 정보를 추출하는 방안에 대한 시험적 연구이다. 연구 대상은 1960~1970년대에 생산된 구로공단 수기 기록물(약 1,200 쪽, 8만여 단어)을 대상으로 하였다. 디지털화를 포함하는 전처리 과정과 함께 기록 텍스트에 대해서 구글의 BERT 언어 모델에 기반하여 구현되어 공개된 언어 API를 사용하여 개체명을 인식하였다. 그 결과로 구로공단의 과거 기록에 포함된 173개의 인명과 314개의 조직 및 기관 개체명을 추출할 수 있었고, 이는 기록의 내용에 대한 직접적인 검색어로 사용될 수 있다고 기대된다. 그리고 자연어 처리의 이론적 방법론을 반·비정형의 텍스트로 이루어진 실제 기록물에 적용할 때 발생하는 문제점을 파악하여 해결 방안과 고려해야 할 시사점을 제시했다.

keywords: 인공지능, 자연어 처리, 메타데이터, 언어 모델, 개체명인식, AI, NLP, Metadata, LLM, NER

바로가기메뉴

논문 상세

Vol.24 No.2

자연어 처리의 개체명 인식을 통한 기록집합체의 메타데이터 추출 방안

A method for metadata extraction from a collection of records using Named Entity Recognition in Natural Language Processing

Abstract

한국기록관리학회지