바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

Extracting and Validating Metadata in Electronic Records

Journal of Korean Society of Archives and Records Management / Journal of Korean Society of Archives and Records Management, (P)1598-1487; (E)2671-7247
2012, v.12 no.1, pp.7-32
https://doi.org/10.14404/JKSARM.2012.12.1.007


  • Downloaded
  • Viewed

Abstract

When migrate electronic records, the validation of the required metadata in electronic records and verified with the metadata in the document are also important. This paper presents a method and implements a tool to extract data from files in various formats and use them to validate metadata associated with the files in electronic records. Compared to other metadata extraction tools, especially developed in foreign countries, the standard form of documents used in Korean government is taken into account and metadata is extracted from the content of files. The tool compares the extracted data to encapsulated metadata for validation.

keywords
메타데이터 추출, 메타데이터 검증, 형태소 분석, 파일 필터링, 기술정보은행, 추출 도구, 메타데이터 추출 알고리즘, extraction metadata, file filtering, metadata extraction tool, JHOVE, DFR(Digital Format Registry)

Reference

1.

강승식. (2004). 한글 문서의 색인어와 색인 기법. 정보과학회지, 22(4), 72-77.

2.

국가기록원. (2010). 전자기록물 검증 기술 및 차세대 그린 전자기록관리 체계 인프라 응용 기술 연구 완료보고서. .

3.

국가기록원. (2010). 차세대 전자기록관리 인프라 연구 개발 연구보고서. .

4.

권순만. (2004). 단어기반 웹문서 검색을 위한효과적인 단어 가중치의 계산 (169-171). 한국정보과학회 2004년도 가을 학술발표논문집.

5.

김남희. (2005). 국회도서관 시소러스 구축과 활용그리고 유지관리. 국회도서관보, 42(11), 36-49.

6.

김태중. (2003). 시소러스에 관한 일반적 고찰. 국회도서관보, 40(3), 40-49.

7.

류계자. (2001). 정보검색을 위한 형태소 분석기의 기능 확장에 관한 연구.

8.

이재윤. (2003). 역문헌빈도 가중치의 재검토 (253-261). 한국정보관리학회. 한국정보관리학회.

9.

최호철. (2004). 특수분야 및 띄어쓰기 오류 문서 분석을 개선한 형태소 분석기의 구현.

10.

한상길. (1994). 시소러스를 이용한 신문기사 데이터베이스 색인시스템에 관한 연구. 정보관리학회지, 11(1), 125-144.

11.

Johan van der Knijff. Evaluation of characterisation tools Part 1: Identification.

12.

https://bytebucket.org/jhove2/main/wiki/documents/JHOVE2-functional-requirements-v1_4.pdf. https://bytebucket.org/jhove2/main/wiki/documents/JHOVE2-functional-requirements-v1_4.pdf.

13.

이준호. (1996). Using n-Grams for Korean Text Retrieval (216-224).

14.

Larry Stone. (2008). BitstreamFormat Renovation: DSpace Gets Real Technical Metadata (-). Open Repositories Conference 2008.

15.

Medelyan, O.. (2005). Automatic Keyphrase Indexing with a Domain-Specific Thesaurus.

16.

Medelyan, O.. (2005). Thesaurus- based index term extraction for agricultural documents (-). Proc. of the 6th Agricultural Ontology Service (AOS) workshop at EFITA/WCCA 2005.

17.

Microsoft Office File Format Documents. http://msdn.microsoft.com/en-us/library/cc313105(office.12).aspx.

18.

P. M. Roget. (1852). Thesaurus of English Word and Phrase.

19.

SK C&C. (2010). 차세대 전자기록관리 인프라연구 개발. .

Journal of Korean Society of Archives and Records Management