전자기록물에 포함된 첨부 파일의 포맷을 이해하지 않은 상태의 전자 기록은 이해할 수 없는 일련의 비트에 지나지 않으므로 기록물을 장기 보존하기 위해서는 포맷의 다양성과 소멸 가능성에 대응할 수 있도록 포맷 정보를 관리하여야 한다. 본 연구에서는 다양한 형식의 전자파일(MS 오피스 계열(PPT, DOC, XLS, PPTX, DOCX, XLSX), HWP, PDF, GIF, JPEG, PNG, TIFF 등)을 육안으로 확인하지 않고, 전자파일 헤더에서 포맷 정보를 추출하여 파일 확장자와 비교하는 포맷검증 도구와 디지털컴포넌트의 유효성을 검사하는 도구를 개발하였다.
Electronic records are merely series of bits without understanding the formats of content files. There are numerous types of formats and also possibilities of extinction. For long term preservation, it is essential to understand and manage formats. In addition to managing format itself, accurate information on the format needs to be stored for electronic records. In this study, various types of electronic files, without checking with the naked eye, has developed a tool to extract the header information in the format of electronic files with the file extension validation tool to compare format and validate digital component.
국가기록원. 차세대 전자기록관리 인프라연구 개발.
국가기록원. NAK/S 7:2010(v1.1) 연구기록관리시스템 기능요건(v1.1).
송병호. (2004). 해외 전자기록물 관련 동향과 시사점. Computer Software & Media Tech, 4, -.
송병호. (2009). 기록관리시스템의 현황과 전망 (69-78). 제9회 한국기록학회 학술심포지움.
임진희. (2008). 기록관리시스템 기능요건 표준의 실무적 해석. 기록학연구, (18), 139-178.
이준호. (1996). Using n-Grams for Korean Text Retrieval (216-224).
JHOVE2 Team: Functional Requirements, v.1.4, 1-7.
Johan van der Knijff. (2011). Evaluation of characterisation tools Part 1: Identification.
Larry Stone. (2008). Bitstream Format Renovation: DSpace Gets Real Technical Metadata (1-4). Third International Conference on Open Repositories.
Medelyan, O.. (2005). Automatic Keyphrase Indexing with a Domain-Specific Thesaurus.
Medelyan, O.. (2005). Thesaurusbased index term extraction for agricultural documents (-). Proc. of the 6th Agricultural Ontology Service(AOS) workshop at EFITA/WCCA 2005.
Microsoft Office File Format Documents. http://msdn.microsoft.com/en-us/library/cc313105(office.12).aspx.