
본문 바로가기 주메뉴 바로가기

ACOMS+ 및 학술지 리포지터리 설명회

  • 한국과학기술정보연구원(KISTI) 서울분원 대회의실(별관 3층)
  • 2024년 07월 03일(수) 13:30


검색어: metadata, 검색결과: 82

이 연구는 통합 목록/메타데이터 시스템으로 전 세계에 광범위한 서비스가 제공되고 있는 OCLC의 Connexion 시스템에 관한 유저빌러티를 실험한 연구이다. 유저빌러티 실험은 상업적인 성공을 달성하기 위한 기업들의 노력의 하나로써 시작되었으며 문헌정보학에는 특정한 정보 검색 시스템이 자신의 이용자들에게 좀 더 나은 서비스를 제공하기 위해 시스템 인터페이스를 개선시키고자하는 노력의 일환으로 도입되어 사용되어 왔다. Connexion 서비스는 기본적으로 MARC 기준을 바탕으로 인코딩 되어 메타데이터 서비스를 통합하여 제공하는 대표적인 통합 목록/메타데이터 서비스로 알려져 있다. 실험 전반을 통해서 이용자의 실험과정이 녹화 분석 되었으며, 6개 영역 17 가지 사항의 유저빌러티 문제점들이 파악되었다. 또한 마지막으로 17 가지 사항들에 대한 각각의 개선책들이 조심스럽게 제안되었다.


The goal of this study was to examine the relationships between usability and the searching experience, and to uncover where an integrated cataloging and metadata system lay the usability problems of its primary users, catalogers. This study showed that the most important aspect of usability in Connexion lay in the experience of information retrieval system. Also, it showed there are seventeen usability problems to be improved in Connexion. Needless to say, it is most important to note that usability is not an exclusive goal of such an integrated cataloging and metadata system. Other goals such as quality of catalogs, and the reliability of its cataloging and metadata system are equally its concern. This study also suggested more testing on diverse cataloging systems and specific user groups, especially catalogers.


최근 연구데이터가 국가자산이라는 인식의 확산으로 원시데이터 관리 및 재사용의 필요성이 이슈이다. 본 연구에서는 데이터의 체계적인 관리를 위해, 스키마 클래스를 상속하는 방식의 메타데이터 설계 모델과 상속을 통해 생성된 스키마 객체들을 대상으로 메타데이터 통합 검색 모델을 제안하였다. 스키마 클래스를 상속한 스키마 객체가 데이터 컬렉션에 1대1의 관계를 갖도록 데이터 아키텍처를 설계하였으며, 제안된 모델의 검증을 위해서 가상 스키마 클래스 및 객체가 시스템적으로 구현 가능함을 증명하였다. 본 연구에서 제안하는 스키마 클래스 상속 및 통합검색 모델은 일반적으로 사용되는 ‘하향식 계층 모델’의 단점을 극복하는 모델로서, 정부 기관에서 생산되는 데이터를 독립적으로 관리하는데 활용될 수 있다고 사료된다.


The necessity of the raw data management and reuse is issued by diffusion of the recognition that research data is a national asset. In this paper, a metadata design model by schema class inheritance and a metadata integrated search model by schema objects are suggested for a structural management of the data. A data architecture in which an schema object has an 1:1 relation to the data collection was designed. A suggested model was testified by creation of a virtual schema class and objects which inherit the schema class. It showed the possibility of implement systematically. A suggested model can be used to manage the data which are produced by government agencies because schema inheritance and integrated search model present way to overcome the weak points of the ‘Top-dow Hierarchy model’ which is being used to design the metadata schema.

지선영(경기대학교 일반대학원 문헌정보학과) ; 최성필(경기대학교 문헌정보학과) 2021, Vol.38, No.1, pp.221-242 https://doi.org/10.3743/KOSIM.2021.38.1.221

본 연구에서는 사전학습 된 언어 모델을 기반으로 양방향 게이트 순환 유닛 모델과 조건부 랜덤 필드 모델을 활용하여 참고문헌을 구성하는 메타데이터를 자동으로 인식하기 위한 연구를 진행하였다. 실험 집단은 2018년에 발행된 학술지 40종을 대상으로 수집한 PDF 형식의 학술문헌 53,562건을 규칙 기반으로 분석하여 추출한 참고문헌 161,315개이다. 실험 집합을 구축하기 위하여 PDF 형식의 학술 문헌에서 참고문헌을 분석하여 참고문헌의 메타데이터를 자동으로 추출하는 연구를 함께 진행하였다. 본 연구를 통하여 가장 높은 성능을 나타낸 언어 모델을 파악하였으며 해당 모델을 대상으로 추가 실험을 진행하여 학습 집합의 규모에 따른 인식 성능을 비교하고 마지막으로 메타데이터별 성능을 확인하였다.


This study applied reference metadata recognition using bidirectional GRU-CRF model based on pre-trained language model. The experimental group consists of 161,315 references extracted by 53,562 academic documents in PDF format collected from 40 journals published in 2018 based on rules. In order to construct an experiment set. This study was conducted to automatically extract the references from academic literature in PDF format. Through this study, the language model with the highest performance was identified, and additional experiments were conducted on the model to compare the recognition performance according to the size of the training set. Finally, the performance of each metadata was confirmed.


This study proposes the analysis method in sentence semantics that can be automatically identified and processed as appropriate items in the system according to the composition of the sentences contained in the data corresponding to the logical semantic structure metadata of the research papers. In order to achieve the purpose, the structure of sentences corresponding to ‘Research Objectives’ and ‘Research Outcomes’ among the semantic structure metadata was analyzed based on the number of words, the link word types, the role of many-appeared words in sentences, and the end types of a word. As a result of this study, the number of words in the sentences was 38 in ‘Research Objectives’ and 212 in ‘Research Outcomes’. The link word types in ‘Research Objectives’ were occurred in the order such as Causality, Sequence, Equivalence, In-other-word/Summary relation, and the link word types in ‘Research Outcomes’ were appeared in the order such as Causality, Equivalence, Sequence, In-other-word/Summary relation. Analysis target words like ‘역할(Role)’, ‘요인(Factor)’ and ‘관계(Relation)’ played a similar role in both purpose and result part, but the role of ‘연구(Study)’ was little different. Finally, the verb endings in sentences were appeared many times such as ‘∼고자’, ‘∼였다’ in ‘Research Objectives’, and ‘∼었다’, ‘∼있다’, ‘∼였다’ in ‘Research Outcomes’. This study is significant as a fundamental research that can be utilized to automatically identify and input the metadata element reflecting the common logical semantics of research papers in order to support researchers’ scholarly sensemaking.


한유경(정보통신정책연구원) ; 최원석(정보통신정책연구원) ; 이민철(카카오엔터프라이즈) 2023, Vol.40, No.2, pp.115-135 https://doi.org/10.3743/KOSIM.2023.40.2.115

본 연구는 단행본, 학술지, 보고서 등 다양한 종류의 발간물로 구성된 연구보고서의 참고문헌 데이터베이스를 효율적으로 구축하기 위한 것으로 딥러닝 언어 모델을 이용하여 참고문헌의 자동추출 성능을 비교 분석하고자 한다. 연구보고서는 학술지와는 다르게 기관마다 양식이 상이하여 참고문헌 자동추출에 어려움이 있다. 본 연구에서는 참고문헌 자동추출에 널리 사용되는 연구인 메타데이터 추출과 더불어 참고문헌과 참고문헌이 아닌 문구가 섞여 있는 환경에서 참고문헌만을 분리해내는 원문 분리 연구를 통해 이 문제를 해결하였다. 자동 추출 모델을 구축하기 위해 특정 연구기관의 연구보고서 내 참고문헌셋, 학술지 유형의 참고문헌셋, 학술지 참고문헌과 비참고문헌 문구를 병합한 데이터셋을 구성했고, 딥러닝 언어 모델인 RoBERTa+CRF와 ChatGPT를 학습시켜 메타데이터 추출과 자료유형 구분 및 원문 분리 성능을 측정하였다. 그 결과 F1-score 기준 메타데이터 추출 최대 95.41%, 자료유형 구분 및 원문 분리 최대 98.91% 성능을 달성하는 등 유의미한 결과를 얻었다. 이를 통해 비참고문헌 문구가 포함된 연구보고서의 참고문헌 추출에 대한 딥러닝 언어 모델과 데이터셋 유형별 참고문헌 구축 방향을 제안하였다.


The purpose of this study is to assess the effectiveness of using deep learning language models to extract references automatically and create a reference database for research reports in an efficient manner. Unlike academic journals, research reports present difficulties in automatically extracting references due to variations in formatting across institutions. In this study, we addressed this issue by introducing the task of separating references from non-reference phrases, in addition to the commonly used metadata extraction task for reference extraction. The study employed datasets that included various types of references, such as those from research reports of a particular institution, academic journals, and a combination of academic journal references and non-reference texts. Two deep learning language models, namely RoBERTa+CRF and ChatGPT, were compared to evaluate their performance in automatic extraction. They were used to extract metadata, categorize data types, and separate original text. The research findings showed that the deep learning language models were highly effective, achieving maximum F1-scores of 95.41% for metadata extraction and 98.91% for categorization of data types and separation of the original text. These results provide valuable insights into the use of deep learning language models and different types of datasets for constructing reference databases for research reports including both reference and non-reference texts.


본 연구에서는 디지털 도서관의 상호운영성 및 통합 관리 문제를 해결하기 위해 상호운영성을 위한 핵심 기술 및 디지털 도서관의 기능, 서비스를 분석하여 정보기술아키텍처의 기술참조모델을 설계하였다. 제시된 디지털 도서관의 정보기술아키텍처의 영역은 1)Metadata Management, 2)Library Services, 3)Service Integration 4)Service Management, 5)Open Interface, 6)Network, 7)Architecture 등 총 7개의 영역으로 구분되며, 20개의 세부 기술 영역으로 하였다. 이러한 연구결과는 정보시스템간의 상호운영성 및 호환성을 확보하기 위한 핵심 기술을 식별함으로서 디지털 도서관의 체계적인 구축과 효율성을 제고하기 위한 틀을 제공할 수 있을 것이다.


In order to solve the problems of the digital library's Interoperability and integrated management, we analyzed core technologies for interoperability in digital library in terms of information creation, organization, service. And then we proposed information technology reference model that is composed of 7 scopes. The proposed scope included 1)Metadata Management, 2)Library Services, 3)Service Integration 4)Service Management, 5)Open Interface, 6)Network, 7)Architecture. Those results can be used as a framework for developing interoperable digital library system.


본 연구에서는 셀프 아카이빙(self-archiving)을 기본으로 메타데이터가 구축되는 기관 리포지터리의 인명 검색 문제점을 해결하고자, 인명 접근점제어 데이터를 구축하였다. 이를 위해 기존 도서관의 전거데이터를 활용하면서도 전거형을 인정하지 않고, 정보원에 기재된 형식을 모두 접근점으로 사용하는 그룹화 방법을 사용하고, 동명이인 처리를 위해 저작자의 주제분야와 저작정보를 확장해서 사용하는 새로운 방법을 토대로 인명 접근점제어 데이터를 구축하고 시스템에 적용하여 검색의 기능이 향상되었다. 향후 기관 리포지터리 외에 도서관이 총괄하는 모든 메타데이터의 검색 기능 향상을 위해서도 활용할 수 있을 것이다.


This study developed a name access point control system for better performance of information retrieval from institutional repositories, which are equipped with author- generated metadata processes for self-archiving. In developing name access point control data for the system, the primary data were created from the existing authority. However, unlike the existing authority data, the primary data did not use any authority forms. Instead, the data utilized all the forms provided by the resources as access points. Specifically, field of activity(subject) and title information on authorship were used to distinguish between persons who have the same name. The result showed that the system improved the performance of the information retrieval. The system has been also expected to be utilized over other metadata provided by libraries, in addition to the institutional repositories, in order to provide better quality information.

강보라(경북대학교 문헌정보학과) ; 김희섭(경북대학교) 2017, Vol.34, No.3, pp.49-66 https://doi.org/10.3743/KOSIM.2017.34.3.049

본 연구의 목적은 국내 디지털 도서관 관련된 연구의 동향을 분석하는 것이다. 연구의 목적을 달성하기 위하여 국내 문헌정보학 분야 대표 학술지 4종으로부터 최근 10년(2007년-2016년) 동안 발표된 디지털 도서관 관련 논문 272편을 대상으로 해당 논문의 저자가 직접 부여한 영문키워드 578개를 수집하였다. 수집된 자료는 NetMiner V.4를 사용하여 연결중심성과 매개중심성을 분석하였다. 연구 결과로는, 첫째, 연구 주제의 양적인 측면에서는 ‘Academic Library’, ‘Reference Service’, ‘Public Library’, ‘E Resource’, ‘E Book’ 순으로 나타났고, 둘째, 연구 주제의 영향력 측면에서는, ‘Academic Library’, ‘Reference Service’, ‘Information Behavior’, ‘E Resource’ 등의 순으로 나타났다. 마지막으로 연구 주제의 확장성 측면에서는, ‘Academic Library’, ‘Metadata’, ‘Information Behavior’, ‘E Resource’, ‘Librarian’ 등의 순으로 파악되었다.


The aim of this study was to analyze the research trends on the digital libraries in Korea. To achieve this objective, a total of 578 author-assigned English keywords were collected from the 272 major LIS journal articles published in Korea during last ten years-period, i.e., 2007-2016. The collected data were analyzed using NetMiner V.4 to discover their ‘degree centrality’ and ‘betweenness centrality’. As the results, ‘Academic Library’, ‘Reference Service’, ‘Public Library’, ‘E Resource’, and ‘E Book’ showed the most frequently conducted research topics, and ‘Academic Library’, ‘Reference Service’, ‘Information Behavior’, and ‘E Resource’ were the most influencing research topics. Finally, ‘Academic Library’, ‘Metadata’, ‘Information Behavior’, ‘E Resource’, and ‘Librarian’ seemed the most widely intervening research topics in this research.

김용(전북대학교) ; 소민호(KAIST 학술정보처) 2009, Vol.26, No.4, pp.113-128 https://doi.org/10.3743/KOSIM.2009.26.4.113

일반적으로 동영상콘텐츠에 대한 탐색과정에서 이용자는 해당 기관 또는 사이트에서 제공하는 간단하게 요약한 요약 동영상과 텍스트 정보를 이용하여 원하는 동영상을 선택한다. 이러한 이용자의 동영상콘텐츠의 탐색과정에서의 정확하고 신속한 동영상콘텐츠의 검색을 위하여 본 연구에서는 동영상을 구성하는 자막과 이미지 정보를 이용하여 동영상을 내용에 따라 여러 개의 클립으로 구분하고, 이용자의 필요에 따라 원하는 클립을 빠르게 검색하여 제공하는 시스템을 제안한다. 동영상콘텐츠 및 관련 메타데이터의 관리 및 제어를 위해서 본 연구에서는 XML 계층구조를 생성하여 저장한다. 한편, 이용자의 검색 요청시 XML을 기반으로 동영상콘텐츠의 계층구조를 반영하는 Xpath를 생성하여 질의처리를 수행함으로써 이용자가 원하는 동영상콘텐츠에 대한 검색결과를 제공한다. 제안된 방법을 기반으로 본 연구에서는 XML 계층구조를 이용한 동영상 검색 시스템을 설계하고 구현하였다.


Generally, a user uses briefly summarized video data and text information to search video contents. To provide fast and accurate search tool for video contents in the process of searching video contents, this study proposes a method to search video clips which was partitioned from video contents. To manage and control video contents and metadata, the proposed method creates structural information based on XML on a video and metadata, and saves the information into XML database. With the saved information, when a user try to search video contents, the results of user's query to retrieve video contents would be provided through creating Xpath which has class structure information. Based on the proposed method, an information retrieval system for video clips was designed and implemented.

이원경(한성대학교 지식정보학부) ; 서은경(한성대학교) 2016, Vol.33, No.2, pp.77-102 https://doi.org/10.3743/KOSIM.2016.33.2.077

공연예술 콘텐츠의 효과적인 검색은 특화된 메타데이터를 근간으로 다양한 접근점을 제공할 때 이루어진다. 본 연구는 이용자가 찾고자하는 공연예술 콘텐츠에 대한 정확한 지식이 없더라도 쉽게 콘텐츠를 효율적으로 찾을 수 있는 검색 시스템을 개발하는데 목적이 있다. 이를 위하여 본 연구는 공연예술 국내외 사이트가 제공하고 있는 접근점 요소와 내비게이션 요소를 파악하고 연극, 무용 음악을 전공하는 대학생들이 원하는 공연예술 검색 접근점 및 브라우징 요소를 분석하였다. 이와 같은 분석을 토대로 공연예술 콘텐츠 검색에 적합한 9개 패싯요소 즉, ‘공연예술장르’, ‘공연예술가’, ‘공연예술단체’, ‘자료유형’, ‘언어’, ‘주대상관객’, ‘이벤트’, ‘장소’, ‘시기’를 제안하였다. 또한, 다각적인 패싯 내비게이션이 가능하도록 공연예술 콘텐츠 기술요소 27개를 선정하였고 내비게이션이 이루어질 수 있는 인터페이스를 설계하였다. 이를 근거로 하여 3,360건의 실험 데이터를 구축하고 실제 검색 시스템을 구축하였다. 마지막으로 전문가의 심층 인터뷰 결과, 본 연구에서 구축한 시스템이 이용자가 원하는 패싯을 제공하여 만족스러운 브라우징을 수행할 수 있었으며 정보조우가 가능한 인터페이스임을 증명하였다. 공연예술 도메인에서 패싯 내비게이션 검색 기법의 응용은 이용자의 요구를 충족시키며 더 나아가 공연예술 정보에의 접근 및 활용에 도움을 줄 수 있을 것으로 본다.


The effective searching for performing arts contents can be achieved by providing various access points and searching methods based on specialized metadata. The purpose of this study is to develop a faceted navigation interface which user could effectively and efficiently retrieve performing arts contents even if the users do not know accurate descriptive information about them. Therefore, the study, first, investigated search access points and navigation items providing by other the performing arts retrieval systems and to analyze information seeking behaviors of university students who major in music, dance and theater. And then, the study proposed the 36 facets with the 9 main facet categories suitable for performing arts and also proposed 27 descriptive elements suitable for performing arts contents. Finally, the study developed the performing arts contents retrieval system based faceted navigation interface with 3,360 experimental data and conducted an in-depth interview in terms of usability, serendipity, and efficiency. The applying the faceted navigations for searching performing arts contents will help users access and utilize them in the retrieval system and moreover satisfy user demands.
