
본문 바로가기 주메뉴 바로가기

ACOMS+ 및 학술지 리포지터리 설명회

  • 한국과학기술정보연구원(KISTI) 서울분원 대회의실(별관 3층)
  • 2024년 07월 03일(수) 13:30


검색어: models, 검색결과: 278
한유경(정보통신정책연구원) ; 최원석(정보통신정책연구원) ; 이민철(카카오엔터프라이즈) 2023, Vol.40, No.2, pp.115-135 https://doi.org/10.3743/KOSIM.2023.40.2.115

본 연구는 단행본, 학술지, 보고서 등 다양한 종류의 발간물로 구성된 연구보고서의 참고문헌 데이터베이스를 효율적으로 구축하기 위한 것으로 딥러닝 언어 모델을 이용하여 참고문헌의 자동추출 성능을 비교 분석하고자 한다. 연구보고서는 학술지와는 다르게 기관마다 양식이 상이하여 참고문헌 자동추출에 어려움이 있다. 본 연구에서는 참고문헌 자동추출에 널리 사용되는 연구인 메타데이터 추출과 더불어 참고문헌과 참고문헌이 아닌 문구가 섞여 있는 환경에서 참고문헌만을 분리해내는 원문 분리 연구를 통해 이 문제를 해결하였다. 자동 추출 모델을 구축하기 위해 특정 연구기관의 연구보고서 내 참고문헌셋, 학술지 유형의 참고문헌셋, 학술지 참고문헌과 비참고문헌 문구를 병합한 데이터셋을 구성했고, 딥러닝 언어 모델인 RoBERTa+CRF와 ChatGPT를 학습시켜 메타데이터 추출과 자료유형 구분 및 원문 분리 성능을 측정하였다. 그 결과 F1-score 기준 메타데이터 추출 최대 95.41%, 자료유형 구분 및 원문 분리 최대 98.91% 성능을 달성하는 등 유의미한 결과를 얻었다. 이를 통해 비참고문헌 문구가 포함된 연구보고서의 참고문헌 추출에 대한 딥러닝 언어 모델과 데이터셋 유형별 참고문헌 구축 방향을 제안하였다.


The purpose of this study is to assess the effectiveness of using deep learning language models to extract references automatically and create a reference database for research reports in an efficient manner. Unlike academic journals, research reports present difficulties in automatically extracting references due to variations in formatting across institutions. In this study, we addressed this issue by introducing the task of separating references from non-reference phrases, in addition to the commonly used metadata extraction task for reference extraction. The study employed datasets that included various types of references, such as those from research reports of a particular institution, academic journals, and a combination of academic journal references and non-reference texts. Two deep learning language models, namely RoBERTa+CRF and ChatGPT, were compared to evaluate their performance in automatic extraction. They were used to extract metadata, categorize data types, and separate original text. The research findings showed that the deep learning language models were highly effective, achieving maximum F1-scores of 95.41% for metadata extraction and 98.91% for categorization of data types and separation of the original text. These results provide valuable insights into the use of deep learning language models and different types of datasets for constructing reference databases for research reports including both reference and non-reference texts.

한나은(한국과학기술정보연구원) ; 서수정(한국과학기술정보연구원) ; 엄정호(한국과학기술정보연구원) 2023, Vol.40, No.3, pp.77-98 https://doi.org/10.3743/KOSIM.2023.40.3.077

본 연구는 지금까지 제안된 거대언어모델 가운데 LLaMA 및 LLaMA 기반 모델과 같이 연구데이터를 주요 사전학습데이터로 활용한 모델의 데이터 품질에 중점을 두어 현재의 평가 기준을 분석하고 연구데이터의 관점에서 품질 평가 기준을 제안하였다. 이를 위해 데이터 품질 평가 요인 중 유효성, 기능성, 신뢰성을 중심으로 품질 평가를 논의하였으며, 거대언어모델의 특성 및 한계점을 이해하기 위해 LLaMA, Alpaca, Vicuna, ChatGPT 모델을 비교하였다. 현재 광범위하게 활용되는 거대언어모델의 평가 기준을 분석하기 위해 Holistic Evaluation for Language Models를 중심으로 평가 기준을 살펴본 후 한계점을 논의하였다. 이를 바탕으로 본 연구는 연구데이터를 주요 사전학습데이터로 활용한 거대언어모델을 대상으로 한 품질 평가 기준을 제시하고 추후 개발 방향을 논의하였으며, 이는 거대언어모델의 발전 방향을 위한 지식 기반을 제공하는데 의의를 갖는다.


Large Language Models (LLMs) are becoming the major trend in the natural language processing field. These models were built based on research data, but information such as types, limitations, and risks of using research data are unknown. This research would present how to analyze and evaluate the LLMs that were built with research data: LLaMA or LLaMA base models such as Alpaca of Stanford, Vicuna of the large model systems organization, and ChatGPT from OpenAI from the perspective of research data. This quality evaluation focuses on the validity, functionality, and reliability of Data Quality Management (DQM). Furthermore, we adopted the Holistic Evaluation of Language Models (HELM) to understand its evaluation criteria and then discussed its limitations. This study presents quality evaluation criteria for LLMs using research data and future development directions.


오늘날 정보화 사회에서 경쟁하는 기업들에 있어서 데이터품질 저하는 기업경쟁력 하락과 새로운 비용창출이라는 부정적인 영향요인으로써 작용하고 있다. 이러한 데이터품질 저하의 문제를 해결하기 위해 데이터품질에 대한 많은 선행연구들이 진행되어 왔으며, 데이터품질의 측면 중 결과적이고 현상적인 품질개념인 데이터값의 품질과 데이터서비스의 품질에 대해 주로 연구되어 왔다. 이에 반해 본 연구에서는 원인적인 데이터품질 개념인 데이터의 구조적 품질을 메타데이터 관리의 관점에서 연구하였으며, 이를 통해 평가와 개선을 위한 관리의 관점이 적용된 데이터품질관리 성숙도모델을 제시하였다. 또한 본 연구에서 제시한 데이터품질관리 성숙도모델의 타당성 검증을 위해 데이터품질 관리단계가 성숙될수록 데이터품질수준이 높아지게 된다는 것을 실증적으로 검증하였다.


In companies competing for today's information society. Data quality deterioration is causing a negative influence to generate company competitiveness fall and new cost. A lot of preceding study about data quality have been proceeded in order to solve a problem of these data quality deterioration. Among the sides of data quality, it has been studied mainly on quality of the data value and quality of data service that are the results quality concept. However, this study studied structural quality of the data which were cause quality concept in a viewpoint of metadata management and presented data quality management maturity model through this. Also empirically this study verified that data quality improved if the management level matured.

사공복희(전남대학교) 2003, Vol.20, No.1, pp.93-119 https://doi.org/10.3743/KOSIM.2003.20.1.093

정보추구행태를 연구한 문헌에서 제시된 모형들을 검토하고, 비교 ·분석하여, 정보추구행태에 관한 경험적 연구 설계에 활용할 수 있는 일반적 모형들을 제시하였다. 어떤 복합적 상황, 직업, 역할, 학문 영역에도 적용할 수 있는 모형에 초점을 맞추어 선택하였다. 논의된 모형은 Wilson(1981. 1996), Krikels(1983). Dervin(1983, 1996), Ellis(1989), Ellis, Cox와 Hall(1993), Kuhlthau(1991), Leckie, Pettigrew와 Sylvain(1996), Johnson(1997)에 의해 제시된 모형들이다. 모형이 구축된 시점을 중심으로 연대순으로 살펴보고, 비교 · 분석하였다.


Models of Information seeking behavior were reviewed and analyzed. General models which could be utilized in designing empirical research of information seeking behavior were suggested. On general models of information seeking, applicable in multiple contexts. occupations, roles, and knowledge domains were focused. The models by Wilson. Krikelas. Dervin, Ellis. Kuhlthau, Leckie, and Johnson were examined chronologically.

장혜란(상명대학교) ; 이명희(원주시립도서관) 2008, Vol.25, No.3, pp.321-338 https://doi.org/10.3743/KOSIM.2008.25.3.321

지방기록물관리기관의 이용자 서비스 모형을 개발하기 위하여 국내외 관련 선행연구를 고찰하고, 외국 지방기록관 웹 사이트를 통하여 이용자 서비스 사례를 조사·분석하였으며, 개방과 공유 그리고 참여의 개념을 가진 웹 2.0 기술과 기록관 응용사례를 탐구하였다. 분석결과를 기초로 하여 기본서비스, 확장서비스 I, 확장서비스 II, 상호작용서비스 등 4단계로 구성된 지방기록물관리기관의 이용자 서비스 모형을 제안하였다. 단계별 모형은 고정된 것이 아니며 각 지방기록물관리기관에 따라 필요한 서비스를 선별하여 적용할 수 있다. 지방기록물관리기관의 이용자 서비스 활성화를 위하여 지역사회 조사와 연구, 서비스 만족도에 대한 평가, 구체적인 서비스 지침의 제정 등을 제안하였다.


To develop a public services framework for the promotion of the public records use of the regional archives in Korea, we analyzed the previous related studies and observed the public services of the renowned overseas regional archives through the we sites. Then, the web 2.0 technology and its application to archives services have been studied. Based on the analysis, a public services framework consisting of 4 phases such as basic services, extended services I, extended services Ⅱ, interactive services was developed. This framework of 4 phases is not a fixed universal system. Each of the regional archives would select the services they offer according to the budget, personnel, as well as the user community. Finally, community survey, user satisfaction evaluation, and the establishment of specific service guidelines are suggested for the advancement of the public services.

유재복(한국원자력연구원) ; 정영미(연세대학교) 2010, Vol.27, No.4, pp.239-258 https://doi.org/10.3743/KOSIM.2010.27.4.239

이 연구에서는 특허의 인용에 영향을 미치는 주요 변수들을 토대로 특허의 피인용횟수를 예측하기 위한 모형을 제시하였다. 이를 위해 미국특허를 대상으로 5개 주제분야에 걸쳐 특허의 피인용횟수와 일정 수준 이상의 상관관계, 즉 5% 이상의 설명력을 갖는 것으로 밝혀진 페이지 수, 청구항 수, 참고문헌 평균 피인용횟수, 서지결합도, 문헌간유사도 등 5개 변수들을 토대로 다중회귀분석을 실시하였다. 연구결과에 따르면, 제시된 5개 주제분야의 특허인용 예측모형의 설명력은 주제분야에 따라 58.3%~89.6%로 나타났으며, 예측변수로 사용된 5개의 독립변수 중 특허 피인용횟수에 가장 영향력이 높은 변수는 ‘문헌간유사도’로 나타났다. 또한 이 연구에서 추정된 주제분야별 예측모형을 토대로 산출한 특허 피인용횟수에 대한 예측값과 실제값을 비교한 결과 이들 예측모형은 5개 주제분야에서 모두 적합한 것으로 나타났다.


The purpose of this study is to develop a prediction model of patent citation counts based on major factors which affect patent citation. To this end, we performed multiple regression analysis between the patent citation counts and five explanatory variables such as the number of pages, the number of claims, the reference-average-citation rate, the strength of bibliographic coupling, and the document similarity proved as having 5% or more standardized variances(r2) with patent citation counts, with a test dataset of U.S. patents in five subject fields. As a result, our prediction models showed 58.3% to 89.6% predictability depending on subject fields and revealed the document similarity has the highest impact on citation counts among the five predictive variables in all the subject fields. The result of comparison between the predicted citation counts and the actual ones confirmed the usefulness of the citation prediction models built for each subject field.


최근 의학정보 분야에서는 임상의 지식관리와 의학정보 검색의 효율화를 위한 수단으로 온톨로지의 개념 모델링을 이용한 의학용어 시스템에 관심이 모아지고 있다. 본 연구는 우리나라의 의학정보 분야에 이러한 시스템의 응용이나 새로운 시스템 개발에 기초적인 자료제공을 목적으로, 정보 모델링과 온톨로지의 이론에 대해 고찰하였고, 외국의 의학정보 분야에서 온톨로지를 이용한 용어 시스템이 개발된 4가지 대표적인 사례를 분석하여 비교하였다. 연구결과 비형식적인 수준의 온톨로지로 파악된 MeSH의 의학용어 표준화와 UMLS의 용어 개념화, 형식적인 수준의 온톨로지인 ON9의 의학 온톨로지 통합의 이론화, 그리고 GALEN의 의학지식의 의미 모델과 형식화로 핵심적 특징을 요약할 수 있었다. 온톨로지의 응용은 목적하는 시스템에 따른 수준적 차별화가 이루어져야 할 것이고, 본 연구의 분석 결과가 참고 될 수 있을 것이다.


Recent research in the field of medical information systems has paid much attention to an ontology based medical terminology system to support clinical study and effective information search. This study aims to conduct research for further application or construction of ontology systems in Korea. This research reviews the theory of concept modeling and ontology, and analyses 4 cases of conceptual modeling of medical terminologies by ontology. The findings of this study display these specific characteristics in medical ontologies : (1) The standardization of terminology on MeSH. (2) The conceptualization of terminology on UMLS. (1) and (2) are showed as unformal ontologies. (3) The theory of ontology integration in ON9. (4) The reference model of medical knowledge with formalization in GALEN. (3) and (4) are showed as formal ontologies. The application and construction of ontology should be differentiated according to the level of the proposed system, and then this analysis will provide useful information for the researcher and developer of the system.

김수경(한밭대학교) ; 안기홍(한밭대학교) 2008, Vol.25, No.1, pp.149-171 https://doi.org/10.3743/KOSIM.2008.25.1.149

차세대 인터넷 기술로 각광받은 시맨틱 웹의 완전한 사용은 도메인 영역의 지식표현과 지식추론의 성능에 달려있다. 특히 표현된 지식을 기계가 이해하여 인간과 도메인들 간의 상호작용을 위해서는 더욱 형식적이고 명시적인 지식과 추론 표현이 기반된 웹 온톨로지 구축이 중요하다. 더구나 웹 온톨로지간의 상호작용은 시맨틱 웹의 기술적 완성을 위한 중요 요소이나 현재 웹 온톨로지의 구축을 위한 표준화된 모델링 방법의 부족으로 인해, 구축된 웹 온톨로지의 상호작용과 이해가 어려운 상황이다. 따라서 이같은 문제를 해결하기 위해 본 논문은 온톨로지의 지식 표현과 추론에 따른 단계를 명확하게 정의하고 정의된 각 단계에 따라 기술논리의 TBox와 ABox의 지식표현 구조와 SWRL 기반의 추론 규칙을 바탕으로 하는 웹 온톨로지 모델링 방법을 제안한다. 제안된 방법의 성능 검증을 위해 제안된 웹 온톨로지 모델링 과정에 따라 웹 온톨로지들을 구축하였고, 구축된 웹 온톨로지들의 추론에 따른 상호작용 성능을 실험하여 본 논문의 유용성을 입증하였다.


Actually a diffusion of a Semantic Web application and utilization are situations insufficient extremely. Technology most important in Semantic Web application is construction of the Ontology which contents itself with characteristics of Semantic Web. Proposed a suitable a Method of Building Web Ontology for characteristics of Semantic Web and Web Ontology as we compared the existing Ontology construction and Ontology construction techniques proposed for Web Ontology construction, and we analyzed. And modeling did Ontology to bases to Description Logic and the any axiom rule that used an expression way of SWRL, and established Inference-based Web Ontology according to proposed ways. Verified performance of Ontology established through Ontology inference experiment. Also, established an Web Ontology-based Intelligence Image Retrieval System, to experiment systems for performance evaluation of established Web Ontology, and present an example of implementation of a Semantic Web application and utilization. Demonstrated excellence of a Semantic Web application to be based on Ontology through inference experiment of an experiment system.

이원영(국회기록보존소) ; 강진영(한국정보보호진흥원) 2005, Vol.22, No.2, pp.147-164 https://doi.org/10.3743/KOSIM.2005.22.2.147

2003년 개정된, 공공기관의기록물관리에관한법률 동 시행령에서는 전자문서의 생산의무와 보존의무를 지정하였으나 장기보존과 관련된 법조항이나 관련 표준은 그 내용이 아주 미미하여 보강이 필요하다. 이에 본 연구는 전자문서의 장기보존을 위한 표준요소를 제공하여 전자문서의 보존기반을 마련하는데 그 목적이 있다. 관리 전략수립을 위하여 생산시점의 장기보존요소 추출을 기본으로 하였으며 현용준현용 단계 전자문서의 장기보존은 ISO 15489의 관리요소를 아카이브단계는 ISO 14721: OAIS(Open Archival Information System)참조모델을 분석하여 장기보존기능이 반영된 법률과 보다 개선된 시스템 환경을 제안하였다.


Requirements concerning production of electronic documents and storage are stipulated in the act on document management of public institutions revised in 2003. However, provisions or standards for long term preservation of electronic documents are insufficient and in need of strengthening. This study aims to provide standard factors for long term preservation of electronic documents and thus lay foundation for long term preservation related matters for the establishment of management strategy, ISO 15489 management factor is analyzed as a necessary framework for long term preservation of electronic record at a production stage. Preservation description information is derived from ISO 14721 which is suggesting document management systems to archival institutions. Through this case study, standard registry factors reflecting ISO 15489 and 14721's are suggested in an attempt to improve the act and system environment for long term preservation and archiving.


본 연구에서는 FRBRoo 분석을 바탕으로 FRBR 시리즈 개념모형을 확장하고 개선하기 위한 방안을 제시하고자 했다. FRBRoo는 CIDOC CRM과 연계된 플러그인 온톨로지다. FRBR 모형을 대체하는 것이 아니라 박물관 분야와의 협력을 위해 개발된 것이다. 연구 과정에서 FRBR 시리즈 모형이 IFLA LRM으로 통합 개정되었다. 이에 LRM에 대한 분석도 추가하였다. 서지 정보가 도서관의 업무와 이용자를 지원해야 한다면, 도서관이 당면한 새로운 과제를 지원하기 위해 서지정보를 분석하는 방식도 개선되어야 할 것이다. 이를 위해서는 시간과 관련된 이벤트 개념이 서지정보의 모델링에 반영되어야 한다. 또한 서지정보의 구축과 교환 단위를 서지레코드보다 더 작은 단위나 더 큰 단위로도 확대해야 하며, FRBRoo를 서지정보의 공유를 위한 외부와의 연계 통로로 활용하는 것이 바람직하다.


In this study, based on the analysis of FRBRoo, we tried to propose suggestions to expand and improve the FRBR family conceptual model. FRBRoo is a plug-in ontology of CIDOC CRM with cooperation of museum field. As FRBR family models also revised and integrated into IFLA Library Reference Model, the additional analysis on IFLA LRM was performed. If bibliographic information is required to support the technical and user services of the library, the way to analyze the bibliographic information should be improved in order to cope with the new challenges faced by the library. To do this, time-related event concepts should be reflected in the modeling of bibliographic information. It is also necessary to expand the creation and exchange unit of bibliographic information to smaller units or larger units than legacy bibliographic records. Using FRBRoo as a linkage tool for the sharing of bibliographic information is also suggested.
