
본문 바로가기 주메뉴 바로가기

ACOMS+ 및 학술지 리포지터리 설명회

  • 한국과학기술정보연구원(KISTI) 서울분원 대회의실(별관 3층)
  • 2024년 07월 03일(수) 13:30


검색어: collection, 검색결과: 277

공공데이터의 개방과 제공의 활성화와 함께, 공공도서관이 업무 중에 생산한 서지 데이터와 대출 이력과 같은 데이터가 도서관 공공데이터로 제공되고 있다. 본 논문은 도서관 공공데이터의 품질을 진단하고, 그 결과를 바탕으로 도서관 공공데이터의 품질을 높일 개선방안을 제안하고자 한다. 먼저, 문헌정보학 영역에서 공공데이터에 관해 이루어진 연구를 개괄한다. 그다음으로, 도서관 공공데이터 개방 플랫폼인 도서관 정보나루의 오픈 API를 통해 확보한 도서관 공공데이터의 완전성과 정확성을 진단한다. 마지막으로, 데이터 품질 진단 결과에 바탕을 개선방안을 도출한다. 완전성을 진단한 결과, 도서의 식별과 검색을 위 필수적인 서지 요소에서 다수의 공백이 확인되었다. 정확성을 진단한 결과, 값의 유형, 값의 범위, 제한조건을 따르지 않는 부정확한 서지 요소가 확인되었다. 본 연구는 데이터 품질 진단 분석 결과를 바탕으로, 도서관 정보나루의 데이터 수집 절차 개선, 데이터별 스키마 구축, 데이터 수집과 데이터 처리에 관한 안내 제공, 원자료 공개를 제언하였다.


With the popularization of open government data, Library-related open government data is also open and utilized to the public. The purpose of this paper is to diagnose the quality of library-related open government data and propose improvement measures to enhance the quality based on the diagnosis result. As a result of diagnosing the completeness of the data, a number of blanks are identified in the bibliographic elements essential for identifying and searching a book. As a result of diagnosing the accuracy of the data, the bibliographic elements that are not compliant with the data schema have been identified. Based on the result of data quality diagnosis, this study suggested improving the data collection procedure, establishing data set schema, providing details on data collection and data processing, and publishing raw data.

최지혜(중앙대학교 일반대학원 문헌정보학과) ; 이승민(중앙대학교 문헌정보학과 부교수) 2021, Vol.38, No.3, pp.175-197 https://doi.org/10.3743/KOSIM.2021.38.3.175

공공도서관의 이용 및 정보서비스의 질을 제고하는데 있어 이용자들의 사서에 대한 인식이 중요한 측면이 될 수 있으며, 따라서 이용자들의 사서에 대한 인식에 영향을 미치는 요인들이 무엇인지에 대한 확인이 필요하다. 이에 본 연구에서는 공공도서관을 중심으로 이용자들의 사서에 대한 일반적인 인식 및 이에 영향을 미치는 요인을 설문조사를 통해 실증적으로 확인하였다. 분석 결과, 도서관 소장자료와 설비의 이용, 도서관을 통한 동아리 활동 참여는 사서에 대한 긍정적인 인식 형성에 영향을 미치고 있으며, 사서의 역할은 정보적 활동에서 사회적 활동을 지원해 주는 방향으로 확대되는 것으로 나타났다. 반면 공공도서관 프로그램 참여나 소장자료의 대출, 사서와의 커뮤니케이션 등 사서와의 직접적인 교류가 이루어지는 요인들이 사서에 대한 인식 형성에 유의미한 영향을 미치지 않고 있으며, 따라서 사서의 이용자에 대한 고려가 보다 실제적으로 반영될 필요가 있는 것으로 나타났다.


Public library users’ perception of librarians can be an important aspect in improving the public library uses and the quality of informn services. Thus it is necessary to identify what factors affect users’ perceptions of librarians. This research empirically investigated users’ general perceptions of librarians and the factors affecting them through a survey. As a result, it was found that the use of library collections, library facilities, and participation in club activities through the library affect the formation of a positive perception of librarians. In addition, the roles of the librarian are expanding from informational activities to supporting social activities. In contrast, the factors of direct interaction with the librarian, including participation in public library programs, circulating library collections, and communication with librarian, do not have a significant effect on the formation of the perception of librarian. Thus librarians need to consider library users more substantially and to support them in various ways.

한나은(한국과학기술정보연구원) 2023, Vol.40, No.1, pp.51-71 https://doi.org/10.3743/KOSIM.2023.40.1.051

본 연구는 공공데이터 품질관리 모델, 빅데이터 품질관리 모델, 그리고 연구데이터 관리를 위한 데이터 생애주기 모델을 분석하여 각 품질관리 모델에서 공통적으로 나타나는 구성 요인을 분석하였다. 품질관리 모델은 품질관리를 수행하는 객체인 대상 데이터의 특성에 따라 생애주기에 맞추어 혹은 PDCA 모델을 바탕으로 구축되고 제안되는데 공통적으로 계획, 수집 및 구축, 운영 및 활용, 보존 및 폐기의 구성요소가 포함된다. 이를 바탕으로 본 연구는 연구데이터를 대상으로 한 품질관리 프로세스 모델을 제안하였는데, 특히 연구데이터를 대상 데이터로 하여 서비스를 제공하는 연구데이터 서비스 플랫폼에서 데이터를 수집하여 서비스하는 일련의 과정에서 수행해야하는 품질관리에 대해 계획, 구축 및 운영, 활용단계로 나누어 논의하였다. 본 연구는 연구데이터 품질관리 수행 방안을 위한 지식 기반을 제공하는데 의의를 갖는다.


This study analyzed the government data quality management model, big data quality management model, and data lifecycle model for research data management, and analyzed the components common to each data quality management model. Those data quality management models are designed and proposed according to the lifecycle or based on the PDCA model according to the characteristics of target data, which is the object that performs quality management. And commonly, the components of planning, collection and construction, operation and utilization, and preservation and disposal are included. Based on this, the study proposed a process model for research data quality management, in particular, the research data quality management to be performed in a series of processes from collecting to servicing on a research data platform that provides services using research data as target data was discussed in the stages of planning, construction and operation, and utilization. This study has significance in providing knowledge based for research data quality management implementation methods.


역문헌빈도 가중치 기법은 문헌 집단에서 출현빈도가 낮을수록 색인어의 중요도가 높다는 가정에 근거하고 있다. 그런데 이는 중간빈도어를 중요하게 여기는 여타 이론과는 일치하지 않는 것이다. 이 연구에서는 저빈도어보다 중간빈도어가 더 중요하다는 가정에 근거하여 역문헌빈도 가중치 공식을 수정한 피벗 역문헌빈도 가중치 기법을 제안하였다. 제안된 기법을 검증하기 위해서 세 실험집단을 대상으로 검색실험을 수행한 결과. 피벗 역문헌빈도 가중치기법이 역문헌빈도 가중치 기법에 비해서 특히 검색결과 상위에서의 성능을 향상시키는 것으로 나타났다.


The Inverse Document Frequency (IDF) weighting method is based on the hypothesis that in the document collection the lower the frequency of a term is, the more important the term is as a subject word. This well-known hypothesis is, however, somewhat questionable because some low frequency terms turn out to be insufficient subject words. This study suggests the pivoted IDF weighting method for better retrieval effectiveness, on the assumption that medium frequency terms are more important than low frequency terms. We thoroughly evaluated this method on three test collections and it showed performance improvements especially at high ranks.


본 논문은 C대학도서관의 학술정보시스템(LAS)에 구축되어 있는 장서와 대출기록 및 고객관련 데이터를 수집하여 이를 분석하고 그 결과를 고객관계관리(CRM)에 적용할 수 있는 방안을 제시하였다. 수집된 자료는 C 대학도서관에서 소장하고 있는 대출이 가능한 단행본 총 269,387책의서지데이타와고객 12,281명의 데이터, 이용자 대출기록 39,269건이었다. 대출기록 분석 데이터에서 관계변수로 이용자 신분, 대출빈도, 대출책수와 대출횟수, 출판년도를 추출하여 데이터 마이닝 기법으로 분석하고, 상관계수로 검증하였다.


The books and circulation-related data in the Library Automation System(LAS) of C-academic library were collected and analyzed, and also the method which may be applied to the Customer Relationship Management (CRM) based on the results was suggested in this paper. Collected data were 269,387 bibliographic data of books, 12,281 patron data, and 39,269 circulation records. User identity, circulation frequencies, total number of circulated books, and publication year as relation factor from the analyzed data of circulation records were extracted. They were also analyzed, and verified by correlation coefficient.

정지혜(전북대학교 기록관리학과 박사과정) ; 나정호(전북대학교 기록관리학과 석사과정) ; 장지혜(전북대학교 기록관리학과 석사과정) ; 오효정(전북대학교 문헌정보학과/기록관리학과 부교수, 문화융복합아카이빙연구소 공동연구원) 2020, Vol.37, No.4, pp.81-107 https://doi.org/10.3743/KOSIM.2020.37.4.081

최근 우리나라를 비롯해 전 세계가 ‘코로나19’라는 초유의 사태를 맞이한 이때, 감염병 확산을 막기 위해 적극적으로 정보를 ‘공개’하는 관점과 이러한 사회적 조치가 개인의 기본권 침해와 맞물리게 되면서 개인정보를 ‘보호’해야 하는 관점이 상충되고 있다. 이에 본 연구에서는 감염병 위기에 따른 국가의 대응 상황을 파악하기 위해 감염병 대응 표준매뉴얼을 바탕으로 위기경보 단계별 생산되는 공공기록물을 살펴보았으며, 특히 개인정보가 포함된 기록물의 유형과 공개 현황을 분석하였다. 이를 통해 위기경계단계에 따라 공공기관 차원에서 수집되는 개인정보 뿐 아니라 민간에서 수집, 관리해야 할 개인정보 범위가 결정됨을 파악하였으며, 이에 대한 일반인의 인식을 파악하기 위해 뉴스미디어에 보도된 개인정보 관련 주요 이슈를 분석하였다. 이를 통해 도출된 개인정보를 포함한 기록 관리의 주요 쟁점과 문제점에 대해 고찰하고 이에 대한 개선점을 수집 및 관리, 폐기의 기록의 생애주기 관점에서 제안하였다.


At a time when Korea and the rest of the world recently faced the unprecedented situation of “COVID-19,” the view of actively “disclosure” of information to prevent the spread of infectious diseases is at odds with the view of “protecting” personal information as these social measures are coupled with the infringement of individuals’ basic rights. In order to see the nation’s response to the infectious disease crisis, we examined the current status and characteristics of public records according to crisis alert levels based on the manual for responding to infectious disease. Especially we analyzed the types and disclosure status of records containing personal information. For detecting personal information-related issues on news media, we collected online news articles and performed text anlaysis. Through this, we reviewed the problems of record management including personal information and suggested improvement points from the perspective of the life cycle of records: collect, manage, and dispose of them.

김수연(연세대학교) ; 송성전(연세대학교 문헌정보학과) ; 송민(연세대학교) 2015, Vol.32, No.1, pp.135-152 https://doi.org/10.3743/KOSIM.2015.32.1.135


The goal of this paper is to explore the field of Computer and Information Science with the aid of text mining techniques by mining Computer and Information Science related conference data available in DBLP (Digital Bibliography & Library Project). Although studies based on bibliometric analysis are most prevalent in investigating dynamics of a research field, we attempt to understand dynamics of the field by utilizing Latent Dirichlet Allocation (LDA)-based multinomial topic modeling. For this study, we collect 236,170 documents from 353 conferences related to Computer and Information Science in DBLP. We aim to include conferences in the field of Computer and Information Science as broad as possible. We analyze topic modeling results along with datasets collected over the period of 2000 to 2011 including top authors per topic and top conferences per topic. We identify the following four different patterns in topic trends in the field of computer and information science during this period: growing (network related topics), shrinking (AI and data mining related topics), continuing (web, text mining information retrieval and database related topics), and fluctuating pattern (HCI, information system and multimedia system related topics).

김선욱(경북대학교 사회과학대학 문헌정보학과) ; 이혜경(경북대학교 문헌정보학과) ; 이용구(경북대학교) 2023, Vol.40, No.2, pp.183-209 https://doi.org/10.3743/KOSIM.2023.40.2.183

이 연구의 목적은 ChatGPT가 도서의 표지, 표제지, 판권기 데이터를 활용하여 생성한 더블린코어의 품질 평가를 통하여 ChatGPT의 메타데이터의 생성 능력과 그 가능성을 확인하는 데 있다. 이를 위하여 90건의 도서의 표지, 표제지와 판권기 데이터를 수집하여 ChatGPT에 입력하고 더블린 코어를 생성하게 하였으며, 산출물에 대해 완전성과 정확성 척도로 성능을 파악하였다. 그 결과, 전체 데이터에 있어 완전성은 0.87, 정확성은 0.71로 준수한 수준이었다. 요소별로 성능을 보면 Title, Creator, Publisher, Date, Identifier, Right, Language 요소가 다른 요소에 비해 상대적으로 높은 성능을 보였다. Subject와 Description 요소는 완전성과 정확성에 대해 다소 낮은 성능을 보였으나, 이들 요소에서 ChatGPT의 장점으로 알려진 생성 능력을 확인할 수 있었다. 한편, DDC 주류인 사회과학과 기술과학 분야에서 Contributor 요소의 정확성이 다소 낮았는데, 이는 ChatGPT의 책임표시사항 추출 오류 및 데이터 자체에서 메타데이터 요소용 서지 기술 내용의 누락, ChatGPT가 지닌 영어 위주의 학습데이터 구성 등에 따른 것으로 판단하였다.


The purpose of this study is to evaluate the Dublin Core metadata generated by ChatGPT using book covers, title pages, and colophons from a collection of books. To achieve this, we collected book covers, title pages, and colophons from 90 books and inputted them into ChatGPT to generate Dublin Core metadata. The performance was evaluated in terms of completeness and accuracy. The overall results showed a satisfactory level of completeness at 0.87 and accuracy at 0.71. Among the individual elements, Title, Creator, Publisher, Date, Identifier, Rights, and Language exhibited higher performance. Subject and Description elements showed relatively lower performance in terms of completeness and accuracy, but it confirmed the generation capability known as the inherent strength of ChatGPT. On the other hand, books in the sections of social sciences and technology of DDC showed slightly lower accuracy in the Contributor element. This was attributed to ChatGPT’s attribution extraction errors, omissions in the original bibliographic description contents for metadata, and the language composition of the training data used by ChatGPT.


공공도서관에서 제공하고 있는 디지털참고봉사의 현황과 발전을 이해하기 위하여, 전국의 공공도서관 홈페이지를 직접 접속하여 관찰하고 이용 데이터를 수집하여 분석하였으며. 2003년에 수집하였던 데이터와 비교하였다. 모두 404개의 디지털참고봉사 사이트에 대하여, 접근수준, 서비스방식, 링크명칭, 서비스정책, 웹폼, FAQ 등 서비스 제공 관련 특성을 분석한 후, 15일간 수행된 질문응답 데이터를 수집하여 이용도서관, 이용수준, 응답비율, 질문유형 등 서비스 성능을 분석하였다. 서비스 현황에 대한 이해와 문제점, 그리고 4년 동안에 걸친 변화가 식별되었으며, 향후 발전을 위한 제언이 이루어졌다.


To understand the present status and the development of the digital reference service in Korean public libraries, a nationwide site observation was attempted in 2007. The collected data was analyzed, then compared with the previous analysis based on a 2003 data. For the 404 sites offering digital reference, operational characteristics, such as access level, service mode, link description, policy, web form, and FAQ, are analyzed. Performance analysis focused on the presence of question posting, volume of usage, response rate, and types of the questions, for the data collected for 15 days through question and answer transcript recording. Results reveal findings on the present situation as well as changes over 4 years.Related problems are identified. The conclusion includes suggestions for improving digital reference service.

김희섭(경북대학교) ; 이세은(경북대학교 사회과학연구원) ; 황혜경(한국과학기술정보연구원) 2008, Vol.25, No.3, pp.339-355 https://doi.org/10.3743/KOSIM.2008.25.3.339

이 논문은 학술지가 지니는 다양한 속성들(내부적인 요소, 외부적인 요소, 그리고 요구론적 요소)이 학술지의 이용 가치에 어떠한 영향을 미치는 지에 대한 실증적 사례분석을 목적으로 하였다. 이 사례연구의 방법은 웹 질문지법을 채택하였으며, K기관 원문서비스 이용자와 DDS 담당자들을 대상으로 수집된 총 383개의 유효한 데이터를 분석하였다. 학술지의 내부적인 요소(즉, IF, 학술지 가격, 사용언어)가 학술지 이용가치에 영향을 미치는 것으로 나타났고, 학술지의 외부적인 요소와 요구론적 요소는 학술지 이용가치에 별다른 영향을 미치지 않는 것으로 나타났다.


The purpose of this empirical case study is to explore what factors affect on the economic valuation of academic journals and to ascertain the degree of each impact. For this study, factors were categorized into three groups: internal factors, external factors and demand theory factors. The on-line questionnaire was used to collect data and 383 responded from individual users of and the persons in charge of the DDS(Document Delivery Service). Collected data were analyzed using SPSS 12.0 for Windows/PC. The result showed that there exist a strong relationship between the internal factors of academic journals(i.e., Impact Factor, Cost, and Language) and economic valuation in terms of its use value.
