바로가기메뉴

본문 바로가기 주메뉴 바로가기

ACOMS+ 및 학술지 리포지터리 설명회

  • 한국과학기술정보연구원(KISTI) 서울분원 대회의실(별관 3층)
  • 2024년 07월 03일(수) 13:30
 

logo

검색어: Use Study, 검색결과: 628
초록보기
초록

정보기술과 인터넷의 발전에 따른 정보의 폭발적인 증가로 인하여 정보과잉에 따른 적절한 정보의 선택이 필요하게 되었다. 이를 위하여 이용자가 정보를 효율적으로 이용할 수 있도록 검색 또는 여과하는 일을 수행하기 위하여 정보검색 및 정보여과 시스템이 등장하게 되었다. 이러한 일련의 정보환경의 변화에 대한 보다 적극적인 대응방법으로서 도서관 및 정보센터에서는 이용자가 원하는 정보를 정확하고 효율적으로 제공하기 위한 노력의 일환으로서 이용자에게 맞춤화된 정보 추천서비스 제공이 요구된다. 본 연구에서는 도서관 및 정보센터에서 적극적인 정보서비스를 위한 방법으로 이용자에게 맞춤화된 정보를 제공할 수 있는 개인화 추천시스템을 구축하기 위한 방안을 제안하였다. 이를 위하여 기존의 추천방법에 대한 장단점을 분석하고 기존 추천방법에 대한 문제점을 해결하기 위한 방법으로서 대용량 콘텐츠 및 이용자 환경에서 이용자의 콘텐츠 이용빈도를 기준으로 멀티미디어 콘텐츠를 위한 개인화된 하이브리드 추천방법을 제안하였다. 이를 위하여 이용빈도에 있어서 상위 이용자 및 콘텐츠를 분리하고 적절한 추천방법에 적용하기 위한 새로운 형태의 추천방법 및 대용량 추천시스템에 적합한 연관규칙과 협업여과방법에 대한 조합방법을 제안하였다.

Abstract

Recent advancements in information technology and the Internet have caused an explosive increase in the information available and the means to distribute it. However, such information overflow has made the efficient and accurate search of information a difficulty for most users. To solve this problem, an information retrieval and filtering system was developed as an important tool for users. Libraries and information centers have been in the forefront to provide customized services to satisfy the user's information needs under the changing information environment of today. The aim of this study is to propose an efficient information service for libraries and information centers to provide a personalized recommendation system to the user. The proposed method overcomes the weaknesses of existing systems, by providing a personalized hybrid recommendation method for multimedia contents that works in a large-scaled data and user environment. The system based on the proposed hybrid method uses an effective framework to combine Association Rule with Collaborative Filtering Method.

초록보기
초록

본고는 정보산업 분야 전체를 포괄하는 연계식별자로서 ISNI의 중요성을 인식하여 ISNI의 개념 및 전거제어에서 이의 활용가능성을 모색하고자 하였다. ISNI는 창작, 생산, 관리, 내용 배포의 흐름에서 정보매체 내용산업 전체와 관련된 개인(Party)의 대중개체(Public Identities) 식별을 위한 연계식별자로 전세계 망라적 이름 전거제어를 위해 필요하다. 우선 ISNI의 개념, 목적, 용어, 식별자구조, ISNI 할당원칙, 관리방식, 메타데이터에 대해 조사하였다. 이를 바탕으로 전거제어에서 활용가능성을 모색하였다. 첫째, 국내 협력 전거제어를 위해 ISNI의 개념을 도입하는 것을 고려해야 할 것이다. 국내에 맞는 ISNI 체제인 KISNI를 구축하여 도서관 및 정보산업 분야에서 생산되는 모든 전거데이터를 상호 활용할 수 있도록 할 수 있다. 둘째, 연계식별자인 ISNI를 이용하여 여러 식별자를 연계함으로 링크드데이터 구축이 가능하게 될 것이다. 셋째, 서지레코드 및 전거레코드에 ISNI 식별자를 기술할 수 있도록 KORMARC을 확장해야 할 것이다.

Abstract

This study was to investigate the concept of ISNI and to find its availability in authority control, realizing importance of ISNI as the bridge identifier including all the information media content industries. ISNI is needed for global and comprehensive name authority control as the bridge identifier for the identification of public identities of parties involved throughout the information media content industries in the creation, production, management and content distribution chains. First of all, it was to inquire ISNI concept, goal, terms and definitions, structure and syntax, allocation of ISNI, administration of the ISNI system, and metadata. Next, it was to suggest the applicability of ISNI in authority control. First, it should be needed to consider in applying ISNI for cooperative authority control. It is possible to interactively use the authority data created in library and other information industries area by constructing KISNI system. Second, it is possible to construct linked data by linking various identifier through ISNI identifier as bridge identifier. Third, it is needed to develop KORMARC for describing ISNI identifier in KORMARC bibliographic and authority record.

613
김희영(연세대학교 일반대학원 문헌정보학과) ; 박지홍(연세대학교 문헌정보학과) 2022, Vol.39, No.1, pp.1-15 https://doi.org/10.3743/KOSIM.2022.39.1.001
초록보기
초록

본 연구는 약물 연구 분야에 속하는 특허 사이에 나타나는 지식의 흐름을 살펴보고 이들 간의 영향력을 파악해보기 위해 특허데이터에서 나타나는 인용 관계를 분석하였다. 특허데이터의 수집은 Google Patents에서 진행하였다. 약물 연구와 관련된 특허 문서를 검색하여 상위 25개의 출원인을 선정하였고, 이를 바탕으로 출원인 사이에서의 인용 관계를 알아보고 각 출원인의 각 문서에 대한 피인용빈도와 순위를 활용하여 h-지수와 h-지수의 파생지표들의 값을 계산하여 비교하였다. 분석 결과를 종합하면, ‘Pfizer, MIT, Abbott’ 등의 출원인이 약물 연구 분야에서 영향력이 높은 출원인으로 드러났다. 5개의 계량서지학적 지표 중에서 g-지수와 hS-지수가 서로 유사한 결과를 보여주었고, 총인용빈도, 최대인용빈도, CPP의 순위를 가장 잘 반영하는 지표로 나타났다. 또한, 총인용빈도, CPP, 최대인용빈도 순으로 5개의 계량서지학적 지표와의 상관관계가 높았다. 한편, 기존의 특허 출원인의 기술적 영향력을 나타내는 것으로 알려진 지표인 CPP만으로는 정확한 비교가 어려운 경우도 나타났다.

Abstract

This study analyzes the relationship of citations appearing in the patent data to understand knowledge transfers and impacts between patent documents in the field of pharmaceutical research. Patent data were collected from a website, Google Patents. The top 25 assignees were selected by searching for patent documents related to pharmaceutical research. We identify the citation relationships between assignees, then calculate and compare the values of h-index and derived indicators by using the number of citations and rank for each document of each assignee. As a result, in the case of pharmaceutical research, the assignee, such as ‘Pfizer, MIT, and Abbott’ shows a high impact. Among the five bibliometric indicators, the g-index and hS-index show similar results, and the indicators are the most related to the rankings of Total Citation Frequency, Cites per Patents, and Maximum Citation Frequency. In addition, it is highly related to the five indicators in the order of Total Citation Frequency, Cites per Patents, and Maximum Citation Frequency. In some cases, it is difficult to make an accurate comparison with Cites per Patents alone, which is previously known to indicate the technological influence of patent assignees.

614
최상희(대구가톨릭대학교) ; 정경희(한성대학교) ; 이호신(한성대학교) 2013, Vol.30, No.3, pp.317-335 https://doi.org/10.3743/KOSIM.2013.30.3.317
초록보기
초록

영상자료는 점차 도서관에서 중요한 장서의 일부가 되어가고 있으며 특히 공공도서관에서는 이러한 영상자료를 기반으로 다양한 문화프로그램을 운영하고 있다. 그러나 영상자료와 관련하여 저작권에서는 공연의 개념을 적용하여 공연범위를 일부 제한하고 있으며 도서관의 영상자료 사용에 대한 저작권 단체의 저작권료에 대한 요청도 논의되고 있다. 본 연구에서는 이와 같은 시점에서 도서관에서 실질적으로 영상자료를 다루고 있는 사서들이 저작권과 관련하여 인식하고 있는 문제점과 저작권료 지불에 대한 대응 의견을 조사하고자 하였다. 또한 부가적으로 영상자료의 중요성과 영상자료 관리상의 문제점도 분석하였다. 인식조사를 위한 설문은 대학 및 공공도서관을 대상으로 하여 총 292개의 응답을 받아 분석을 하였으며 2013년 5월 8일부터 6월 7일까지 총 한 달간 조사를 수행하였다. 분석결과 사서들은 영상자료 및 영상자료 서비스가 중요하다고 인지하고 있으며 판매용 영상물 상영에 대한 저작권 면책 조건에 대한 사항도 파악하고 있는 것으로 나타났다. 그러나 발행일 6개월 미만의 영상자료 사용료를 지불하는 체제에 대해서는 부정적 의견을 보이고 있어 실질적으로 저작권료를 지불하는 체제를 도입할 의사는 없는 것으로 나타났다.

Abstract

Cinematographic works are crucial for libraries as a part of their collections. Especially public libraries provide a variety of programs associated with cinematographic works. Copyright law considers the use of cinematographic works as a type of public performance and restricted it under certain conditions such as the released date. In addition, copyright agency challenged libraries to pay fees for cinematographic works released within 6 months. At this point, this study investigated the perception of librarians on cinematographic works and copyright issues. 292 librarians in public and academic libraries answers the questionnaire form May 8th to June 7th, 2013. In result, librarians consider services of video works as a important part of library services. They are also conscious of the exception conditions for copyright law for cinematographic works provided by library services. Furthermore, even though librarians are aware of copyright issues, they show the negative response to copyright fees for playing cinematographic works in the libraries.

615
서선경(한국과학기술정보연구원) ; 최호남(한국과학기술정보연구원) ; 김병규(KISTI) ; 최선희(한국과학기술정보연구원) ; 김정환(한국과학기술정보연구원) 2016, Vol.33, No.2, pp.157-176 https://doi.org/10.3743/KOSIM.2016.33.2.157
초록보기
초록

Cited-by Linking 서비스는 CrossRef에서 제공하는 주요 서비스 중 하나로 해당 논문이 DOI를 통하여 얼마나 인용되었는지 누적하여 집계된 데이터이다. 이에 본 연구에서는 KISTI의 학술정보통합관리시스템에서 월단위로 구축․관리하는 Cited-by Linking 데이터를 분석하여 자연과학과 공학 분야의 인용 패턴을 규명하고자 하였다. 이를 위해서 전체 기탁된 21만 건 중 자연과학과 공학 분야 총 170,999건(315종)을 분석 대상으로 하고, 2016년 3월까지 누적된 Cited-by Linking 데이터를 수집하였다. 연구의 분석 결과, 첫째, 글로벌하게 인용될 가능성에서 사용 언어는 영향을 미치고 있으며, 둘째, SCIE 및 SCOPUS 등재 여부 역시 인용가능성에 상당 부분 기여하고 있음을 확인하였다. 셋째, 자연과학 분야는 거의 동일한 주제 분야에서 인용을 받고 있으며, 상대적으로 공학 분야는 타주제 분야에서 더 인용 받고 있음을 파악하였다. 이러한 연구의 결과는 자연과학과 공학 분야의 세부주제 분야별 인용 행태를 규명하고, 향후, 인용 행태에 관한 연구에서 유용하게 활용될 것으로 기대한다.

Abstract

Cited-by Linking Service is one of the CrossRef’s information services that allows you to discover how your publications are being cited and to incorporate that information into your online publication platform. This study tries to investigate citation patterns in the field of both Natural Science and Engineering using all of DOI assigned articles and Cited-by Linking data which are accumulated and managed by KISTI. The investigating approach is designed to verify the theory of 1) cognitive accessibility, 2) ‘perceived quality and significance’ and 3) ‘subject relativity’. For cognitive accessibility verification the fulltext language portion of Korean and English between “Cited DOI Source Data” and “NOT Cited DOI Source Data” was compared. For perceived quality and significance verification the availability of the “Cited DOI Source Data” and “NOT Cited DOI Source Data” from SCIE and SCOPUS was employed. For subject relativity DOI data were classified and analysed on the basis of OECD subject classification scheme. Findings are that global citability is closely related to the fulltext language of the articles and their quality and significance. And in the natural science field most of citations are from the same subject categories, while relatively more citations are from other subject categories in the engineering field.

616
곽승진(충남대학교) ; 노영희(건국대학교) ; 강봉숙(청주대학교) ; 고재민(수원과학대학교 융합디자인학부 실내건축디자인학과) ; 김정택(배재대학교 학술정보팀) ; 곽우정(건국대학교 GLOCAL(글로컬)캠퍼스 지식콘텐츠연구소) 2022, Vol.39, No.2, pp.87-110 https://doi.org/10.3743/KOSIM.2022.39.2.087
초록보기
초록

본 연구는 옥천군 생활문화체육센터 도서관 건립 이후 운영 방안을 수립할 필요성을 기반으로 하며, 옥천군 내의 공공도서관 이용자를 대상으로 옥천군 도서관의 기능․역할 및 장서 운영방향, 이용자 서비스 활성화 및 이용현황 조사, 향후 이용 의사 등에 대한 선호도 조사, 희망 서비스에 대한 인식 등을 조사하였다. 인식조사 결과를 기반으로 옥천군민이 도서관에 요구하는 방향성을 파악하였으며, 연구결과는 다음과 같다. 연구 결과, 첫째, 장서 계획 수립 시 이용자의 요구도를 반영하여 자료 유형은 인쇄자료 및 멀티미디어 자료를 기반으로 하고, 문학, 예술, 역사, 기술과학 등의 주제분야를 우선적으로 고려하여 수집할 필요가 있을 것으로 파악되었다. 둘째, 다양한 정보서비스를 제공하기 위해 전반적인 정보서비스 계획 수립이 필요하며, 이와 함께 이용자 선호도에 따른 다양한 정보서비스 개발과 협력형 서비스 제공이 필요할 것으로 파악되었다. 셋째, 옥천군민들의 프로그램에 대한 요구도가 높은 것을 고려하여 향후 다양한 주제 및 각 연령층에 적합한 프로그램을 지속적으로 확대해야 할 것으로 파악되었다. 넷째, 신규건립 및 공간 개선이 필요하며, 전반적으로 열린 공간에 대한 선호도가 높게 나타났다. 문화공간의 경우 청소년 문화시설, 주민편의시설, 무한상상실, (체험)전시관 등에 대한 선호도가 높게 나타났다.

Abstract

This study was conducted based on the need to establish an operational plan following the establishment of the Okcheon-gun Daily Life Culture and Sports Center Library, and for the users of public libraries in Okcheon-gun, the functions and roles of the Okcheon-gun Library, collection related to operational direction, user service related activation, library usage related status survey, preference for the future use and perception of desired services were surveyed. Based on the results of the perception survey, the direction required by the Okcheon-gun residents for the Library was identified, and the research results are as follows. As a result of the study, first, when establishing a collection plan, the data types ought to be based on the printed materials and the multi-media materials to reflect the needs of the users, and it may also be necessary to collect them in consideration of the subject areas including literature, art, history, and technical sciences. Second, to provide various information services, it would be necessary to establish an overall information service plan, and it was identified that it would be necessary to develop various information services according to the user preferences and provide cooperative services. Third, it was determined that the programs appropriate for the various subjects and age groups should be continuously expanded moving forward in consideration of the larges demand for programs by the residents of Okcheon-gun. Fourth, new constructions and spatial improvements are needed, and the overall preference for open spaces was significant. In the case of cultural space, the preference for youth cultural facilities, convenience facilities for residents, infinite loss of imagination, and the (experiential) exhibition halls turned out to be large.

617
이다정(성균관대학교 문헌정보학과 석사과정) ; 이용정(성균관대학교 문헌정보학과 교수) 2019, Vol.36, No.4, pp.161-181 https://doi.org/10.3743/KOSIM.2019.36.4.161
초록보기
초록

사람들은 청소년기에 성적 지향이나 성 정체성에 대해 인식하기 시작하며, 청소년들은 성에 관한 민감한 건강정보 탐색을 위해 접근이 편하고 익명성이 보장된 지식검색 커뮤니티를 자주 이용한다. 본 연구는 지식검색 커뮤니티에 나타난 청소년들의 성 정체성에 관련된 질문과 답변을 바탕으로 그들의 정보탐색 행태를 관찰하고자 하였다. 먼저, 그들의 정보 요구를 파악하고 그들이 공유한 질문에 제공된 답변들 가운데 채택된 답변과 비 채택된 답변의 특성을 비교하여 청소년들이 어떠한 답변을 선호하는지 조사하였다. 이를 위해 국내의 대표적인 지식검색 커뮤니티인 네이버 지식iN에서 2016년 1월부터 2018년 12월까지 3년간 채택된 답변과 비 채택된 답변으로 구성된 총 358세트의 데이터를 분석하였다. 분석 결과, 성 정체성에 관한 고민을 가진 청소년들은 성 정체성에 대한 정의나 혼란에 관한 정보 요구가 많았다. 이용자들이 채택한 답변에는 공감 및 긍정적인 느낌을 주는 요인들이 채택되지 않은 답변에 비해 많았으며, 반면에 채택되지 않은 답변에는 부정적인 요인들이 높게 나타났다. 본 연구는 성 정체성이 확립되지 않은 청소년들이 가진 정보 요구와 정보탐색 행태를 분석하여 정보탐색 분야의 논의를 확장하고 건강정보 이용자의 정보 평가에 이용되는 인지적 및 감정적 모델을 검증했다는 데 학문적 의의가 있다. 또한 연구 결과를 바탕으로 소셜 미디어가 청소년에게 제공해야 할 성 정체성에 관한 효과적인 정보서비스에 대한 실질적인 함의를 제안한다.

Abstract

People begin to recognize sexual orientation or gender identity in adolescence, and adolescents frequently use an accessible and anonymous anonymity knowledge retrieval community to explore sensitive health information about gender. This study attempted to observe their information search behavior based on questions and answers about adolescents’ gender identity in the knowledge retrieval community. First, we wanted to examine their information needs and to investigate what factors they preferred to answer by comparing the characteristics of the answers adopted with the non-adopted answers among the answers provided in the questions they shared. To this end, Naver, Korea’s representative knowledge search community. In Knowledge-iN, a total of 358 sets of data were analyzed, consisting of responses adopted over three years from January 2016 to December 2018. As a result, adolescents with concerns about gender identity demanded information about definition or confusion about gender identity. In the responses adopted by the users, the factors that gave empathy and positive feelings were higher than those that were not adopted, whereas the negative responses were higher in the unaccepted answers. This study is meaningful in that it analyzes the information needs and information search behaviors of adolescents with no established gender identity, expands the discussion in the information search field, and confirms cognitive and emotional models for information evaluation of health information users. Also, based on the research results, we propose practical implications for effective information services on gender identity that social media should provide to young people.

초록보기
초록

향토문화란 한 지방의 자연환경 속에서 과거로부터 현재까지 면면히 전승되어 온 역사와 전통, 풍물과 생활, 예술과 유물 및 유적 등의 모든 유산을 의미한다. 한국학중앙연구원에서는 이런 향토문화를 디지털 콘텐츠로 제작하고 이를 이용하여 『한국향토문화전자대전』을 편찬하였다. 향토문화 콘텐츠는 기록물의 특성을 가지고 있어 출처주의, 계층목록과 같은 기록물관리체계를 따르고 있으며 이를 편찬․관리하기 위한 시스템은 기초자료, 단편적 정보 및 고급정보 등이 하나의 시스템 안에서 순환하면서 새로운 지식정보를 만들어내도록 도와주는 순환형 지식정보관리시스템을 지향한다. 순환형 지식정보관리시스템의 이용자는 이 시스템을 통해 직접적으로 자료를 수집할 수 있을 뿐만 아니라 다른 곳으로부터 데이터를 수집할 수 있으며, 나아가 수집한 데이터를 가공하여 새로운 지식 정보를 창출할 수 있다. 그러나 다양한 향토문화 콘텐츠의 구조에 포함된 의미적인 특징을 손상시키지 않고 데이터베이스를 구축하기가 매우 어렵고, 또한 이러한 작업은 장시간에 걸쳐 여러 차례의 교정 작업이 수행되어야 하므로 문서편찬, 교정, 서비스가 동시에 수행되는 시스템을 필요로 한다. 따라서 본 논문에서는 『한국향토문화전자대전』의 사례를 중심으로 고문서가 많이 포함된 향토문화 콘텐츠의 의미적인 특징을 손상시키지 않으면서, 문서의 구조정보를 표현할 수 있는 XML 기반의 디지털 편찬 관리시스템을 제시하고 본 연구에서 개발된 관리시스템에서 향토문화 콘텐츠 관리를 위해 확장된 기능을 소개한다.

Abstract

Local culture is a cultural heritage that has come down from generation to generation in the natural environment of a region. It includes history, tradition, natural features, art, and historic relics. The Academy of Korean Studies has complied “The Encyclopedia of Korean Local Culture” using those local culture contents. Local culture content shave the features of documentary, such as authenticating the source, and managing hierarchy structure. Thus, to deal with local culture contents, a “circular knowledge information management system” is sought for that helps basic, fragmentary, and high-level information to circulate to create new knowledge information within the system. A user of this circular knowledge information management system is able not only to collect data directly in it, but also to fetch data from other database. Besides, processing the collected data helps to create new knowledge information. But, it’s very difficult to sustain the features of the original hierarchy bearing meaning contained in the various kinds of local culture contents when building a new database. Moreover, this kind of work needs many times of correction over a long period of time. Therefore, a system in which compilation, correction, and service can be done simultaneously is needed. Therefore, in this study, focusing on the case of “The Encyclopedia of Korean Local Culture”, I propose a XML-based digital compilation management system that can express hierarchy information and sustain the semantic features of the local culture contents containing lots of ancient documents, and introduce the expanded functions developed to manage contents in the system.

619
한희정(전북대학교 문화융복합아카이빙 연구소 전임연구원) ; 윤성호(전북대학교 일반대학원 기록관리학과 석사과정) ; 오효정(전북대학교 문헌정보학과 부교수) ; 양동민(전북대학교 일반대학원 기록관리학과 부교수) 2020, Vol.37, No.2, pp.251-284 https://doi.org/10.3743/KOSIM.2020.37.2.251
초록보기
초록

정보의 활용이 국가 경쟁력의 핵심으로 부각되면서 우리 정부를 포함한 주요 선진국들은 데이터를 중요하게 인식하고 있으며, 이에 따라 장기보존 기술 연구 및 표준 제정 등을 추진하여 데이터의 체계적인 관리 및 보존을 위한 노력을 지속적으로 기울이고 있다. 그러나 현재 국내의 경우 다양한 유형의 데이터들에 대해 법령에는 기록관리 대상으로 명시하고 있지만, 이를 수집, 관리 및 보존하기 위한 구체적인 방법은 표준전자문서 이외에는 없는 상황이다. 특히, 행정정보시스템에서 생산되는 엄청난 규모의 데이터세트에 대한 관리 및 보존은 무엇보다 강하게 요구되어 왔으나 데이터세트에 대한 지침이 제대로 제공되고 있지 않고 있다. 보존포맷 선정체계가 마련되어야 시스템 보완 및 구축이 가능하기 때문에 우선적으로 데이터세트 특성을 고려한 보존포맷 선정 기준 체계가 보다 구체화 되어야 하며, 선정기준에 따라 도출된 데이터세트 보존포맷의 변환에 대한 실증적인 검증 작업이 필요하다. 이에 본 연구는 데이터세트의 특성을 고려한 보존포맷 선정 기준에 대한 평가체계를 도출하고, 보존포맷에 대한 실증적 검증을 통해 장기보존할 수 있는 방안을 제시하고자 한다.

Abstract

As the use of information has emerged as the core of national competitiveness, major developed countries and the Korean government have realized the importance of data. They have pursued technical research and standard establishment for long-term preservation and continuously strived for systematic management and preservation of data. However, although various types of data are specified for the purpose of record management in the law, there is no specific method on how to collect, manage and preserve them, except standard electronic documents. In particular, management and preservation of huge datasets from the administrative information system have been strongly demanded above all. Any guidelines for datasets do not have been properly provided. After the framework for selecting preservation format must be prepared, the system can be supplemented and built. The framework considering the characteristics of the dataset should be specified more concretely, and empirical verification of the conversion and restoration for the dataset preservation format derived according to the selection criteria is necessary. Therefore, this study intends to propose a method for long-term preservation through empirical verification of the preservation format after deriving an evaluation the framework for the preservation format selection criteria considering the characteristics of the dataset.

초록보기
초록

본 연구는 실재 시스템 환경에서 문헌 분류를 위해 범주화 기법을 적용할 경우, 범주화 성능이 어느 정도이며, 적정한 문헌범주화 성능의 달성을 위하여 분류기 학습에 필요한 범주당 가장 이상적인 학습문헌집합의 규모는 무엇인가를 파악하기 위하여 kNN 분류기를 사용하여 실험하였다. 실험문헌집단으로15만 여건의 실제 서비스되는 데이터베이스에서 2,556건 이상의 문헌을 가진 8개 범주를 선정하였다. 이들을 대상으로 범주당 학습문헌수 20개(Tr20)에서 2,000개(Tr2000)까지 단계별로 증가시키며 8개 학습문헌집합 규모를 갖도록 하위문헌집단을 구성한 후, 학습문헌집합 규모에 따른 하위문헌집단 간 범주화 성능을 비교하였다. 8개 하위문헌집단의 거시평균 성능은 F1 값 30%로 선행연구에서 발견된 kNN 분류기의 일반적인 성능에 미치지 못하는 낮은 성능을 보였다. 실험을 수행한 8개 대상문헌집단 중 학습문헌수가 100개인 Tr100 문헌집단이 F1 값 31%로 비용대 효과면에서 분류기 학습에 필요한 최적정의 실험문헌집합수로 판단되었다. 또한, 실험문헌집단에 부여된 주제범주 정확도를 수작업 재분류를 통하여 확인한 후, 이들의 범주별 범주화 성능과 관련성을 기반으로 위 결론의 신빙성을 높였다.

Abstract

This paper examines a level of categorization performance in a reallife collection of abstract articles in the fields of science and technology, and tests the optimal size of documents per category in a training set using a kNN classifier. The corpus is built by choosing categories that hold more than 2,556 documents first, and then 2,556 documents per category are randomly selected. It is further divided into eight subsets of different size of training documents: each set is randomly selected to build training documents ranging from 20 documents (Tr20) to 2,000 documents (Tr2000) per category. The categorization performances of the 8 subsets are compared. The average performance of the eight subsets is 30% in F1 measure which is relatively poor compared to the findings of previous studies. The experimental results suggest that among the eight subsets the Tr100 appears to be the most optimal size for training a kNN classifier. In addition, the correctness of subject categories assigned to the training sets is probed by manually reclassifying the training sets in order to support the above conclusion by establishing a relation between and the correctness and categorization performance.

정보관리학회지