
본문 바로가기 주메뉴 바로가기

ACOMS+ 및 학술지 리포지터리 설명회

  • 한국과학기술정보연구원(KISTI) 서울분원 대회의실(별관 3층)
  • 2024년 07월 03일(수) 13:30


검색어: 학습자, 검색결과: 89

문헌간 유사도를 자질로 사용하는 분류기에서 미분류 문헌을 학습에 활용하여 분류 성능을 높이는 방안을 모색해보았다. 자동분류를 위해서 다량의 학습문헌을 수작업으로 확보하는 것은 많은 비용이 들기 때문에 미분류 문헌의 활용은 실용적인 면에서 중요하다. 미분류 문헌을 활용하는 준지도학습 알고리즘은 대부분 수작업으로 분류된 문헌을 학습데이터로 삼아서 미분류 문헌을 분류하는 첫 번째 단계와, 수작업으로 분류된 문헌과 자동으로 분류된 문헌을 모두 학습 데이터로 삼아서 분류기를 학습시키는 두 번째 단계로 구성된다. 이 논문에서는 문헌간 유사도 자질을 적용하는 상황을 고려하여 두 가지 준지도학습 알고리즘을 검토하였다. 이중에서 1단계 준지도학습 방식은 미분류 문헌을 문헌유사도 자질 생성에만 활용하므로 간단하며, 2단계 준지도학습 방식은 미분류 문헌을 문헌유사도 자질 생성과 함께 학습 예제로도 활용하는 알고리즘이다. 지지벡터기계와 나이브베이즈 분류기를 이용한 실험 결과, 두 가지 준지도학습 방식 모두 미분류 문헌을 활용하지 않는 지도학습 방식보다 높은 성능을 보이는 것으로 나타났다. 특히 실행효율을 고려한다면 제안된 1단계 준지도학습 방식이 미분류 문헌을 활용하여 분류 성능을 높일 수 있는 좋은 방안이라는 결론을 얻었다


This paper studies the problem of classifying documents with labeled and unlabeled learning data, especially with regards to using document similarity features. The problem of using unlabeled data is practically important because in many information systems obtaining training labels is expensive, while large quantities of unlabeled documents are readily available. There are two steps in general semi-supervised learning algorithm. First, it trains a classifier using the available labeled documents, and classifies the unlabeled documents. Then, it trains a new classifier using all the training documents which were labeled either manually or automatically. We suggested two types of semi-supervised learning algorithm with regards to using document similarity features. The one is one step semi-supervised learning which is using unlabeled documents only to generate document similarity features. And the other is two step semi-supervised learning which is using unlabeled documents as learning examples as well as similarity features. Experimental results, obtained using support vector machines and naive Bayes classifier, show that we can get improved performance with small labeled and large unlabeled documents then the performance of supervised learning which uses labeled-only data. When considering the efficiency of a classifier system, the one step semi-supervised learning algorithm which is suggested in this study could be a good solution for improving classification performance with unlabeled documents.

심경(Systems R&D Center, Iris.Net) ; 정영미(연세대학교) 2006, Vol.23, No.2, pp.265-285 https://doi.org/10.3743/KOSIM.2006.23.2.265

문헌범주화에서는 학습문헌집합에 부여된 주제범주의 정확성이 일정 수준을 가진다고 가정한다. 그러나, 이는 실제 문헌집단에 대한 지식이 없이 이루어진 가정이다. 본 연구는 실제 문헌집단에서 기 부여된 주제범주의 정확성의 수준을 알아보고, 학습문헌집합에 기 부여된 주제범주의 정확도와 문헌범주화 성능과의 관계를 확인하려고 시도하였다. 특히, 학습문헌집합에 부여된 주제범주의 질을 수작업 재색인을 통하여 향상시킴으로써 어느 정도까지 범주화 성능을 향상시킬 수 있는가를 파악하고자 하였다. 이를 위하여 과학기술분야의 1,150 초록 레코드 1,150건을 전문가 집단을 활용하여 재색인한 후, 15개의 중복문헌을 제거하고 907개의 학습문헌집합과 227개의 실험문헌집합으로 나누었다. 이들을 초기문헌집단, Recat-1, Recat-2의 재 색인 이전과 이후 문헌집단의 범주화 성능을 kNN 분류기를 이용하여 비교하였다. 초기문헌집단의 범주부여 평균 정확성은 16%였으며, 이 문헌집단의 범주화 성능은 F1값으로 17%였다. 반면, 주제범주의 정확성을 향상시킨 Recat-1 집단은 F1값 61%로 초기문헌집단의 성능을 3.6배나 향상시켰다.


In text categorization a certain level of correctness of labels assigned to training documents is assumed without solid knowledge on that of real-world collections. Our research attempts to explore the quality of pre-assigned subject categories in a real-world collection, and to identify the relationship between the quality of category assignment in training set and text categorization performance. Particularly, we are interested in to what extent the performance can be improved by enhancing the quality (i.e., correctness) of category assignment in training documents. A collection of 1,150 abstracts in computer science is re-classified by an expert group, and divided into 907 training documents and 227 test documents (15 duplicates are removed). The performances of before and after re-classification groups, called Initial set and Recat-1/Recat-2 sets respectively, are compared using a kNN classifier. The average correctness of subject categories in the Initial set is 16%, and the categorization performance with the Initial set shows 17% in F1 value. On the other hand, the Recat-1 set scores F1 value of 61%, which is 3.6 times higher than that of the Initial set.


문헌정보학 분야의 국내 학술지 논문으로 구성된 문헌집합을 대상으로 기계학습에 기초한 자동분류의 성능에 영향을 미치는 요소들을 검토하였다. 특히, 「정보관리학회지」에 수록된 논문에 주제 범주를 자동 할당하는 분류 성능 측면에서 용어 가중치부여 기법, 학습집합 크기, 분류 알고리즘, 범주 할당 방법 등 주요 요소들의 특성을 다각적인 실험을 통해 살펴보았다. 결과적으로 분류 환경 및 문헌집합의 특성에 따라 각 요소를 적절하게 적용하는 것이 효과적이며, 보다 단순한 모델의 사용으로 상당히 좋은 수준의 성능을 도출할 수 있었다. 또한, 국내 학술지 논문의 분류는 특정 논문에 하나 이상의 범주를 할당하는 복수-범주 분류(multi-label classification)가 실제 환경에 부합한다고 할 수 있다. 따라서 이러한 환경을 고려하여 단순하고 빠른 분류 알고리즘과 소규모의 학습집합을 사용하는 최적의 분류 모델을 제안하였다.


This study examined the factors affecting the performance of automatic classification based on machine learning for domestic journal articles in the field of LIS. In particular, In view of the classification performance that assigning automatically the class labels to the articles in 「Journal of the Korean Society for Information Management」, I investigated the characteristics of the key factors(weighting schemes, training set size, classification algorithms, label assigning methods) through the diversified experiments. Consequently, It is effective to apply each element appropriately according to the classification environment and the characteristics of the document set, and a fairly good performance can be obtained by using a simpler model. In addition, the classification of domestic journals can be considered as a multi-label classification that assigns more than one category to a specific article. Therefore, I proposed an optimal classification model using simple and fast classification algorithm and small learning set considering this environment.

지선영(경기대학교 일반대학원 문헌정보학과) ; 최성필(경기대학교 문헌정보학과) 2021, Vol.38, No.1, pp.221-242 https://doi.org/10.3743/KOSIM.2021.38.1.221

본 연구에서는 사전학습 된 언어 모델을 기반으로 양방향 게이트 순환 유닛 모델과 조건부 랜덤 필드 모델을 활용하여 참고문헌을 구성하는 메타데이터를 자동으로 인식하기 위한 연구를 진행하였다. 실험 집단은 2018년에 발행된 학술지 40종을 대상으로 수집한 PDF 형식의 학술문헌 53,562건을 규칙 기반으로 분석하여 추출한 참고문헌 161,315개이다. 실험 집합을 구축하기 위하여 PDF 형식의 학술 문헌에서 참고문헌을 분석하여 참고문헌의 메타데이터를 자동으로 추출하는 연구를 함께 진행하였다. 본 연구를 통하여 가장 높은 성능을 나타낸 언어 모델을 파악하였으며 해당 모델을 대상으로 추가 실험을 진행하여 학습 집합의 규모에 따른 인식 성능을 비교하고 마지막으로 메타데이터별 성능을 확인하였다.


This study applied reference metadata recognition using bidirectional GRU-CRF model based on pre-trained language model. The experimental group consists of 161,315 references extracted by 53,562 academic documents in PDF format collected from 40 journals published in 2018 based on rules. In order to construct an experiment set. This study was conducted to automatically extract the references from academic literature in PDF format. Through this study, the language model with the highest performance was identified, and additional experiments were conducted on the model to compare the recognition performance according to the size of the training set. Finally, the performance of each metadata was confirmed.


본 연구의 목적은 물리적 환경의 품질을 측정하는 도구로서의 서비스스케이프 개념을 이용하여 학습공간의 서비스스케이프 요인이 이용자 만족과 지속의도에 미치는 영향과 학습활동유형의 조절효과를 확인하는데 있다. 선행연구 및 심층면담을 통해 청결성, 쾌적성, 편의성, 심미성, 접근성, 유연성의 6개의 학습공간 서비스스케이프 요인을 선정하였고, 수도권 지역의 대학생을 대상으로 설문조사를 진행하였다. 연구 결과, 청결성, 쾌적성, 편의성과 접근성 요인이 이용자 만족에 유의한 영향을, 이용자 만족은 지속의도에 유의한 영향을 미치는 것으로 나타났다. 또한 학습활동유형은 청결성, 쾌적성 요인과 이용자 만족 관계에 부(-)적 조절효과가 있는 것으로 나타났다. 본 연구는 학습공간으로의 대학도서관에 대한 이용자 만족을 높이는 물리적인 환경 구성의 기초자료를 제공하였다는데 의의를 둔다.


The purpose of this study is to investigate the effect of learning space Servicescape on the user satisfaction level and continuance intention and to identify moderating effect of the learning activity. The six Servicescape factors are selected after literature review and in-depth interviews; cleanliness, comfort, convenience, aesthetics, accessibility, and flexibility. The online survey is given to the university students at four-year private universities in Seoul metropolitan area. The result shows that among the learning space Servicescape factors, cleanliness, comfort, convenience, and accessibility have a significant impact on the user’s satisfaction and the user’s satisfaction response determines the continuance intention to the learning space. It is also found that the factors of cleanliness and comfort have a negative moderating effect on user satisfaction. This study implies that the result provides methods to develop the space arrangement for university libraries that provide the better-support to students’ learning experience.

허영수(연세대학교 언어정보학협동과정) ; 박지홍(연세대학교) 2021, Vol.38, No.2, pp.65-86 https://doi.org/10.3743/KOSIM.2021.38.2.065

외국어 교육 분야에서 학습자는 교육의 한 축을 이루는 중요한 부분이지만 한국어교육의 경우 교육 내용, 교수 방법, 교재 등에 비해 학습자 연구는 미진한 면이 있었다. 이에 학습자 연구, 그중에서도 학습전략 연구가 어떻게 이루어져 왔는지를 분석하고 더 나은 교육을 위해 연구가 필요한 부분을 도출해 보는 것은 의미가 있다. 본 연구에서는 한국어교육 분야에서 학습전략 연구의 현황을 분석하기 위해 학술지와 학위논문의 제목에 대해 동시출현단어 분석을 진행하였다. 연구 결과, 한국어 학습자의 학습전략 관련 가장 많은 연구가 이루어진 분야는 ‘읽기’이고, 대상은 ‘중국인 유학생’과 ‘결혼이민자’였다. 또한, 연구 주제에 대한 서브그룹 분석 결과를 보면 주요 서브그룹이 네 개가 나타나는데 ‘학문 목적 읽기’ 관련 그룹, ‘요청, 거절, 대화 등 화행’ 관련 그룹, ‘쓰기’ 관련 그룹, ‘어휘, 듣기’ 관련 그룹이다. 이를 통해 한국어 학습자의 학습전략과 관련해 연구자들의 주요 관심 분야가 ‘읽기, 화행’ 등임을 알 수 있으며, 연구 대상과 연구 분야가 부분적으로 편중되어 있는 상황이므로 다양한 분야와 대상으로 연구를 확대할 필요가 있음을 알 수 있다.


In the foreign language education, learners are an important part of education, however in the Korean language education, the study of learners was insufficient compared to the contents of education, teaching methods and textbooks. Therefore, it is meaningful to analyze how learner research, especially learning strategy research, has been conducted and derive areas that need research for better education. In this study, co-word analysis was conducted on the titles of academic journals and dissertations in order to analyze the learning strategy research in Korean language education. I found it is about “reading” that the most studies related to Korean language learners’ learning strategies were conducted and those studies’ subjects mostly were ‘Chinese international students’ and ‘marriage-immigrants’. In addition, the results of the subgroup analysis on the research topic show four major subgroups: a group related to ‘reading for academic purposes’, a group related to ‘request, rejection, conversation, etc.’, a group related to ‘writing’, and a group related to ‘vocabulary, listening’. This shows that the researchers’ major interests in studying Korean learner’s strategies are “reading” and “speaking” and their studies have been concentrated in the specific areas. Therefore, it is necessary for researchers to study various functions and subjects in Korean language learner’s learning strategies.


본 연구의 목적은 1) 소설 속 지명 데이터베이스(DB)를 구축하고, 2) 확장 가능한 지명 DB를 위해 자동으로 지명을 추출하여 데이터베이스를 갱신하며, 3) 데이터베이스 내의 소설지명과 용례를 검색하고 시각화하는 파일럿시스템을 구현하는 데 있다. 특히, 학습자료(training)에 해당하는 말뭉치(corpus)를 확보하기 어려운, 소설지명과 같이 현재 잘 쓰이지 않는 개체명을 자동으로 추출하는 것은 매우 어려운 문제이다. 효과적인 지명 정보 추출용 학습자료 말뭉치 확보 문제를 해결하기 위해 본 논문에서는 이미 수작업으로 구축된 웹 지식(어휘사전)을 활용하여 학습에 필요한 충분한 양의 학습말뭉치를 확보하는 방안을 적용하였다. 이렇게 확보된 학습용 코퍼스와 학습된 자동추출 모듈을 가지고, 새로운 지명 용례를 찾아 추가하는 지명 데이터베이스 확장 도구를 만들었으며, 소설지명을 지도 위에 시각화하는 시스템을 설계하였다. 또한, 시범시스템을 구현함으로써 실험적으로 그 타당성을 입증하였다. 끝으로, 현재 시스템의 보완점을 제시하였다.


This study aimed to design a semi-automatic web-based pilot system 1) to build a Korean novel geo-name, 2) to update the database using automatic geo-name extraction for a scalable database, and 3) to retrieve/visualize the usage of an old geo-name on the map. In particular, the problem of extracting novel geo-names, which are currently obsolete, is difficult to solve because obtaining a corpus used for training dataset is burden. To build a corpus for training data, an admin tool, HTML crawler and parser in Python, crawled geo-names and usages from a vocabulary dictionary for Korean New Novel enough to train a named entity tagger for extracting even novel geo-names not shown up in a training corpus. By means of a training corpus and an automatic extraction tool, the geo-name database was made scalable. In addition, the system can visualize the geo-name on the map. The work of study also designed, implemented the prototype and empirically verified the validity of the pilot system. Lastly, items to be improved have also been addressed.


본 연구에서는 학습주제의 연결망 구조와 스캔 및 클러스터 분석을 통해서 추출한 정보활용교육의 표준 학습주제를 가지고, 교과 교육과정과의 연계성을 갖춘 통합 정보활용교육과정을 개발하고자 하였다. 그리고 개발한 통합 정보활용교육과정의 실제 운영을 위한 교수-학습모형을 설계하였다. 본 연구에서는 정보활용교육과 교과 교육과정의 공통성 분석을 위해서 간학문적 성격을 갖는 정보활용교육의 학습주제를 분석기준으로 활용하였다. 공통성 분석결과 다음과 같은 특징을 발견하였다. 첫째, 제1학습주제(기초 학습기술과 인성 영역)가 속한 정보사회, 도서관, 정보기술, 협력기술 영역은 교과 교육과정과 연계성이 높게 나타났다. 둘째, 정보활용교육의 핵심 영역인 제2학습주제(정보문제 해결능력 영역)는 교과 연계성이 낮게 나타났다.


This study sought to develop an integrated information literacy curriculum that would have a strong relationship with curricula through the standard themes abstracted from theme network structures, scan and cluster analyses of the information literacy curricula. In addition, this study also attempted to develop a teaching-learning model for the developed integrated information literacy curriculum. This study utilized the themes of information literacy instruction that have interdisciplinary characteristics as analysis criteria in analyzing the commonality of information literacy instruction and the subject curricula. The following characteristics were found from the analyzing the areas of commonality. Foremost, the first themes(the fields of basic learning skills and nature) which belongs to the fields of information society, library, information technology, collaborative skills were found to have many relationships with the subject curricula. Next, the second themes(the field of information problem solving capabilities) which is the core field of information literacy instruction showed a weak relationship with the subject curricula.

김용환(연세대학교) ; 정영미(연세대학교) 2012, Vol.29, No.2, pp.155-171 https://doi.org/10.3743/KOSIM.2012.29.2.155

텍스트 범주화에 있어서 일반적인 문제는 문헌을 표현하는 핵심적인 용어라도 학습문헌 집합에 나타나지 않으면 이 용어는 분류자질로 선정되지 않는다는 것과 형태가 다른 동의어들은 서로 다른 자질로 사용된다는 점이다. 이 연구에서는 위키피디아를 활용하여 문헌에 나타나는 동의어들을 하나의 분류자질로 변환하고, 학습문헌 집합에 출현하지 않은 입력문헌의 용어를 가장 유사한 학습문헌의 용어로 대체함으로써 범주화 성능을 향상시키고자 하였다. 분류자질 선정 실험에서는 (1) 비학습용어 추출 시 범주 정보의 사용여부, (2) 용어의 유사도 측정 방법(위키피디아 문서의 제목과 본문, 카테고리 정보, 링크 정보), (3) 유사도 척도(단순 공기빈도, 정규화된 공기빈도) 등 세 가지 조건을 결합하여 실험을 수행하였다. 비학습용어를 유사도 임계치 이상의 최고 유사도를 갖는 학습용어로 대체하여 kNN 분류기로 분류할 경우 모든 조건 결합에서 범주화 성능이 0.35%~1.85% 향상되었다. 실험 결과 범주화 성능이 크게 향상되지는 못하였지만 위키피디아를 활용하여 분류자질을 선정하는 방법이 효과적인 것으로 확인되었다.


In text categorization, core terms of an input document are hardly selected as classification features if they do not occur in a training document set. Besides, synonymous terms with the same concept are usually treated as different features. This study aims to improve text categorization performance by integrating synonyms into a single feature and by replacing input terms not in the training document set with the most similar term occurring in training documents using Wikipedia. For the selection of classification features, experiments were performed in various settings composed of three different conditions: the use of category information of non-training terms, the part of Wikipedia used for measuring term-term similarity, and the type of similarity measures. The categorization performance of a kNN classifier was improved by 0.35~1.85% in F1 value in all the experimental settings when non-learning terms were replaced by the learning term with the highest similarity above the threshold value. Although the improvement ratio is not as high as expected, several semantic as well as structural devices of Wikipedia could be used for selecting more effective classification features.

김성언(Rutgers University) 2006, Vol.23, No.2, pp.207-227 https://doi.org/10.3743/KOSIM.2006.23.2.207

이 연구는 온라인 학습과정 중 학생들의 비공식 정보 추구 행태와 그들의 비공식 정보 요구를 지원하는 온라인 학습 환경을 알고자 한다. 연구 참여자는 미국 럿거스 대학 평생 교육 프로그램의 온라인 학생 29명이고, 설문지를 통해 수집한 데이터는 내용분석과 기술적 통계를 통해 분석되었다. 이 연구의 초점은 온라인 학생들이 학습 문제를 해결하기 위해 비공식 정보를 필요로 하는 이유와 그들이 온라인 학습 환경에서 구성원간의 의사소통을 통해 이를 해결하는 방식에 있다. 결론에서는 연구 결과에 기초하여 온라인 학생들의 비공식 정보 추구 행태를 지원하기 위하여 고려해야 할 사항들이 제안된다.


This study aims to examine online students informal information seeking behavior during their learning process and online learning environments to support their informal information needs. The participants of the study were 29 online students in the Professional Development Studies of Rutgers University. Data was collected by the questionnaire and was analyzed with content analysis and descriptive statistics. This study focuses on when and why online students need human interaction to solve their learning problems and how they communicate with others to meet their informal information needs. Moreover, how online students think about their personal communication opportunities and the functions of their online learning system to support their learning problems is also examined. Finally, online students suggest the ways to effectively support personal communication needed during learning process in online learning systems. Based on the findings of this study, a few considerations are suggested in conclusions.
