본 연구는 텍스트 분류를 위한 효율적인 자질선정 방법으로 자질 순위화 기법의 성능을 구체적으로 검토하였다. 지금까지 자질 순위화 기법은 주로 문헌빈도에 기초한 경우가 대부분이며, 상대적으로 용어빈도를 사용한 경우는 많지 않았다. 따라서 텍스트 분류를 위한 자질선정 방법으로 용어빈도와 문헌빈도를 개별적으로 적용한 단일 순위화 기법들의 성능을 살펴본 다음, 양자를 함께 사용하는 조합 순위화 기법의 성능을 검토하였다. 구체적으로 두 개의 실험 문헌집단(Reuters-21578, 20NG)과 5개 분류기(SVM, NB, ROC, TRA, RNN)를 사용하는 환경에서 분류 실험을 진행하였고, 결과의 신뢰성 확보를 위해 5-fold cross validation과 t-test를 적용하였다. 결과적으로, 단일 순위화 기법으로는 문헌빈도 기반의 단일 순위화 기법(chi)이 전반적으로 좋은 성능을 보였다. 또한, 최고 성능의 단일 순위화 기법과 조합 순위화 기법 간에는 유의한 성능 차이가 없는 것으로 나타났다. 따라서 충분한 학습문헌을 확보할 수 있는 환경에서는 텍스트 분류의 자질선정 방법으로 문헌빈도 기반의 단일 순위화 기법(chi)을 사용하는 것이 보다 효율적이라 할 수 있다.
This study specifically reviewed the performance of the ranking schemes as an efficient feature selection method for text classification. Until now, feature ranking schemes are mostly based on document frequency, and relatively few cases have used the term frequency. Therefore, the performance of single ranking metrics using term frequency and document frequency individually was examined as a feature selection method for text classification, and then the performance of combination ranking schemes using both was reviewed. Specifically, a classification experiment was conducted in an environment using two data sets (Reuters-21578, 20NG) and five classifiers (SVM, NB, ROC, TRA, RNN), and to secure the reliability of the results, 5-Fold cross-validation and t-test were applied. As a result, as a single ranking scheme, the document frequency-based single ranking metric (chi) showed good performance overall. In addition, it was found that there was no significant difference between the highest-performance single ranking and the combination ranking schemes. Therefore, in an environment where sufficient learning documents can be secured in text classification, it is more efficient to use a single ranking metric (chi) based on document frequency as a feature selection method.
전체 인구에서 65세 이상인 인구가 차지하는 비중이 갈수록 늘어가고 있으나 여러 세대가 교류하는 기회는 적으며 세대 갈등이 사회적인 문제로 대두되고 있다. 세대교류를 통해 이러한 문제점을 해결하려는 노력은 여러 분야에서 이루어졌으나 독서와 관련해서는 부족한 실정이다. 이러한 상황을 고려하여 노인과 청년이 참여하는 독서모임을 운영하고 참여자들과 개별 인터뷰를 진행하여 분석하고 시사점을 제시하는 질적 연구를 수행하였다. 연구 참여자들은 세대 간 교류를 할 기회가 적다는 점에 공감하였으며, 노인과 청년이 함께하는 독서모임 참여 경험을 통해 독서를 중심으로 한 세대교류가 서로에게 도움이 됨을 알게 되었고, 이러한 기회가 많아지기를 희망하였다. 이를 통해 다양한 세대가 교류하는 독서모임의 시사점을 제시하였다. 본 연구를 통해 다른 세대와 함께하는 독서모임이 활성화되고 사회적 독서의 장점이 널리 알려지기를 기대한다.
There are few opportunities for different generations to interact, and generational conflicts are emerging as a social problem as the number of people aged 65 and over is increasing. Efforts to solve the problem through interactions between the young and the old have been made in various fields, but reading-related intergenerational activities are rare. A qualitative study was conducted to provide constructive suggestions by hosting a book club for the young and the old, carrying out individual interviews, and analyzing them. Participants in this study agreed that there were few opportunities for intergenerational exchanges. However, they found that reading-based intergenerational activities were mutually beneficial in the intergenerational book club. The participants hoped the number of such occasions would increase. The study resulted in a few implications for intergenerational book clubs, which should help vitalize the book clubs and accentuate the benefits of social reading.
본 연구는 공공데이터 품질관리 모델, 빅데이터 품질관리 모델, 그리고 연구데이터 관리를 위한 데이터 생애주기 모델을 분석하여 각 품질관리 모델에서 공통적으로 나타나는 구성 요인을 분석하였다. 품질관리 모델은 품질관리를 수행하는 객체인 대상 데이터의 특성에 따라 생애주기에 맞추어 혹은 PDCA 모델을 바탕으로 구축되고 제안되는데 공통적으로 계획, 수집 및 구축, 운영 및 활용, 보존 및 폐기의 구성요소가 포함된다. 이를 바탕으로 본 연구는 연구데이터를 대상으로 한 품질관리 프로세스 모델을 제안하였는데, 특히 연구데이터를 대상 데이터로 하여 서비스를 제공하는 연구데이터 서비스 플랫폼에서 데이터를 수집하여 서비스하는 일련의 과정에서 수행해야하는 품질관리에 대해 계획, 구축 및 운영, 활용단계로 나누어 논의하였다. 본 연구는 연구데이터 품질관리 수행 방안을 위한 지식 기반을 제공하는데 의의를 갖는다.
This study analyzed the government data quality management model, big data quality management model, and data lifecycle model for research data management, and analyzed the components common to each data quality management model. Those data quality management models are designed and proposed according to the lifecycle or based on the PDCA model according to the characteristics of target data, which is the object that performs quality management. And commonly, the components of planning, collection and construction, operation and utilization, and preservation and disposal are included. Based on this, the study proposed a process model for research data quality management, in particular, the research data quality management to be performed in a series of processes from collecting to servicing on a research data platform that provides services using research data as target data was discussed in the stages of planning, construction and operation, and utilization. This study has significance in providing knowledge based for research data quality management implementation methods.
이 연구는 국내 대학도서관에서 운영하는 유튜브 콘텐츠에 대한 내용분석과 이용자의 댓글에 대한 감성 반응 분석을 통해 국내 대학도서관들의 유튜브를 활용한 도서관 서비스에 대해 종합적인 분석과 평가를 하였다. 연구 분석대상은 61개 대학도서관의 2,169개 유튜브 콘텐츠와 이용자의 댓글 6,487개였다. 연구결과로 국내 대학도서관의 유튜브 콘텐츠는 대분류 중 ‘자료’ 콘텐츠의 수량이 가장 많고 ‘소통’ 콘텐츠와 ‘교육’ 콘텐츠가 뒤를 이었으며, ‘홍보’ 콘텐츠가 가장 적었다. 소분류 중 ‘정보서비스’ 콘텐츠의 수량이 가장 많았으며 연구지원 서비스를 주된 내용으로 수록하였다. 국내 대학도서관의 유튜브 콘텐츠를 열람한 이용자의 감성 반응에 대한 분석에서 이용자 감성 반응이 가장 높게 나타난 대분류는 ‘자료’ 콘텐츠와 ‘소통’ 콘텐츠였다. 이용자 감성 반응은 모든 범주의 콘텐츠에서 긍정 반응이 대부분이었고 부정 반응은 긍정 반응에 비하여 적었으며, 빈번히 나타난 이용자 감성 표현은 ‘좋다’였다. 또한, 이용자 감성 반응에 사용된 어휘는 유튜브 콘텐츠의 내용에 대한 표현보다 영상에 등장하는 인물에 대한 표현이 많았다. 이용자의 평가는 콘텐츠의 기술적 품질에 관한 것 평가보다 콘텐츠의 내용에 관한 것이 많았다.
This study conducted a comprehensive analysis and evaluation of library services using YouTube through content analysis of YouTube content and emotional response analysis of user comments. This study analyzed 2,169 YouTube contents and 6,487 comments of users from 61 university libraries. The results showed that the number of ‘data’ content was the largest among 4 categories, followed by ‘communication’ and ‘education’ content, and ‘promotion’ content. Among the sub-classifications, the number of ‘information services’ contents was the largest. In the analysis of users’ emotional responses to YouTube content, the major categories of users’ emotional responses were ‘data’ content and ‘communication’ content. Most of the user’s emotional responses were positive in all categories of content, and the most frequent user emotional expression was ‘good’. In addition, the vocabulary used in the user’s emotional response was more about the person appearing in the video than the expression of the content of YouTube contents.
공공기관이 기록관리의 대상 범위를 규정하는 것은 설명책임을 다하고 국민의 알권리를 보장하기 위한 선결조건이라 할 수 있다. 본 연구에서는 공공기록물의 개념에 대해 정책적으로 접근하여 기록의 범위를 정함에 있어 포함해야 할 요건들을 식별하였다. 이를 위해 공공기록물법 및 전자정부법, 전자문서법 등의 현행법에서 정하고 있는 공공기록물의 개념과 범위를 분석하였다. 또한 전자화기록의 법적 증거력에 대해 국내외 사례를 검토하여 제도적 보완사항을 제시하였다.
Public institutions defining the legal scope of records management are a prerequisite to ensure the accountability and public’s right to know. In this study, the requirements essential for determining the legal scope of the concept of public records were identified. For this, the concept of policies and the scope of public records which were prescribed by current laws such as the Public Records Management Act, Electronic Government Act, and Framework Act on Electronic Documents and Transactions were analyzed by this study. Furthermore, by examining both domestic and foreign cases on the legal competence of evidence of digitized records, institutional supplementary points were proposed.
본 연구는 ‘우수한 성능의 메타데이터 속성 유사도 기반의 학술 문헌추천시스템’을 제안하는 데에 목적을 두고 있다. 본 연구에서는 정보조직에서 다루는 메타데이터의 활용과 계량정보학에서 다루고 있는 동시인용, 저자-서지결합법, 동시출현 빈도, 코사인 유사도의 개념을 활용한 문헌정보학 기반의 학술 문헌 추천기법을 제안하고자 하였다. 실험을 위해 수집한 ‘불평등’, ‘격차’ 관련 총 9,643개의 논문 메타데이터를 정제하여 코사인 유사도를 활용한 저자, 키워드, 제목 속성 간의 상대적 좌표 수치를 도출하였고, 성능 좋은 가중치 조건 및 차원의 수를 선정하기 위해 실험을 수행하였다. 실험 결과를 제시하여 이용자의 평가를 거쳤으며, 이를 이용해 기준노드와 추천조합 특성 분석 및 컨조인트 분석, 결과 비교 분석을 수행하여 연구질문 중심의 논의를 수행하였다. 그 결과 전반적으로는 저자 관련 속성을 제한 조합 혹은 제목 관련 속성만 사용하는 경우 성능이 뛰어난 것으로 나타났다. 본 연구에서 제시한 기법을 활용하고 광범위한 표본의 확보를 이룬다면, 향후 정보서비스의 문헌 추천 분야뿐 아니라 사회의 다양한 분야에 대한 추천기법 성능 향상에 도움을 줄 수 있을 것이다.
The purpose of this study is to propose a scholarly paper recommendation system based on metadata attribute similarity with excellent performance. This study suggests a scholarly paper recommendation method that combines techniques from two sub-fields of Library and Information Science, namely metadata use in Information Organization and co-citation analysis, author bibliographic coupling, co-occurrence frequency, and cosine similarity in Bibliometrics. To conduct experiments, a total of 9,643 paper metadata related to “inequality” and “divide” were collected and refined to derive relative coordinate values between author, keyword, and title attributes using cosine similarity. The study then conducted experiments to select weight conditions and dimension numbers that resulted in a good performance. The results were presented and evaluated by users, and based on this, the study conducted discussions centered on the research questions through reference node and recommendation combination characteristic analysis, conjoint analysis, and results from comparative analysis. Overall, the study showed that the performance was excellent when author-related attributes were used alone or in combination with title-related attributes. If the technique proposed in this study is utilized and a wide range of samples are secured, it could help improve the performance of recommendation techniques not only in the field of literature recommendation in information services but also in various other fields in society.
본 연구는 대학생의 이메일 기록관리 행태와 대학 이메일 정책에 관한 인식을 파악한 것이다. 이를 위해 국내 대학에 재학 중인 대학생 317명을 대상으로 이메일 기록관리의 필수요소인 이메일 공통사항, 작성, 관리, 보존, 인식, 총 5가지 항목으로 구성된 설문조사를 실시하였다. 또한 대학의 이메일 서비스 제공 방법에 따라 구글을 이용하는 대학, 마이크로소프트를 이용하는 대학, 자체 웹메일을 이용하는 대학, 총 3가지 유형으로 나눠 6명을 심층 면담하였다. 조사 결과 대학생은 이메일을 주소록, 클라우드 스토리지, 파일 저장, 협업 도구로 사용하고 있었고 기록생애주기에 따라 이메일을 체계적으로 관리하는 데에는 어려움을 겪고 있었다. 또한 모바일 서비스 및 첨부파일 보존에 한계가 있는 대학 자체 웹메일보다 부가기능의 사용이 가능한 외부 이메일 플랫폼 이용을 선호하는 경향이 나타났다. 이러한 대학생의 이메일 기록관리를 지원하기 위해 졸업생 이메일 계정 유지, 충분한 이메일 저장 공간 제공, 대학생 대상 이메일 기록관리 교육 및 가이드라인 제공 등을 제시하였다.
This study examines email records management patterns of undergraduate students and their perceptions of university email policy. The research collected data from 317 undergraduate students using a survey based on the five essential elements of email records management: common elements, email creation, email management, email preservation, and perception. Also, an in-depth interview was conducted with 6 undergraduate students, according to the method of university email service: Google, Microsoft, and in-house webmail. As a result, undergraduate students used email as an address book, cloud storage, file storage, and collaboration tool, and they had difficulties in systematically managing the email records according to the records lifecycle. Also, there was a tendency to prefer using an external email platform that can use additional functions to in-house webmail that has limitations in mobile service and preservation of attachments. Thus, this study suggests ways to help undergraduate students manage their email records, including maintaining graduates’ email accounts, providing sufficient email storage, and providing email records management training and guidelines for undergraduate students.
본 연구에서는 성격유형과 흥미유형에 따른 독서 감상문에 나타난 독서에 대한 반응의 차이를 탐구하였다. 이를 위해 대전의 D과학고등학교 3학년 학생 81명을 대상으로 성격유형분석 데이터, 흥미유형분석 데이터, 교과독서 활동으로 작성된 독서 감상문 데이터를 수집하였다. 수집된 독서 감상문의 토픽 분석을 수행하고, 성격유형(사고형, 감정형)과 흥미유형(탐구형, 탐구형 외)에 따른 독서 감상문의 토픽 발현 확률을 통계적으로 검증하였다. 이어서 키워드 네트워크 분석을 통해 단어들의 개념 연결 구조를 측정하고, 중심성 지표를 통해 토픽모델링의 분석 결과를 보완하였다. 연구 결과, 토픽 회귀분석을 통해 토픽2(이해와 공부)와 토픽3(읽기와 사고)에서 사고형(T)과 감정형(F) 간에 통계적으로 유의한 차이를 확인할 수 있었으며, 토픽2(이해와 공부)에서 탐구형과 탐구형 외 간에 통계적으로 유의한 차이가 확인되었다. 본 연구의 결과는 맞춤형 도서 추천이나 개인화를 고려한 독서교육의 기초자료로 활용될 수 있을 것이다.
This study aimed to investigate the difference in response to reading as shown in book reports by personality type and interest type. For this purpose, personality type analysis data, interest type analysis data, and book report data written in subject reading activities were collected from 81 third graders at D Science High School in Daejeon. Topic analysis was conducted on the collected book reports, and the probability of a topic being mentioned was statistically tested according to personality type (thinking type, feeling type) and interest type (investigative type, types other than investigative). Subsequently, the conceptual connection structure of words was measured by keyword network analysis, and the analysis results of topic modeling were complemented by the centrality index. As a result of the study, the topic regression analysis showed statistically significant differences between thinking type (T) and feeling type (F) in topic 2 (understanding and studying) and topic 3 (reading and thinking), and statistically significant differences between investigative type and non-investigative type in topic 2 (understanding and studying). The results of this study can be used as a basis for tailored book recommendations and personalized reading education.
이 연구는 도서관의 전자책 서비스가 지속되기 위한 전제 조건으로서, 전자책 라이선스의 합리적인 개선방안을 마련하기 위한 것이다. 전자책 라이선스를 둘러싸고 벌어지는 국내 도서관과 출판계의 첨예한 갈등을 이해하고, 이를 바탕으로 그 해결방안을 제안하고자 한다. 이를 위해서 전자책 대출 라이선스가 가지는 법적인 의미를 분석한다. 출판계와 도서관이 갈등을 빚는 근본적인 원인을 전자책의 특성을 함께 다루었다. 아울러 전자책 라이선스의 다양한 유형을 정리하고 우리나라를 비롯한 세계 주요 국가들(미국, 독일, 프랑스, 일본)의 도서관 전자책 라이선스 현황과 갈등의 양상을 파악하였다. 이를 바탕으로 국내의 문제를 해결하는 데 도움이 될 시사점을 제시하였다.
The purpose of this study is to develop a reasonable improvement plan for e-book licenses as a prerequisite for the continued operation of library e-book services. The study aims to understand the fierce conflict surrounding e-book licenses between domestic libraries and the publishing industry and to propose solutions based on this understanding. To achieve this, the legal meaning of e-book licenses is analyzed, and the fundamental reasons for conflict between the publishing industry and libraries are examined in relation to the characteristics of e-books. In addition, various types of e-book licenses are classified, and the status of library e-book licenses and conflicts in major countries around the world, including Korea, the United States, Germany, France, and Japan, are investigated. Based on this, implications that can help resolve domestic issues are presented.
본 연구는 국내 연구자가 저술한 논문의 데이터 가용성 진술(DAS)에 명시된 데이터 공유 메커니즘과 리포지터리를 조사함으로써 국내 연구자의 연구데이터 공유 현황과 특징을 탐구하는 것을 목적으로 한다. 이를 위하여 2014년부터 2022년까지 PLOS ONE에 게재된 국내기관 소속 연구자의 논문을 연구의 대상으로 선정하였다. 우선 논문 내 DAS 존재 현황을 파악하고 선행연구를 활용하여 데이터 공유 메커니즘의 유형을 분석하였으며, 시간의 흐름에 따른 데이터 공유 메커니즘별 변화 추이 등을 조사하였다. 그 결과, 대상 논문의 99.6%에 DAS가 작성되어 있으며 데이터 공유 메커니즘의 유형별 언급 양상은 국제적인 양상과 유사하되, 시간의 흐름에 따라 선호되는 유형이 변화하고 있음을 파악하였다. 이후 데이터 공유 메커니즘 중 리포지터리에 주목하여 DAS에 언급된 리포지터리의 횟수와 비율을 파악하고 다수 언급된 5개 리포지터리의 이용 변화 추이를 시계열적으로 분석하였다. 또한 리포지터리와 함께 언급된 데이터 접근점의 제시 방식과 유형, 유효성 등도 함께 조사하였다. 이를 통해 빈번하게 언급되는 상위 5개 리포지터리가 전체 리포지터리 언급의 60%를 차지하며 데이터 코드를 다루는 리포지터리의 이용이 증가하는 현황이 확인되었고, 리포지터리와 함께 제시된 데이터의 접근점은 대부분 유효하다는 사실을 파악할 수 있었다.
The purpose of this study is to investigate the current status and characteristics of research data sharing by domestic researchers by analyzing the data sharing mechanism and repository specified in DAS of papers authored by domestic researchers. To this end, in this study, papers of researchers belonging to domestic institutions published in PLOS ONE from 2014 to 2022 were selected as the subject of the study. First of all, the status of DAS’s existence in the papers was identified, the types of data-sharing mechanisms were analyzed using precedent studies, and the trend of changes in each data-sharing mechanism over time was investigated. As a result, it was found that DAS was written in 99.6% of the target papers, and the types of data-sharing mechanisms were similar to international patterns, but preferred types were changing over time. Afterward, focusing on repositories among data sharing mechanisms, the number and ratio of repositories mentioned in DAS were identified, and the trend of changes in use of the five repositories mentioned a lot was analyzed in a time series. In addition, the presentation method, type, and validity of the data access point mentioned along with the repository were also investigated. It was confirmed that the top five frequently mentioned repositories account for 60% of all repository mentions, and the use of a repository dealing with data codes is increasing; in addition, it was found that most of the data access points presented with the repository were valid.