본 연구의 목적은 빅데이터 연구 논문의 주제 분야 간의 연관관계를 분석하는데 있다. 동시 인용 관계를 적용하여 분석 대상의 주제 분야를 추출하였으며, R 프로그램의 Apriori 알고리즘을 이용하여 연관관계의 규칙을 분석하고, arulesViz 패키지를 사용하여 시각화하였다. 연구 결과 22개 주제 분야가 추출되었는데, 이들 주제 분야는 3가지 군집으로 구분되었다. 주제 분야의 연관관계 유형을 분석한 결과, 연관관계의 복잡성에 따라 ‘전문형’, ‘일반형’, ‘확대형’으로 구분되었다. 전문형에는 문헌정보학, 신문방송학 등이 포함되었고, 일반형에는 정치외교학, 무역학, 관광학 등이 포함되었고, 확대형에는 기타인문학, 사회과학일반, 관광학일반 등이 포함되었다. 이 연관관계는 빅데이터 연구자가 한 주제 분야를 인용할 때 관계가 있는 다른 주제 분야를 인용하는 경향을 보여주는 것으로, 도서관에서 학술정보서비스를 위해 연관관계를 활용한 서비스를 고려해야 할 필요가 있다.
The purpose of this study is to analyze the association among the subject areas of big data research papers. The subject group of the units of analysis was extracted by applying co-citation networks, and the rules of association were analyzed using Apriori algorithm of R program, and visualized using the arulesViz package of R program. As a result of the study, 22 subject areas were extracted and these subjects were divided into three clusters. As a result of analyzing the association type of the subject, it was classified into ‘professional type’, ‘general type’, ‘expanded type’ depending on the complexity of association. The professional type included library and information science and journalism. The general type included politics & diplomacy, trade, and tourism. The expanded types included other humanities, general social sciences, and general tourism. This association networks show a tendency to cite other subject areas that are relevant when citing a subject field, and the library should consider services that use the association for academic information services.
본 연구는 최근 열린 정부 데이터에 대한 다차원 척도, 모델 개발 연구가 시작되고 있으나, 도서관에서는 관련 연구가 부족하다는 점을 고려하여 도서관에 적용할 수 있는 오픈 데이터 품질측정 모델개발을 목적으로 하였다. 본 연구는 모델개발과 모델평가 두 단계로 수행하였다. 모델개발은 델파이 기법을 적용하였으며, 모델평가는 도서관 오픈 데이터 이용자를 대상으로 설문조사를 실시하여 모델의 타당도와 신뢰도를 측정하였다. 모델개발은 델파이 기법을 적용하여 총 4차례 수행하여 3개 차원, 18개 요인, 133개 측정요소로 구성된 모델을 도출하였다. 모델평가는 델파이 기법으로 완성한 모델을 도서관 오픈 데이터 이용자인 국내․외 사서, 개발자, 오픈 데이터 활동가를 대상으로 적합성 설문조사를 실시하여 모델의 타당도와 신뢰도를 검증하였다. 그 결과 당초 18개 요인, 133개 측정요소는 15개 요인, 54개 측정요소가 타당성을 확보한 것으로 나타났다. 신뢰도는 차원별, 측정요인별로 모두 기준치인 0.6 이상의 결과를 보여주고 있어 높은 신뢰도를 확보한 것으로 나타났다. 모델평가를 통한 이용자 타당도, 신뢰도 분석으로 전문가가 구성한 평가모델은 현장에서 즉시 활용될 수 있을 정도로 정제되었다.
This study draws on the current momentum to diversify open government data research through multidimensional scaling and model development. It formulates a quality assessment model applicable to library open data, taking into consideration the paucity of such research in the field. The model was developed using the Delphi method and verified for validity and reliability on the basis of a survey administered to library open data users. The results of the fourth round exhibited an average of 4.00 for all measured elements and a minimum validity of .75, rendering the model appropriate for use in quality assessments of library open data. The convergence and stability results provided by the expert panel fell below .50, confirming that there was no need to conduct further surveys in order to establish the validity of the Delphi method. The model's reliability likewise garnered results of .60 and above in all three dimensions. This Model completed with the input of the Delphi panel was put through a verification process in which library open data users such as domestic and international librarians, developers, and open data activists reviewed the model for validity and reliability. The model scored low on validity on account of its failure to load all measure factors and elements pertaining to the three dimensions. Reliability results, on the other hand, were at 0.6 and above for all dimensions and measured elements.
소설은 학교도서관에서 학생들이 가장 많이 열람하고 대출하는 장서이다. KDC는 학생들이 원하는 다양한 소설을 찾는데 제한점을 가진다. 이에 본 연구는 도서관과 서점, 출판사 등에서 사용하고 있는 소설 분류의 다양한 사례와 중학생의 소설 이용 행태를 설문 조사하여 이용자 요구에 맞게 소설 분류 개선안을 제안하였다. KDC 기호에 더하여 소설의 장르별 색띠를 부착하여 이용자들이 손쉽게 원하는 소설을 찾을 수 있도록 하였으며 추가적인 사항은 중학생들의 소설 접근성과 발견성을 향상시키고 향후 도서관이나 서점, 출판사에서 사용하는 소설 분야 세분에 대한 참고자료로 활용될 수 있을 것이다.
Fiction is a collection that most students read and borrow in school libraries. KDC has several limitations when students look for fiction books they need. In line with this, we surveyed various cases of fiction classifications used in libraries, bookstores, and publishers and use behaviors of fiction of middle school students. Based upon the result of the surveys, we proposed a better way of classifying fiction books according to user needs. In addition to the KDC number, color bands were attached according to genres so that users could easily find the desired books. These suggestions and other information will enhance the accessibility and discoverability to fiction books for middle school students and may be used as reference materials for fiction classification in libraries, bookstores, and publishers in the future.
본 연구는 E-ARK(European Archival Records and Knowledge Preservation)를 기반으로 한 디지털 아카이빙 모델을 제안하는 것을 목적으로 한다. 이를 위해 디지털 아카이빙 관련 국제 표준과 기술 사항을 분석하여 디지털 아카이브의 핵심 기능 영역을 도출하고 기능 모델 구축에 필요한 기술, 정보패키지와 메타데이터 구현을 위한 요구사항을 파악하였다. 디지털 아카이브의 전반적인 프로세스를 고려하여 정보패키지 구성에 있어서 상호운용성을 확보할 수 있는 디지털 아카이빙 모델을 제안하였다.
This study aims to present a model of digital archiving based on E-ARK. It analyzed the international standards and technological specifications designed for digital archiving. The analysis employed in study explored the common specifications including core processes, information packages, and metadata structure needed for digital archiving. Based on the analysis and reviews, this study developed a model for digital archiving, in order to achieve interoperability of information packages throughout the process.
본 연구는 기록물관리 전문요원의 인구사회학적 특성에 따른 직무스트레스, 우울, 상태불안 수준의 차이와, 그들의 직무스트레스가 우울 수준에 미치는 영향 관계에 있어 상태불안 수준의 매개효과가 유의하게 나타나는지를 분석하였다. 이를 위해 기록물관리 전문요원들을 대상으로 인구사회학적 특성을 포함해 총 9요인으로 구성된 직무스트레스와 우울 수준, 상태불안 수준을 묻는 설문지를 배포해 최종적으로 98부의 설문데이터를 회수했고, 다중회귀분석을 이용해 매개분석을 시도했다. 그 결과 모든 요인에서의 직무스트레스와 우울 사이에서 상태불안이 완전매개 효과를 보이는 것으로 나타나, 기록물관리 전문요원들의 우울수준을 낮추기 위해 그들의 상태불안 수준이 필히 관리되어야 하는 것으로 분석되었다.
This study examined differences in job stresses, depression and state anxiety levels relating to sociological characteristics of records managers and studying whether the mediating effect of state anxiety levels significantly occurs on the depression followed by their job stresses. So we distributed questionnaires of 9 factors including sociological characteristics to record managers, asking them job stresses, depression, and state anxiety levels, and collected 98 questionnaires finally. We analyzed the effect of mediation on the surveyed data using Regression Analysis. As a result, it was found that there is a full mediating effect of state anxiety level between job stress and depression, and that, therefore, state anxiety levels of the record managers must be managed to lower their depression levels.
본 연구는 실증적 데이터의 검토 및 분석을 통해 이용자연구와 실용연구 분야의 특징을 발견하고, 이용자연구와 실용연구 분야의 융합 가능성을 논하고자 수행되었다. 이용자연구의 개척 및 확장 가능성을 살펴보기 위해, 실용연구 분야 중 UX 연구를 선택하여 비교하였고, 이용자연구 영역과 UX 영역의 주제어 및 분야별 중복도를 살펴보았다. 연구를 위해 국내 이용자연구 3,370개 논문과 국내 UX 연구 2,413개 논문, 국외 이용자연구 3,875개 논문과 국외 UX 연구 2,515개 논문을 수집하였고, 단순 출현빈도를 포함한 계량정보학적 분석 방법을 이용하여 네트워크 맵핑 및 순위 선정, 시기별 비교분석을 수행하였다. 분석 결과 국내의 이용자연구와 UX 연구 중복도는 국외보다 낮은 편이었고, 분야 간 협업의 활발성이 중복도와 연관이 있다고 해석할 수 있었다. 시기별 분석을 통해 이용자연구와 UX 연구간 중복되는 키워드가 점차 증가하고 있음을 발견하였기에, 향후 이용자연구와 실용연구 분야 간의 융합이 활발히 일어날 가능성을 엿볼 수 있었다.
This research aims to discover various aspects of the user studies and the research in practice and also to propose collaboration methods by empirical analysis of the data. To determine the application applicability of the user studies in other subject areas, the degree of keyword overlap between the user studies and the User Experience (UX), one of the research in practice discipline, was measured. The quantitative information science methods including simple frequency analysis were applied to more than ten thousand published papers to generate the network mapping and ranking as well as comparative analysis by time. The analysis result showed that there were slightly lesser overlap between the user studies and the UX in the domestically published articles than the international ones. It also revealed that there is a relationship between the actual occurrences of collaboration and the keyword overlap. The temporal analysis showed that there is increasingly more keyword overlap between two disciplines and thus it is possible to predict the active convergence in the future.
빅 데이터 시대에 접어들면서 저장 기술과 처리 기술이 급속도로 발전함에 따라, 과거에는 간과되었던 롱테일(long tail) 데이터가 많은 기업과 연구자들에게 관심의 대상이 되고 있다. 본 연구는 롱테일 법칙의 영역에 존재하는 데이터의 활용률을 높이기 위해 텍스트 마이닝 기반의 기술 용어 네트워크 생성 및 통제 기법을 제안한다. 특히 텍스트 마이닝의 편집 거리(edit distance) 기법을 이용해 학문 분야에서 사용되는 기술 용어의 상호 네트워크를 자동으로 생성하는 효과적인 방안을 제시하였다. 데이터의 활용률 향상 실험을 위한 데이터 수집을 위해 LOD(linked open data) 환경을 이용하였으며, 이 과정에서 효과적으로 LOD 시스템의 데이터를 활용하는 기법과 용어의 패턴 처리 알고리즘을 제안하였다. 마지막으로, 생성된 기술 용어 네트워크의 성능 측정을 통해 제안한 기법이 롱테일 데이터의 활용률 제고에 효과적이었음을 확인하였다.
As data management and processing techniques have been developed rapidly in the era of big data, nowadays a lot of business companies and researchers have been interested in long tail data which were ignored in the past. This study proposes methods for generating and controlling a network of technical terms based on text mining technique to enhance data utilization in the distribution of long tail theory. Especially, an edit distance technique of text mining has given us efficient methods to automatically create an interlinking network of technical terms in the scholarly field. We have also used linked open data system to gather experimental data to improve data utilization and proposed effective methods to use data of LOD systems and algorithm to recognize patterns of terms. Finally, the performance evaluation test of the network of technical terms has shown that the proposed methods were useful to enhance the rate of data utilization.
이용자 정보이용환경이 웹으로 변화하면서, 기록관리기관들도 종전보다 더 많은 서비스를 웹을 통해 제공하고 있다. 이 연구는 국가기록원 웹사이트를 이용하는 이용자의 최근 유입경로와 10년 반 동안 매달 상위 100개의 검색어 데이터를 분석하고 그에 맞는 기록정보서비스방안을 제시한다. 분석 결과 유입경로는 크게 포털 사이트별 접속, 국가별 접속, 유사기관별 접속 및 모바일 접속으로 분류할 수 있었다. 이용자들의 검색어를 분석한 결과 이용자들이 10년 반 동안 가장 많이 검색한 검색어는 ‘토지조사부’였으며, 꾸준한 관심을 갖고 검색한 검색어 또한 ‘토지조사부’였다. 그 외에 정부 기관에서 생산한 문서 또는 관보에 대한 관심도 높음을 확인하였다. 그리고 이용자들이 가장 많이 검색한 검색어와 꾸준히 등장한 검색어를 파악한 결과, 검색어들을 크게 토지, 일제강점기, 6․25 전쟁과 남북관계, 기록관리 및 이용으로 묶어볼 수 있었다. 분석결과를 토대로 포털 사이트 및 모바일 등을 활용한 국가기록원 웹사이트의 연계성 강화와 검색 서비스의 고도화 방안을 제안하였다. 이 연구는 이렇게 웹로그나 이용자 검색어 등을 분석하면 기록관리기관 이용자들에게 제공하는 서비스를 고도화할 수 있는 의미 있는 결과를 얻을 수 있음을 확인하였다.
As the users’ information use environment changes to the Web, the archives are providing more services on the Web than before. This study analyzes the users’ recent inflow route and the highly ranked 100 search terms of each month for 10 and half years in the Web site of National Archives of Korea, and suggests suitable information services. As a result of the analysis, it was found out that the inflow route could be divided into access from portal site, by country, from related institutions, and via mobile platform. As a result of analyzing the search terms of users for the last 10 and half years, the most frequently searched term turned out to be ‘Land Survey Register’, which was also the search term that was searched for with steady interests for 10 and half years. Also, other government documents or official gazettes were of great interests to users. As results of identifying the most frequently searched and steadily searched terms, we were able to categorize the search terms largely in terms of land, Japanese colonial period, the Korean war and relationship of North Korea and South Korea, and records management and use. Based on the results of the analysis, we suggested strengthening connection of the National Archives Web site with portal sites and mobile, and upgrading and improving search services of the National Archives. This study confirmed that the analysis of Web log and user search terms would yield meaningful results that could enhance the user services in archives.
본 연구는 국내 대학도서관 서양서 장서 개발의 변화를 살펴보기 위해 2003년과 2013년에 출판된 서양서 소장 실태를 KERIS 종합목록을 통해 분석하였다. 이를 위해 새로운 장서 지표로 소장 h-지수, 장서 고유성 지수, 그리고 공통장서 확보율을 제안하고 기본 지표인 종수 및 책수, 그리고 종당 책수와 함께 활용하였다. 분석 결과 2003년에 비해서 2013년에 출판된 서양서의 전체 소장 종수는 16.1% 감소하고 소장 책수는 42.2% 감소하여 소장 책수가 더 크게 감소하였다. 여러 도서관이 공통적으로 소장하는 공통 장서, 또는 기본 장서의 규모를 나타내는 공통장서 확보율은 줄어들었고, 장서고유성은 증가하였다. DDC 주류 중에서는 컴퓨터 관련 도서가 급감한 0XX(총류) 분야의 감소율이 가장 컸다. 도서관별 장서량 측면에서는 2003년에 비해서 2013년 출판도서의 경우에 상위 도서관이 더욱 과점하는 빈익빈 부익부 현상이 심화되었다.
This study analyzed Korean university libraries’ holdings of Western language books published in 2003 and 2013 using the KERIS union catalog with a view to investigating the changes in collection development of Western language books in the libraries. To do that, new collection indexes - holding h-index, CUI (Collection Uniqueness Index), and CCHR (Common Collection Holding Ratio) - were suggested, and they were used with basic indexes such as the number of titles, the number of books, and the number of books per title. The analysis reveals that compared to those published in 2003, the number of titles was decreased by 16.1% with those published in 2013, and the number of books dropped more sharply, by 42.2%. Also, in 2013, CCHR was decreased while CUI was increased. In terms of subject, among DDC main classes, 0XX (Generalities) showed the greatest decrease rate in both the number of titles and books because of the radical reduction of computer-related books. In terms of each library’s holdings, the number of Western language books held by top libraries has been increased with those published in 2013.
본 논문에서는 온라인 뉴스 기사에서 자동으로 추출된 키워드 집합을 활용하여 특정 시점에서의 세부 주제별 토픽을 추출하고 정형화하는 새로운 방법론을 제시한다. 이를 위해서, 우선 다량의 텍스트 집합에 존재하는 개별 단어들의 중요도를 측정할 수 있는 복수의 통계적 가중치 모델들에 대한 비교 실험을 통해 TF-IDF 모델을 선정하였고 이를 활용하여 주요 키워드 집합을 추출하였다. 또한 추출된 키워드들 간의 의미적 연관성을 효과적으로 계산하기 위해서 별도로 수집된 약 1,000,000건 규모의 뉴스 기사를 활용하여 단어 임베딩 벡터 집합을 구성하였다. 추출된 개별 키워드들은 임베딩 벡터 형태로 수치화되고 K-평균 알고리즘을 통해 클러스터링 된다. 최종적으로 도출된 각각의 키워드 군집에 대한 정성적인 심층 분석 결과, 대부분의 군집들이 레이블을 쉽게 부여할 수 있을 정도로 충분한 의미적 집중성을 가진 토픽들로 평가되었다.
In this paper, we propose a new methodology for extracting and formalizing subjective topics at a specific time using a set of keywords extracted automatically from online news articles. To do this, we first extracted a set of keywords by applying TF-IDF methods selected by a series of comparative experiments on various statistical weighting schemes that can measure the importance of individual words in a large set of texts. In order to effectively calculate the semantic relation between extracted keywords, a set of word embedding vectors was constructed by using about 1,000,000 news articles collected separately. Individual keywords extracted were quantified in the form of numerical vectors and clustered by K-means algorithm. As a result of qualitative in-depth analysis of each keyword cluster finally obtained, we witnessed that most of the clusters were evaluated as appropriate topics with sufficient semantic concentration for us to easily assign labels to them.