바로가기메뉴

본문 바로가기 주메뉴 바로가기

ACOMS+ 및 학술지 리포지터리 설명회

  • 한국과학기술정보연구원(KISTI) 서울분원 대회의실(별관 3층)
  • 2024년 07월 03일(수) 13:30
 

logo

검색어: extraction, 검색결과: 97
이지원(대구가톨릭대학교 문헌정보학과 교수) ; 이성숙(충남대학교 문헌정보학과 교수) 2024, Vol.41, No.1, pp.367-387 https://doi.org/10.3743/KOSIM.2024.41.1.367
초록보기
초록

본 연구는 새로운 표준과 규칙의 제정이 이루어지고 또한 향후 예고되어 있음으로 큰 변화의 과정을 거치고 있는 목록학에 있어 그동안 연구가 거의 없었던 해외 연구들의 최근 동향과 지적 구조를 규명하고자 하였다. 이를 위해 2010년 이후 14년간 발행된 논문 680편을 수집한 후, 이로부터 전처리를 거쳐 추출한 1,942개의 저자 키워드를 분석해보았다. 주요 분석 결과는 다음과 같다. 첫째, 해외 목록학 연구는 2017년 이후 주목할만한 성장세를 보이고 있었다. 둘째, 상위빈도 연구주제는 편목, 메타데이터, RDA, 대학도서관, 전거 제어, 링크드 데이터, FRBR, 목록, LCSH, 도서관, 온라인목록이었다. 셋째, 연구주제들은 크게 도서관 목록의 전통적인 부분과 관련된 것과 최근 들어 더욱 활발하게 논의가 진행되고 있는 주제인 전거제어와 협동편목, RDA, 링크드데이터와 관련된 2개의 군집으로 나눌 수 있었고, 이를 14개 소군집으로 세분하여 분석하였다. 넷째, 키워드 군집 14개의 성장지수와 표준 성과지수를 살펴본 결과, 하나의 군집을 제외하고는 학문 분야의 성장의 측면에서 모두 성장을 나타내는 수치를 보여주었다. 본 연구는 향후 국내 학계와 현장을 위한 목록의 발전 양상 예측하기 위한 기초자료 및 관련 교육에 유용하게 활용될 수 있다는 점에서 그 의의가 있다.

Abstract

This study aims to identify the recent trends and intellectual structure of international research in the field of catalog, which is undergoing a major change due to the enactment of new standards and rules and the anticipated future. For this purpose, we collected 680 articles published in the 14 years since 2010 and analyzed 1,942 author keywords extracted from them after preprocessing. The main findings of the analysis are as follows First, overseas cataloging research has seen notable growth since 2017. Second, the most frequent research topics were: cataloging, metadata, RDA, university libraries, authority control, linked data, FRBR, catalog, LCSH, libraries, andonline cataloging. Third, the research themes were divided into two clusters, one related to the traditional aspects of library cataloging and the other related to the more recently discussed topics of authority control, cooperative cataloging, RDA, and linked data, which were further subdivided into 14 subclusters. Fourth, we looked at the growth index and standard performance index of the 14 keyword clusters and found that all but one cluster showed growth in terms of discipline growth. This study is significant in that it can be used as a basis for predicting the future development of inventories for Korean academia and the field and for related education.

진설아(과학기술정책연구원) ; 송민(연세대학교) 2016, Vol.33, No.1, pp.7-32 https://doi.org/10.3743/KOSIM.2016.33.1.007
초록보기
초록

본 연구는 인용 정보와 주제범주 분류체계를 기반으로 한 기존 하향식 접근법과 달리 문헌에 출현한 단어정보를 기반으로 세부주제를 자동 추출하는 토픽 모델링을 사용하여 학제성을 측정하였다. JCR 2013의 Information & Library Science 주제범주에서 5년 영향력 지수 상위 20개 학술지의 최근 5년 동안의 논문 제목과 초록 텍스트를 분석대상으로 사용하였다. 학제성을 측정하기 위한 지수로 ‘분야적 다양성’을 나타내는 Shannon 엔트로피 지수와 Stirling 다양성 지수, ‘네트워크 응집성’을 나타내는 지수로는 토픽 네트워크의 평균 경로길이를 사용하였다. 계산된 다양성과 응집성 지수를 통해 학제성의 유형을 분류한 후 각 유형을 대표하는 학술지들의 토픽 네트워크를 비교하였다. 이를 통해 본 연구의 텍스트 기반 다양성 지수는 기존의 인용정보 기반 다양성 지수와 다른 양상을 보이고 있어 상호보완적으로 활용될 수 있으며, 다양성과 응집성을 모두 고려하여 분류된 각 학술지의 토픽 네트워크를 통해 개별 학술지가 다루는 세부주제의 특성과 연결 정도를 직관적으로 파악할 수 있었다. 이를 통해 토픽 모델링을 통한 텍스트 기반의 학제성 측정이 학술지의 학제성을 나타내는 데에 다양한 역할이 가능함을 확인하였다.

Abstract

This study has measured interdisciplinarity using a topic modeling, which automatically extracts sub-topics based on term information appeared in documents group unlike the traditional top-down approach employing the references and classification system as a basis. We used titles and abstracts of the articles published in top 20 journals for the past five years by the 5-year impact factor under the category of ‘Information & Library Science’ in JCR 2013. We applied ‘Discipline Diversity’ and ‘Network Coherence’ as factors in measuring interdisciplinarity; ‘Shannon Entropy Index’ and ‘Stirling Diversity Index’ were used as indices to gauge diversity of fields while topic network’s average path length was employed as an index representing network cohesion. After classifying the types of interdisciplinarity with the diversity and cohesion indices produced, we compared the topic networks of journals that represent each type. As a result, we found that the text-based diversity index showed different ranking when compared to the reference-based diversity index. This signifies that those two indices can be utilized complimentarily. It was also confirmed that the characteristics and interconnectedness of the sub-topics dealt with in each journal can be intuitively understood through the topic networks classified by considering both the diversity and cohesion. In conclusion, the topic modeling-based measurement of interdisciplinarity that this study proposed was confirmed to be applicable serving multiple roles in showing the interdisciplinarity of the journals.

최예진(이화여자대학교 문헌정보학과) ; 정연경(이화여자대학교) 2016, Vol.33, No.3, pp.63-83 https://doi.org/10.3743/KOSIM.2016.33.3.063
초록보기
초록

다양한 매체와 유형으로 생산되는 정보자원에 대한 이용이 높아짐에 따라, 정보자원을 기술하기 위한 정보조직의 도구로서 메타데이터에 대한 중요성이 높아지고 있다. 본 연구에서는 메타데이터 분야의 연구 영역을 파악할 수 있도록 동시출현단어 분석을 사용하여 메타데이터 분야의 지적 구조를 규명하고자 하였다. 이를 위하여 1998년 1월 1일부터 2016년 7월 8일까지 Web of Science 핵심컬렉션에 등재된 저널에 게재된 문헌을 대상으로 ‘metadata’라는 질의어로 Topic 검색을 수행하여, 총 727건의 논문에 대한 서지정보를 수집하였다. 이 중 저자 키워드를 가진 410건의 논문의 저자 키워드로 수집하고, 전처리 과정을 거쳐 저자 키워드 총 1,137개를 추출하여 최종적으로 빈도수 6회 이상의 키워드 37개를 분석대상으로 선정하였다. 이후 메타데이터 분야의 지적구조 규명을 위해 첫째, 네트워크 분석을 통하여 2개 영역 9개 군집을 도출하였으며, 메타데이터 분야 키워드들의 지적 관계를 시각화하고, 중심성 분석을 통한 전역 중심 키워드와 지역 중심이 높은 키워드를 제시하였다. 둘째, 군집분석을 실시하여 형성된 6개의 군집을 다차원축적지도상에 표시하였으며, 각 키워드들 간의 상관관계에 따른 지적구조를 제시하였다. 이러한 연구의 결과는 메타데이터 분야의 지적구조를 시각적으로 파악할 수 있게 하며, 향후 메타데이터 관련 교육과 연구의 방향성 모색에 유용하게 사용될 수 있을 것이다.

Abstract

As the usage of information resources produced in various media and forms has been increased, the importance of metadata as a tool of information organization to describe the information resources becomes increasingly crucial. The purposes of this study are to analyze and to demonstrate the intellectual structure in the field of metadata through co-word analysis. The data set was collected from the journals which were registered in the Core collection of Web of Science citation database during the period from January 1, 1998 to July 8, 2016. Among them, the bibliographic data from 727 journals was collected using Topic category search with the query word ‘metadata’. From 727 journal articles, 410 journals with author keywords were selected and after data preprocessing, 1,137 author keywords were extracted. Finally, a total of 37 final keywords which had more than 6 frequency were selected for analysis. In order to demonstrate the intellectual structure of metadata field, network analysis was conducted. As a result, 2 domains and 9 clusters were derived, and intellectual relations among keywords from metadata field were visualized, and proposed keywords with high global centrality and local centrality. Six clusters from cluster analysis were shown in the map of multidimensional scaling, and the knowledge structure was proposed based on the correlations among each keywords. The results of this study are expected to help to understand the intellectual structure of metadata field through visualization and to guide directions in new approaches of metadata related studies.

이재윤(명지대학교 문헌정보학과) ; 정은경(이화여자대학교 문헌정보학과) 2022, Vol.39, No.1, pp.309-330 https://doi.org/10.3743/KOSIM.2022.39.1.309
초록보기
초록

학문의 구조, 특성, 하위 분야 등을 계량적으로 규명하는 지적구조 분석 연구가 최근 급격히 증가하는 추세이다. 지적구조 분석 연구를 수행하기 위하여 전통적으로 사용되는 분석기법은 서지결합분석, 동시인용분석, 단어동시출현분석, 저자서지결합분석 등이다. 이 연구의 목적은 키워드서지결합분석(KBCA, Keyword Bibliographic Coupling Analysis)을 새로운 지적구조 분석 방식으로 제안하고자 한다. 키워드서지결합분석 기법은 저자서지결합분석의 변형으로 저자 대신에 키워드를 표지로 하여 키워드가 공유한 참고문헌의 수를 두 키워드의 주제적 결합 정도로 산정한다. 제안된 키워드서지결합분석 기법을 사용하여 Web of Science에서 검색된 ‘Open Data’ 분야의 1,366건의 논문집합을 대상으로 분석하였다. 1,366건의 논문집합에서 추출된 7회 이상 출현한 63종의 키워드를 오픈데이터 분야의 핵심 키워드로 선정하였다. 63종의 핵심 키워드를 대상으로 키워드서지결합분석 기법으로 제시된 지적구조는 열린정부와 오픈사이언스라는 주된 영역과 10개의 소주제로 규명되었다. 이에 반해 단어동시출현분석의 지적구조 네트워크는 전체 구성과 세부 영역 구조 규명에 있어 미진한 것으로 나타났다. 이러한 결과는 키워드서지결합분석이 키워드 간의 서지결합도를 사용하여 키워드 간의 관계를 풍부하게 측정하기 때문이라고 볼 수 있다.

Abstract

Intellectual structure analysis, which quantitatively identifies the structure, characteristics, and sub-domains of fields, has rapidly increased in recent years. Analysis techniques traditionally used to conduct intellectual structure analysis research include bibliographic coupling analysis, co-citation analysis, co-occurrence analysis, and author bibliographic coupling analysis. This study proposes a novel intellectual structure analysis method, Keyword Bibliographic Coupling Analysis (KBCA). The Keyword Bibliographic Coupling Analysis (KBCA) is a variation of the author bibliographic coupling analysis, which targets keywords instead of authors. It calculates the number of references shared by two keywords to the degree of coupling between the two keywords. A set of 1,366 articles in the field of ‘Open Data’ searched in the Web of Science were collected using the proposed KBCA technique. A total of 63 keywords that appeared more than 7 times, extracted from 1,366 article sets, were selected as core keywords in the open data field. The intellectual structure presented by the KBCA technique with 63 key keywords identified the main areas of open government and open science and 10 sub-areas. On the other hand, the intellectual structure network of co-occurrence word analysis was found to be insufficient in the overall structure and detailed domain structure. This result can be considered because the KBCA sufficiently measures the relationship between keywords using the degree of bibliographic coupling.

초록보기
초록

이 연구에서는 1999년 1월부터 2018년 6월 현재까지 약 20년 간의 기록관리를 주제로 한 뉴스 빅데이터 4,680 건을 ‘빅카인즈’에서 추출하여, 이를 대상으로 우리나라 언론의 기록관리 주제에 대해 시계열 기반으로 보도 특성을 분석하고자 하였다. 먼저, 기록관리에 대한 언론 보도량의 차이를 살펴보기 위해 시기별, 주제별, 언론사 유형별 보도량을 분석하였다. 또한 기록관리 주제에 대한 언론 보도 내용의 차이에 대한 특성을 분석하기 위해 단어빈도 기반 내용 분석과 언어 네트워크 분석을 수행하여 언론 보도 내용의 시기별, 주제별, 언론사 유형별 차이를 분석하였다. 분석 결과, 기록관리 분야 뉴스 보도는 보도량과 보도 내용에 있어 시기별, 주제별, 언론사별로 차이가 있는 것으로 나타났다. 뉴스 보도량은 2007년 대통령기록물관리법이 제정된 이후부터 증가하기 시작하여 2013년에 가장 많은 뉴스가 보도된 것으로 나타났으며, 정치와 사회 주제를 중심으로 중앙지와 경제지가 가장 많은 양의 뉴스를 보도한 것으로 나타났다. 또한 뉴스 보도 내용의 분석 결과, 기록관리가 도입된 처음 10년 동안은 기록관리의 현장 적용과 확산 과정에서 발생하는 이슈들을 중심으로 뉴스 주제가 형성되다가, 대통령기록물관리법 제정 이후로 기록관리가 정치적, 사회적 이슈의 주요 요인이 되면서 정치, 사회 분야의 뉴스가 많이 보도된 것으로 나타났다.

Abstract

The purpose of this study is to analyze the characteristics of Korean media on the topic of archives & records management based on time-series analysis. In this study, from January, 1999 to June, 2018, 4,680 news articles on archives & records management topics were extracted from BigKinds. In order to examine the characteristics of the media coverage on the archives & records management topic, this study was analyzed to the difference of the press coverage by period, subject, and type of the media. In addition, this study was conducted word-frequency based content analysis and semantic network analysis to investigate the content characteristics of media on the subject. Based on these results, this study was analyzed to the differences of media coverage by period, subject, and type of media. As a result, the news in the field of records management showed that there was a difference in the amount of news coverage and news contents by period, subject, and type of media. The amount of news coverage began to increase after the Presidential Records Management Act was enacted in 2007, and the largest amount of news was reported in 2013. Daily newspapers and financial newspapers reported the largest amount of news. As a result of analyzing news reports, during the first 10 years after 1999, news topics were formed around the issues arising from the application and diffusion process of the concept of archives & records management. However, since the enactment of the Presidential Records Management Act, archives & records management has become a major factor in political and social issues, and a large amount of political and social news has been reported.

윤재혁(성균관대학교 일반대학원 문헌정보학과) ; 도슬기(성균관대학교 일반대학원 문헌정보학과) ; 오삼균(성균관대학교 문헌정보학과) 2020, Vol.37, No.2, pp.197-223 https://doi.org/10.3743/KOSIM.2020.37.2.197
초록보기
초록

본 연구는 통합서지용 한국문헌자동화목록(KORMARC)으로 작성된 서지레코드를 FRBR의 저작(Work) 단위로 군집화 하는 과정에서 나타난 이슈사항들을 분석하고, 이에 대한 해결방안을 고안하였다. 특히 기존의 연구에서는 대표저작자를 식별하고 처리하는 기준이 명확하게 드러나지 않거나 파생저작 레코드의 대표저작자를 선정하는 방법에 대한 논의가 충분히 이루어지지 않았다. 따라서 본 연구는 저작을 창작하는 데 기여한 사람이 다수일 때 대표저작자를 명확하게 식별하기 위한 방법을 고안하는 데 초점을 맞추었다. 이를 위해 책임표시사항(245) 필드의 책임표시 태그(▼d, ▼e)에서 추출한 역할용어를 토대로 표준화된 저자역할용어사전을 개발하여 대표저작자 판별에 활용하는 방안을 마련하였다. 또한 저자명의 유사도와 표제의 유사도를 각각 계산하여 유사도가 일정 수준 이상인 경우 동일한 저작으로 군집화 하는 방법을 채택하였다. 각각의 유사도를 계산하여 동일 저작을 판단하므로 공백, 관제처리, 괄호제거와 같은 데이터 정제 조건을 조정하여 6가지 패턴에 따른 군집화의 정확도를 비교하였고, 저자명과 표제의 유사도가 모두 80퍼센트 이상일 때의 정확도가 가장 높게 나타났다. 본 연구는 대표저작자 선정을 위한 역할용어사전 개발, 대표저작자와 표제의 유사도를 별도로 측정하여 저작군집화를 시도한 실험연구이며 후속 연구에서는 표제 간 유사도 측정의 정확도를 향상시키는 방안과 FRBR 1그룹의 다른 개체(표현형, 구현형, 개별자료) 수준으로 확대하여 활용하는 방안, 국내에서 사용하고 있는 다른 형태의 MARC 데이터에 적용하는 방안을 고안할 예정이다.

Abstract

The purpose of this study is to analyze the issues resulted from the process of grouping KORMARC records using FRBR WORK concept and to suggest a new method. The previous studies did not sufficiently address the criteria or processes for identifying representative authors of records and their derivatives. Therefore, our study focused on devising a method of identifying the representative author when there are multiple contributors in a work. The study developed a method of identifying representative authors using an author role dictionary constructed by extracting role-terms from the statement of responsibility field (245). We also designed another way to group records as a work by calculating similarity measures of authors and titles. The accuracy rate of WORK grouping was the highest when blank spaces, parentheses, and controling processes were removed from titles and the measured similarity rates of authors and titles were higher than 80 percent. This was an experiment study where we developed an author-role dictionary that can be utilized in selecting a representative author and measured the similarity rate of authors and titles in order to achieve effective WORK grouping of KORMARC records. The future study will attempt to devise a way to improve the similarity measure of titles, incorporate FRBR Group 1 entities such as expression, manifestation and item data into the algorithm, and a method of improving the algorithm by utilizing other forms of MARC data that are widely used in Korea.

박자현(연세대학교) ; 송민(연세대학교) 2013, Vol.30, No.1, pp.7-32 https://doi.org/10.3743/KOSIM.2013.30.1.007
초록보기
초록

본 연구는 국내 문헌정보학 분야의 연구동향을 규명하기 위하여 문헌정보학 주요 학술지인, 정보관리학회지, 한국문헌정보학회지, 한국도서관․정보학회지, 한국비블리아학회지의 1970년도부터 2012년도까지 발표 논문 초록을 수집하여 LDA(Latent Dirichlet Allocation)기반의 토픽 모델링 실험을 수행하였다. 그 결과를 종합하면 다음과 같다. 첫째, 토픽모델링 실험에서 도출된 연구주제를 문헌정보학 주제분류표와 비교․분석한 결과, ‘정보학’영역의 디지털도서관, 이용연구, 인터넷, 전문가시스템, 계량정보학, 자동화, 정보검색, 정보시스템, ‘도서관 서비스’영역의 정보서비스, 도서관 유형별 서비스, 이용자 교육/정보리터러시, 서비스 평가, ‘문헌정보학 기초’영역의 도서관과 사회, 전문성, ‘자료조직’영역의 분류, 편목, 메타데이터, ‘도서관 경영’영역의 도서관 평가, 장서개발/관리, ‘서지학’영역의 고서지, ‘도서관 체제’영역의 도서관 및 정보정책, ‘출판’영역의 도서/출판, ‘기록관리학’영역의 하위주제 등과 연결할 수 있었다. 또한 가장 많은 연구주제가 발견된 학문영역은 정보학과 도서관서비스로 나타났다. 둘째, 문헌정보학의 주요 연구주제에서 도서관 유형별 서비스 및 평가, 인터넷, 메타데이터의 연구주제는 상승세를 보였으나, 도서, 분류, 편목, 고서지에 관한 연구주제는 하강세를 보였다. 셋째, 학술지를 구분하여 비교․분석한 결과, 정보관리학회지는 도서관에 관한 연구주제보다 정보학에 관한 연구주제가 많이 출현하였고, 한국문헌정보학회지와 한국도서관․정보학회지, 한국비블리아학회지는 도서관에 관한 연구주제가 정보학에 관한 주제보다 많이 나타났다.

Abstract

The goal of the present study is to identify the topic trend in the field of library and information science in Korea. To this end, we collected titles and abstracts of the papers published in four major journals such as Journal of the Korean Society for information Management, Journal of the Korean Society for Library and Information Science, Journal of Korean Library and Information Science Society, and Journal of the Korean BIBLIA Society for library and Information Science during 1970 and 2012. After that, we applied the well-received topic modeling technique, Latent Dirichlet Allocation(LDA), to the collected data sets. The research findings of the study are as follows: 1) Comparison of the extracted topics by LDA with the subject headings of library and information science shows that there are several distinct sub-research domains strongly tied with the field. Those include library and society in the domain of “introduction to library and information science,” professionalism, library and information policy in the domain of “library system,” library evaluation in the domain of “library management,” collection development and management, information service in the domain of “library service,” services by library type, user training/information literacy, service evaluation, classification/cataloging/meta-data in the domain of “document organization,” bibliometrics/digital libraries/user study/internet/expert system/information retrieval/information system in the domain of “information science,” antique documents in the domain of “bibliography,” books/publications in the domain of “publication,” and archival study. The results indicate that among these sub-domains, information science and library services are two most focused domains. Second, we observe that there is the growing trend in the research topics such as service and evaluation by library type, internet, and meta-data, but the research topics such as book, classification, and cataloging reveal the declining trend. Third, analysis by journal show that in Journal of the Korean Society for information Management, information science related topics appear more frequently than library science related topics whereas library science related topics are more popular in the other three journals studied in this paper.

정보관리학회지