바로가기메뉴

본문 바로가기 주메뉴 바로가기

ACOMS+ 및 학술지 리포지터리 설명회

  • 한국과학기술정보연구원(KISTI) 서울분원 대회의실(별관 3층)
  • 2024년 07월 03일(수) 13:30
 

logo

검색어: information selection, 검색결과: 5
1
이용구(계명대학교) ; 정영미(연세대학교) 2007, Vol.24, No.1, pp.321-342 https://doi.org/10.3743/KOSIM.2007.24.1.321
초록보기
초록

이 연구에서는 수작업 태깅없이 기계가독형 사전을 이용하여 자동으로 의미를 태깅한 후 학습데이터로 구축한 분류기에 대해 의미를 분류하는 단어 중의성 해소 모형을 제시하였다. 자동 태깅을 위해 사전 추출 정보 기반 방법과 연어 공기 기반 방법을 적용하였다. 실험 결과, 자동 태깅에서는 복수 자질 축소를 적용한 사전 추출 정보 기반 방법이 70.06%의 태깅 정확도를 보여 연어 공기 기반 방법의 56.33% 보다 24.37% 향상된 성능을 가져왔다. 사전 추출 정보 기반 방법을 이용한 분류기의 분류 정학도는 68.11%로서 연어 공기 기반 방법의 62.09% 보다 9.7% 향상된 성능을 보였다. 또한 두 자동 태깅 방법을 결합한 결과 태깅 정확도는 76.09%, 분류 정확도는 76.16%로 나타났다.

Abstract

This study presents an effective word sense disambiguation model that does not require manual sense tagging process by automatically tagging the right sense using a machine-readable dictionary, and attempts to classify the senses of those words using a classifier built from the training data. The automatic tagging technique was implemnted by the dictionary information-based and the collocation co-occurrence-based methods. The dictionary information-based method that applied multiple feature selection showed the tagging accuracy of 70.06%, and the collocation co-occurrence-based method 56.33%. The sense classifier using the dictionary information-based tagging method showed the classification accuracy of 68.11%, and that using the collocation co-occurrence-based tagging method 62.09%. The combined tagging method applying data fusion technique achieved a greater performance of 76.09% resulting in the classification accuracy of 76.16%.

초록보기
초록

인터넷 환경에서 정보검색의 기본적인 사안은 선택된 언어의 문자와 긴밀한 연관을 갖고 있다. 매큔-라이샤워시스템은 학술적 및 비학술적 적용을 위한 국제표준으로서, 목록 및 검색시 이용되고 있을 뿐만 아니라 대부분의 한국자료 이용자들에게서 널리 사용되고 있다. 현재 ISO, UNGEGN, LC, ALA, BL, 영국지명위원회와 유럽, 호주, 캐나다 등의 유관기관들은 모두 매큔-라이샤워시스템을 채택하여 사용하고 있다. 따라서 현재 도서관 일각에서 진행하려고 시도하는 2000년식 새한글로마자시스템으로의 표기방식 전환은 도서관 목록과 온라인DB 등에서 많은 혼란을 일으키게 할 것이다. 본 논문에서는 국제기관에서의 이 분야에 대한 노력을 소개하고, 현재 사용하고 있는 상세한 규정을 통하여 로마자시스템을 심층적으로 분석, 소개하여 향후 이 문제를 둘러싼 한국 도서관계가 현명한 판단과 대처를 할 수 있도록 연구결과를 제시하였다.

Abstract

The fundamental issue of information retrieval in the Internet-based society is closely interrelated with the characteristics of language selected. The McCune-Reischauer Romanization system is not only considered as the international standard for romanizing Korean language, it is also familiar to the majority of the Korean material users internationally. McCune-Reischauer system is adopted by the ISO, UNGEGN, ALA, LC, British PCGN, BL, and the relevant agencies in Europe, Canada and Australia etc. Encouraging for switching to the new Romanization system(2000) would result in complications among the library's catalogs and online databases, causing confusion for both staffs and readers. This paper analysed that the international efforts and rules for Romanizing Korean language materials and recommended direction for bibliographical issues.

3
김판준(신라대학교) ; 이재윤(경기대학교) 2007, Vol.24, No.4, pp.285-303 https://doi.org/10.3743/KOSIM.2007.24.4.285
초록보기
초록

본 연구는 연구 영역 분석을 위하여 통제어휘와 비통제어휘를 연계해서 사용하는 새로운 방법을 모색하기 위한 것이다. 동시출현단어분석은 크게 통제어휘와 비통제어휘를 사용하는 경우의 두 가지 유형으로 구분할 수 있는데, 통제어휘를 사용할 경우에는 자료 희귀성 및 색인자 효과가 단점이며, 비통제어휘를 사용할 경우에는 저자의 주관에 따른 단어 선택 및 단어의 중의성이 문제가 된다. 이 연구에서는 양자를 보완할 수 있는 방법으로, 통제어휘인 디스크립터를 비통제어휘인 단어와의 동시출현 정보로 표현하는 디스크립터 프로파일링을 제안하였다. 정보학 분야에 적용해본 결과, 디스크립터 프로파일링은 특정 영역의 최신 동향을 파악하는데 있어 통제어휘와 비통제어휘가 갖는 본질적인 문제점을 어느 정도 보완할 수 있는 것으로 나타났다.

Abstract

This study aims to explore a new technique making complementary linkage between controlled vocabularies and uncontrolled vocabularies for analyzing a research domain. Co-word analysis can be largely divided into two based on the types of vocabulary used: controlled and uncontrolled. In the case of using controlled vocabulary, data sparseness and indexer effect are inherent drawbacks. On the other case, word selection by the author's perspective and word ambiguity. To complement each other, we suggest a descriptor profiling that represents descriptors(controlled vocabulary) as the co-occurrence with words from the text(uncontrolled vocabulary). Applying the profiling to the domain of information science implies that this method can complement each other by reducing the inherent shortcoming of the controlled and uncontrolled vocabulary.

초록보기
초록

디지털 도서관을 통해 제공되는 정보 자원의 형태와 종류가 다양화됨에 따라 자료의 유형별로 적정 수준의 메타데이터를 정의하고 제공하는 것이 또 다른 과제로 대두되고 있다. 일반 텍스트 자료와 달리 수치로 표현된 데이터에 대한 해석을 필요로 하는 통계 자료의 특성상, 통계 도메인에서 메타데이터는 통계 자료의 검색뿐 아니라 검색된 자료의 정확한 이해와 활용을 위한 필수적인 도구로 인식되고 있다. 하지만 기존의 통계 메타데이터 연구는 통계 작성 기관이나 분석 기관의 전문적인 요구에 중점을 두고 있어, 인터넷을 통해 통계 자료에 접근하는 일반 이용자들의 관점에서의 논의는 상대적으로 부족한 실정이다.일반 이용자를 위한 통계 메타데이터에 대한 논의의 단초로서, 본 연구는 미국의 연방 통계 기관인 the Bureau of Labor Statistics (BLS, HYPERLINK "http://www.bls.gov/" http://www.bls.gov/) 및 the Energy Information Administration (EIA, HYPERLINK "http://www.eia.doe.gov/" http://www.eia.doe.gov/)의 웹사이트에 대한 내용 분석을 통해, 현재 인터넷을 통해 통계 자료에 접근하는 이용자들에게 제공되고 있는 메타데이터의 현황을 평가하였다. 본 사례 연구의 결과는 이들 웹사이트를 통해 제공되는 방대한 양의 자료에도 불구하고 메타데이터의 제공 수준은 국제 기구에 의해 정의된 최소 수준에 미치지 못함을 나타내고 있어,이용자 중심의 메타데이터 설계의 필요성을 재확인 하고 있다.

Abstract

As increasingly diverse kinds of information materials are available on the Internet, it becomes a challenge to define an adequate level of metadata provision for each different type of material in the context of digital libraries. This study explores issues of metadata provision for a particular type of material, statistical tables. Statistical data always involves numbers and numeric values which should be interpreted with an understanding of underlying concepts and constructs. Because of the unique data characteristics, metadata in the statistical domain is essential not only for finding and discovering relevant data, but also for understanding and using the data found. However, in statistical metadata research, more emphasis has been put on the question of what metadata is necessary for processing the data and less on what metadata should be presented to users.In this study, a case study was conducted to gauge the status of metadata provision for statistical tables on the Internet. The websites of two federal statistical agencies in the United States were selected and a content analysis method was used for that purpose. The result showing insufficient and inconsistent provision of metadata demonstrate the need for more discussions on statistical metadata from the ordinary web users’ perspective.

5
민기은(진성고등학교) ; 정영미(연세대학교) 2007, Vol.24, No.4, pp.73-96 https://doi.org/10.3743/KOSIM.2007.24.4.073
초록보기
초록

이 연구에서는 웹과 학술지를 통한 학술 커뮤니케이션의 특성을 각각 분석하고, 웹상에서의 학술 커뮤니케이션 패턴이 학문 분야에 따라 어떤 차이를 보이는지 비교하였다. 경제학과 컴퓨터공학정보시스템 분야에서 키워드를 추출하여 이와 관련된 학술적 웹페이지와 학술지 논문을 수집하였고, 이를 학술적 웹페이지의 특성, 웹페이지 동시링크와 학술지 논문 동시인용 데이터의 다차원척도(MDS) 분석, 시간의 흐름에 따른 학술 활동의 변화 등 세 가지 측면에서 분석하였다. 분석 결과, 웹과 학술지를 통한 학술 커뮤니케이션에는 공통점과 차이점이 나타났으며, 이런 현상은 두 학문 분야에서 모두 확인되었다. 그리고 웹을 통한 학술 커뮤니케이션의 경우 같은 학문 분야 내의 세부 주제에 따라서 고유한 특성이 나타나는 것을 볼 수 있었다.

Abstract

In this study, the characteristics of scholarly communication through the Web and scientific journals are explored, and scholarly communication patterns in two scientific disciplines are compared to reveal the difference. Economics and Computer Science-Information Systems are selected as two disciplines to be analyzed. In the data collection process, 10 keywords are extracted from a database for each subject field, and scholarly Web pages and journal articles related to these keywords are collected and analyzed. Our investigation includes the characteristics of scholarly Web pages, Multi-Dimensional Scaling (MDS) analysis of co-linked Web pages as well as co-cited journal articles, and changes in the scholarly communication activities occurring on the Web and in scientific journals respectively over time. We found certain differences as well as common features in scholarly communication patterns between the Web and scientific journals for both fields of Economics and Computer Science. We also found that scholarly communication occurring on the Web displays unique features for each subtopic within the same field of study.

정보관리학회지