바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

위키피디아 인물 아카이브 서비스 개선을 위한 분석 연구

Improving the Biography Archive Service of Wikipedia

한국문헌정보학회지 / Journal of the Korean Society for Library and Information Science, (P)1225-598X; (E)2982-6292
2018, v.52 no.1, pp.447-467
https://doi.org/10.4275/KSLIS.2018.52.1.447
최상희 (대구가톨릭대학교)
  • 다운로드 수
  • 조회수

초록

인물에 대한 기록정보는 사회의 주요 분야에서 특정기준에 맞는 유명한 인물에 한정하여 정보를 수집, 가공, 제공하는 인물데이터베이스 형태가 일반적이었으나 최근 위키피디아와 같이 이용자들이 참여하여 다양한 인물에 대하여 자유롭게 서술하며 디지털 아카이브로 축적하는 체제가 활성화되고 있다. 이 연구는 위키피디아 바이오그래피 포털에서 범죄자, 교수, 영화감독 카테고리에서 인물 유형별로 500건의 데이터를 각각 수집하여 서술된 내용간 유형별 차별성이 있는지 계량적으로 분석하였다. 용어의 빈도 분석과 차별지수 분석을 수행한 결과 차별지수가 각 유형별로 특화되어 있는 내용을 표현하는데 효과적인 것으로 나타났다. 이 연구에서는 차별지수값이 높은 상위 100개의 용어와 세 유형에 공통적으로 출현한 용어 고빈도어 100개를 워드 클라우드 형태로 활용하여 특정 유형의 인물에 대하여 서술하는 이용자와 이를 승인하는 에디터가 참조할 수 있는 가이드를 제시하고자 하였다.

keywords
인물기록, 위키피디아, 내용분석, 계량분석, 차별지수, Biographical Information, Wikipedia, Content Analysis, Bibliographic Analysis, Divergence Indicator

Abstract

Biographical information about people is usually collected and provided by a company or an institute which has a specific standard to select people for service. Recently, user oriented contents service like Wikipedia has started biographical information service, Wikipedia Biography Portal, in which users select people and freely describe about them. This study collected 500 biographical data from three categories of Wikipedia biography portal such as criminals, faculty, and directors. The contents of data from each category were analyzed with the word frequency and the divergence indicator to identify the characteristics of each category. As a result, divergency indicator is effective to represent the differential factors of each category. This study provides word clouds of top 100 word with divergence indicator and top 100 common words of three categories with word frequency as a guide for users to write about a person in these categories and for editors to accept and monitor the biography from users.

keywords
인물기록, 위키피디아, 내용분석, 계량분석, 차별지수, Biographical Information, Wikipedia, Content Analysis, Bibliographic Analysis, Divergence Indicator

참고문헌

1.

김유승. 2010. 아카이브 2.0 구축을 위한 이론적 고찰. 한국기록관리학회지, 10(2), 31-52.

2.

김하수 외. 2013. 정치와 언어의 관계에 대한 양적 분석 시론. 담화와 인지, 20(1), 79-111.

3.

김흥식, 김진형. 2011. 『경기도 역사인물의 문화콘텐츠화를 위한 OSMU 적용방안』. 수원: 경기개발연구원.

4.

남재우, 김성희. 2009. 기록정보서비스를 위한 Web2.0 적용에 관한 연구. 한국문헌정보학회지, 43(2), 123-146.

5.

설문원. 2010. 기록 검색도구의 발전과 전망. 기록학연구, 23, 3-43.

6.

송정숙. 2012. 부산의 기억과 로컬리티. 한국도서관․정보학회지, 43(2), 343-364.

7.

이재윤. 2007. 분포 유사도를 이용한 문헌클러스터링의 성능향상에 대한 연구. 정보관리학회지, 24(4), 267-283.

8.

이재윤, 김수정. 2016. 국내 재난 관련 연구 동향에 대한 계량정보학적 분석. 정보관리학회지, 33(3), 103-124.

9.

장혜란. 2001. 우리나라 온라인 인물데이터베이스의 비교 평가 연구. 한국도서관․정보학회지, 32(4), 283-302.

10.

한상길. 2008. 국내 인물데이터베이스의 구축과 서비스에 관한 비교 분석. 한국도서관․정보학회지, 39(4), 331-352.

11.

현문수, 김동철. 2013. 식별된 저자 지역사 인물 콘텐츠 개발을 위한 연구: 박기종 사례를 중심으로. 기록학연구, 36, 195-231.

12.

Callahan, E. S., and Herring, S. C. 2011. Cultural Bias in Wikipedia Content on Famous Persons." Journal of the Association for Information Science and Technology, 62(10), 1899-1915.

13.

Connor, P. 2014. Quantifying Immigrant Diversity in Europe." Ethnic and Racial Studies, 37(11), 2055-2070.

14.

Keith, G. F. 2017. Population Movements in a Warwickshire Village 1841-1891: Bidfordon-Avon." Local Population Studies, 98(1), 74-86.

15.

Leskinen P. et al. 2017. Modeling and Using an Actor Ontology of Second World War Military Units and Personnel. In: d'Amato C. et al. (eds) The Semantic Web - ISWC 2017. ISWC 2017, Vienna: Lecture Notes in Computer Science, vol. 10588: 280-296.

16.

Ofek, N., and Rokach, L. 2015. A Classifier to Determine which Wikipedia Biographies Will be Accepted." Journal of the Association for Information Science and Technology, 66(1),213-218.

17.

Thomson, A. 2016. Digital Aural History: An Australian Case Study." The Oral History Review, 43(2), 292-314.

18.

Soules, A. 2012. Where's the Bio? Databases, Wikipedia, and the Web." New Library World, 113(1/2), 77-89.

한국문헌정보학회지