9개 논문이 있습니다.
나는 이 글에서 ‘디지털 원어민’ 세대의 인문학도들이 실천할 수 있는 ‘디지털로 인문학 공부하기’의 방법을 ‘디지털 큐레이션’이라는 이름으로 제안하였다. 디지털 큐레이션은 디지털 미디어를 통해 획득한 디지털 자원을 체계적으로 조직화하여 지식과 이야기를 담은 디지털 콘텐츠를 만들어 내는 행위이다. ‘디지털 큐레이션’의 기술적인 방법론은 ‘시맨틱 데이터’의 편찬이다. ‘시맨틱 데이터’란 독립된 데이터의 나열이 아니라, 데이터 사이의 연결 방식을 표현함으로써 데이터에 담긴 의미를 명시적으로 설명할 수 있도록 구성된 정보 기술 형식을 말한다. 디지털 큐레이션은 디지털 아카이브라는 결과물을 만들어 낸다. ‘시맨틱 데이터’ 기반의 인문 지식 디지털 아카이브는 우리의 인문학적 탐구의 대상이 되는 세계를 데이터로 재현한 저작물이다. 이렇듯 큐레이팅 된 인문학 자원의 저장소인 시맨틱 데이터 아카이브에 대해 우리는 다음과 같은 활용성을 기대할 수 있다. 첫째, 여러 학문 분야에 걸친 데이터 통합: 학제간 의사소통과 협업을 촉진하여 인간의 지식과 문화를 총체적으로 이해할 수 있게 한다. 둘째, 교육적 응용 지원: 교육자와 학생은 이 아카이브를 다양한 문화 요소의 상호 연결성을 탐구하는 자원으로 사용할 수 있다. 셋째, 인공지능-준비성: 시맨틱 데이터 형식으로 큐레이팅 된 인문 지식 콘텐츠는 인공지능이 효과적으로 처리하고 이해하며 활용할 수 있는 데이터이다. 인문학 연구자와 학생들은 시맨틱 데이터 큐레이션을 통해 인공지능과 협업하는 미래 인문학을 준비해 갈 수 있다.
In this article, I introduce a method called ‘digital curation’ designed for humanities students who are part of the digital native generation. Digital curation involves systematically organizing digital resources to create informative and narrative-rich digital content. This process utilizes ‘semantic data,’ which is information structured to clearly define its own meaning and its relationships with other data. Semantic data usually involves entities such as people, places, or things, and delineates their interactions and connections. The primary outcome of digital curation is the creation of ‘digital archives’ that rely on semantic data. These archives serve as repositories for humanistic resources and effectively replicate the subjects studied in the humanities through structured data. The potential benefits of these semantic data-based archives include: 1. Enhancing interdisciplinary integration, which facilitates communication and collaboration across various fields, enriching our understanding of human knowledge and culture. 2. Supporting educational uses, where educators and students can utilize the archives to explore the interconnectedness of different cultural elements. 3. Preparing for future integration with AI, as the data format is well-suited for AI processing and utilization, enabling a collaborative future between humanities and artificial intelligence.
본 논문은 웹의 진화에서 링크드 데이터와 시맨틱 웹의 중요성을 탐구하였다. 특히 링크드 데이터 기술이 무엇을 의미하는지와 구체적으로 어떻게 구축되고 보여지는지를 검토하였다. 링크드 데이터는 시맨틱 웹을 구현하기 위한 기술적 접근 중 하나로 볼 수 있으며, 웹이라는 플랫폼을 누구나 활용할 수 있는 거대한 데이터베이스로 만드는 방법이다. 링크드 데이터 기술은 지식의 네트워크를 구축하여 학제간 연구와 새로운 통찰을 가능하게 하지만, 데이터의 질과 일관성에 의존하며 데이터화 과정의 주관성을 내포한다. 앞으로 링크드 데이터는 기술적 진보와 함께 데이터의 표준화와 개방성을 중시해야 하며, 개인정보 보호와의 균형을 찾아야 한다. 또한, 이 기술이 가져올 윤리적, 사회적 책임에 대한 심도 있는 고찰이 요구된다. 링크드 데이터의 도입은 단순한 기술 변화를 넘어 학문적 연구와 산업 발전에 큰 기여를 할 것으로 보인다. 그러나 정보 사회가 전통적인 정보 접근 방식을 완전히 대체하지는 못했다는 점을 인식하고, 새로운 기술에 대한 비판적 이해와 안전한 활용이 중요하다.
This paper explores the significance of Linked Data and the Semantic Web in the evolution of the web, specifically examining the implications of Linked Data technology and its implementation. Linked Data is viewed as a key technical approach for realizing the Semantic Web, transforming the web into an extensive database accessible to all. This technology fosters the creation of a knowledge network that facilitates interdisciplinary research and generates novel insights. However, its effectiveness relies heavily on the quality and consistency of the data, and it inherently involves the subjectivity of data processing. As we move forward, Linked Data must focus on the standardization and openness of data alongside technological advancements, while balancing these aspects with privacy concerns. Moreover, the adoption of this technology demands rigorous consideration of its ethical and social implications. The integration of Linked Data represents more than a mere technological shift; it promises substantial contributions to both academic research and industrial development. Nevertheless, it is crucial to acknowledge that the information society has not entirely supplanted traditional information access methods, emphasizing the need for critical engagement with and secure deployment of new technologies.
본고는 인도의 문헌들 가운데 ‘논서’(śāstra)라 통칭되는 학술적 장르의 문헌군을 TEI 가이드라인을 준수하여 인코딩할 수 있는 방안에 대해 논한다. SARIT 등의 프로젝트에서 인도의 문헌에 대한 텍스트 인코딩 기준안을 제시하고 있지만, 이는 문헌학적인 정보에 대한 인코딩만을 중점적으로 다루고 있다. 해석적 작업을 하는 연구자들의 관점에서 문헌 디지털화의 유용성을 최대화하기 위해서는 해석적 정보를 데이터화 해야 할 필요가 있다. 본고는 참조정보(언급정보, 인용정보)와 개념어 사용정보를 데이터로 간주하고 이를 TEI에 부합하고 SARIT과 호환가능한 스키마로 개발할 수 있는 방안을 제안한다. 이를 통해 성립하는 데이터세트은 인도철학에 대한 연구를 보다 견고한 역사적 기반 위에 올려놓을 것이다.
This paper discusses how the scholarly genre of Indian literature known as śāstra can be encoded according to TEI guidelines. While projects such as SARIT have proposed text encoding standards for Indian literature, they mainly focus on encoding philological information. To better serve the need of interpretatively oriented researchers, interpretive information is to also be defined as data. This paper proposes to consider reference information (mentions, quotations) and concept-word usage information as data and to develop a schema that is TEI-conformant and SARIT-compatible. The resulting dataset will place the study of Indian philosophy on a more solid historical footing.
This paper traces the history and development of the collaborative #DHmakes initiative to bring crafts into the mainstream of Anglophone digital humanities, starting in 2022 but building upon earlier calls to bridge the maker / craft divide. It argues for the importance of this work within digital humanities as a way of reconnecting technology with its textile roots, while also recognizing the creative and intellectual potential found in feminine-coded craft praxis. The history of different phases within digital humanities is often poorly documented. By recording the development of this recent movement – already a challenge following a mass exodus from Twitter, where much of these conversations initially took place – this paper captures the origins of an important moment in the field, as “digital humanities” was coming to understand itself more capaciously than the “digital” alone would imply.
한국어 형태소 분석 시 모델이 마주하는 어려움 중 하나는 모호성이다. 이는 한국어에서 기저형이 전혀 다른 형태소 조합이 동일한 표면형을 가질 수 있기 때문에 발생하며 이를 바르게 분석하기 위해서는 문맥을 고려하는 능력이 모델에게 필수적이다. 형태소 분석기 Kiwi는 이를 해결하기 위해 근거리 맥락을 고려하는 통계적 언어 모델과 원거리 맥락을 고려하는 Skip-Bigram 모델을 조합하는 방식을 제안한다. 제안된 방식은 모호성 해소에서 평균 정확도 86.7%를 달성하여 평균 50~70%에 머무르는 기존의 오픈소스 형태소 분석기, 특히 딥러닝 기반의 분석기들보다도 앞서는 결과를 보였다. 또한 최적화된 경량 모델을 사용한 덕분에 타 분석기보다 빠른 속도를 보여 대량의 텍스트를 분석하는 데에도 유용하게 쓰일 수 있다. 오픈소스로 공개된 Kiwi는 전술한 특징들 덕분에 텍스트 마이닝, 자연어처리, 인문학 등 다양한 분야에서 널리 사용되고 있다. 본 연구는 형태소 분석의 정확도와 효율성을 모두 개선했으나, 미등록어 처리와 한국어 방언 분석 등의 과제에서 한계를 보여 이에 대한 추가 보완이 필요하다.
One of the challenges faced by models in Korean morphological analysis is ambiguity. This arises because different combinations of morphemes with completely different base forms can share the same surface form in Korean, necessitating the model's ability to consider context for accurate analysis. The morphological analyzer Kiwi addresses this issue by proposing a combination of a statistical language model that considers local context and a Skip-Bigram model that considers global context. This proposed method achieved an average accuracy of 86.7% in resolving ambiguities, outperforming existing open-source morphological analyzers, particularly deep learning-based ones, which typically achieve between 50-70%. Additionally, thanks to the optimized lightweight model, Kiwi shows faster speeds compared to other analyzers, making it useful for analyzing large volumes of text. Kiwi, released as open source, is widely used in various fields such as text mining, natural language processing, and the humanities due to these features. Although this study improved both the accuracy and efficiency of morphological analysis, it shows limitations in handling out-of-vocabulary problem and analyzing Korean dialects, necessitating further improvements in these areas.
The “Shakespearean Character Network” dataset leverages XML editions of Shakespeare’s plays from the Folger Shakespeare Library to analyze character interactions and dynamics within the plays. These XML files, containing detailed textual data such as dialogue and stage directions, are processed using the Python script in the repository. The script generates matrices that document character presence on stage and their verbal exchanges, stored in various directories such as output_onstage and output_exchange. Additionally, visualizations like heatmaps and network graphs offer visual and quantifiable insights into character co-presence and communication patterns. Centrality measures and clustering indices, computed for these interaction networks, further enhance the analysis by quantifying the degree of character clustering and the intensity of their interactions. The dataset aims to provide a comprehensive view of the structural relationships in Shakespeare’s plays. This resource is for researchers aiming to explore the dynamics of Shakespearean characters through a combination of computational methods and literary analysis.
본 논문은 국사편찬위원회에서 발행한 근현대잡지자료의 RAWDATA를 취득하고 해당 데이터를 설계하고 구성을 탐색했다. 근현대잡지자료의 RAWDATA를 얻기 위하여, 공공데이터 포털의 공공데이터 제공 신청과 문서24를 통한 데이터 제공 신청을 행하였다. 그 결과 2024년 3월 27일 기준의 근현대잡지자료의 RAWDATA를 취득하였다. 근현대잡지자료 RAWDATA는 기본적으로 국사편찬위원회의 표준 XML 스키마(history.dtd)를 따르고 있다. <Level1>에서는 잡지 정보, <Level2>에서는 권호 정보, <Level3>에서는 개별기사 정보를 다루고 있다. 개별 기사의 본문은 <paragraph> 단위로 분리되어 있다. 문맥요소에는 index(객체명), emph(강조), pTitle(제목), name(저작자명), illustration(그림), tableGroup(표)이 존재한다. 다만, 현재 모든 잡지에 대한 본문 정보를 제공하고 있지 않기에 본문 텍스트가 있는 데이터에 대해서만 문맥요소가 제한적으로 존재한다. 근현대잡지자료 RAWDATA는 근대 문인 언어 분석과 근대 문인 사회네트워크 분석에서 사용할 수 있을 뿐만이 아니라, 나아가 근대 문학을 위한 형태소 분석기의 토대 데이터와 현대 한국어로의 번역 등 다양한 영역에서 사용할 수 있으리라 생각하며, 문학 연구자의 집단지성으로 한국근현대잡지자료의 RAWDATA가 더욱 풍성해지기를 기대한다.
This paper acquires and explores the data schema of the RAWDATA of Korean Modern and Contemporary Magazine Materials from the National Institute of Korean History (NIKH). To acquire the RAWDATA, a request for public data provision was submitted through the Public Data Portal, and a request for data provision was submitted through Docu24. As of March 27, 2024, the RAWDATA of Korean Modern and Contemporary Magazine Materials was acquired. The RAWDATA of Korean Modern and Contemporary Magazine Materials basically follows the NIKH standard XML schema (history.dtd). <Level1> deals with magazine information, <Level2> deals with volume information, and <Level3> deals with individual article information. The body of each article is divided into <paragraph> units. Contextual elements include index (object name), emph(emphasis), pTitle(title), name (author name), illustration(figure), and tableGroup(table), but they are currently only available for data that has body text, as not all magazines currently provide body text information. The RAWDATA of Korean Modern and Contemporary Magazine Materials can be used for analysis of modern literary language and modern literary social networks. It is also expected to be used in various fields such as the foundation data for morpheme analysis tools for modern literature and translation into modern Korean. We hope that the RAWDATA of Korean Modern and Contemporary Magazine Materials will become even richer through the collective intelligence of literary scholars.