2022. 10. 6. 21:04ㆍ디지털 인문학이란
LINK
https://aclanthology.org/2022.lchange-1.13/
“Vaderland”, “Volk” and “Natie”: Semantic Change Related to Nationalism in Dutch Literature Between 1700 and 1880 Ca
Marije Timmermans, Eva Vanmassenhove, Dimitar Shterionov. Proceedings of the 3rd Workshop on Computational Approaches to Historical Language Change. 2022.
aclanthology.org
Introduction
- 19세기, 근대성, 민족주의 : 1750년부터 1850년까지의 시기 동안 독서 대중은 확장되었고 사람들은 과거와 미래에 대해 생각하는 것에 익숙해졌다. 이데올로기로는 민족주의가 주요하였으며 추상적인 컨셉들이 정치적으로 적용 가능해짐.
- 1700년 ~ 1880년 네덜란드 소설 : 네덜란드 사회에서의 Sattelzeit(문화적 과도기) 시대 민족주의 문화사상의 발전을 포착하고자 문학 컨텍스트를 활용.
- “natie” (“nation”), “volk” (“people”) and “vaderland” (“fatherland”) : 국가, 국민, 조국(영토적 의미)의 의미 표류량(semantic drift)을 정량화하여 컨텍스트 변화량을 측정하여 문화적 정치적 사상의 의미 변화가 실제로 존재하는지 여부를 파악하고자 함.
Related Work
- Begriffsgeschichte : 시간이 지남에 따라 개념이 어떻게 변해왔는지를 연구하는 개념사 연구는 정성적 연구 내에서 주요 연구 중 하나임
- Dynamic Word Embedding
- 정량적 연구 방법론인 word embedding은 텍스트의 분포를 기반으로 구성된 단어의 분포에 대한 표현, 이는 2가지 단점이 존재
- 단어 임베딩은 그 알고리즘상 global minima를 찾는 대신 local minima 중 하나를 찾는다. 따라서 인접한 시간대의 벡터 공간을 정렬하는 과정이 필요.(alignment problem)
- 코퍼스를 시간대별로 나누다보면 각각의 코퍼스 사이즈는 작아짐. 그래서 전체 코퍼스 자체가 굉장히 커야함.
- 시간대로 나뉘어진 코퍼스로 word embedding을 할 경우 해당 시간대 안에서의 word 간 embedding이 되는 것이므로, 각 시간대마다 embedding을 하고 각 embedding을 비교하는 것이 실제로 의미가 있는 것인지 확언하기 어려움.
- 이러한 문제를 해소하기 위해 시간의 흐름에 따라 단어 임베딩이 움직인다고 가정하고 이를 모델 설계에 고려한 것이 Dynamic Word Embedding
- 이 중 하나인 Dynamic Bernoulli Embedding(다른 연구에 의하면 의미가 변하지 않는 단어의 임베딩 벡터가 가장 안정적으로 유지되는 모델)를 활용하여 민족주의에 대한 역사적 담론 분석에 기여하는 것을 목표로 네덜란드 문학에 해당 모델을 적용함
Experiment
Dataset
- Digital Library of Dutch Language(네덜란드와 벨기에에서 수집한 1, 2차 자료와 메타데이터를 모은 사이트) - 700~1880년 사이의 산문, 희곡, 운문 등 414편 중 픽션만 사용
- 논픽션에 비해 더 널리 읽힘
- 국가주의적인 경향
- 운문 포함 - 라임이나 다른 형식이 원치 않는 영향을 줄 수 있지만, DBNL의 상당수를 차지하고 있었기에 포함
- training : validation = 8 : 2
- 시간에 따른 변화를 알아보기 위해 각 작품을 10년 단위로 time bin에 배정
Pre-processing
- Braun (2002)의 네덜란드어 spelling normalization
- NLTK 이용해서 stopwords 제거
- 길이가 2글자 이하 or 출현횟수가 10회 이하로 나타나는 단어 제거
Dynamic Bernoulli Embeddings
- 데이터의 sequential change를 반영하는 임베딩 모델
- sparse data에서도 성능이 좋고, 의미 변화가 적은 단어들이 실제로도 잘 변하지 않음
- 임베딩 차원은 100, negative sample의 수는 20으로 설정 (Ruldolph and Blei가 본인들 논문에서 사용한 수치)
- Batch size, Learning rate, Random drift는 실험자가 지정해야 하는 하이퍼파라미터 여러 조합을 다 돌리기에는 시간이 없어, 실험을 통해 Batch size=300, Learning rate=0.002, Random drift=10을 순서대로 정함
Result
Absolute drift
- 주어진 시간대 동안 단어들이 얼마나 크게 변화했는가
- 평균적으로는 0.0253
- 변화가 큰 단어들은 다음과 같았음
- 철자가 바뀐 단어: 후반부에는 아예 사용되지 않게 됨
- 이름 : 일부 텍스트에서만 나타나기 때문에 변화가 큼
- 이 중 natie(국가), volk(사람들), vaderland(조국) 3개 단어의 이동을 자세히 살펴봄
- 단어의 이동 정도를 그래프로 나타냈을 때, ‘vaderland(조국) '이라는 단어는 크게 3차례 피크를 보임
- 1st peak : 책 제목에 ‘vaderland(조국) '이라는 단어가 포함되기 시작한 시점 : 1730년 전후
- 2nd peak : 네덜란드 계몽 운동의 정치화 출현 시점 : 1780년대
- 3rd peak : 네덜란드 헌법 개정 시점 : 1850년 전후
가장 가까운 단어들
Volk (사람들)
- 셋 중에서 drift 변동이 가장 fluctuate하는 단어. 특히 18세기 마지막 사분기에 크게 변화한다
- 18세기 초반에는 성경과 관련된 단어들이 가깝게 등장 (i.e. 이스라엘의 사람들)
- 다른 연구에 의하면 해당 시기에 성서 문학(Biblical literature)이 인기였다고 함
- 후대에 갈 수록 ‘mob(군중)'의 의미로 사용
- rebellious, rebellion, mutinious 등 ‘사람들'의 부정적인 면모를 강조하는 어휘들이 가깝게 나옴. 그 비중은 후대로 갈 수록 높아짐.
Natie (국가)
- 시간에 따른 drift 변동이가 거의 보이지 않음
- 가까운 단어들은 대부분 국공립 기관에 대한 것: university, courts, governments, people’s government, republic
- 그 외 가까운 단어로는 trading, copying, nationality 등이 있음
Vaderland (조국)
Vaderland와 가까운 상위 10개 단어 (영어 번역)
- 가장 가까운 단어 : country of birth, place of birth
- 애착이 담겨 있는 dear, dearest, free-spirited 같은 단어
- 역사와 관련된 fame of arms, independence, batavian, Flanders, Netherlands 등의 단어
Conclusion
- 동음이의어를 반영하지 못함
- 모든 시간대의 코퍼스에서 나타나는 단어만 분석할 수 있음