BLOG main image
분류 전체보기 (406)
미국 사정 (22)
세계의 창 (25)
잡동사니 (26)
과일나무 (285)
배나무 (47)
Visitors up to today!
Today hit, Yesterday hit
daisy rss
tistory 티스토리 가입하기!
'데이타 사이언스'에 해당되는 글 1건
2023. 8. 15. 11:51

Erez Aiden and Jean-Baptiste Michel. 2013. Uncharted: Big data as a lens on human culture. Riverhead Books. 212 pages.

저자들은 데이터 과학자들이며, 이 책은 구글의 Ngram Viewer 프로그램을 이용해 언어, 명성, 검열, 기억 등의 주제에 관해 분석한 결과를 소개한다. 

구글은 2000년대 중반부터 세상에 존재하는 모든 책을 스캔해 디지털 아카이브를 만드는 Google Books 프로젝트를 진행해서, 이 책이 쓰일 당시 3천만권의 책을 아카이브하였다. 저자들은 MIT 연구소에 소속되어 있으면서, 구글의 책 아카이브에서 특정 단어가 사용된 빈도를 추적하여 사회문화의 변화를 파악하는 연구 프로젝트를 수행하였다. 그들의 노력이 결실을 거두어, 이후 일반인이 웹으로 쉽게 접근할 수 있는 Ngram Viewer 프로그램이 구글의 무료 프로그램으로 도입되었다.

 그들의 첫번째 분석은 언어의 진화과정을 추적하는 것이다. 영어에 일반동사와 불규칙 동사의 차이는 어떻게 만들어진 것일까? 인도유러피안 어족에 속하는 언어들은 모두 원래 동사들이 불규칙하게 시제 변환을 하였다. 그러나 기원전 500년경부터 -ed 를 붙여서 시제변환을 하는 방식이 도입되었는데, 이후 이러한 변환 방식이 주류로 자리잡았고, 기존의 불규칙 동사는 점차 규칙 동사로 전환되었다. 현재까지 불규칙 동사로 남아있는 것은 사람들이 아주 많이 사용하는 170개 남짓에 불과하다. 이들은 일상에서 자주 사용되면서 사람들의 기억 속에서 계속 새로이 상기되기 때문에, 규칙동사로 바뀌는 운명을 피할 수 있었다. Ngram Viewer를 통해 언제부터 사람들이 불규칙 동사를 점차 규칙 동사의 방식으로 사용하게 되었는지 추적할 수 있다. 또한 이 프로그램을 통해 특정 단어가 탄생하고 소멸하는 과정을 추적함으로서, 유행과 생활방식의 변화를 간접적으로 추정할 수 있다.

두번째 분석은 '명성' fame 의 발전과정을 추적하는 것이다. 명성은 데뷔, 도약, 정점 도달, 쇠퇴 라는 생애주기를 보인다. 매년 최고의 명성을 기록한 사람에 대하여, 그들의 명성이 전개된 과정을 분석한 결과, 명성은 데뷔에서부터 정점까지 매우 가파른 성장 곡선을 그리며, 정점을 지나게 되면 서서히 감소한다. 근래로 올수록 데뷔에서 정점에 도달하는 기간이 짧아지며, 과거보다 더 이른 나이에 정점에 도달한다. 분야에 따라 곡선의 모습이 다른데, 정치인이 가장 높은 정점에 도달하며, 가장 늦은 나이에 유명해진다. 반면 연예인은 젊은 나이에 정점에 도달하며 정점이 높지 않다. 한편, 유명했던 사람이나 사건에 대해 Ngram에서 갑자기 빈도가 줄어드는 모습을 통해, 검열의 존재를 확인할 수 있다.

세번째 분석은 역사적 사건이나 사람에 대한 집단 기억의 궤적을 확인하는 것이다. 특정 사건에 대한 집단 기억은 사건 초기에 강도가 높으며, 일단 고점을 지나면 시간이 지나면서 서서히 감소하는 곡선을 그린다. 문명의 이기나 새로운 아이디어가 받아들여지는 과정의 경우, 대체로 개발된지 상당한 시간이 흘러서야 인식이 확산된다. '진화' 와 같은 단어는 20세기 초반에 정점을 지나 쇠퇴하는 듯이 보이다가, 근래에 들어 더욱 활성화되었다.

컴퓨터와 인터넷의 발달로 인간의 행위에 대한 디지털 기억이 넘쳐나고 있다. 사생활이나 저작권의 침해의 문제가 있기는 하지만, 이렇게 엄청난 양의 인간 행위에 대한 기록을 잘 이용한다면, 인간에 대한 이해를 깊이하는데 큰 도움을 줄 것이다. 구글의 Ngram Viewer 프로그램은 그러한 가능성을 보여준다.

이 책은 컴퓨터 기술에 밝은 젊은 학도들이 번득이는 새로운 아이디어를 적용해 본 결과를 가볍게 서술한다. 컴퓨터와 인터넷을 통해 엄청난 양의 데이터가 쌓이고 있지만, 이를 이용하는 것은 넘어야 할 산이 많고, 아직 시작 단계이다. 

prev"" #1 next