ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 빅데이터가 일으킬 인문학 혁명 - 구글 Ngram Viewer
    50 shades of ZZ/책 찍먹하기 2020. 4. 13. 21:46
    728x90
    728x90

    "빅데이터는 인문학을 바꾸고, 사회과학을 변형시키고, 상업 세계와 상아탑 사이의 관계를 재조정할 것이다."
    혁명의 핵심 : 인류가 벌인 활동에 관한 역사적 기록의 창조 및 보존과 관련된 빅데이터 혁명
    빅데이터 : 인류의 역사

    경제적 측면에서 누가 빅데이터를 활용하여 과거로부터의 현재까지의 문화데이터를 분석하고 미래를 예측할 수 있을지가 핵심

    통계와 데이터과학 : 수집 -> 가공/조직화 -> 분석 -> 해석 -> 제시(시각화 혹은 스토리텔링)
    인문사회과학 데이터(인간을 심도 있게 이해하려는 분야 : 심리학, 사회학, 철학, 인류학, 경제학 등)
    21세기의 통계 : 공학, 인문사회과학, 자연과학의 학제적 연구

    Data Science / Data mining
    : 데이터로부터 숨겨져 있던 유의미한 새로운 정보를 추출하여 전달하는 학문
    키워드 : 관찰력, 창의적 아이디어, 문제해결 / 데이터 처리 능력, 데이터 분석 능력, 업종에 대한 이해
    -> 다양한 전문가로 구성된 팀을 꾸려 진행하는 것이 일반적(데이터 과학자는 최소한 3개의 분야에 정통한 학제적 베경 필요)

    데이터 과학자 : 반짝이는 눈을 가진 탐험가 콜럼버스와 의심 많은 형사 콜롬보를 합쳐놓은 존재

    구글은 무슨 생각을 하고 있는가..?? : 데이터의 사용 한계를 제한하지 않는다.

    구글의 Book scanning : 책의 디지털화, 인터넷을 통한 독서
    이미지의 텍스트를 대상으로 광학식 문자인식 소프트웨어를 이용하여 텍스트의 문자, 부호, 단어, 문장, 문단을 인식하여 데이터화

    구글 Ngram Viewer(로봇 역사학자)
    세계 주요 도서관의 모든 책을 빠르게 읽고, 절대로 오류가 생기지 않는 로봇메모리로 단어를 하나하나 기억하는 프로그램
    https://books.google.com/ngrams

    Google Ngram Viewer

    Part-of-speech tags: cook_VERB, _DET_ President Wildcards: King of *, best *_NOUN Inflections: shook_INF drive_VERB_INF Arithmetic compositions: (color /(color + colour)) Corpus selection: I want:eng_2012 Complete list of options

    books.google.com

    북스캐닝 프로젝트로 구축된 빅데이터 텍스트의 시대적 어휘(1800년~) 또는 n-gram(어휘의 연쇄 : one gram, two gram, …) 분포변화 검색 시스템 개발
    영어, 중국어, 불어, 독어, 스페인어, 이탈리아어, 러시아어, 히브리어 등

    모든 코퍼스는 2009년 또는 2012년 출판본까지 포함
    -> 단어와 ,를 활용하여 한꺼번의 여러개의 n-gram 검색 가능

    문화체학(culturomics)
    디지털화된 텍스트를 계량적으로 분석하여 인간의 행동과 문화의 추세를 연구하는 전산 어휘학
    텍스트의 어휘 빈도에 반영된 인간 행동과 문화 연구

    텍스트의 가치
    텍스트 : 인간의 생각(경험, 마음, 인간과 세상에 대한 이해 방식 등)이 반영된 결과물
    전통적인 인문사회과학 연구 영역 -> 정보검색, 문서요약 등 -> 빅데이터 및 SNS 연구의 주요 화두(학제적 접근을 통해서만 텍스트 데이터를 잘 다룰 수 있다)
    빅데이터 시대의 텍스트 데이터 난제 : 미지의 자원(초보적 수준의 연구 방법) / 아직 측정, 관찰, 해석 등의 방법이 많이 소개 되지 않았다.

    구글 Ngram Viewer - 언어 화석을 찾기 위한 데이터
    역사적 변화를 측정하는 도구 : 과학적 발견 도구로써 현미경과 망원경
    물리적 사물을 관찰하는 대신 역사적 변화를 관찰하는 어떤 도구를 창조하는 게 가능하다면?

    디지털 지문
    사용자들이 인터넷에서 자신을 드러내고 서로 교류할 수 있는 도구 개발 -> 디지털화된 개인적 역사적 기록들이 쌓여야만 작동
    인류문화를 기록하는 것이 핵심 사업!!
    웹페이지, 블로그, 뉴스 등과 같이 대중적 소비를 꾀하는 것들은 단순한 기록이 아니다. 우리의 디지털 부스러기는 점점 더 철저히 자취를 남기기 마련 -> 그 폭과 깊이가 믿기 어려울 정도

    디지털 데이터 - 연구자들의 신대륙
    ex. 사회학과의 일원이 된다면 학습과 연구에 평생을 바친 사람의 눈부신 통찰을 얻을 수 있음
    ex. 페이스북은 10억명이 하루하루 살아가는 삶의 일부
    -> 공학자와 인문사회과학자들의 협업!!

    롱데이터
    구글 books = 큰 데이터 세트, 하지만 구글이 디지털화한 것의 상당수는 최신이 아니다.
    단순한 빅데이터가 아닌 롱데이터(우리의 문명이 어떻게 변화했는지 그 역사적 배경을 담은 초상화 제공, 다양한 범위의 주제와 폭넓은 시각 반영)
    => 구글의 책들을 디지털 렌즈로 검토하여 인류 역사를 연구하는 관찰도구를 만들 수 있음

    빅데이터
    우리의 주변 세계를 이해할 기회를 제공하지만, 동시에 새로운 도전과제를 만들어 냄
    일관성 부재, 정리 되지 않은, 오류투성이 / 전형적인 과학적 방법론에 들어맞지 않음
    가설 없는 연구로 시작, 무엇을 발견할 지 알 수 없음, 상관성에 기반한 개연성만 존재(보편성 혹은 필연성 설명 불가)

    상관관계가 인과관계를 과학적 스토리텔링의 근본에서 내쫓으려 한다는 주장 / 빅데이터의 등장이 이론의 종말로 이어질 것이라는 주장
    그러나, 우리가 이러한 이론들을 향한 분투를 멈춘다면 과학이 늘 추구해온 것들을 더 이상 보지 못할 위험이 있음
    기존의 접근 방식도 따라야 함을 잊지 않아야 한다.

    언어는 문화를 총체적으로 연구할 수 있게 해주는 거대한 소우주 = 의사소통을 위한 핵심 수단
    언어는 변화한다.
    문자의 형태로 남은 언어는 과학적 연구에 알맞은 데이터 세트 제공 / 문자언어는 빅데이터의 가장 오래된 조상 가운데 하나인 셈이다.

    텍스트
    인간의 경험, 마음, 인간과 세상에 대한 이해 방식 등을 반영
    전통적 인문사회과학 연구 영역, 인터넷 시대에서의 정보검색 및 문서요약 등의 활용 가치, 빅데이터와 SNS 연구의 주요 화두

    어휘의 빈도
    알파벳 순으로 배열하면 원작의 의미는 제거 - "Karen Reimer"의 방법론
    하지만, 원본 텍스트의 변형을 통해 즉, 단어들의 빈도로 보이지 않던 특성을 드러낼 수 있음 = 데이터를 다루는 목적

    창의적 질문의 출발점 = 세계를 바라보는 새로운 방식
    매혹적 질문을 찾으려면 매혹적 환경에 들어가는 것이 도움이 됨
    표면적으로는 간단하고 이해하기 쉬워보여도 매우 근원적인 질문들
    어디서 찾아냈는지 상관하지 말고 엄청 흥미로운 문제들과 씨름할 것(수학, 언어학, 암 연구, 종교학, 심리학, 물리학 등등등)

    ex. 언어의 변화에 대한 질문과 해결책 찾기
    Q : 왜 영어화자는 drived라고 하지 않고, drove라고 할까? / 단순해 보여도 인류에 관한 심오한 질문
    문화적으로 사용되는 단어와 그렇지 않은 단어 / 관습이나 문화 등등등
    A : 모두가 그렇게 말하기 때문(규범적 해결책)
    오늘날의 상태가 된 변화의 과정에 대한 이해 필요 / 왜 사물은 오랜 시간 동안 이렇게 존재하게 되었을까? 등(장기적 관점의 해결책)

    과학적 방법론으로 측정의 중요성
    어떤 현상을 알기 위한 가장 중요한 단계 : 수치적 계산 원리와 측정 방법
    조작적 정의 : 어떤 대상의 수치 측정의 과정을 통해 정의 가능, 관찰할 수 없는 것을 관찰 가능하도록 포함시키는 정의

    과학자로서 우리는 데이터를 모을 수 있어야 한다.
    데이터는 냉철하고 엄격한 사실이며 정확한 측정치이다.
    정의하기 어렵고 측정하기는 더 어려운 ‘문화’라는 것은 상대하기 만만치가 않다.


    - 에레즈 에이든 & 장바티스트 미셸 (2015). 빅데이터 인문학: 진격의 서막, 사계절
    (원서: Aiden, E., & Michel, J. B. (2014). Uncharted: Big data as a lens on human culture. Penguin.)

    728x90
    728x90

    '50 shades of ZZ > 책 찍먹하기' 카테고리의 다른 글

    프로테스탄트 윤리와 자본주의 정신  (0) 2021.11.22

    댓글

Designed by Zziang Zzang.