책을 읽고

빅데이터 인문학 : 진격의 서막 -에레즈 에이든 & 장바트스트 미셸 지음-

송삿갓 2017. 7. 27. 03:51

빅데이터 인문학 : 진격의 서막 -에레즈 에이든 & 장바트스트 미셸 지음-

 

책의 뒤표지에 표면 이런 글이 있다.

‘2007년의 어느 날 하버드의 두 젊은 과학자가

구굴이 구축한 디지털 바벨의 도서관으로 걸어 들어갔다.

그들은 클릭 한 번으로 800만 권의 책을 검색하는 구글 엔그램 뷰어를 개발했다.

검색창에 단어 하나를 입력하고, 엔터!

데이터가 그리는 아름다운 곡선이 전 세계 인문학계를 발칵 뒤집어놓았다.‘

 

8백 만 권의 책이라

사람이 한 평생을 살며 얼마나 많은 책을 읽을 수 있을까?

매주 한 권씩 읽는다 치면 1년에 52

(실은 꾸준히 그렇게 읽는 다는 것이 쉽지 않겠지만)

 

10년이면 520

(이것도 쉽지 않다)

 

40년을 꾸준히 읽는다 치면

4 X 520 = 2,080권이다.

하지만 이 모든 게 가정이다.

 

여기서 잠시 Timeout

내 건너 방에 있는 책이 몇 권이지?

3천 권?

그 중 1/3 정도는 읽었다 쳐도 앞으로 매주 한 권씩 40년을 읽어야 하네

정말 책을 더 사는 욕심을 버리고 있는 것이라도 잘 읽어야 하나보다.

 

다시 빅데이터로 돌아와

두 과학자가 한 일이 8백만 권 안에 있는 단어 중

어떤 것이 가장 많이 쓰였는지도 알게 되었다.

물론 이게 나와 무슨 상관이냐?”하는 사람도 있겠지만

빅데이터로 파생 된 하나의 예에 불과하다.

 

책의 초반에 장기적 관점이라는 소제목으로 영어의 동사변화에 대한 글을 이렇게 시작한다.

여기서 중요한 것은 년도를 기억할 필요가 있다.

‘2005년 우리가 처음 만났을 때 빅데이터는 아직 아무것도 아니었다.’

그리곤 무엇이 문제를 매혹적으로 만드는가?’로 이어지면

이 모든 질문 가운데 특별히 우리의 눈길을 사로잡는 것은

왜 우리는 Drived라고 하지 않고 Drove라고 하나요?”였다.‘

재미있는 질문이 아닐 수 없다.

 

불규칙동사와 규칙동사

·고등학교 때 우리를 끊임없이 괴롭히면서 성적표를 휘둘렀던 것 중 하나고

내가 미국 살면서 수시로 헷갈리는,

아니 미국에서 태어나 사는 사람들도 원인을 모르고 수시로 헷갈리는 문제다.

 

빅데이터를 통해 12천 년 전에서 6천 년 전 사이에는 거의 모든 동사는 불규칙동사였지만

사용빈도가 낮은 동사부터 규칙동사로 바뀌었다는 사실을 알았다는 것이고

이 책에선 언어 진화의 화석이라는 이름으로 장황하게 설명하였지만 단순화 시키면

자주 사용하지 않는 불규칙변화를 잘 몰라서 그냥 규칙동사처럼 사용하게 되었다는 것이다.

물론 너무 간단하게 설명하려다 보니 변화의 과정을 빼 먹은 것이 많아

누군가는 틀렸다라고 주장할 수 있지만 결론은 크게 다르지 않다.

이러한 것을 근거로 추적하다보면 사람의 성씨도 적은 인구의 성씨가 멸종될 가능성이 있다.

 

빅데이터는 아직 우리가 추출해 내지 못한 어쩌면 아닌 많은 통계가 있을 것이고

누군가 계속 새로운 것을 찾아내 사람들을 놀라게 할 가능성 백 퍼센트다.

 

왜 앞의 2005라는 연도를 기억하라 했냐고?

이 책에서도 나왔지만 '무어(Moore)의 법칙이 오늘도 진행되고 있다.

처음엔 컴퓨터에서만 사용하던

반도체 집적회로의 성능이 24개월 마다 두 배로 증가한다는 것인데

빅데이터에도 이 법칙이 적용되고 있고 기간이 18개월로 단축되었지만

앞으로 더욱 빠르게 진행 될 예정이라는 사실이다.

 

빅데이터와 무어의 법칙을 조금 쉽게 설명하자면,

오늘 기준으로 지금까지 사진기가 발명되고 찍기 시작해 오늘까지 찍힌 사진의 장수와

앞으로 18개월 동안 찍힐 사진의 수가 같다는 이야기다.

에이~ 그럴 리가 있나?

No, no, no 천만의 말씀

우리가 살면서 아주 좋기도 하지만 조심해야 할 한 가지

오늘 내가 스마트폰으로 찍은 사진이 내 의지와 상관없이 어딘가에 저장된다는 사실

(물론 찍어서 보자마자 지운다고 해도 충분히 가능성이 있는 이야기임)

이 책은 이같은 것을 디지털 역사라고 이야기한다.

 

2013년 보스톤 마라톤 대회의 결승점에서 터진 밥솥폭탄(조금 우습기는 하겠지만)

범인을 어떻게 찾았느냐?

이 책을 통해 안 사실이지만 수많은 사람들이 찍은 사진을 통해 찾았다는 것이다.

대략 50만 관중이 경주를 관람했다. 그들 둥 누가 폭탄을 설치했을까?

이것은 상상할 수 있는 가장 복잡한 추리소설이었다.

그러나 FBI에게는 강력한 최후의 수단, 즉 디지털 역사가 있었다.

그들은 범죄 현장에 수많은 군중이 있었다는 점에서 적어도 한 가지 면에선

이득이라는 사실을 인식했다. 관중은 사진을 찍는다.

거리에 줄지어 있는 상점들도 제각각 카메라를 보유하고 있다.

이처럼 작은 공간에 그토록 많은 카메라가 있고, 그토록 짧은 시간에

그 많은 사진이 찍힌다면 누군가는 분명 배낭을 멘 용의자를 포착한 사진을 찍었으리라

결국 감시용 비디오카메라가 촬영한 두 명의 폭파범을 촬영한 영상을 공개하자

우연하게 용의자들의 얼굴을 찍은 고해상도의 사진이 쏟아져 들어와서

한 명은 사살하고 다른 한 명은 체포해다는 사실이다.

 

그러면 이렇게 좋은 점만 있느냐?

2011년 한 여학생이 네 소년에게 강간 당했다고 주장했는데

소년들이 찍은 사진이 이메일과 페이스북으로 퍼져 학교를 옮겼지만

결국 추치심에 스스로 목을 맸다는 나쁜 영향도 있다.

이렇듯 디지털 역사는 무어의 법칙을 따르고 빅데이터의 중심에 있다는 것이다.

 

이건 순 내 추론의 빅데이터, 하지만 현실

2016년 봄 세계의 바둑계가 술렁였다.

바둑계의 1인자라 할 수 있는 이세돌과 구글의 지원으로 만든 알파고의 대결이었다.

바둑을 하는 사람들이 이런 말을 한다.

바둑이 생긴 이래 지금까지 처음부터 끝까지 같은 수순으로 끝난 것이 없다.

바둑의 선이 가로, 세로 19

이를 수학의 통계적으로 계산하면 거의 불가능하다는 이유 때문으로 충분한 설득력이 있다.

그 만큼 경우의 수가 많기 때문에 컴퓨터 프로그램으론 쉽지가 않다.

바둑의 9단을 입신(入神)이라는 칭호를 붙일 정도로 바둑이 어렵다는 것을 이야기한다.

해서 알파고가 입신인 이세돌을 이길 수 없다는 것이 대세였다.

결과는 알파고가 41패로 절대우세로 끝났다.

그런데 앞으로 갈수록 알파고는 강해져 바둑계의 절대강자가 될 것이고

대결 자체가 무의미 해질 것이라는 게 빅데이터다.

 

컴퓨터 안에 지금까지 했던 사람들의 주요대국들을 모두 집어넣는다.

그리고 대결에서 사람이 한 수를 두면 빅데이터를 뒤져 어떤 수가 승률이 높았는지를 찾고

다음 둘 위치를 찾는 것인데 사람은 신의 경지에 도달했어도 한계가 있기에

얼마 지나지 않으면 대결의 의미가 없다는 것이다.

이게 빅데이터의 한 부분인데 체스는 이미 30여 년 전에 무너졌으니

바둑이 지금까지 사람이 앞선 것은 그 만큼 경우의 수가 많다는 것을 의미한다.

 

이 책의 마지막에 강조한 것 중 두 가지

상승하는 엔그램들은 계속 상승한다. 하강하는 엔그램들은 계속 하강한다.

더 일반적으로 말하면, 움직이는 엔그램등은 그 움직임을 유지하는 경향이 있다

무어의 법칙은 유지한다는 것을 암시하는 것이 아닌가?

 

제일 끝에 요약이라며 쓴 글

때때로 당신은 도표를 보고 싶어한다.

때때로 당신은 훌륭한 책을 들고 뒹굴고 싶어한다.

디지털 미래의 역사에 온 것을 환영한다.

둘 다 해보는 것은 어떤가?‘

 

July 26 2017