본문 바로가기
과신뷰/기자단 칼럼

구글 신은 모든 것을 알고 있다(2)

by 과학과 신학의 대화 2021. 5. 3.

 

컬처노믹스

 

구글은 현재 데이터만 이용하는 것이 아니라 과거의 데이터로 과거의 사람들이 무슨 생각을 했는지도 분석하고 있습니다. 구글 도서관 프로젝트는 지금까지 2,000만 권 정도를 데이터화했습니다. 이 프로젝트는 일반 도서관처럼 책을 디지털화하여 단순히 온라인 도서관을 만들기 위한 것이 아닙니다. 구글은 책 내용을 데이터화하여 유용한 분석에 활용하고 있습니다. 책의 저자, 출판 연도, 출판 지역 등의 정보와 함께 그 책에 어떤 단어가 몇 번 나오는지 세어서 연도별 지역별 다양한 통계를 만들고 의미를 부여하고 있습니다.

 

예를 들어 미국의 특정 해에 ‘노예’라는 단어가 많이 나왔습니다. 왜 많이 나오는지 조사해보니 그 해에 남북전쟁이 있었습니다. 두 번째 많이 나온 해는 시민운동이 많았던 해입니다. 노예제도 폐지에 관심이 많았기 때문입니다. 이렇게 하여 단어의 개수로부터 그때의 문화를 읽어내는 ‘컬처노믹스’라는 새로운 학문이 탄생했습니다. 이 데이터와 구글 트렌드를 결합하면 옛날 사람부터 지금 사람까지의 생각을 다 읽어낼 수 있는 것입니다. 구글은 그런 목적으로 글뿐만 아니라 그림이나 사진 같은 이미지도, 소리나 음악 같은 음향도 다 디지털화하고 있습니다.

 

 

빅데이터 예측의 한계

 

그러나 구글도 틀릴 때도 있습니다. 잘 맞던 독감 예측이 2013년에는 틀렸습니다. 이때 이 ‘독감’ 검색이 대폭 늘었는데, 이는 독감이 걸린 사람이 검색한 것이 아니라 독감 백신이 모자란다고 언론에서 대대적으로 홍보하니 독감에 걸리지 않은 사람도 ‘독감’을 검색했기 때문입니다. 그래서 내용 검토 없이 숫자만 보면 위험합니다.

 

2007년도에 [초콜릿-노벨상 패러독스]라는 논문이 발표되었습니다. 국가별 1인당 초콜릿 소비 개수와 국가별 노벨상 수상자 수가 비례한다는 논문입니다. 상관계수 0.79로 높게 나왔습니다. 그걸 보고 어떤 사람이 럭셔리 스포츠카 보유 대수와 노벨상 수상자 수를 비교하여 상관계수가 0.85로 훨씬 높다고 했습니다. 그러나 초콜릿이나 고급 스포츠카는 노벨상과 아무 관계가 없습니다. 서로 인과관계가 없기 때문입니다. 상관관계와 인과관계를 혼동한 것입니다. 빅데이터를 사용할 때는 반드시 인과관계가 성립하는지 따져봐야 합니다.

 


 

구글은 오차를 줄이기 위하여 최근에는 단어를 묶어서(연관 검색어) 분석합니다. 그러면 훨씬 안정적인 데이터를 보여줍니다. 예를 들어 윤석열 이재명을 검색할 때 사람들이 단순히 자기가 지지하는 사람만 검색하는 것이 아니라, 상대방 후보도 본다는 것에 착안한 것입니다. 그래서 ‘윤석열, 이재명’을 같이 묶어서 보면서, 그 순서에도 의미를 분석합니다. 즉 ‘윤석열-이재명’인가 ‘이재명-윤석열’인가 보는 것입니다.

 

사회적 특성을 고려하는 것도 중요합니다. 다른 나라와 다른 한국 사회의 특징이 있습니다. 예를 들어 미국은 SNS 오픈된 공간에서 정보를 많이 공유하는 반면, 우리나라는 카톡이라는 폐쇄적인 공간에서 공유합니다. 그래서 데이터 수집이 쉽지 않고, 같은 성향끼리 좋아하는 정보만 공유하여 선진국에 비해 확증 편향성이 큰 특징이 있다고 합니다.  선진국의 언론에서는 이러한 경향을 줄이려고 일부러 반대되는 정보도 서비스한다고 합니다. 정보를 볼 때 그 결론만 보면 안 된다고 합니다. 정보의 소스와 그렇게 분석한 내용과 이유를 같이 보고 검토해야 잘못된 가짜 뉴스에 속지 않을 수 있다고 합니다.

 

 

정보 사회의 미래

 

일상생활에서 구글의 검색엔진 사용으로부터 자유롭지 못한 우리는 자신의 의지와 상관없이 구글 데이터의 생산자가 되고 있습니다. 예를 들어 SNS에 아무런 글이나 사진을 남기지 않아도 단순히 구글로 검색하거나 유튜브 동영상을 시청했다는 이유만으로 우리는 구글에 데이터를 제공하고 있습니다. 구글은 알고리즘을 통하여 누가 어떤 내용을 클릭하고, 어떤 정보를 보고 있고, 얼마나 많이 머무르는지, 관심이 있는지 없는지 알고리즘을 통하여 다 기록하고 있습니다. 물론 개인의 프라이버시를 침해할 수 있는 민감한 개인정보를 이용하는 것과는 다른 차원입니다.

 

현재도 많은 데이터를 보유하고 있는 구글은 더 많은 데이터를 모으기 위하여 많은 투자를 하고 있습니다. GPS 정보의 사각지대를 없애기 위하여 많은 인공위성까지 띄우고 있는 구글은 최근에 NEST라는 자동온도조절장치 제조업체를 인수했는가 하면, 자동주행 무인 자동차 시장에도 뛰어들고 있습니다. 이는 온라인 데이터뿐만 아니라 오프라인 데이터도 수집하기 위한 것입니다. 또 인구밀도가 낮은 지역, 인터넷 보급이 덜 된 개발도상국에서는 무료 인터넷 지원사업도 벌이고 있습니다. 이렇게 하여 구글은 전 세계 온 오프라인 데이터 시장을 다 지배하려 하는 것입니다.

 


 

지금 모든 기업은 데이터와 미래 사활을 걸고 있습니다. 넷플릭스가 저렴한 월 사용료로 3인까지 아이디를 공유할 수 있게 해 주고, 영화검색 방법을 장르별 검색 방법을 따르지 않고 감성 분류를 이용하게 하는 것은 - 이용자 입장에서는 조금 불편하게 하는 것임에도 - 바로 그러한 감성 데이터를 수집하기 위한 것입니다. 쿠팡이 매년 막대한 적자를 기록하면서도 출혈경쟁으로 계속 시장을 확대해 나가는 것도 기업의 목표가 단순히 전자상거래 시장만 목표하고 있지 않기 때문입니다. 상거래 데이터를 기반으로 더욱 큰 시장을 노리고 있는 것입니다. 이는 MS도 페이스북도 아마존도 테슬라도 마찬가지입니다. 앞으로 업종과 관계없이 모든 기업은 데이터를 가지고 치열하게 경쟁하게 될 것입니다.

 

 

데이터 과학과 인공지능

 

그러면 구글 신은 앞으로도 점점 더 강력해질 것인가? 블랙홀, 웜홀 같은 용어를 처음 만든 미국의 이론물리학자 존 아치볼드 휠러(영어: John Archibald Wheeler는 ‘세상은 정보다’라 했습니다. 빅데이터를 인공지능이 학습해서 무서운 세상이 올 수도 있습니다. 우리는 얼마 전에 알파고 쇼크를 겪었습니다. 그러나 알파고는 바둑을 이해한 것이 아니라 조건부 확률을 이용하여 계산한 결과를 보여주는 것입니다. 그래서 가끔 조건이 맞지 않는 경우가 발생하면 사람이 보여줄 수 없는 엉뚱한 수를 두기도 합니다. 이는 구글 번역기도 마찬가지입니다. 데이터를 기반으로 조건부 확률을 이용하여 딥러닝이라는 방식으로 조금씩 개선하고 있는 것입니다. 현대 이용되고 있는 대부분의 이러한 ‘약 인공지능’입니다. 계산 속도에는 인간보다 훨씬 빠르지만 복잡한 현상을 직관적으로 이해하는 인간의 사고에는 훨씬 못 미치는 것입니다.

 

그러나 최근에는 인간처럼 사고하는 인공지능도 나오고 있습니다. 점차 인간의 영역을 넘어오고 있습니다. 인공으로 음악을 작곡하거나 그림을 그리거나 소설을 쓰는 것 같은 경우입니다. 그러나 이런 인공지능은 이용은 조심스럽습니다. 예를 들어 인공지능이 작곡한 음악에 대하여 저작권을 부여하기 시작한다면 인공지능은 너무 빠른 속도로 인간이 할 수 있는 모든 가능한 음악을 작곡하여 인간 작곡가는 아무것도 할 수 없는 시대가 될 것입니다.

 

‘강 인공지능 시대’가 되면 데이터가 물질처럼 될 수 있다고 합니다. 데이터가 결합되고 연결되어 새로운 것을 만들어 내는 것입니다. 데이터의 크기는 기가-테라-페타-엑사-제타-요타 순으로 각각 1,000 배씩 커지는 것으로 단위를 정하고 있습니다. 원자가 물질이 되기 위해서는 10의 23승은 되어야 한다고 합니다. 그 수를 ‘아보가드로 넘버 Avogadro's number’라고 합니다. 그래서 과학자들은 빅데이터의 크기가 이 정도 수준이 되면 ‘창발(떠오름) 현상’이 일어날 수도 있다고 예측하고 있습니다. ‘떠오름 현상’이란 하위 계층(구성 요소)에는 없는 특성이나 행동이 상위 계층(전체 구조)에서 자발적으로 돌연히 출현하는 현상을 말합니다. 무생물에서 생명의 탄생하게 된 거나, 원시 생물이 진화하여 의식을 가진 고등 동물이 되는 것을 이러한 원리로 설명하고 있습니다.

 


 

현재 구글이 가지고 있는 데이터의 크기는 10의 18승 엑사 바이트 수준입니다. 아보가드로 넘버를 뛰어넘는 요타 바이트 10의 24승 수준이 되려면 100만 배가 더 늘어야 합니다. 현재 데이터는 18개월마다 2배 수준으로 늘어나고 있다고 합니다. 그런 추세라면 앞으로 20년 전후가 되면 도달할 것으로 예상하고 있습니다. 그렇게 데이터가 충분히 많아지면 생명 현상처럼 특이한 일이 벌어질 수도 있습니다.

 

무서운 일입니다!

 

 

 

 

글 | 송윤강

 

과신대 기자단으로 활동하면서 과학강연, 영화, 도서 등 과학 관련 리뷰를 기고하고 있다. 현재 아름다운서당에서 대학생들을 가르치고 있다.

댓글