‘프라이버시 안전벨트’ 안 매면 사고 난다
  • 황주성│서울과학기술대 IT정책전문대학원 교수 ()
  • 승인 2013.11.20 11:44
이 기사를 공유합니다

빅데이터 시대 정보고속도로 안전장치 필요… 국가·기업의 개인정보 악용 막아야

인류가 탄생한 후 2011년까지 지구상에 존재하는 모든 디지털 데이터의 양을 합하면 1.8제타바이트(ZB), 다시 말해 1.8조 기가바이트(GB)에 해당된다고 한다. 고화질 HD 영화 2000억개에 해당하는 양으로, 32기가의 메모리를 갖는 아이패드에 넣어 쌓으면 일본에서 제일 높은 후지산(3776m)보다 무려 25배 더 높은 정도라니 가늠하기도 어렵다. 더 놀라운 것은 이러한 정보량이 매 2년마다 두 배씩 늘어나 2020년에는 현재의 50배가 된다는 사실이다.

‘빅데이터’란 현재의 데이터 관련 하드 및 소프트웨어 기술로는 수집·저장·관리·분석이 어려울 정도로 방대한 규모의 데이터를 의미한다. 하지만 빅데이터는 단순히 사이즈만을 강조하는 용어가 아니다. 규모만으로 말하자면 이전에도 전국적 망을 가진 은행이나 쇼핑센터 등에서 ‘대규모 데이터(large data)’를 만들어 이용해왔다. 빅데이터는 다음 같은 몇 가지 이유에서 전통적인 대규모 데이터와는 차원을 달리한다.

첫째, 빅데이터의 수집은 인간이 개입하지 않아도 센서, 검색 엔진, 카메라 등 기계에 의해 자동적으로 이루어진다는 점이다. 둘째는 브라우징, 내비게이션, SNS(소셜 네트워크 서비스) 등 과거에는 존재하지 않았던 전혀 새로운 데이터 소스로부터 데이터가 생성된다. 마지막으로 애초에 특정한 분석을 목적으로 디자인된 데이터가 아니라 텍스트와 같은 비정형 데이터도 포함할 정도로 포괄적이라는 점이다. 가령 검색창에 입력하는 검색어가 독감 발생과 확산 경로를 알려줄 자료로 쓰일 줄은 아무도 생각조차 못했던 일이다. 트위터를 넘나드는 메시지를 분석하면 한 국가의 사회적 분위기를 파악할 수 있다는 발상도 처음부터 의도된 것은 아니다. 이제 어떠한 데이터도 충분한 양만 확보되면 의미 있는 결과를 도출해낼 수 있을 정도로 분석 기법이 고도화된 덕분이다.

빅데이터의 원조는 ‘웹데이터’다. 사람들이 웹을 통해 정보를 찾고 콘텐츠와 서비스를 소비하며, 나아가 온라인 쇼핑을 일상적으로 하면서부터 다양한 정보가 축적되기 시작했다. 특히 웹2.0과 함께 부상한 검색 광고는 인터넷을 오프라인 경제와 접목시켰다. 개인의 관심에 초점을 둔 ‘맞춤형 광고’ 제공을 통해 ‘광고→구매 전환율’을 획기적으로 개선시킨 덕분이다.

웹의 로그를 통해서는 개인의 모든 온라인 행적은 낱낱이 기록될 수 있다. 특정한 개인이 언제 어떤 물건을 어디서 구매했다는 정도가 아니다. 구매 이전에 어떤 상품들을 클릭했으며, 상품에 관련된 어떤 정보에 관심을 보였는지, 심지어는 그 가게에서 살펴본 다른 상품들은 무엇인지도 알 수 있다. 이러한 ‘트래킹 정보’는 최종 구매 정보만으로는 알 수 없는 다양한 소비 행태에 대한 추정을 가능케 한다. 소비자의 구매 경로, 취향, 구매 동기는 물론이고 미래의 구매 의도까지도 파악할 수 있다.

웹데이터뿐이 아니다. 페이스북·트위터·카카오톡 등을 통해 오가는 텍스트 데이터, 내비게이션이나 블랙박스로부터 나오는 텔레마티크 데이터, 스마트폰 등에 부착된 GPS 데이터 등이 향후 훨씬 더 큰 빅데이터의 소스가 될 것이다.

빅데이터는 산업계에서 다양한 용도로 활용될 수 있다. 제품 판매 후 관리나 재고 관리 등이 대표적인 예다. 실제로 볼보자동차는 차량에 부착된 센서로 수집된 운행 정보를 통해 신규 모델의 결함을 파악하는 데 걸리는 시간을 대폭 줄일 수 있었다. 또 월마트는 전 세계 8400여 매장에서 발생하는 주당 2억건의 판매 데이터를 분석해 지역별·상황별 상품 수요 패턴을 파악해 매장 상품 수요에 대비한다. 예컨대 태풍 예보 시 많이 팔리는 손전등·배터리·스낵 등의 공급을 늘릴 수 있게 된 것이다.

빅데이터는 공익적 목적으로도 쓰인다. 검색어 입력 패턴을 분석해 지역별 독감 정보를 알려주는 구글 플루가 대표적인 예다. 미국 캘리포니아의 산타크루즈 시에서는 범죄 데이터를 계절·날씨·장소·상황 정보와 결합해 범죄 발생 가능성을 예측하는 프레드폴을 선보여 범죄 예방률을 높였다. 서울시의 버스카드도 공익에 기여한 대표적인 사례다. 서울시는 버스카드 도입으로 승객의 버스 노선 이용 패턴을 분석함으로써 고객의 이용에 최적화된 버스 노선과 배차 간격 등 교통 시스템을 조정할 수 있게 됐다. 이로 인해 대중교통 이용객은 매년 5.8% 증가한 반면 서울 시내 전체 교통량은 약 24% 감소되는 효과를 냈다.

또 하나 큰 관심사는 광고다. 소비자의 관점에서 최선의 광고는 그것이 나에게 꼭 필요한 구매 정보가 되는 순간이다. 이른바 ‘맞춤형 광고’와 유사한 효과를 주기 때문이다. 기존 맞춤형 광고는 주로 개인의 행위 정보에 의존해 만들어졌다. 그래서 프라이버시 침해 가능성을 항상 수반한다. 케이블 셋톱박스인 티보(Tivo)가 나의 구매 패턴을 기록했다가 내가 좋아할 만한 프로그램을 추천해주는 것은 편리한 점이지만 그 정보가 다른 사람에게 넘어간다면 이야기가 달라진다.

빅데이터의 경우 반드시 개인 식별 정보가 필요한 것은 아니다. 아마존에서 ‘A라는 책을 산 사람의 70%가 B라는 책을 샀다’는 방식의 광고는 프라이버시에 큰 위협으로 느껴지지 않는다. 그것은 일종의 그룹 프로파일에 근거한 개연적인(probablistic) 추천이기 때문이다. 예를 들면 ‘나의 Tivo가 내가 게이인 것을 안다’는 것과는 전혀 다른 차원의 접근이다.

최근 빅데이터로 인한 프라이버시 침해 사례로 많이 언급되는 타깃의 경우도 사실은 빅데이터로 인한 문제라기보다 개인정보 이슈라고 할 것이다. 미국의 대형마트인 타깃이 대표적 사례다. 타깃은 개인의 구매 히스토리를 분석하다가 특정한 물건들의 소비가 상호 연관성을 갖는다는 사실을 발견했다. 예컨대 출산과 관련된 25개 물품들을 파악해 그것을 기초로 ‘임신예측지수’를 산출한 것이다. 어떤 고객이 코코아밀크로션, 마그네슘 보조제, 큰 가방을 구매했다면 임신 가능성이 50% 정도일 것이라는 추론이 나왔다.

문제는 타깃이 그러한 구매 히스토리 정보와 고객의 이름·주소 등 개인정보를 함께 연결시킨 데 있다. 빅데이터의 문제가 아니라 개인정보 관리의 부적절성이 문제였던 사례다.

한국에서 빅데이터가 초기 단계라는 데에는 큰 이견이 없는 것 같다. 빅데이터를 정확하게 이해하고 확보해 경영에 접목시킨 한국 기업은 10개도 안 된다. 한국의 IT 인프라 수준이 높고, 기술 수용성이 강한 사용자 규모에 비해 대조적인 현상이다. 이는 빅데이터가 수집되지 않고 있는 경영 현장, 역량 축적으로 이어지지 않는 소모적인 데이터 활용 행태, 빅데이터 관리와 분석에 필요한 지식 기반 취약 등에 기인한다고 본다. 특히 우리나라에는 빅데이터 4대 천왕이라 불리는 구글·아마존·페이스북·애플 등에 필적할 만한 빅데이터 플랫폼이 없다는 점도 큰 한계다.

그럼에도 통신·제조업·금융 분야에서는 비교적 빠른 시간 내에 빅데이터 시장이 조성될 것으로 보인다. 통신과 제조업에서는 매일 수십억 개의 데이터가 발생하기 때문이다. 앞으로 중요한 것은 ‘데이터 DNA’다. 기업이든 정부든 개인이든 중요한 의사 결정을 내릴 때는 반드시 신뢰성 있는 데이터에 기반을 둬야 한다는 생각을 체질화할 필요가 있다. 그때그때의 기분이나 분위기, 주먹구구식 의사 결정이 아니라 증거 기반, 데이터 기반의 의사 결정에 대한 사회적 공감대가 필요하다.

이를 위해서는 정치권·정부·기업 등 사회 지도층의 생각이 먼저 바뀌어야 한다. 데이터 기반의 시장 분석과 미래 예측에 대한 리더십이 앞서지 않고서는 빅데이터 역시 하드웨어의 성찬에 그칠 우려가 작지 않다. 인식과 문화의 조성이 선행돼야 하기 때문이다. 이것은 국내 소프트웨어 산업의 부진을 기술이나 산업보다는 소프트웨어에 대한 인식과 문화의 부재에서 찾는 것과 같은 맥락이다.

정부를 중심으로 한 공공 부문의 역할도 중요하다. 우리의 경우 빅데이터를 생산할 수 있는 기반이 많지 않으므로, 공공 데이터를 개방해 빅데이터 활용을 위한 공공재로 삼아야 한다. 버스뿐만 아니라 각종 대중교통 운행 정보, 기상 정보, 부동산, 복지 등 공공 정보를 빅데이터 산업과 생태계를 위한 ‘빅데이터 커먼즈(big data commons)’로 오픈할 필요가 있다. 뿐만 아니라 민간 기업의 사적 영역에 있지만 공공적 혹은 공익적 성격이 강한 빅데이터에 대해서도 공익 혹은 빅데이터 생태계 전체를 위해 부분적 개방을 논의할 필요가 있다. 네이버의 검색어나 카카오톡 같은 모바일메신저, 뉴스 콘텐츠 등이 일례가 될 것이다.

구글 이용자의 검색어 입력 패턴을 분석해 지역별 독감 정보를 알려주는 구글 플루 서비스도 빅데이터 활용 사례로 꼽힌다.
빅데이터와 퍼스널 데이터 명확한 구분 필요

빅데이터가 가장 크게 위협하는 사회적 가치는 프라이버시와 자유다. 빅데이터는 개인을 위한 맞춤형 서비스는 물론 기업의 신속한 의사 결정 그리고 질병과 재난, 위협 등 공공적 목적 등에서 무한한 혜택을 가져다줄 잠재력을 갖고 있다. 하지만 이러한 혜택도 프라이버시 침해와 국가 감시 등의 위협에 노출될 경우 강력한 저항에 직면할 우려가 크다. 빅데이터 산업의 육성을 위한 진흥 정책과 함께 그 부작용에 대비하는 정책이 필수적이다.

프라이버시 문제를 해결하기 위해서는 무엇보다 빅데이터와 퍼스널 데이터(개인정보)를 명확히 구분해야 한다. 다시 말해 빅데이터 분석을 위한 빅데이터 커먼즈는 철저히 개인 식별 정보를 제외해 수집·저장하고 분석해야 한다는 것이다. 또 식별 정보와 함께 수집되는 개인의 행위 정보는 과거보다 더 철저하게 개인정보 보호 원칙에 근거해 관리해나가야 한다.

빅데이터는 정보 고속도로를 활용해 여가와 물품 수송의 가치를 창출하는 자동차에 해당된다. 프라이버시와 국가 감시의 우려를 제거하는 일은 고속도로가 본격적으로 확산되기 위해 안전벨트, 에어백 그리고 자동차보험 등 교통사고에 대한 대비가 필요한 것과 같은 이치다. 빅데이터 시대의 안전벨트는 바로 ‘프라이버시 벨트’라 할 것이다.

 

이 기사에 댓글쓰기펼치기