아이템도 스스로 정하는 AI 기자의 도래
  • 김회권 기자 (khg@sisajournal.com)
  • 승인 2018.01.05 17:39
  • 호수 1472
이 기사를 공유합니다

트위터에서 뉴스를 선정해 자동으로 기사를 작성하는 로이터의 AI 시스템

 

AP통신의 ‘워드스미스’는 기업 실적 기사를 쓰는 로봇이다. 인간인 ‘기자’가 담당했을 때는 분기당 300개 정도의 기업 실적 기사가 작성됐다. 그런데 워드스미스가 이 일을 맡으면서 분기당 4000개 이상의 기사가 쏟아지고 있다. 알맞은 포맷에 살짝 수정만 가하면 되니 ‘봇’의 속도를 따라갈 수 없을 지경이다. 이처럼 인공지능을 탑재한 로봇이 인간을 대신해 기사를 쓰는 건 곳곳에서 시도하고 있는 프로젝트다. 예를 들어 포브스의 ‘퀄’은 증권시황을 전달하고 스포츠 경기의 결과를 기사로 작성한다. LA타임스의 ‘퀘이크봇’은 지진 전문 로봇 기자로 활동 중인데 인간보다 빠르게 지진 발생 소식을 전하고 있다. 

 

인공지능이 기사를 쓴다는 건 놀라운 일이지만 한계점도 분명했다. 단순한 스트레이트 기사 작성으로 한정됐다. 아이템을 선정하는 일, 현상을 해석하는 일 등은 여전히 인간의 손길이 필요한 부분이었다. 그런데 이런 경계가 슬슬 무너질지 모르겠다. 최근 로이터의 연구 때문이다.

 

© 사진=Pixabay·시사저널

 

2%의 트윗으로 아이템을 정하는 ‘로이터 트레이서’

 

로이터의 연구개발팀이 발표한 보고서를 보자. “인터넷의 출현, 그리고 그에 따른 정보량의 증가로 기자가 정확하고 신속하게 뉴스를 전달하는 일이 점점 더 어려워지고 있다.” 어려움을 토로하며 시작한 보고서는 속보를 자동화해 전달하는 방법에 인공지능을 가세시켰다. 로이터의 연구개발팀과 중국의 알리바바그룹이 함께 만들어낸 이 시스템은 소셜미디어를 이용했다. 그들은 트위터를 안테나로 사용했다.

 

‘로이터 트레이서(Reuters Tracer)’는 일종의 추적 시스템이다. 특정한 공식에 따라 복사하고 숫자만 바꿔 붙여 기사를 쏘던 게 과거 인공지능 뉴스의 전달 방식이었는데, 로이터의 시스템은 좀 다르다. 스스로 이슈를 추적할 수 있는 능동성을 갖고 있다. 데이터마이닝과 기계 학습을 사용해 관련성이 높은 아이템을 선택하고 우선순위를 정한 뒤 제목과 요약을 작성해 기사를 내보낸다.

 

인공지능이 아이템까지 선택하는 건 낯선 모습이다. 어떻게 아이템을 정할까. 먼저 트위터에서 데이터의 흐름을 잡는 일부터 시작한다. 로이터 트레이서는 매일 전체 트윗의 2%를 확인한다. 갯수로는 약 1200만 건에 달한다. 2%의 전체 트윗 중 절반은 무작위로 추출한다. 나머지 절반의 트윗은 로이터 측에서 따로 작성한 트위터 계정 리스트에서 추출한다. 여기에는 기업이나 언론사, 유명인사 등이 포함돼 있다. 

 

이렇게 추출한 트윗에서 소식의 발생시기를 살펴본다. 로이터 트레이서가 발생시기를 파악하는 방법은 멘션의 동시유발 정도다. 여러 사람이 같은 주제에 대해 일제히 말문을 열었는지를 통해 발생시기를 파악한다. 수많은 사람들이 같은 주제에 대한 얘기를 주고받는 상황을 검출하는 거다. 

 

검출한 뒤에는 뉴스를 분류하고 우선순위를 매긴다. 로이터 트레이스는 여러 알고리즘을 이용해 우선순위를 정한다. 앞선 단계에서 추출한 트윗을 확인하고 CNN이나 뉴욕타임스, BBC 등 세계 주요 언론사의 공식 트위터 계정 등의 트윗과 로이터가 만든 뉴스의 데이터베이스와도 비교한다. 여기에는 위치 파악도 포함된다. 위치 기반 키워드 데이터베이스를 사용해 소식의 발생 위치도 파악한다.

 

만약 트윗 분석을 통해 이런 소식이 뉴스가 될 수 있다고 판단된다면? 진위여부가 중요해진다. 진실과 거짓을 구분하기 위해 로이터 트레이서는 트윗에서 언급한 소식이 화제가 되고 있는 원출처(주로 웹페이지)를 확인해 찾는다. 거짓뉴스나 풍자뉴스를 올리는 사이트의 데이터와 비교하는 작업도 병행한다. 이런 과정을 통해 이게 진실이라고 판단을 내리면 인공지능은 제목과 요약문을 작성해 로이터에 전달한다. 로이터 트레이서가 만드는 인공지능 뉴스는 이런 과정을 통해 아이템 단계를 거쳐 기사로 진화한다. 

 

 

“테스트해보니 70%정도의 범위를 커버하더라”

 

테스트 기간 동안 시스템은 무난하게 작동했다고 로이터 연구개발팀은 전했다. 그들은 보고서에서 “로이터 트레이서는 경쟁사에 뒤지지 않는 정확성과 적시성, 신뢰성을 통해 뉴스를 검색하고 배포할 수 있다”고 설명했다. 통계도 이를 뒷받침했다. 로이터 트레이서는 매일 1200만 건의 트윗을 처리하고 이 중 80%를 노이즈로 제거한다. 나머지 20%는 6000가지의 뉴스로 분류한다. 이 모든 과정은 10가지 종류의 알고리즘을 실행하는 13대의 서버에서 실행되고 있다.

 

로이터는 트레이서를 통해 나온 기사를 BBC나 CNN 같은 주요 언론사의 뉴스피드에 게재된 기사와 비교했다. 그 결과는 흥미로웠다. 보고서는 이렇게 결론 내렸다. “로이터 트레이서는 2%의 트위터 데이터에서 추출한 기사를 통해 약 70%의 뉴스를 커버할 수 있다는 걸 확인했다.” 인공지능이 제한적인 영역을 벗어나 우리 사회 다방면에서 기자 노릇을 할 수 있게된 셈이다. 

 

뒤따르는 의문도 있다. 트위터를 뉴스 소스로 삼는 게 신뢰도에 문제 없는지 따져봐야 하고 악의적인 세력이 대량의 트윗을 통해 소스를 왜곡할 여지도 있다. 하지만 뉴스의 자동화를 견인하는 노력이 계속 이뤄지고 있다는 점, 그리고 그 과정에서 인간의 설 공간이 점점 좁아지고 있다는 점만은 팩트인 것 같다.​ 

 

이 기사에 댓글쓰기펼치기