주메뉴바로가기 본문바로가기
메뉴열기

시사저널

아이템도 스스로 정하는 AI 기자의 도래

트위터에서 뉴스를 선정해 자동으로 기사를 작성하는 로이터의 AI 시스템

김회권 기자 ㅣ khg@sisajournal.com | 승인 2018.01.07(Sun) 09:52:14 | 1472호

0
페이스북 트위터 카카오스토리 밴드 link

 

AP통신의 ‘워드스미스’는 기업 실적 기사를 쓰는 로봇이다. 인간인 ‘기자’가 담당했을 때는 분기당 300개 정도의 기업 실적 기사가 작성됐다. 그런데 워드스미스가 이 일을 맡으면서 분기당 4000개 이상의 기사가 쏟아지고 있다. 알맞은 포맷에 살짝 수정만 가하면 되니 ‘봇’의 속도를 따라갈 수 없을 지경이다. 이처럼 인공지능을 탑재한 로봇이 인간을 대신해 기사를 쓰는 건 곳곳에서 시도하고 있는 프로젝트다. 예를 들어 포브스의 ‘퀄’은 증권시황을 전달하고 스포츠 경기의 결과를 기사로 작성한다. LA타임스의 ‘퀘이크봇’은 지진 전문 로봇 기자로 활동 중인데 인간보다 빠르게 지진 발생 소식을 전하고 있다. 

 

인공지능이 기사를 쓴다는 건 놀라운 일이지만 한계점도 분명했다. 단순한 스트레이트 기사 작성으로 한정됐다. 아이템을 선정하는 일, 현상을 해석하는 일 등은 여전히 인간의 손길이 필요한 부분이었다. 그런데 이런 경계가 슬슬 무너질지 모르겠다. 최근 로이터의 연구 때문이다.

 

%A9%20%uC0AC%uC9C4%3DPixabay%B7%uC2DC%uC0AC%uC800%uB110


 

2%의 트윗으로 아이템을 정하는 ‘로이터 트레이서’

 

로이터의 연구개발팀이 발표한 보고서를 보자. “인터넷의 출현, 그리고 그에 따른 정보량의 증가로 기자가 정확하고 신속하게 뉴스를 전달하는 일이 점점 더 어려워지고 있다.” 어려움을 토로하며 시작한 보고서는 속보를 자동화해 전달하는 방법에 인공지능을 가세시켰다. 로이터의 연구개발팀과 중국의 알리바바그룹이 함께 만들어낸 이 시스템은 소셜미디어를 이용했다. 그들은 트위터를 안테나로 사용했다.

 

‘로이터 트레이서(Reuters Tracer)’는 일종의 추적 시스템이다. 특정한 공식에 따라 복사하고 숫자만 바꿔 붙여 기사를 쏘던 게 과거 인공지능 뉴스의 전달 방식이었는데, 로이터의 시스템은 좀 다르다. 스스로 이슈를 추적할 수 있는 능동성을 갖고 있다. 데이터마이닝과 기계 학습을 사용해 관련성이 높은 아이템을 선택하고 우선순위를 정한 뒤 제목과 요약을 작성해 기사를 내보낸다.

 

인공지능이 아이템까지 선택하는 건 낯선 모습이다. 어떻게 아이템을 정할까. 먼저 트위터에서 데이터의 흐름을 잡는 일부터 시작한다. 로이터 트레이서는 매일 전체 트윗의 2%를 확인한다. 갯수로는 약 1200만 건에 달한다. 2%의 전체 트윗 중 절반은 무작위로 추출한다. 나머지 절반의 트윗은 로이터 측에서 따로 작성한 트위터 계정 리스트에서 추출한다. 여기에는 기업이나 언론사, 유명인사 등이 포함돼 있다. 

 

이렇게 추출한 트윗에서 소식의 발생시기를 살펴본다. 로이터 트레이서가 발생시기를 파악하는 방법은 멘션의 동시유발 정도다. 여러 사람이 같은 주제에 대해 일제히 말문을 열었는지를 통해 발생시기를 파악한다. 수많은 사람들이 같은 주제에 대한 얘기를 주고받는 상황을 검출하는 거다. 

 

검출한 뒤에는 뉴스를 분류하고 우선순위를 매긴다. 로이터 트레이스는 여러 알고리즘을 이용해 우선순위를 정한다. 앞선 단계에서 추출한 트윗을 확인하고 CNN이나 뉴욕타임스, BBC 등 세계 주요 언론사의 공식 트위터 계정 등의 트윗과 로이터가 만든 뉴스의 데이터베이스와도 비교한다. 여기에는 위치 파악도 포함된다. 위치 기반 키워드 데이터베이스를 사용해 소식의 발생 위치도 파악한다.

 

만약 트윗 분석을 통해 이런 소식이 뉴스가 될 수 있다고 판단된다면? 진위여부가 중요해진다. 진실과 거짓을 구분하기 위해 로이터 트레이서는 트윗에서 언급한 소식이 화제가 되고 있는 원출처(주로 웹페이지)를 확인해 찾는다. 거짓뉴스나 풍자뉴스를 올리는 사이트의 데이터와 비교하는 작업도 병행한다. 이런 과정을 통해 이게 진실이라고 판단을 내리면 인공지능은 제목과 요약문을 작성해 로이터에 전달한다. 로이터 트레이서가 만드는 인공지능 뉴스는 이런 과정을 통해 아이템 단계를 거쳐 기사로 진화한다. 

 

 

“테스트해보니 70%정도의 범위를 커버하더라”

 

테스트 기간 동안 시스템은 무난하게 작동했다고 로이터 연구개발팀은 전했다. 그들은 보고서에서 “로이터 트레이서는 경쟁사에 뒤지지 않는 정확성과 적시성, 신뢰성을 통해 뉴스를 검색하고 배포할 수 있다”고 설명했다. 통계도 이를 뒷받침했다. 로이터 트레이서는 매일 1200만 건의 트윗을 처리하고 이 중 80%를 노이즈로 제거한다. 나머지 20%는 6000가지의 뉴스로 분류한다. 이 모든 과정은 10가지 종류의 알고리즘을 실행하는 13대의 서버에서 실행되고 있다.

 

로이터는 트레이서를 통해 나온 기사를 BBC나 CNN 같은 주요 언론사의 뉴스피드에 게재된 기사와 비교했다. 그 결과는 흥미로웠다. 보고서는 이렇게 결론 내렸다. “로이터 트레이서는 2%의 트위터 데이터에서 추출한 기사를 통해 약 70%의 뉴스를 커버할 수 있다는 걸 확인했다.” 인공지능이 제한적인 영역을 벗어나 우리 사회 다방면에서 기자 노릇을 할 수 있게된 셈이다. 

 

뒤따르는 의문도 있다. 트위터를 뉴스 소스로 삼는 게 신뢰도에 문제 없는지 따져봐야 하고 악의적인 세력이 대량의 트윗을 통해 소스를 왜곡할 여지도 있다. 하지만 뉴스의 자동화를 견인하는 노력이 계속 이뤄지고 있다는 점, 그리고 그 과정에서 인간의 설 공간이 점점 좁아지고 있다는 점만은 팩트인 것 같다.​ 

 

전체댓글0

0 /150
  • 최신글
  • 공감 순
  • 비공감 순
더보기

TOP STORIES

한반도 > 연재 > 이영종의 평양인사이트 2018.11.13 Tue
북한, 약초 재배로 보건 시스템 구축나서나
OPINION 2018.11.13 Tue
[한강로에서] 메이지유신 150주년이 갖는 의미
사회 2018.11.13 Tue
[김앤장 공화국①] “김앤장은 또 하나의 정부”
사회 2018.11.12 Mon
[김앤장 공화국②] 김앤장 3년 차 변호사 K씨의 하루
사회 2018.11.12 Mon
[김앤장 공화국③] 같은 ‘간판’ 다른 ‘법인’
연재 > 큰 은행의 작은 컨설팅 이야기 2018.11.12 Mon
투자 성공을 위한 필수 3가지 포인트
연재 > 이원혁의 ‘역사의 데자뷰’ 2018.11.12 Mon
적과의 동침…조국보다 정의를 선택한 전쟁 영웅들
정치 > 지역 > 영남 2018.11.12 Mon
노회찬 빈자리 누가 채우나…창원 성산구 보궐선거 주목
사회 2018.11.12 Mon
[단독] “검찰, 황운하 노리고 룸살롱 황제 비리경찰 조작”
사회 2018.11.12 월
황운하 “검찰은 조직의 이익만을 생각하는 마피아 집단”
ISSUE 2018.11.11 일
지금도 계속되는 음주운전…슬픔·의구심 교차한 윤창호씨 영결식
한반도 2018.11.11 일
南, 제주 귤 보낸 날 北
LIFE > 연재 > Culture > 이인자 교수의 진짜일본 이야기 2018.11.11 일
베 짜기 장인과 ‘나카마(仲間)’
LIFE > 연재 > Health > 이경제의 불로장생 2018.11.11 일
편작도 고칠 수 없는 여섯 가지 증상
LIFE > Culture 2018.11.10 토
[New Book] 《미래의 단서》 外
LIFE > Culture 2018.11.10 토
“인간관계에서도 ‘자기결정권’ 회복해야”
LIFE > Culture 2018.11.10 토
할리우드 뒤흔든 《크레이지 리치 아시안》의 빛과 그림자
LIFE > Culture 2018.11.10 토
신성일, 우리가 잊었던 엄청난 위상
LIFE > 연재 > Health > 유재욱의 생활건강 2018.11.10 토
옆구리 살은 안 빠지고 얼굴 살만 빠지는 이유
국제 2018.11.09 금
“당장은 트럼프가 꽤 평범해 보인다”
경제 2018.11.09 금
징벌적 손배제 제2의 BMW 화재 사태 막을까
리스트 더보기