주메뉴바로가기 본문바로가기
메뉴열기

시사저널

아이템도 스스로 정하는 AI 기자의 도래

트위터에서 뉴스를 선정해 자동으로 기사를 작성하는 로이터의 AI 시스템

김회권 기자 ㅣ khg@sisajournal.com | 승인 2018.01.07(Sun) 09:52:14 | 1472호

0
페이스북 트위터 카카오스토리 밴드 link

 

AP통신의 ‘워드스미스’는 기업 실적 기사를 쓰는 로봇이다. 인간인 ‘기자’가 담당했을 때는 분기당 300개 정도의 기업 실적 기사가 작성됐다. 그런데 워드스미스가 이 일을 맡으면서 분기당 4000개 이상의 기사가 쏟아지고 있다. 알맞은 포맷에 살짝 수정만 가하면 되니 ‘봇’의 속도를 따라갈 수 없을 지경이다. 이처럼 인공지능을 탑재한 로봇이 인간을 대신해 기사를 쓰는 건 곳곳에서 시도하고 있는 프로젝트다. 예를 들어 포브스의 ‘퀄’은 증권시황을 전달하고 스포츠 경기의 결과를 기사로 작성한다. LA타임스의 ‘퀘이크봇’은 지진 전문 로봇 기자로 활동 중인데 인간보다 빠르게 지진 발생 소식을 전하고 있다. 

 

인공지능이 기사를 쓴다는 건 놀라운 일이지만 한계점도 분명했다. 단순한 스트레이트 기사 작성으로 한정됐다. 아이템을 선정하는 일, 현상을 해석하는 일 등은 여전히 인간의 손길이 필요한 부분이었다. 그런데 이런 경계가 슬슬 무너질지 모르겠다. 최근 로이터의 연구 때문이다.

 

%A9%20%uC0AC%uC9C4%3DPixabay%B7%uC2DC%uC0AC%uC800%uB110


 

2%의 트윗으로 아이템을 정하는 ‘로이터 트레이서’

 

로이터의 연구개발팀이 발표한 보고서를 보자. “인터넷의 출현, 그리고 그에 따른 정보량의 증가로 기자가 정확하고 신속하게 뉴스를 전달하는 일이 점점 더 어려워지고 있다.” 어려움을 토로하며 시작한 보고서는 속보를 자동화해 전달하는 방법에 인공지능을 가세시켰다. 로이터의 연구개발팀과 중국의 알리바바그룹이 함께 만들어낸 이 시스템은 소셜미디어를 이용했다. 그들은 트위터를 안테나로 사용했다.

 

‘로이터 트레이서(Reuters Tracer)’는 일종의 추적 시스템이다. 특정한 공식에 따라 복사하고 숫자만 바꿔 붙여 기사를 쏘던 게 과거 인공지능 뉴스의 전달 방식이었는데, 로이터의 시스템은 좀 다르다. 스스로 이슈를 추적할 수 있는 능동성을 갖고 있다. 데이터마이닝과 기계 학습을 사용해 관련성이 높은 아이템을 선택하고 우선순위를 정한 뒤 제목과 요약을 작성해 기사를 내보낸다.

 

인공지능이 아이템까지 선택하는 건 낯선 모습이다. 어떻게 아이템을 정할까. 먼저 트위터에서 데이터의 흐름을 잡는 일부터 시작한다. 로이터 트레이서는 매일 전체 트윗의 2%를 확인한다. 갯수로는 약 1200만 건에 달한다. 2%의 전체 트윗 중 절반은 무작위로 추출한다. 나머지 절반의 트윗은 로이터 측에서 따로 작성한 트위터 계정 리스트에서 추출한다. 여기에는 기업이나 언론사, 유명인사 등이 포함돼 있다. 

 

이렇게 추출한 트윗에서 소식의 발생시기를 살펴본다. 로이터 트레이서가 발생시기를 파악하는 방법은 멘션의 동시유발 정도다. 여러 사람이 같은 주제에 대해 일제히 말문을 열었는지를 통해 발생시기를 파악한다. 수많은 사람들이 같은 주제에 대한 얘기를 주고받는 상황을 검출하는 거다. 

 

검출한 뒤에는 뉴스를 분류하고 우선순위를 매긴다. 로이터 트레이스는 여러 알고리즘을 이용해 우선순위를 정한다. 앞선 단계에서 추출한 트윗을 확인하고 CNN이나 뉴욕타임스, BBC 등 세계 주요 언론사의 공식 트위터 계정 등의 트윗과 로이터가 만든 뉴스의 데이터베이스와도 비교한다. 여기에는 위치 파악도 포함된다. 위치 기반 키워드 데이터베이스를 사용해 소식의 발생 위치도 파악한다.

 

만약 트윗 분석을 통해 이런 소식이 뉴스가 될 수 있다고 판단된다면? 진위여부가 중요해진다. 진실과 거짓을 구분하기 위해 로이터 트레이서는 트윗에서 언급한 소식이 화제가 되고 있는 원출처(주로 웹페이지)를 확인해 찾는다. 거짓뉴스나 풍자뉴스를 올리는 사이트의 데이터와 비교하는 작업도 병행한다. 이런 과정을 통해 이게 진실이라고 판단을 내리면 인공지능은 제목과 요약문을 작성해 로이터에 전달한다. 로이터 트레이서가 만드는 인공지능 뉴스는 이런 과정을 통해 아이템 단계를 거쳐 기사로 진화한다. 

 

 

“테스트해보니 70%정도의 범위를 커버하더라”

 

테스트 기간 동안 시스템은 무난하게 작동했다고 로이터 연구개발팀은 전했다. 그들은 보고서에서 “로이터 트레이서는 경쟁사에 뒤지지 않는 정확성과 적시성, 신뢰성을 통해 뉴스를 검색하고 배포할 수 있다”고 설명했다. 통계도 이를 뒷받침했다. 로이터 트레이서는 매일 1200만 건의 트윗을 처리하고 이 중 80%를 노이즈로 제거한다. 나머지 20%는 6000가지의 뉴스로 분류한다. 이 모든 과정은 10가지 종류의 알고리즘을 실행하는 13대의 서버에서 실행되고 있다.

 

로이터는 트레이서를 통해 나온 기사를 BBC나 CNN 같은 주요 언론사의 뉴스피드에 게재된 기사와 비교했다. 그 결과는 흥미로웠다. 보고서는 이렇게 결론 내렸다. “로이터 트레이서는 2%의 트위터 데이터에서 추출한 기사를 통해 약 70%의 뉴스를 커버할 수 있다는 걸 확인했다.” 인공지능이 제한적인 영역을 벗어나 우리 사회 다방면에서 기자 노릇을 할 수 있게된 셈이다. 

 

뒤따르는 의문도 있다. 트위터를 뉴스 소스로 삼는 게 신뢰도에 문제 없는지 따져봐야 하고 악의적인 세력이 대량의 트윗을 통해 소스를 왜곡할 여지도 있다. 하지만 뉴스의 자동화를 견인하는 노력이 계속 이뤄지고 있다는 점, 그리고 그 과정에서 인간의 설 공간이 점점 좁아지고 있다는 점만은 팩트인 것 같다.​ 

 

전체댓글0

0 /150
  • 최신글
  • 공감 순
  • 비공감 순
더보기

TOP STORIES

Culture > LIFE 2018.07.21 Sat
2018 먹방 브랜드 ‘영자미식회’는 계속된다
연재 > 유재욱의 생활건강 2018.07.21 Sat
‘미용 근육’ 말고 ‘건강 근육’을 챙겨라
정치 2018.07.21 Sat
정치권 ‘블랙홀’로 재부상한 드루킹
Culture > LIFE 2018.07.21 Sat
《미스터 션샤인》, ‘김은숙 월드’의 확장과 남은 숙제들
Culture > LIFE 2018.07.21 Sat
인류 조상은 중국 황토고원지대에 살았던 중국인?
사회 2018.07.21 Sat
연이은 아이들 죽음에도 꿈쩍 않는 정부·국회
Culture > LIFE 2018.07.20 Fri
시간을 거스르는 남자, 톰 크루즈
LIFE > Sports 2018.07.20 Fri
러시아 월드컵의 교훈, ‘점유율’보다 ‘속도’
정치 2018.07.20 Fri
이철희 의원 “송영무 장관 교체, 적기 아니다”
OPINION 2018.07.20 금
[시끌시끌 SNS] “오늘도 전국은 덥겠습니다”
연재 > 이원혁의 ‘역사의 데자뷰’ 2018.07.20 금
돈스코이호 ‘보물선 소동’에 오버랩 되는 우리 식민 역사
사회 2018.07.20 금
페미니즘이 변질됐다? “미러링 유효기간 끝나”
사회 2018.07.20 금
‘불편’한 페미니즘…‘워마드’가 촉발한 급진적 페미니즘 논란
사회 2018.07.19 목
이진동 “檢, 현직 언론인의 최순실 사건 비호 덮었다”
갤러리 > 포토뉴스 2018.07.19 목
[동영상]석촌호수에 대형 캐릭터 '카우스'가 떴다
정치 2018.07.19 목
제2·제3의 노회찬 나올 수도…‘드루킹 자금’ 정조준한 특검
LIFE > 연재 > Health > 노진섭 기자의 the 건강 2018.07.19 목
'편의점 약' 편리성 우선이냐, 안전성 우선이냐
LIFE > Culture 2018.07.19 목
[카드뉴스] 사진, 기록을 넘어 현실을 비추다
연재 > 서영수의 Tea Road 2018.07.19 목
훈훈한 미담으로 ‘녹차茶王’ 오른 타이핑허우쿠이
LIFE > Health 2018.07.19 목
“A형 간염 항체 보유율, 최근 감소 추세”
리스트 더보기