‘한국어신동’ AI키우는SK텔레콤
영어AI원형에방대한한국어학습KoBERT·KoGPT2오픈소스공개고객응대챗봇등AI활용도높여
사람에게편리한 인터넷 검색 서비스나 스마트 스피커기기는그안에뛰어난 인공지능(AI)의힘을품고있다.이런기술을확보하기위해SK텔레콤 ‘AI랭귀지테크랩스(ALT Labs)’ 연구원들은한국어를잘다루는 AI ‘코버트(KoBERT)’와 ‘KoGPT2’를 잇따라개발했다.
개발된 두 AI 기술은 기존 한국어 AI 기술보다뛰어난 성능을 보여 준다. SK텔레콤 측은 “네이버영화리뷰 데이터(NSMC)를 활용한 ‘감정분석분류’작업에서KoBERT는 90.1%, KoGPT2는 89.9%의 성능(정확도)을 보인다”며 “KoBERT 사용 이전에이작업은 일반적으로 83~85%의 정확도를 보인다고알려져있었다”고 설명했다.이AI기술은SK텔레콤의고객응대챗봇, 사내업무지원용 검색, 내부마케팅정보추출용기술로활용됐다.
KoBERT의 원형은 구글이지난 2018년 10월 공개한 버트(BERT)이며, KoGPT2의원형은 오픈AI가지난해공개한 GPT-2다. BERT는 영어읽기, GPT-2는 영어쓰기에특출한 ‘언어 신동’ AI로 유명세를얻었다. SK텔레콤은 이들에게한국어를열심히가르친결과내부업무에활용해성과를얻었고,지난해10월 KoBERT를, 올해2월엔KoGPT2를 각각오픈소스로공개했다.
SK텔레콤 ALT Labs 전문가들은 두 AI를 만들기위해수천만개문장과 수억개단어로된방대한한국어자료를 활용했는데, 이를 처리하기위한 대규모 컴퓨터자원이필요했다. SK텔레콤은 클라우드서비스 회사 아마존웹서비스(AWS)의 도움을 받았다.이에더해아마존머신러닝솔루션즈랩이대용량학습인프라환경을구축했고, AWS글루온NLP팀이학습코드최적화를지원했다.
SK텔레콤 ALT Labs 측은 “KoGPT2 학습 당시,대용량학습을위한자원이충분치않았는데, AWS에서이에필요한적지않은자원을제공해줬다”고밝혔다. KoBERT 학습에2개월간 엔비디아의‘테슬라 V100’ GPU 16개, KoGPT2 학습에1주일간 V100 64개가 사용됐다. V100은 AI 연산에특화된 GPU로,개당가격1000만원이넘는부품이다.
외부 개발자와 기업들은 SK텔레콤이 오픈소스로 공개한 KoBERT와 KoGPT2를 활용해특정한목적의AI기술을더효율적으로개발할수있게됐다. SK텔레콤 측은“우리가 공개한것은다양한언어처리작업에널리쓰이는 것을 전제로 사전학습된(pre-trained) 모델”이라며“대화나 질문에대한답변등에추가 학습으로 특화시켜활용도를 높일수있다”고 설명했다.해외에서뛰어난 AI가 새로등장해도여전히한국어성능을높이기위한추가작업을 필요로 한다. SK텔레콤은 “정확한 모델명을언급하긴어렵지만 KoBERT와 KoGPT2 외에도활용도가높은몇가지모델의한국어버전을개발하고있다”고 밝혔다.