인문대뉴스

[인터뷰] [언론보도] "언어학자는 초거대 AI 개발 비용 줄이는 법을 알고 있다"...서울대 박진호 교수 인터뷰 (AI타임스)

2021-11-10l 조회수 2159
 

AI 개발 가능한 국내 유일 한국어학자...20년 전부터 코딩 독학
파라미터 랜덤 초기화 대신 언어학 기반 초기값 주는 법 제안
"기존 신경망 학습 시간의 1000분의 1도 안 걸린다."



서울대 국어국문학과 박진호 교수(사진=박성은 기자)서울대 국어국문학과 박진호 교수(사진=박성은 기자)

현재 인공지능(AI)계 가장 큰 이슈가 초거대 AI인 것을 부인하는 사람은 없을 것이다. 반면 초거대 AI는 비용이라는 최대 약점을 지닌다.

구글, 네이버와 같은 대기업만 초거대 AI 개발을 할 수 있는 이유는 돈이 많이 들기 때문이다. 대량의 데이터는 물론이고, 특히 GPU, TPU 등 컴퓨팅 인프라는 최고 수준을 요구한다.

연구에 사용할 컴퓨팅 인프라를 확보했더라도 어마어마한 전기 사용량과 이산화탄소 배출 문제는 막을 방법이 없다.

문제 해결책으로 AI 연구자들은 기존 딥러닝 방식과 완전히 다른 방법으로 작동하는 새로운 AI 기술에 주목하곤 한다. 하지만 차세대 기술이 나올 때까지 무작정 기다릴 수는 없는 노릇이다.

정답은 의외의 곳에 있을지도 모르는 법. GPT-3, 하이퍼클로바 등 현재의 초거대 AI 모델은 결국 '언어'모델이라는 것이 힌트다.

언어에 능수능란한 언어학자로부터 거대 AI 언어모델 개발 효율을 높이는 법을 알고 있다는 제보를 받았다. 서울대 국어국문학과 박진호 교수 이야기다.
 

◆20년 전부터 코딩 시작한 한국어학자...말뭉치 만들다 C언어, C++까지 독학

박진호 교수는 코딩과 AI 개발이 가능한 국내에 보기드문 한국어학자다. 언어학이 초거대 AI 연구 비용 감소를 위한 해답이 될 수 있다는 그의 의견에 더욱 귀 기울이게 되는 이유다.

박 교수가 소프트웨어(SW) 공부를 시작한 때를 이야기하자면 무려 1999년까지, 20년 이상을 거슬러 올라가야 한다.

“1997년, 1998년 이 무렵 IMF로 실업자가 많아지면서 정부가 단기 일자리 창출 정책인 정보화사업을 시작했다. 지금의 디지털뉴딜 정책과 비슷한 것이다. 당시 정보통신부에 예산이 굉장히 많이 배당돼서 인문학 분야 여러 데이터를 전산화하는 프로젝트가 많이 이뤄졌다.”

문체부의 21세기 세종계획 사업은 이 프로젝트 중 하나로 국어 정보화가 주제였다. 한국어가 디지털 시대에서도 잘 처리, 운영될 수 있도록 말뭉치, 전자사전 등을 구축하는 내용이었다. 이 사업에 언어학 연구자로 참여하면서 박진호 교수는 일종의 갈증을 느꼈다.

“당시에 저는 박사과정에 다니던 시절이었고 연구보조원으로 프로젝트에 참여했다. 한국어학을 전공한 사람이어야 정보를 정확하게 입력할 수 있기에 뜻깊은 일이라고 생각하면서도 아쉬웠다. 데이터를 만드는 단순 반복 작업 이외 이를 바탕으로 국어학자도 애플리케이션을 만들 수 있으면 좋겠다는 생각이 들었다”

박진호 교수의 세종 형태의미분석 코퍼스 작업 모습(사진=박진호 교수)
박진호 교수의 세종 형태의미분석 코퍼스 작업 모습(사진=박진호 교수)

누구도 가지 않은 일이었지만 원하는 바를 이루기 위해 자신부터 뛰어들었다. 그렇게 박진호 교수는 1999년부터 전산 언어학, 컴퓨터 언어학을 위한 프로그래밍 공부를 시작했다.

하지만 얼마 지나지 않아 또다른 갈증이 생겼다. 언어학과 프로그래밍은 공부하는 방법이 달랐다. 책만 읽고 공부한다고 해서 실력이 느는 분야가 아니었던 것.

실제 프로젝트를 해야 경험이 쌓이고 실력도 는다는 생각에 언어과학이라는 회사에 들어갔다. 입사하자마자 일본어를 한국어로 번역하는 번역기 프로젝트에 참여했다. 연구부에 소속돼 언어학자로서 일본어나 한국어에 대한 언어학적 분석을 했다. 개발부 프로그래머들에게 이 자료를 넘겨주면 코딩을 진행했다.

실제 일을 해보니 오히려 코딩 공부를 더 해야겠다는 생각이 들었다. 언어학자는 프로그래밍을 모르고 프로그래머는 언어학을 모르니 제대로 소통이 될 리가 없었다.

“매일 밤샘 작업하는 프로그래머들에게 언어학을 공부하라 할 수는 없었다. 그 사람들이 다가오길 기다리기보다 내가 먼저 다가가야겠다고 생각했다. 그럴 의무는 없었지만 스스로 C언어, C++과 같은 프로그래밍 언어 독학을 시작했다. 공부를 하고 나니 확실히 개발자들과 소통하기가 좋아졌다. 하다보니까 개인적으로 재미있었던 것도 사실이다.”
 

◆새해 결심으로 AI 공부 시작...한 달 만에 언어학 연구용 AI 개발

SW에 이어 AI 공부를 시작한 것은 2018년 1월 1일. 새해 결심으로 시작한 일이 딥러닝 공부라 정확하게 기억한단다. 딥러닝이 유행하고 알파고가 활약하는 것을 보면서 학생들에게도 AI를 알려줘야겠다는 생각이 들었다. 이번에도 공부 방법은 독학. 여느 학생들이 하는 것처럼 딥러닝 책을 보고 예제를 따라하는 식으로 공부했다.

“2000년대 초반 서울대에 한국어 정보의 전산 처리라는 교과목이 개설됐고 이 과목을 매년 내가 맡아왔다. 최근 연구 동향을 강의에 반영하기 위해 공부를 시작했는데 이 기술을 통해 나도 많은 일을 할 수 있겠다는 생각이 들었다. 딥러닝을 국어 연구에 응용할 아이디어들이 샘솟듯 쏟아졌다.”

박진호 교수가 한국어학 연구에 응용한 AI 기술 성과 중 대표적인 것은 딥러닝 기반 한국어 형태소 분석기다. 딥러닝 공부를 시작한 지 한 달 뒤부터 그는 해당 분석기 연구를 시작했다. 문체부의 21세기 세종계획 사업 계획에서 마련한 말뭉치 데이터를 쓰려고 보니 오류가 너무 많았다. 결국 데이터 수정 작업부터 손수 다시 시작했다.

“문체부 사업으로 마련된 데이터가 1200만어절로 규모가 꽤 컸다. 문제는 국어학자 관점에서 데이터를 입력한 포맷이 AI를 적용하기에 맞지 않았다는 것이다. 결국 내가 코드를 직접 짜서 데이터 내 오류 부분을 모두 찾아내 직접 고쳤다. 이 작업을 가을까지 겨우 완료했다.”
 

◆초거대 AI 학습 시간 줄이는 열쇠, 언어학에 있다

딥러닝 부흥으로 언어학자들을 위한 AI 개발은 용이해진 반면, AI 언어모델 개발에 언어학자가 참여하는 일은 크게 줄었다. 딥러닝 기술에서는 도메인 전문가인 언어학자가 언어를 분석하는 알고리즘을 사전 설계하는 과정 없이 대량의 데이터를 입력하기만 하면 신경망이 알아서 학습하기 때문이다. AI 연구를 위해 수십년 동안 이어진 언어학자와 컴퓨터과학자 간 협업 고리가 거의 끊어진 상황이다.

하지만 AI 언어모델 개발이 규모 경쟁에 돌입하면서 다시 언어학자만이 할 수 있는 일이 생겼다는 것이 박진호 교수의 주장이다. 대규모 컴퓨팅 파워를 쓰는 신경망 학습 시간을 단축할 수 있는 열쇠가 언어학에 있다는 것.

“초거대 AI 원리인 어텐션 매커니즘은 문장을 생성할 때 첫 번째 단어를 생성하고, 이 다음에 자연스럽게 이어질 수 있는 두 번째 단어 생성하고, 그 다음에 이 두 단어를 바탕으로 또 자연스러운 세 번째 생성하는 식으로 작동한다. 다섯 번째 단어를 생성하려고 하면 앞에 네 개 단어가 영향을 미칠 것이다. 대부분은 다섯 번째 단어에 가장 영향을 많이 미치는 것은 가까이 있는 네 번째 단어인데 문제는 그렇지 않은 경우가 있다. 예를 들어 ‘The girl loved by many boys is my sister.’라는 문장에서 is는 바로 앞에 boys가 있지만 한참 앞에 있는 girl과 연관성이 더 크다.”

현재 트랜스포머에서 어텐션을 할 때는 다음에 올 단어를 예측하기 위해 처음에 파라미터값을 랜덤하게 초기화한다. 이 상태에서 신경망 학습을 하면 가장 연관성이 큰 단어가 높은 어텐션을 받기까지 시간이 많이 걸린다.

박진호 교수는 처음부터 파라미터에 대해 랜덤 초기화하지 말고 정답에 가까운 값으로 초기값을 주는 방법을 제안한다.

그는 “언어학자들의 문장 분석을 거치면 이러한 사항들을 금방 알 수 있다. 이걸 구문 분석(parsing)이라고 한다. 구문 분석에 시간이 걸린다 하더라도 기존 신경망 학습 시간의 100분의 1, 1000분의 1도 안 된다”고 강조했다.

자연어이해(NLU)와 자연어생성(NLG)에 필요한 언어모델 전략도 다르다는 것이 박 교수의 설명이다. 자연어이해 연구에서는 먼저 단어 백터를 저렴하고 쉬운 방법으로 얻은 뒤에 이 벡터들을 결합해서 문장 벡터로 얻는 전략이 바람직하다.

자연어이해의 대표적인 예시인 구글 버트(BERT)는 단어와 문장 벡터화를 한꺼번에 진행한다. 엄청나게 많은 언어 데이터를 신경망에 넣어 훈련시킨다. 문장과 문장, 단어와 단어 사이에 빈칸을 넣어놓고 맞추게 하는 식이다. 이 작업을 여러번 반복하다보면 단어, 문장 벡터가 만들어진다. 이런 방식은 언어학 상식과도 맞지 않으며 비용이 많이 드는 원인이라는 것이 박진호 교수의 지적이다.

“언어학의 경우 ‘예쁜 소녀가 나에게 왔다.’라는 문장에서 각 단어 의미를 구분하고 이를 합쳐 문장 의미를 만든다. 버트는 문장 전체 의미를 곧바로 얻어낸다. 그런데 문장 벡터에 비해 단어 벡터는 훨씬 쉽게 얻을 수 있다. 버트가 나오기 전 등장한 워드투백(word2vec) 알고리즘을 돌리면 굉장히 빠른 시간 내에 금방 단어 벡터가 나온다.”

단어 벡터 관계를 나눈 모습(사진=박진호 교수)
단어 벡터 관계를 나눈 모습(사진=박진호 교수)

단어 벡터를 우선 얻은 다음, 각 단어 벡터들을 결합하는 오퍼레이션을 언어학자가 연구해 단어들을 결합시키고 문장 벡터를 얻는 것이 박 교수의 아이디어다. 해당 방식을 사용하면 기존 신경망 학습에 비해 몇억분의 1 정도 시간이 걸린다는 주장이다.

박 교수는 “단어 벡터와 단어 벡터를 결합할 때 관계를 규명하는 것이 언어학자들이 할 일이다. 영어에서는 해당 연구가 이미 진행됐고 200개 정도 유형으로 나눴다. 한국어도 비슷하게 나올 것으로 예상한다”고 설명했다.

이어 “컴퓨터과학자와 함께 할 일은 단어 벡터와 단어 벡터를 결합하는 오퍼레이션 연산을 200가지 정의하는 것이다. 이 일이 마무리되면 그 다음부터는 훨씬 짧은 시간 내에 문장 벡터를 계산할 수 있다. 기계번역, 개체명 인식, 질의응답 등에 모두 적용 가능하다”고 강조했다.
 

◆모든 언어 가능한 AI 보다 고성능 한국어 AI 개발에 집중해야

박진호 교수의 목표는 한국어학도로서 현재 자연어처리 시스템 한계를 돌파할 수 있는 도면을 제시하는 것이다. 언어학 도메인 지식을 활용한 경우와 그렇지 않은 경우의 성능 차이를 증명해 컴퓨터과학자들을 설득할 계획이다.

또다른 목표는 한국어 특화 AI 언어모델의 성능을 최고 수준으로 끌어올리는 것이다. 구글 번역기와 같은 번용 알고리즘에 만족하지 않고 100점에 가까운 성능을 내는 한국어 특화 언어모델을 개발하는 것에 컴퓨터과학자와 언어학자가 주목할 필요가 있다고 말한다. 특히 한국어학자에게 이는 학자로서의 의무나 다름없다는 의견이다.

박 교수는 “전세계에 언어가 7000개 정도 있다. 모든 언어가 공통으로 가진 부분도 있지만 각 언어는 나름대로 특색과 차이가 있다. 그런데 현재 AI로 언어를 처리하는 방식에서는 언어 간 차이는 별로 고려하지 않고 모든 언어에 다 적용될 수 있는 공통점에 주목하고 있다”고 지적했다.

이어 “구글 번역기와 같은 범용 알고리즘을 한국어에 적용하면 꽤 괜찮은 성능이 나오긴 한다. 하지만 이 성능이 90, 95점까지는 나와도 100점은 아니다”라고 강조했다.

통상 AI 연구에서 시스템 성능을 0에서 90점까지 만드는 것은 난이도가 쉽고 빠른 시간 내 가능하다. 하지만 90에서 95점으로 만드려면 몇 배의 시간과 노력이 든다. 95에서 96, 97, 98점으로 개선하는 일은 훨씬 더 어렵다.

박진호 교수는 “저는 언어학자, 특히 한국어학자로서 범용 알고리즘에 만족하지 않고 여기에 한국어 특징을 감안해 97, 98, 99점까지 성능을 끌어올리는데 관심이 있다. 자연어처리 분야에 종사하는 다른 분들도 이러한 언어 각각의 특성과 개별성에 좀 더 주목해줬으면 좋겠다”고 말했다.

그러면서 “특히 언어학자, 한국어학자들의 경우 범용 알고리즘을 그냥 쓰는 것이 아니라 한국어 나름의 특징과 개별성에 주목을 하고 이를 반영하는데 기여해야 한다고 생각한다”고 전했다.

 

AI타임스 박성은 기자 sage@aitimes.com
http://www.aitimes.com/news/articleView.html?idxno=141369