비욘드포스트

2022.10.02(일)

인공지능 챗봇 심심이, 인간 중심의 AI 발전을 위한 대규모 AI 데이터 전격 공개해

승인 2022-08-31 13:58:15

[비욘드포스트 김민혁 기자] 인공지능(AI) 챗봇 '심심이(대표 최정회)'가 인간 중심의 대규모 AI 데이터(Human-Centered AI Data)를 전격 공개한다고 밝혔다. 지난 8월 초거대 데이터 공개 이후 국내 AI 연구 및 발전을 위해 연이어 데이터 공개를 진행하고 있는 것이다.

심심이에 따르면 인간 중심 AI란 지난 2019년 주요 20개국(G20) 무역과 디지털경제 분야 장관 회의 선언문 등에 등장하며 공식적으로 주목 받기 시작한 개념이다. 특히 미국 스탠포드 대학의 인간중심 AI 연구소(Institution of Human Centered AI, HAI)가 발행하는 'AI 인덱스'의 올해 보고서에서 'AI의 산업화 및 윤리적 문제 증가'라는 주제로 AI 윤리 및 데이터 중요성을 강조하며 관심이 커지고 있는 추세다. 우리나라에서는 정부 차원의 AI 윤리 기준을 마련할 때 중요한 토대로 여겨지고 있다.

심심이는 AI 연구 활성화를 위해 지난 8월 약 150억 건의 대화 데이터 공개한 바 있다. 이후 학계는 물론 산업계 등 다양한 분야에서 초거대 데이터에 대해 수요가 높다는 것을 알 수 있었는데, 특히 여러 데이터 중 인간 중심 AI 데이터에 대한 수요가 매우 높아지고 있음을 확인했다. 이에 심심이는 지난 20년 동안 구축한 인간 중심 AI 데이터를 학계에 공개하기로 결정했다.

center
심심이(주)가 학계에 공개하기로 한 대규모 인간 중심 AI 데이터 명세

이번에 심심이가 공개하기로 한 인간 중심 AI 데이터는 총 네 가지다. 첫 번째는 신고삭제대화 시나리오다. 일반 사용자들은 심심이와 대화를 나누다가 콘텐츠 규정에 위반된다고 생각하는 대답을 신고할 수 있는데, 이때 세부 신고 사유 라벨이 부착됨과 동시에 다른 메타 정보와 함께 구축된 데이터 이다.

두 번째는 보편대화 시나리오다. 이는 심심이의 생동감, 위트 등을 살리는 것은 물론 음성 애플리케이션에서 누구나 범용적으로 사용할 수 있는 문장을 선별, 가공해 구축한 데이터셋이다. 모든 데이터 구축 과정에는 국어 및 언어 전공자 중심의 팀이 투입됐다.

세 번째 데이터는 보편대화탈락 시나리오다. 즉, 위에서 설명한 보편대화 시나리오 정제 과정에서 TTS에 적합하지 않아 탈락된 데이터를 의미한다.

마지막으로 10중맹검 윤리검수문장 데이터를 꼽을 수 있다. 이는 일반 사용자들이 맹검 도구 내에서 콘텐츠 규정 위반 여부를 검수해 점수를 부착해 둔 데이터셋이다. 이 데이터는 각각의 문장을 임의의 10인 이상 패널이 검수하여 심심이의 딥러닝 기반 나쁜말 판별기(DBSC) 성능을 확보하는데 결정적인 역할을 수행하기도 했다.

심심이 관계자는 "이번 데이터 공개 방식은 지난 8월 초거대 데이터 공개와 유사한 절차에 따라서 연구자 또는 연구팀 개별 신청을 접수 받은 뒤 심사, 비밀 유지 서약 등 관련 절차를 마친 다음 요구사항에 따라 제공 및 관리하는 방식을 활용한다."며 "심심이 대화 데이터를 제공받고자 하는 연구자라면 심심이 한국어 공식 블로그에서 신청서를 내려받아 작성한 다음 제출, 승인 후 소정의 절차를 거쳐 이용할 수 있다."고 전했다.

심심이 최정회 대표는 "심심이는 서비스 운영 중 지속 가능한 성장에 대한 실질적인 필요에 의해 여러 방식을 고안해 데이터를 가공해 왔는데 어느덧 인간 중심의 대규모 AI 데이터를 보유하게 됐다."며 "최근 딥러닝 기반 언어 모델이 급속히 발전하고 있지만 제품이나 서비스에 적용할 때 많은 한계에 부딪히면서 인간 중심 AI에 대한 문제 의식이 더욱 커지고 있다. 그러나 AI 연구자들은 양적, 질적으로 충분한 수준의 데이터를 구하기 어려운 것이 현실"이라고 지적했다.

또한, “대화형 인공지능(AI)이 최근 대세로 자리잡으면서 심심이 대화 데이터 수요가 점점 두터워지고 있는데, 특히 심심이는 국내외 학교, 연구소, 기업들과 데이터 제공관련 협력프로세스를 쌓으며 의미 있는 성과를 도출해왔다. 최근에는 과학기술정보통신부(이하 과기정통부)가 주관하고 한국지능정보사회진흥원(이하 NIA)이 추진하는 2022년도 인공지능 학습 데이터 구축사업에서 한국어 블렌더봇 데이터 과제를 수행하며 공공 대화 데이터 구축에도 힘을 쏟고있다”고 말했다.

이어 최정회 대표는 "지난 달 데이터 공개 작업을 시작하면서 여러 긍정적인 반응을 통해 추가적인 데이터 공개를 결정했다."며 "재미, 정신건강 등 심심이가 구축하게 될 다양한 데이터를 앞으로도 더 개방해 외부의 우수한 연구자들이 인간 중심 AI를 발전시킬 수 있도록 지원을 다할 것"이라고 전했다.

news@beyondpost.co.kr
<저작권자 © 비욘드포스트, 무단 전재 및 재배포 금지>