국립국어원, 인공지능 한국어 학습용 자료 공개

국립국어원, 인공지능 한국어 학습용 자료 공개

이경우 기자
입력 2020-08-27 12:38
수정 2020-08-27 12:52
  • 기사 읽어주기
    다시듣기
  • 글씨 크기 조절
  • 댓글
    0

일상 대화, 웹, 신문, 서적 등 한국어 빅데이터 13종 18억 어절

‘모두의 말뭉치’ 첫 화면. 국립국어원 제공
‘모두의 말뭉치’ 첫 화면. 국립국어원 제공
25일 13종 18억 어절 분량의 말뭉치가 국립국어원 ‘모두의 말뭉치’(https://corpus.korean.go.kr)에 공개됐다.

국립국어원은 이번에 공개한 자료는 2018~19년 구축한 것으로, ‘모두의 말뭉치’ 사이트에서 온라인 약정서를 작성하고 승인을 받으면 누구나 이용할 수 있다고 밝혔다.

이에 앞서 문화체육관광부와 국어원은 1998년부터 2007년까지 ‘21세기 세종계획’을 추진하며 약 2억 어절의 자료를 공개한 바 있다.

‘모두의 말뭉치’에는 최근 10년간의 신문 기사와 서적 2만 188종, 일상생활의 음성 대화와 메신저 대화, 방송 자료, 대본 등이 들어 있다. 또한 컴퓨터가 한국어를 더 잘 이해할 수 있도록 형태, 구문, 의미, 개체 등 언어 단위별로 분석한 자료 1100만 어절도 담겨 있다. 한국어 사용자의 직관과 판단 정보를 분석한 문법성 판단과 어휘 관계 자료 40만건도 포함돼 있다.

이번 자료에서는 일상 대화, 메신저, 웹 문서 등 구어체의 비중을 높였는데, 특히 표준어뿐만 아니라 다양한 지역별, 연령별 대화 자료들도 포함됐다. 인공지능(AI) 스피커, 챗봇 등의 대화형 서비스가 늘어나는 추세를 반영한 것이다.

이에 따라 한국어 인공지능 서비스를 개발하는 중소기업과 새싹기업(스타트업·벤처기업)들이 한국어 처리 기술 개발에 쉽게 접근할 수 있게 됐다. 대기업이나 관련 연구기관 등도 다양한 서비스를 개발하는 데 도움을 받을 수 있다.

이번에 공개한 말뭉치는 한국어 빅데이터라고 할 수 있는데, 국어원은 10월 초 말뭉치 활용을 주제로 전문가 토론회를 개최한다.

이경우 전문기자 wlee@seoul.co.kr
Copyright ⓒ 서울신문 All rights reserved. 무단 전재-재배포, AI 학습 및 활용 금지
close button
많이 본 뉴스
1 / 5
“도수치료 보장 안됩니다” 실손보험 개편안, 의료비 절감 해법인가 재산권 침해인가
정부가 실손의료보험 개편을 본격 추진하면서 보험료 인상과 의료비 통제 문제를 둘러싼 논란이 확산되고 있다. 비급여 진료비 관리 강화와 5세대 실손보험 도입을 핵심으로 한 개편안은 과잉 의료 이용을 막고 보험 시스템의 지속 가능성을 확보하기 위한 조치로 평가된다. 하지만 의료계와 시민사회를 중심으로 국민 재산권 침해와 의료 선택권 제한을 우려하는 목소리가 커지고 있다. 여러분의 생각은 어떤가요?
과잉진료를 막아 전체 보험가입자의 보험료를 절감할 수 있다.
기존보험 가입자의 재산권을 침해한 처사다.
1 / 5
1 / 3
광고삭제
광고삭제
위로