“인공지능(AI)이 새로 배울 만한 양질의 데이터가 2026~2032년 인터넷상에서 고갈될 것입니다.” 미국의 정보기술(IT) 연구기관인 에포크AI가 지난해 6월 이 같은 전망을 내놓자 과학기술계는 술렁였다. 챗GPT 등 초거대 AI들은 인터넷에 무료로 공개된 자료들을 학습하면서 발전해왔는데 쓸 만한 데이터들을 이미 거의 습득해 새로 배울 자료를 구하기 어렵게 됐다는 것이다. 학습 정보의 부족은 AI 성능의 발전 정체를 초래하게 된다. 해법으로 ‘합성데이터(synthetic data)’가 떠올랐다. 영국 언론 매체 옵서버는 2025년 주목할 만한 5대 AI 트렌드 중 하나로 합성데이터를 꼽았다.
합성데이터는 현실 세계의 데이터들을 분석한 것을 토대로 실제와 유사한 상황을 재연하도록 창조된 인공 정보다. 금융기관의 AI가 증권 사기 방지 능력을 깨우치는 데 필요한 학습 자료를 충분히 확보하지 못한 상황을 예로 들 수 있다. 이 경우 기존에 공개된 금융 거래 정보들을 분석해 발생 개연성이 높은 거래 패턴들을 묘사한 합성데이터를 만들어주면 AI가 정상 거래와 비정상 거래를 가려내는 훈련을 할 수 있다. AI 학습용 데이터 수요는 급증하고 있다. 시장 분석기관 리서치앤드마켓은 해당 데이터의 전 세계 시장 규모가 지난해 28억 2000만 달러에서 2029년 95억 8000만 달러까지 커질 것으로 전망했다.
합성데이터도 결국 AI 기술을 통해 생산된다. AI가 인간의 지식을 배우는 단계를 넘어 AI끼리 서로 가르치고 초지능을 일깨우는 시대가 도래하고 있다. 오픈AI가 2022년부터 공개 운영 중인 챗GPT가 인간에게 가르침을 받았다면 이 회사의 차세대 AI ‘오리온’은 합성데이터를 습득하며 개발되고 있다. 한국산 AI는 챗GPT 수준에도 못 미치는데 세계적인 데이터 보안 규제 강화 및 인터넷 정보 유료화 추세로 인해 인지능력 개발에 사용할 자료조차 확보하기 어렵게 됐다. 이를 극복하려면 AI 학습용 데이터 및 기술 개발, 인프라·인재 확보에 총력 투자해야 한다.
<민병권 / 서울경제 논설위원>
댓글 안에 당신의 성숙함도 담아 주세요.
'오늘의 한마디'는 기사에 대하여 자신의 생각을 말하고 남의 생각을 들으며 서로 다양한 의견을 나누는 공간입니다. 그러나 간혹 불건전한 내용을 올리시는 분들이 계셔서 건전한 인터넷문화 정착을 위해 아래와 같은 운영원칙을 적용합니다.
자체 모니터링을 통해 아래에 해당하는 내용이 포함된 댓글이 발견되면 예고없이 삭제 조치를 하겠습니다.
불건전한 댓글을 올리거나, 이름에 비속어 및 상대방의 불쾌감을 주는 단어를 사용, 유명인 또는 특정 일반인을 사칭하는 경우 이용에 대한 차단 제재를 받을 수 있습니다. 차단될 경우, 일주일간 댓글을 달수 없게 됩니다.
명예훼손, 개인정보 유출, 욕설 등 법률에 위반되는 댓글은 관계 법령에 의거 민형사상 처벌을 받을 수 있으니 이용에 주의를 부탁드립니다.
Close
x