[단독]네이버, AI 학습용 데이터 직접 만든다… EBS-두산백과와 협력
네이버가 인공지능(AI) 성능을 고도화하기 위해 ‘AI레디데이터(AI-Ready Data·즉시 학습에 쓸 수 있는 데이터) 확보’를 핵심 과제로 설정하고 관련 사업을 확대하고 있다. AI가 곧바로 학습할 수 있는 양질의 데이터를 선별하고 부족한 데이터는 직접 만들어 채워 넣겠다는 구상이다. 네이버뿐만이 아니다. 구글, 메타, 오픈AI 등 빅테크들도 저작권 분쟁을 피하면서 정제된 데이터를 확보하려 언론사, 소셜미디어 플랫폼과 수조 원에 달하는 대규모 유료 계약을 맺고 있다. 이렇듯 빅테크들이 데이터에 공을 들이는 것은 그간 방대한 텍스트와 이미지를 학습시켜 대규모언어모델(LLM)의 성능을 높여 왔으나 ‘고품질 데이터’가 점차 고갈되어 가고 있기 때문이다. 양질의 데이터가 AI의 정확도를 좌우하는 만큼 경쟁에서 앞서 나가기 위해 더 좋은 ‘연료’, 즉 고품질 레디데이터 확보에 사활을 걸고 있는 셈이다. ● 승부처 된 레디데이터 AI레디데이터란 AI가 즉시 학습·추론에 쓸 수 있도