“웹상 데이터로 AI 학습시켜도 될까?”…개인정보위, 지침서 내놨다

입력 2024.07.17 16:22 수정 2024.07.17 16:22 이주은 기자 (jnjes6@dailian.co.kr)

'공개된 개인정보 처리 안내서' 마련

AI 기술 기업들 불확실성 낮추려는 목적

기업이 자체 판단 하에 안전조치 시행 권고

개인정보보호위원회가 17일 공개한 'AI 개발·서비스를 위한 공개된 개인정보 처리 안내서' 내용.ⓒ개인정보보호위원회

개인정보보호위원회(이하 개인정보위)가 인공지능(AI) 기술 개발에 핵심 재료인 공개 데이터를 적법하고 안전하게 처리하는 기준을 제시했다. 정부가 생성형 AI 모델의 법적 회색지대로 지적받았던 인터넷상 공개 데이터 활용에 대한 가이드라인을 내놓은 것이다.

개인정보위 양청삼 개인정보정책국장은 17일 오후 정부서울청사에서 열린 'AI 개발·서비스를 위한 공개된 개인정보 처리 안내서' 관련 브리핑에서 “대규모 언어모델 등 AI 개발 핵심 원료인 공개된 개인정보가 적법하고 안전하게 활용될 수 있도록 일정 기준을 제시함으로써 기업 불확실성을 낮추고 국민 신뢰를 높이기 위해 준비됐다”고 취지를 밝혔다.

공개 데이터는 인터넷상 누구나 합법적으로 접근할 수 있는 데이터로서, 오픈AI의 챗GPT나 네이버의 하이퍼클로바X 등 생성형 AI를 개발하기 위한 학습데이터의 핵심원료로 쓰인다. 기업들은 커먼크롤, 블로그, 웹사이트 등에 있는 공개 데이터를 웹 스크래핑 방식으로 수집해 학습데이터로 활용하고 있다.

공개 데이터에는 주소나 이메일, 고유식별정보 등 여러 개인정보가 포함될 수 있어 활용 기준이 필요하다. 하지만 현행 법제에는 공개된 개인정보를 처리할 수 있는 명시적 기준이 없어 업계 불확실성이 높은 실정이다.

이날 개인정보위가 공개한 가이드라인에 따르면 기업은 보호법 제15조에 따른 ‘정당한 이익’ 조항에 의해 공개된 정보를 AI 학습 및 개발에 활용할 수 있다. 개인정보처리자의 정당한 이익이 명백하게 정보주체의 권리보다 우선할 경우 사용 가능하다는 것이다.

정당한 이익이 적용되기 위해서는 ▲AI 개발 목적의 정당성 ▲공개된 개인정보 처리의 필요성 ▲구체적 이익형량 등 3가지 요건이 충족돼야 한다.

공개 데이터 처리 시 필요한 기술·관리적 안전조치와 정보주체 권리보장 방안도 구체적으로 담았다. 개발 실무 단계에서 적용 가능한 기술 안전조치에는 ▲학습 데이터 수집 출처 검증 ▲개인정보 유·노출 방지 ▲미세조정을 통한 안전장치 추가 ▲프롬프트 및 출력 필터링 적용 등 내용이 포함됐다.

양 국장은 “이번 가이드라인 마련은 기업이 정보 주체의 권리 보장을 위한 안전 조치를 마련하면 공개 데이터를 합법적으로 사용할 수 있다는 통로를 열어주는 데 의의가 있다”고 밝혔다.

개인정보위는 이번 가이드라인을 두고 기업에 자율성을 부여하고 있다는 점을 강조했다. 본 안내서에 제시된 모든 안전조치의 도입과 이행이 요구되는 것이 아니며, 기업 개별 여건에 따라 안전성 확보조치를 자율적으로 도입할 수 있도록 한다고 명시했다.

다만 이에 대해 양 국장은 “하나하나의 안전조치를 위반했다고 불이익이 내려지는 건 아니나 명백한 리스크가 있음에도 관리 조치를 전혀 하지 않을 경우에는 기업이 주장하는 ‘정당한 이익’의 타당성이 인정되지 못할 수 있다”고 강조했다.

그러면서 “개인정보위는 현행법 기준을 구체화하는 안내서를 마련함으로서 개인정보처리자들이 효과적으로 현행법의 원칙을 따르는 데 집중하고 있다”며 “데이터 처리와 관련된 직접적인 규제는 기술 발전 추세와 리스크 구체화 정도 등이 공론화 됐을 때 법제화 방안을 검토할 예정”이라고 덧붙였다.

이번 가이드라인이 법적 효력을 갖거나 별다른 인센티브를 제공하고 있지 않은 만큼 실효성에 대한 우려도 제기된다. 안내서가 단순 지침서에 그칠 수 있다는 것이다.

태현수 개인정보위 데이터안전정책과장 겸 AI프라이버시팀장은 “기업들이 가이드라인을 잘 따른다고 해서 직접적인 인센티브를 주는 경우는 거의 없다”며 “잘하거나 잘하려고 하는 기업의 사례를 전파하고 부진한 기업의 보완을 돕는 것이 현재로서는 최선이나 향후 인센티브도 고민해보겠다”고 말했다.

한편, 개인정보위는 올 하반기 중점적으로 추진해갈 정책으로 ‘인공지능 시대의 프라이버시 정립’을 꼽고, 안전한 데이터 활용방안을 마련하는데 속도를 내고 있다.

이번에 제시한 공개된 정보 활용 가이드라인을 시작으로 ▲이동형 영상기기 촬영 정보 활용 가이드라인 ▲AI 투명성 확보 가이드라인 ▲합성데이터 활용 가이드라인 등 분야별 6개 가이드라인을 내년까지 제시해 규제 불확실성을 줄여나가겠다는 목표다.

#개인정보보호위원회

#개인정보위

#AI