본문 바로가기
이슈

뉴욕타임스·로이터·니케이, "챗GPT 데이터 수집? 안돼" 크롤링 막았다

by 오유가죽공방 2023. 8. 24.

‘챗GPT 데이터 크롤러 수집 금지’

‘챗GPT 데이터 크롤러 수집 금지’
‘챗GPT 데이터 크롤러 수집 금지’

Image by starline on Freepik

뉴욕타임스(NYT)와 로이터, 니케이 같은 해외 주요 언론사들이 자사 사이트에서 오픈AI(챗GPT 개발사)의 데이터 수집, 크롤링을 금지했다고 밝혔다. 또한 아마존과 에어비앤비 같은 대형 플랫폼도 동일한 조치를 취한것으로 밝혀졌다. AI 개발사는 ‘기술 개발을 위해서’라는 명분에, ‘그건 네 지갑을 위한 기술’이라며 콘텐트 공급자들이 선을 그은 것으로 밝혀졌다.

챗 GPT 어떤 문제가 있는걸까?

미국 IT 매체 더버지는 미국 현지시간 21일 뉴욕타임스가 자사 사이트에서 오픈AI의 웹크롤러(web-crawler) ‘GPT 봇’의 접근을 막았다고 전했다. 웹 크롤러란 웹 페이지에 게시된 콘텐트를 자동으로 긁어가는 장치로, 주로 검색 엔진 등이 사용하는 웹 수집 봇이다. 이러한 각 사이트는 국제인터넷표준화기구(IETF)의 권고에 따라 표준화된 문서(robots.txt)에 크롤링을 허용하는지 여부를 기재하는데, NYT는 오픈AI의 크롤러를 금지한다고 밝힌 것이다.

한 언론사의 확인 결과, NYT 외에도 로이터·니케이, 지식검색 사이트인 쿼라(Quora) 등도 오픈AI의 데이터 대량 수집을 막아둔 것으로 알려졌다. 또한 아마존·에어비앤비·이케아 등도 자사 플랫폼 내의 제품·숙박 정보를 포함한 모든 데이터에 대해 같은 조치를 해둔 상태로 알려졌다. 이러한 조치는 고객을 위해 인터넷에 올려둔 정보를 오픈AI가 공짜로 가져다가 GPT 성능 키우는 데 쓰는 걸 좌시하지 않겠다는 의미로 해석된다.

언론사들의 조치는 어떤 의미?

이러한 오픈AI가 지난 7일 인터넷의 정보를 긁어오는 웹 크롤러 '챗GPT봇' 출시를 공지하면서, 웹사이트의 크롤링을 원치 않을 경우 비허용하는 방법에 대해 안내했다.

앞서 지난 8월 7일 오픈AI는 GPT봇의 출시를 자사 홈페이지에 알림과 동시에, ‘원치 않으면 비허용(disallow) 처리하라’ 라며 방법도 공지한 것으로 알려졌다. 이에 외신들은 신형 AI 모델 GPT-5를 개발 중인 오픈AI가 저작권 침해 논란을 피해가려는 것으로 보인다며, AI 학습에 남의 저작물을 무단 사용해 비판받자 ‘싫으면 막으세요, 방법도 알려드렸습니다’라고 면피성 선수를 치는 게 아니냐는 뜻으로 받아 들이고 있다.

흔히 웹 크롤링은 검색 엔진들이 주로 사용는 방식이다. 이런 크롤링은 콘텐츠가 검색 결과에 노출시키기 위해 사용되고 있다. 그래서 온라인 쇼핑몰들은 검색 엔진의 크롤링을 선택적으로 허용하고 있다. 쿠팡이 구글 광고봇의 크롤링은 허용하지만, 경쟁사인 네이버 크롤링은 금지하는 방식이다. 또한 오픈AI는 GPT봇을 소개하며 “수집한 데이터는 AI 품질 개선에 활용될 수 있다”라며 AI활용을 강조 하고 있다.

창작자 협회와 AI 개발사와의 공방

한편 챗GPT의 대중화 이후 해외에서는 콘텐트 창작자들과 AI 개발사 간 법적 공방을 펼치고 있다. 오픈AI와 스태빌리티AI 같은 주요 AI 개발사들은 자사의 AI 모델이 어떤 데이터를 학습했는지 공개하지 않는 것으로 알려져 있다. 이러한 이유 때문에 관련 소송이 잇따라 일어나고 있다. 스태빌리티AI는 사진·이미지 데이터베이스 회사 게티이미지로부터, 오픈AI·메타·깃허브 등은 작가와 개발자들로부터 “동의를 받지 않고 저작물을 AI 모델 훈련에 사용했다”라며 저작권 침해 손해배상 소송을 하고 있는 상태이다. 데이터 추적 플랫폼 등이 챗GPT가 NYT·로이터·월스트리트저널(WSJ) 등의 뉴스 기사를 학습, 분석한다고 하자 전 세계 언론사 2000여 곳이 참여하는 뉴스미디어연합(INMA)은 AI 학습에 뉴스가 어느 정도 활용되고 있는지 조사를 하고 있는 것으로 알려졌다.

이러한 ‘AI 기술 개발’ 명분과 ‘창작자 보호’ 사이에 긴장도 커지고 있는 것으로 보인다. AI 기업 친화적인 정책을 추진하고 있는 영국이 대표적으로 꼽힌다. 영국 지식재산권부는 지난해 6월 AI 개발사에 광범위한 저작권 면책을 부여하는 정책을 발표했다. 하지만 창작업계와 여론의 반발에 부딪혀 지난 2월 이를 공식 철회한 바가 있다. 이후 지난 6월 구체적 강령을 만들기 위한 실무 그룹을 꾸렸다. 여기에는 파이낸셜타임스·BBC·AP 같은 언론사, 스태빌리티AI, IBM·마이크로소프트(MS) 같은 빅테크, 창작자 협회 등이 참여 하고 있다.

이러한 국제적 공방에 우리나라는?

이러한 공방에서 국내 AI 개발사들은 ‘토종 AI 발전을 위해서’라며 ‘저작권에 구애받지 않는 데이터 학습’을 주장을 펼치고 있다. 현재 저작권법(35조의 5)에 ‘공정 이용’ 조항이 있는데, 이를 보다 명확하게 규정해 위법 걱정 없이 AI 학습에 데이터를 사용할 수 있게 해달라는 조치로 파악 된다. 또한 지난달 기획재정부는 ‘서비스산업 디지털화 전략’에서 AI 학습을 위한 크롤링 등의 면책 여부를 명확히 하는 방향으로 저작권법 개정 방향을 밝혔다.

하지만 민간 AI 개발사의 AI 기술 고도화를 ‘국익’이란 이유로 역시 민간 영역인 콘텐트 저작자의 권리보다 앞세울 수 없다는 주장이 흘러나오고 있다. 6월 국회에서 열린 한국저작권법학회 세미나에서 박수호 한국음악저작권협회 과장은 “저작물을 학습한 AI의 결과물이 곧 원 저작자의 경쟁자가 되는 상황”이라고 우려섞인 말을 했다. 이렇게 생성 AI가 만든 음악·그림 등이 범람하면 인간 창작자의 저작물 가치가 떨어질 수 있다고 주장하고 있다. 현행 저작권법은 공정 이용 여부를 판단할 때 ‘해당 저작물의 시장 가치에 미치는 영향’을 고려해야 한다고 정해져 있다.

한편 22일 한국신문협회는 ‘생성형 인공지능(AI)의 뉴스 저작권 침해 방지를 위한 신문협회 입장’을 내고 “정당한 법률 근거 없이 뉴스 콘텐트를 AI 학습에 이용하는 것은 언론사의 권리 침해”라고 권리 침해에 대한 주장을 하고 있다. 또한 협회는 네이버·카카오·구글·MS 등 국내외 빅테크에 대해 ①뉴스 저작권자와 이용기준 협의 ②‘글로벌 AI 원칙’ 준용 공표 ③생성형 AI 학습 데이터의 출처 등 공개 ④뉴스 콘텐트 이용 방식 구체적으로 명시 ⑤뉴스 저작물에 대한 적정한 대가 산정 기준 마련 등 5대 요구사항을 전달한 것으로 알려졌다.

320x100
사업자 정보 표시
오유가죽공방 | 오유정 | 경상북도 포항시 북구 대신로 7번길 15 1층 오유가죽공방 | 사업자 등록번호 : 511-10-33859 | TEL : 010-4045-4570 | Mail : happy5uj@naver.com | 통신판매신고번호 : 제 2018-경북포항-0057호 | 사이버몰의 이용약관 바로가기

댓글