Medium - Google Promises 'reCAPTCHA' isn't Exploiting Users. Should You Trust It?

16 Jul 2019 in Trend

Trend 파악을 Medium 기고문 요약 포스팅 - 구글은 reCAPTCHA가 사용자들 착취하지 않을 것이라고 약속했습니다. 이것을 믿어야 할까요?

500x400

온라인에서 사람과 인간을 구분하는 혁신적인 보안 특성이 여러가지 중대한 우려를 낳고 있습니다.

서문

당신이 로봇이 아니라는 것을 온라인에서 증명하는 데는 많은 작업이 필요합니다. 그것은 캡챠 라는 질문들로 웹사이트에 로그인 할 때 자주 보셨을겁니다. 희미한 횡단보도 사진들, 신호등, 그리고 매장정면들을 클릭함으로써 사용자를 확인하는 것입니다.

그것은 많은 형태가 있습니다. 그러나 가장 유명한건 구글의 reCAPTCHA 으로 ‘18년 말에 세번째 버전이 나왔습니다. 그것은 얼마나 사람의 행동하는지 보이지 않는 점수를 매기는 것을 활용하여 적은 횟수의 확인으로 로그인을 할 수 있습니다.

그러나 구글의 혁신에 바람직하지 않은 면이 있습니다. 새로운 버전은 당신이 웹사이트를 이동하는 것을 모두 감시합니다 당신이 사람인지 확인하기 위해서요.

A necessary advancement?

우리가 어떻게 새로운 기술이 동작하는 알기 전에 어디서 파생되었는지 이해하는 것은 유용합니다. 새로운 reCAPTCAH는 보안이 불가능한 것들을 위해 사용되어 온 오래된 웹 기술들을 방해합니다.

CAPTCHA - 는 Completely Automated Public Turing Test to Tell Computers and Humans Apart, 사람과 컴퓨터를 구분하기 위한 자동 튜링테스트 입니다. 90년대 후반에 처음 등장했으며 AltaVista 검색엔진을 만든 팀에 의해 고안되었습니다. 캡챠 이전에는 사람들이 프로그램을 이용하여 서비스에 가입을 하거나 스팸메일을 보내는 것이 매우 쉬웠습니다. AltaVista의 기술은 프린터의 OCR을 피하기 위한 매뉴얼 지침을 기반으로 하고 있습니다. 흐릿한 텍스트의 캡챠는 컴퓨터는 읽기 어렵고 사람은 읽을 수 있도록 고안되었습니다. 이렇게 해서 봇들이 무용지물이 되었죠

2000년대 초반까지 이러한 테스트는 어디에나 있었습니다. 그러다 2009년에 구글이 카네기 멜론 연구진들이 개발한 reCAPTCAH라는 것을 구입했습니다. 그것은 동일한 원리였지만 조금 더 혁신적이었습니다. 사람이 입력하는 단어는 프로그램이 인식하기 어려운 단어들입니다. 본질적으로 프로그램들은 그들이 인식하지 못하는 단어나 플래그를 스캔하려고 하죠. 이러한 단어들은 이미 알려진 단어들 옆에 배치 됩니다. 그래서 사람은 이미 알려진 단어를 검증하고 새로운 단어를 식별하게 되는 것이죠.

reCAPTCHA는 이미지를 보여준느 것으로 대체되었습니다. 로봇이 아닙니다 박스를 누르게 되면 당신은 자전거나 가로등을 구분하는 작업을 수행하게 될 것입니다. 그러나 이러한 뒷배경에는 구글은 사람들에게 이러한 테스트를 수행하는 빈도를 줄이기 위해 그들의 행동을 분석함하게 되었습니다. reCAPTCHA는 백그라운드에서 사람이 어떻게 웹사이트를 사용하는지 추적합니다.

만약 컴퓨터에 구글 쿠키가 있거나 당신의 마우스나 키보드가 봇처럼 사용되지 않으면 방문자는 튜링 테스트를 하지 않아도 됩니다. 그러나 개인정보에 민감한 사용자가 쿠키를 지우거나 방문자모드로 사용할 경우 다시 reCAPTCHA가 튜링테스트를 수행하게 됩니다.

사용자들은 또한 구글크롬이 다른 브라우저와 경쟁하기 위해 파이어폭스 같은 다른 브라우저에서는 더욱 많은 시도를 하게끔 한다고 지적합니다. 따라서 리캡차를 구글이 우위를 점하기 위해 활용하는건 아닌지 하는 질문이 생기는 것 입니다.

구글의 주 수익이 트랙킹 데이터를 이용한 광고에서 창출되는 만큼 이것은 만은 개인정보 문제를 야기합니다. 당신은 페이스북의 좋아요 버튼처럼 리캡챠가 광고를 위해 숨겨진 트랙커가 아닐지 걱정이 들 수도 있습니다.

Google’s perspective

최신버전의 reCAPTCHA를 사용하기 위해 구글은 개발자들에게 가능한 최대로 많은 추적 태그를 사용할 것을 요청합니다. 구글은 구글 어날리틱스를 통해 개발자나 마케터들이 그들의 웹사이트의 방문자들을 이해하는데 도움을 줍니다. 그것은 굉장히 좋은 도구이지만 역시 사용자의 인터넷 사용 습관을 관찰하는 전략 중 하나입니다.

새로운 버전의 reCAPTCHA는 구글 분석 툴을 사용하지 않아도 부족한 부분을 채울 수 있습니다. 처음 이것이 발표되었을 때 구글은 사용자의 데이터를 광고를 위해 사용하지 않는다고 발표했었죠, 단지 서비스 향상을 위해 수집한다고 했습니다.

그러나 데이터는 블랙박스에 봉해집니다, 심지어 개발자도 그것을 볼 수가 없죠. reCAPCHA의 공식 문서에는 어떻게 사용자를 추적하는지 혹은 어디서 정보 수집이 끝나는지 사용자 데이터에 관련되어 언급하는 부분이 없습니다.

구글 대변인은 리캡챠는 스팸과 오남용에 맞서는 데만 활용될 것이며 기기와 응용프로그램 데이터와 같은 소프트웨어 정보와 하드웨어 정보를 수집하여 동작하며 이 데이터들을 분석을 위해 구글에 보낸다고 했습니다. 이 정보들은 리캡차를 개선시키고 일반적인 보안 목적으로 사용될 것이라고 했습니다. 그 정보들이 구글의 맞춤형 광고에 쓰이지 않을 것이라고 했습니다.

좋습니다. 그리고 구글이 이러한 입장을 잘 지켰으면 좋겠습니다만, 문제는 그렇게 믿을 근거가 하나도 없다는 것ㅇ립니다. 이렇게 강력한 추적 기술은 공공 감독 또한 필요합니다. 과거에 잘못된 사례를 우리가 이미 봤기 때문이죠. 페이스북을 예로들자면 2014년에 WhatsApp을 독립적으로 운영할 것이고 백엔드 환경을 분리했다고 했습니다. 그러나 2년만에 그 결정을 철회하게 되죠. 구글이 Nest를 인수할 때 그것을 독립적으로 운용하겠다고 약속했지만 5년 후에 또 번복했습니다. 구글 계정으로 통합하던지 아니면 이용할 수 없다면서 말이죠.

같은 이유로 구글이 리캡챠의 막대한 자원을 이용해 우리를 어디로 이끌지 의심스러운 거죠. 안타깝게도 일반 사용자로서 우리가 할 수 있는 것은 거의 없습니다. 리캡챠가 필요하다면 다른 적절한 대안이 없고 추적되는 것을 허용하거나 리캡챠를 사용하지 못합니다.

만약 구글이 이러한 도구를 공공의 이익을 위한 의도라면 그들이 편의성을 위해 기존의 규정들을 바꾸지 않는 방법을 찾았을 것입니다. 만약 그것이 오픈소스 프로젝트로 바뀌고 회사밖으로 나오거나 최소한 제 3자의 감시를 구축한다면 우리는 그것을 믿을 수 있겠죠.

Summary

구글 리캡챠가 적용된 사이트는 사용자의 데이터를 수집한다.
구글이 그러한 데이터는 리캡챠를 개선시키기 위해서 사용한다고 했지만 아닐 수도 있다.

Medium - Google Promises 'reCAPTCHA' isn't Exploiting Users. Should You Trust It?

서문

A necessary advancement?

Google’s perspective

Summary

CS-Wanderer

Error

서문

A necessary advancement?

Google’s perspective

Summary

Templates (for web app):

Error