크롤링, 어디까지 해도 괜찮은걸까? [2023-06-05 학습일지]
오늘은 Python의 BS4 와 Selenium을 사용한 크롤링에 대해서 배웠습니다.
필요한 정보를 한꺼번에 끌어올 수 있다는 장점이 있습니다. 하지만 늘 장점만 존재할까요?
한편, 역지사지로 생각해봅시다. 당신이 '서버 관리자'이고 회사의 경영과 밀접한 연관성이 있다고 '가정'해봅니다.
당신이 소중하게 모은 데이터들, 혹은 개인정보법에 보호되어야할 정보들이 로봇 프로그램에 의해
국적불문, 이름도 모르는 사람에게 싸그리 복사당하고 있습니다. 더불어 이들은 일반이용자들보다 단위시간당 훨씬 많은 사이트를 방문하고 정보를 요청합니다.
그래서, 서버 크기도 늘려야하고 운용 비용이 증가합니다. 이들이 너무 많은 요청을 한꺼번에 해서, 일반적인 이용자가 사이트 접속이 느려지는 상황입니다. 실제적으로 사이트를 운용하는데 도움이 되는 광고나 매출 증가에는 아무런 영향을 주지 않습니다. 이런 경우엔, 어떻게 해야할까요? 소송...
이런 경우도 있습니다. 2008년 구인구직 사이트의 정보를 그대로 크롤링하여 자신의 구인 구직 사이트에 올려 소송을 당한 사례가 있습니다. 부정경쟁행위로 5000만원 보상금과 소송비용을 부담하는 것 2016년까지 가서 최종판결이 내려졌습니다.
판례 참조 : 서울중앙지방법원 2016. 2. 17. 선고 2015가합517982 판결
2021년도에는 A숙박업소 정보제공 서비스 업체에서 B숙박업소 정보제공 서비스 업체를 데이터베이스 제작업자의 권리를 침해했다는 주장으로 부정경쟁방지법과 이런 크롤링 행위가 정보통신망을 침입행위에 해당하는 일로 정보통신망법 위배, A숙박업소의 서비스 제공에 방해를 주었다는 주장으로 컴퓨터등장애업무방해죄로 소송이 진행된 바 있습니다.
최종 판결에서는 A사의 API 접근방식에 대해 통상적인 패킷캡쳐로 알 수 있었고, 이에 대해 적절한 보호조치(권한 제한)을 하지 않은 것, 회사 내규에 명확한 권리를 명문화하지 않은 것의 이유로 정보통신망법 위반을 적용할 수 없다는 판결, 상당 부분 상대 회사에서 제공하는 데이터와 유사한 데이터를 제공하게 될 경우 저작권법 위배에 해당하나, B사가 제공하는 데이터는 A사 데이터베이스의 일부이며, 상당히 알려진 정보이기 때문에 B사의 행위가 A사의 이익에 부당하게 해친다고 보기 어렵다는 이유로 B사가 저작권법을 위배하지 않았다는 판결, B사의 크롤링 행동으로 A사가 정보처리 장애를 입었다는 주장에 대해 B사의 행동이 일부러 A사의 정보통신망에 부정한 명령을 하여 장애를 유발시켰다고 보기 어려워 범죄의 성립을 부정했습니다.
판례 참조 : 대법원 2022. 5. 12. 선고 2021도1533 판결
요약 및 돌이켜 말하면 크롤링을 하지말라고 회사내규에 명시되어있고, 로그인 같은 권한 보호장치가 있음에도 뚫고 크롤링을 과도하게 유발시키면서 데이터를 상업적으로 쓴다면... 소송입니다!
robots.txt" ??
웹로봇관련 국제 규약참고 http://www.robotstxt.org/
The Web Robots Pages
The Web Robots Pages Web Robots (also known as Web Wanderers, Crawlers, or Spiders), are programs that traverse the Web automatically. Search engines such as Google use them to index the web content, spammers use them to scan for email addresses, and they
www.robotstxt.org





여기서 Disallow: / 는 전체를 의미합니다. Allow /$ 는 메인페이지만 허용한다는 뜻이니, 메인 페이지 말고는 전체 로봇 접근을 금한다는 의미입니다. 그래서 tistory 같은 경우엔 로그인과 접근권한을 제외하고는 열어두었다고 볼 수 있어 구글에서 검색했을 때 티스토리 관련 블로그들이 많이 게제되는 경우가 많은 반면, 네이버블로그가 검색되는 일은 드문 경우가 이런 이유라고 추측됩니다.
모사이트는 크롤링 유저에 대해 선제적으로 IP밴 같은 접속 제한을 부여하기도 한다. 대인배 같이 크롤링을 허용하는 사이트들에 비해 이들의 행위를 너무 부당하다고 생각하지 않도록 하자.
[결론]
크롤링 이용자는 해당 서비스 약관을 준수하고, 상식적으로 해당 웹서비스에 무리가 가지 않을 정도로 가능하다는 것이고, 저작권법을 위배하지 않아야 한다는 것, 자신의 행위가 상대방 비즈니스에 위해를 가할 수 있는 행위임을 인지하자는 것.
서버 관리자는 크롤링에 대해 적절한 보안과 권한 조치를 취해야하며, 권리, 규약을 명확히 명시, robots.txt를 제공하여 크롤링 이용자들에게 명확한 허용범위를 안내할 수 있어야한다는 것이다.
감사합니다.