컴공생의 다이어리

[파이썬, Python] 크롤링(crawling) 가능 여부 확인 - robots.txt 본문

Development/Python & Django

[파이썬, Python] 크롤링(crawling) 가능 여부 확인 - robots.txt

컴공 K 2021. 5. 21. 00:01

크롤링(crawling) 가능 여부 확인

크롤링을 무작정 하다가 보면 맞게 작성한 것 같은 코드에서 아무 데이터도 못 얻고 있는 것을 확인할 수 있다. 이럴 때 크롤링 할 사이트가 크롤링이 가능한 사이트인지 확인해야 한다.

 

크롤링 가능 여부를 확인하는 방법은 사이트명 뒤에 /robots.txt를 붙여 확인하면 된다.

Disallow라고 명시되어 있는 디렉토리 및 파일에 대해서는 크롤링을 할 수 없다.

 

 

 

dailyoscar.tistory.com/49

 

크롤링 해도 되는 사이트인가?

흩어져있는 정보를 취합하고 서비스하기 위해 크롤링은 아주 좋은 기술이다. 만 흩어져 있다고 덮어놓고 크롤링하다간 큰 코 다친다.. 사이트들의 루트디렉토리에 있는 robots.txt 를 보면 이 사이

dailyoscar.tistory.com

728x90
Comments