컴공생의 다이어리
[파이썬, Python] 크롤링(crawling) 가능 여부 확인 - robots.txt 본문
Development/Python & Django
[파이썬, Python] 크롤링(crawling) 가능 여부 확인 - robots.txt
컴공 K 2021. 5. 21. 00:01크롤링(crawling) 가능 여부 확인
크롤링을 무작정 하다가 보면 맞게 작성한 것 같은 코드에서 아무 데이터도 못 얻고 있는 것을 확인할 수 있다. 이럴 때 크롤링 할 사이트가 크롤링이 가능한 사이트인지 확인해야 한다.
크롤링 가능 여부를 확인하는 방법은 사이트명 뒤에 /robots.txt를 붙여 확인하면 된다.
Disallow라고 명시되어 있는 디렉토리 및 파일에 대해서는 크롤링을 할 수 없다.
크롤링 해도 되는 사이트인가?
흩어져있는 정보를 취합하고 서비스하기 위해 크롤링은 아주 좋은 기술이다. 만 흩어져 있다고 덮어놓고 크롤링하다간 큰 코 다친다.. 사이트들의 루트디렉토리에 있는 robots.txt 를 보면 이 사이
dailyoscar.tistory.com
728x90
반응형
'Development > Python & Django' 카테고리의 다른 글
[Django] 장고 TIME_ZONE, USE_TZ 설정 (0) | 2021.05.24 |
---|---|
[Django] 장고 데이터베이스 생성(python manage.py migrate) (0) | 2021.05.23 |
[Django] 장고 앱 생성(django-admin startapp ~)과 실행 (0) | 2021.05.18 |
[파이썬, Python] 설치된 패키지 목록 requirements.txt 생성(pip freeze)과 requirements.txt 속 패키지 설치 (0) | 2021.05.17 |
[Django] 장고 설치 및 프로젝트 생성 (0) | 2021.05.16 |
Comments