Programming/Lesson Learned

파이썬 크롤링할때 생기는 에러 [Connection Error]

빠모스 2020. 6. 15. 13:54
반응형
반응형

파이썬으로 대량의 데이터를 크롤링할때 이런 에러가 생겼었다.

 

 

HTTPSConnectionPool(host='크롤링 홈페이지 주소', port=443): Max retries exceeded with url: /api/company.json?crtfc_key=ab851319407812ac10d593dcb2fef51d0c944b66&corp_code=00434003

 

이러면서 Errno 60이라는 문구도 같이 떴다.

 

대충 최대 크롤링 횟수를 초과했다고 뜨는것같은데, 사이트엔 일 10000건이 기준이었고 난 9000건을 시도했으니 이상했다.

 

몇시간동안 구글링을 했고 이런 저런 방법들을 시도했다.

 

다른 api키로도 해봤고, time.sleep으로 크롤링하는 반복이 돌때마다 프로세스를 잠시 멈추기도 했다.

 

하지만 아예 크롤링하고자했던 홈페이지가 들어가지지 않고, 한건을 추출하려해도 되질 않고 같은 에러만 반복해서 나왔다.

 

폰으로 들어가보니 홈페이지가 들어가져서 처음엔 아이피가 막혔나 싶었다.

 

24시간 후에 다시 풀린다해서 포기하고 기다릴까 하다가, 가지고있던 다른 맥북으로 시도했더니 아이피가 다른데도 불구하고 똑같은 에러가 떴다.

 

그렇다면 oepn api를 제공하는 서버가 문제인가 싶어 다른 친구들에게 자기 컴퓨터로 똑같이 해보라고 부탁했더니 잘만 된단다.

 

그럼 내 컴퓨터 두대만 안되는것이므로 내 네트워크가 막혔다고 생각했다.

 

그래서 폰 핫스팟을 키고 연결해서 했더니 다시 돌아가는 기적이 나타났다!!!

 

아마 한번에 9000건의 데이터를 불러오면서 분당 100회를 넘으면 안된다는 크롤링하고자하는 사이트의 규율에 위배되어 네트워크가 block당한것같다.

 

다른 네트워크는 모두 됬지만, 앞으로는 sleep으로 조금 텀을 두면서 크롤링해야겠다. 

 

 

반응형