목록개인 프로젝트/Auto 크롤링 (3)
웹스쿨
설정화면이 매우 버라이어틱 합니다.위에서부터 내려오겠습니다. 자동 프록시 프로그램특정 사이트는 특정국적의 IP가 막혀 있습니다. 그럴경우 프록시 기능을 자체 내장한 "닷지크롬"을 사용하도록 링크를 걸어두었습니다. JSOUP 파싱 메뉴얼수집 프로그램 방식은 크게 2가지 입니다.1. PHP 의 cURL 사용2. JAVA의 HttpRequest 사용 그냥 1번을 사용하면 되는데, 왜 굳이 2번까지 도입했냐구요?1번으로 안되는게 있더라구요 ㅡㅜ;그 원인은 아직도 파악하지 못했습니다.1번으로 아무리 해도 안되길래, 의지의 한국인 정신력으로 마지막으로 JAVA로 긁어 보았습니다.이게 한방에 되는겁니다!그래서 카페24 JSP 호스팅을 바로 결제하고, JAVA 로 수집하는 2번 방법을 추가하게 되었습니다.JSOUP 은..
php 크롤링 라이브러리중에 스누피(snoopy) 라는 녀석이 있습니다.이 스누피 안에 기본적으로 CURL 이 탑재되어 있습니다.이 스누피를 이용하면 크롤링에 대한 세부옵션을 설정하여 데이터를 긁어올 수 있습니다.아래 소스를 보시면 별의별 삽질을 한 흔적이 다 있습니다. - 로그인 처리후 긁어오기- IP가 막힌경우 프록시 서버를 거쳐서 긁어오기- 쿠키나 세션이 필요한 경우 데이터를 굽고 들어가기 클라우드페어(CloudFlare) 서버를 제외하곤 왠만한 사이트는 다 긁어와졌습니다.아래함수는 일단 게시판의 리스트/상세를 긁어올 목적으로 제작한 함수입니다. function getSiteString_snoopy($url){include_once "../plugin/snoopy/Snoopy.class.php";$..
[바로가기] 개발스펙에 대한 자세한 설명은 위 링크에 있습니다. 2016년 여름에 개발한건데, 애착이 깊었던 작품이라 소스코드 리뷰를 다시 써볼까 합니다. 이건 소스코드 분량이 매우 상당하기 때문에 긴 여정이 될거 같습니다. 그래도 틈나는 대로 쪼금씩 쪼끔씩 올려보겠습니당. 냐하하~ 이 게시글은 https://webschool.kr/?v=board_view&board_key=47&idx=741 에서 작성한 글입니다. 소스코드의 경우 해당 블로그에서 이뿌게 노출이 되지 않을 수 있사오니, 위 링크로 들어오셔서 보시길 바랍니다.