웹스쿨

뉴스 크롤링 완료 본문

개인 프로젝트/파이썬 뉴스매매

뉴스 크롤링 완료

마스터욱 2023. 3. 29. 00:47
반응형

 

핵심은 크롤링입니다.

딱히 파이썬에 대해 공부를 한건 아니고,

https://wikidocs.net/6 

위 내용 한번 정독하고,

개발하면서 기억이 안나는건 다시 찾아보고, 라이브러리 검색은 구글로 해서 꾸역꾸역 구현해 보았습니다.

 

처음에는 파이썬 자체에서 크롤링을 시도했습니다.

하지만 이 프로그램을 다수가 사용하는 경우, 각 프로그램에서 뉴스를 크롤링하는것이 아주 비효율적이다 라는 생각을 하게 되었습니다.(하루를 그냥 소모해 버림)

그래서 다시 로직을 변경했습니다.

 

순서는 아래와 같습니다.

1. 프로그램에서 API 서버를 호출(제가 만든 서버입니다.)

2. API 서버에서 뉴스를 크롤링하여 데이터베이스에 저장을 함.

3. 프로그램에서 API 서버에 접속하여 뉴스를 가져옴.

 

이렇게 하면 수집은 API 서버에서 하게되고, 프로그램에서는 API 서버에 접속하여 뉴스를 가져오기만 하면 된다.

다수의 유저가 사용할 수도 있기 때문에, 로컬DB가 아닌 제 API 서버의 mysql 데이터베이스를 사용하기로 결정했구요. 

 

초단위로 공시뉴스를 실시간으로 계속 가져오게 개발했습니다.(현재 1초로 설정)

 

 

저장된 공시뉴스 데이터

 


이 게시글은
https://webschool.kr/?v=board_view&board_key=30&idx=406
에서 작성한 글입니다. 소스코드의 경우 해당 블로그에서 이뿌게 노출이 되지 않을 수 있사오니, 위 링크로 들어오셔서 보시길 바랍니다.

반응형