'Web Crawling' 카테고리의 글 목록

250x250

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록Web Crawling (4)

흰 스타렉스에서 내가 내리지

웹 크롤링 4 - selenium을 이용해 동적수집을 해보자

Selenium은 프로그램을 이용해 자동화된 웹 테스트를 수행할 수 있도록 해주는 프레임워크다. 크롭드라이버를 현재 내 컴퓨터에 설치된 크롬의 버전에 맞는 걸로 다운로드 받고, 원하는 경로에 저장한다. 나는 메인코드를 실행하는 폴더에 같이 넣었다. from selenium import webdriver driver = webdriver.Chrome('./chromedriver') driver.get('https://www.naver.com') 실행하면 네이버가 켜질 것이다. 1. get() 함수 매개변수로 이동할 주소를 넣어줌. 함수명에서 직관적으로 무슨 역할을 하는지 알 수 있겠다. 2. find_element_by_ ~~ 함수 대표적으로 4가지 종류가 있는데, find_element_by_id() f..

Web Crawling 2022. 2. 17. 17:52

웹 크롤링 3 - 크롤링한 데이터들을 파일에 저장하기

이전 게시물에서 시가총액 상위 기업들의 순위들을 긁어왔었는데, 그것을 txt파일에 저장해보자. import requests from bs4 import BeautifulSoup file = open('rank.txt', 'w') naver_finance = requests.get('https://finance.naver.com/sise/sise_market_sum.naver') naver_finance_html = BeautifulSoup(naver_finance.text, 'html.parser') corps = naver_finance_html.select('tbody .tltle') file.write('시가총액 순위') for i in range(1, len(corps)+1): file.write..

Web Crawling 2022. 2. 17. 17:01

웹 크롤링 2 - 네이버 금융에서 시가총액 상위 기업들 크롤링하기

import requests from bs4 import BeautifulSoup naver_finance = requests.get('https://finance.naver.com/sise/sise_market_sum.naver') naver_finance_html = BeautifulSoup(naver_finance.text, 'html.parser') corps = naver_finance_html.select('tbody .tltle') print('시가총액 순위') for i in range(1, len(corps)+1): print(f'{i} : {corps[i-1].text}')

Web Crawling 2022. 2. 17. 16:24

웹 크롤링 1 - requests, bs4 라이브러리

import requests from bs4 import BeautifulSoup request = requests.get('https://www.google.com') raw = request.text html = BeautifulSoup(raw, 'html.parser') requests와 BeautifulSoup라는 클래스가 있다. requests는 웹 페이지에 요청할 수 있는 기능들을 모아놓은 클래스이다. get() 함수에 매개변수로 어느 웹 사이트의 주소를 넣으면, 해당 웹사이트에 대한 정보가 담겨있는 requests객체가 반환된다. raw변수는 사실 html문서가 아닌 String 타입의 그녕 문자열일 뿐이다. BeautifulSoup는 String 타입의 값을 살아있는 HTML문서로 바꿔준다..

Web Crawling 2022. 2. 17. 14:51

이전 Prev 1 Next 다음

목록Web Crawling (4)

흰 스타렉스에서 내가 내리지

티스토리툴바