일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 이진탐색
- 연결리스트
- 다대다
- CHECK OPTION
- 지연로딩
- 즉시로딩
- dfs
- 일대다
- 힙
- fetch
- eager
- querydsl
- FetchType
- 다대일
- 백트래킹
- 데코레이터
- 스토어드 프로시저
- execute
- JPQL
- 유니크제약조건
- 낙관적락
- exclusive lock
- 스프링 폼
- SQL프로그래밍
- 비관적락
- PS
- BOJ
- shared lock
- 동적sql
- 연관관계
- Today
- Total
목록Web Crawling (4)
흰 스타렉스에서 내가 내리지
Selenium은 프로그램을 이용해 자동화된 웹 테스트를 수행할 수 있도록 해주는 프레임워크다. 크롭드라이버를 현재 내 컴퓨터에 설치된 크롬의 버전에 맞는 걸로 다운로드 받고, 원하는 경로에 저장한다. 나는 메인코드를 실행하는 폴더에 같이 넣었다. from selenium import webdriver driver = webdriver.Chrome('./chromedriver') driver.get('https://www.naver.com') 실행하면 네이버가 켜질 것이다. 1. get() 함수 매개변수로 이동할 주소를 넣어줌. 함수명에서 직관적으로 무슨 역할을 하는지 알 수 있겠다. 2. find_element_by_ ~~ 함수 대표적으로 4가지 종류가 있는데, find_element_by_id() f..
이전 게시물에서 시가총액 상위 기업들의 순위들을 긁어왔었는데, 그것을 txt파일에 저장해보자. import requests from bs4 import BeautifulSoup file = open('rank.txt', 'w') naver_finance = requests.get('https://finance.naver.com/sise/sise_market_sum.naver') naver_finance_html = BeautifulSoup(naver_finance.text, 'html.parser') corps = naver_finance_html.select('tbody .tltle') file.write('시가총액 순위') for i in range(1, len(corps)+1): file.write..
import requests from bs4 import BeautifulSoup naver_finance = requests.get('https://finance.naver.com/sise/sise_market_sum.naver') naver_finance_html = BeautifulSoup(naver_finance.text, 'html.parser') corps = naver_finance_html.select('tbody .tltle') print('시가총액 순위') for i in range(1, len(corps)+1): print(f'{i} : {corps[i-1].text}')
import requests from bs4 import BeautifulSoup request = requests.get('https://www.google.com') raw = request.text html = BeautifulSoup(raw, 'html.parser') requests와 BeautifulSoup라는 클래스가 있다. requests는 웹 페이지에 요청할 수 있는 기능들을 모아놓은 클래스이다. get() 함수에 매개변수로 어느 웹 사이트의 주소를 넣으면, 해당 웹사이트에 대한 정보가 담겨있는 requests객체가 반환된다. raw변수는 사실 html문서가 아닌 String 타입의 그녕 문자열일 뿐이다. BeautifulSoup는 String 타입의 값을 살아있는 HTML문서로 바꿔준다..