Python ) Web Crawling(웹 크롤링)

Python

allan 2022. 5. 30. 18:46

BeautifulSoup

html문서를 parsing하기 쉽게 만들어준다.

보통은 따로 다운로드 해야하지만 anaconda는 패키지를 내포하고있다.

Soup.find('a') // <a>태그를 검색해 맨앞의 1개만 parsing해준다.

(이후 Soup 생략)

.find('a').get_text() // 맨앞에 있는 <a>태그의 내용추출

.find_all('a') // <a>태그 전부, for문과 .get_text()를 이용해서 모든 요소의 내용을 parsing할 수 있다.

.body.h1 // body안에 있는 <h1>태그

.find('p', {'id':'book_title'}) // <p>태그의 id속성값이 book_title인 <p> 태그

.zip(book_titles, authors) // 묶어주는 역할

.select('body p') // body안의 <p>모두

.select('p#book_title') // id값이 book_title인 <p>태그 전부

리스트 안에 for in이 있으면 list comprehension

[website_ranking_element.get.text() for website_ranking_element in website_ranking]

a <============ b <============ c

일련의 작업을 마친 뒤 리스트 자료형으로 리턴한다.

.wordcloud

라이브러리를 설치한 후, okt객체를 통해 형태소 분석을 할 수 있다.