Python

Python ) Web Crawling(웹 크롤링)

allan 2022. 5. 30. 18:46

BeautifulSoup

html문서를 parsing하기 쉽게 만들어준다.

보통은 따로 다운로드 해야하지만 anaconda는 패키지를 내포하고있다.

 

Soup.find('a')   // <a>태그를 검색해 맨앞의 1개만 parsing해준다.

(이후 Soup 생략)

.find('a').get_text()    // 맨앞에 있는 <a>태그의 내용추출

.find_all('a')    // <a>태그 전부,  for문과 .get_text()를 이용해서 모든 요소의 내용을 parsing할 수 있다.

 

.body.h1    // body안에 있는 <h1>태그

.find('p', {'id':'book_title'})    // <p>태그의 id속성값이 book_title인 <p> 태그

.zip(book_titles, authors)    // 묶어주는 역할

.select('body p')    // body안의 <p>모두

.select('p#book_title')    // id값이 book_title인 <p>태그 전부

 

리스트 안에 for in이 있으면 list comprehension

[website_ranking_element.get.text() for website_ranking_element in website_ranking]

                      a          <============                b        <============        c

일련의 작업을 마친 뒤 리스트 자료형으로 리턴한다.

 

.wordcloud

라이브러리를 설치한 후, okt객체를 통해 형태소 분석을 할 수 있다.