Python ) Web Crawling(웹 크롤링)
BeautifulSoup
html문서를 parsing하기 쉽게 만들어준다.
보통은 따로 다운로드 해야하지만 anaconda는 패키지를 내포하고있다.
Soup.find('a') // <a>태그를 검색해 맨앞의 1개만 parsing해준다.
(이후 Soup 생략)
.find('a').get_text() // 맨앞에 있는 <a>태그의 내용추출
.find_all('a') // <a>태그 전부, for문과 .get_text()를 이용해서 모든 요소의 내용을 parsing할 수 있다.
.body.h1 // body안에 있는 <h1>태그
.find('p', {'id':'book_title'}) // <p>태그의 id속성값이 book_title인 <p> 태그
.zip(book_titles, authors) // 묶어주는 역할
.select('body p') // body안의 <p>모두
.select('p#book_title') // id값이 book_title인 <p>태그 전부
리스트 안에 for in이 있으면 list comprehension
[website_ranking_element.get.text() for website_ranking_element in website_ranking]
a <============ b <============ c
일련의 작업을 마친 뒤 리스트 자료형으로 리턴한다.
.wordcloud
라이브러리를 설치한 후, okt객체를 통해 형태소 분석을 할 수 있다.