IT/Python

[Python] Web Scraping, BeautifulSoup 라이브러리 자주쓰는 메서드

Millennials 2021. 9. 21. 04:00

크롤링(스크래핑)

크롤링은 인터넷 웹페이지에 접근하여, 웹페이지의 데이터를 추출하는 방법을 말한다.

크롤링은 '정적 웹 크롤링'과 '동적 웹 크롤링'으로 나뉘어지고, 대부분 파이썬의 강력한 라이브러리를 통해 사용한다.

 

'정적 웹 크롤링'은 입력된 HTML URL에 접근하여 그 페이지에 표시된 데이터만을 추출하는 것을 말한다. 사용되는 라이브러리는 requests, BeautifulSoup가 있다.

'동적 웹 크롤링'은 입력된 HTML URL에 접근한 후 입력, 클릭 및 로그인 등의 기능을 수행한 결과의 데이터를 받아온다. 사용되는 라이브러리는 selenium, chromedriver가 있다.

 

이번에 사용할 BeautifulSoup 라이브러리는 '정적 웹 크롤링'에 사용하는 대표적인 라이브러리이다.

 

BeautifulSoup 기본 세팅

설치

$ pip install beautifulsoup4

기본 파싱

import requests
from bs4 import BeautifulSoup

url = 'https://google.com' # 데이터를 불러올 페이지
page = requests.get(url) 

soup = BeautifulSoup(page.content, 'html.parser')

메서드

공식문서(https://www.crummy.com/software/BeautifulSoup/bs4/doc/)의 예제를 따라서 메서드들을 살펴보도록 하겠다.

 

# 예제 scrap 페이지
html_doc = """<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')

 

- find_all()

find_all() 메서드는 가장 많이 사용될 메서드 중 하나로, 인자로 받는 값이 포함된 모든 데이터를 리스트 형태로 반환한다. 인자로는 '태그(defalt)', '속성(id='',href='' 등)', '문자열(text='')', '클래스(class_='') 등으로 호출 가능하다. 

result = soup.find_all('a') # a 태그로 이루어진 데이터를 모두 가져와라 명령
print(result)
# 결과값
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>, 
# <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, 
# <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

print(result[1]) # 리스트와 동일하게 []로 리스트 내 값 호출 가능하다
# <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>

 

- contents

contents 메서드를 통해 태그안의 값을 리스트 형식으로 받을 수 있다.

p_result = soup.find('p')
print(p_result)
p_contents = p_result.contents
print(p_contents)
# <p class="title"><b>The Dormouse's story</b></p>
# [<b>The Dormouse's story</b>]

body_result = soup.find('p')
print(body_result)
body_contents = body_result.contents
print(body_contents)
# <body>
# <p class="title"><b>The Dormouse's story</b></p>
# <p class="story">Once upon a time there were three little sisters; and their names were
# <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
# <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
# <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
# and they lived at the bottom of a well.</p>
# <p class="story">...</p>
# </body>
# ['\n', <p class="title"><b>The Dormouse's story</b></p>, '\n', <p class="story">Once upon a time there were three little sisters; and their names were
# <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
# <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
# <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
# and they lived at the bottom of a well.</p>, '\n', <p class="story">...</p>, '\n']

# 리스트 활용 텍스트 불러오기
a_result = soup.find_all('a')
print(a_result)
contents_result = a_result[0].contents
print(contents_result)
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>, 
# <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, 
# <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
# contents_result 값
# ['Elsie']

 

반응형