프로그래밍/before

파이썬 여러페이지 크롤링 네이버 블로그 검색결과 웹스크래핑

김플 2020. 3. 8. 21:51
반응형

파이썬 여러페이지 크롤링 네이버 블로그 검색결과 웹스크래핑

파이썬으로 여러페이지 크롤링 하는 방법에 대한 강의입니다. 예제에서 beautifulsoup, urllib.request, urllib.parse를 사용하여 네이버 블로그 검색결과를 원하는 페이지만큼 자유자재로 스크래핑하여 결과를 출력합니다. 여러페이지 크롤링에 대한 원리를 설명하는 강의로 네이버뿐만 아니라 다른 사이트에도 적용할 수 있습니다.


-파이썬 웹 크롤링 예제-

파이썬 beautifulsoup 크롤링 예제 네이버 블로그 검색결과 크롤러 만들기 https://youtu.be/hKApZHK_fOQ


파이썬 크롤링 예제 네이버 이미지 검색결과 한번에 다운로드 프로그램 https://youtu.be/_wRTyQYjHcg


파이썬 인스타그램 크롤링 이미지 다운로드 beautifulsoup selenium 사용법 https://youtu.be/j_BW5vNrcxA


유튜브 김플 스튜디오에 방문하시면 더 많은 파이썬 강의를 보실수 있습니다.

프로그래머 김플 스튜디오 유튜브 Go!


# 소스코드 - 자세한 사용법은 유튜브 영상을 참조하세요.
import urllib.request
import urllib.parse
from bs4 import BeautifulSoup

plusUrl = urllib.parse.quote_plus(input('검색어를 입력하세요:'))

pageNum = 1
count = 1

i = input('몇페이지 크롤링 할까요? : ')

lastPage = int(i) * 10 - 9
while pageNum < lastPage + 1:
    url = f'https://search.naver.com/search.naver?date_from=&date_option=0&date_to=&dup_remove=1&nso=&post_blogurl=&post_blogurl_without=&query={plusUrl}&sm=tab_pge&srchby=all&st=sim&where=post&start={pageNum}'

    html = urllib.request.urlopen(url).read()
    soup = BeautifulSoup(html, 'html.parser')

    title = soup.find_all(class_='sh_blog_title')

    print(f'-----{count}페이지 결과입니다.-----')
    for i in title:
        print(i.attrs['title'])
        print(i.attrs['href'])
    print()
        
    pageNum += 10
    count += 1


반응형

▼웹크롤링&자동화를 제대로 배워보고 싶다면?▼

 

실습으로 끝장내는 파이썬 웹 크롤링과 웹 페이지 자동화 - 인프런 | 강의

쉬운 설명과 다양한 실습으로 어떠한 사이트라도 원하는 대로 파이썬(Python) 웹 크롤링을 할 수 있게 됩니다., - 강의 소개 | 인프런...

www.inflearn.com