Appia의 IT세상

[파이썬 크롤링]네이버 스포츠 추천 뉴스 크롤링 하여 제목과 링크주소출력하기 (bs4, requests) 본문

Python/Python Crawler[크롤러]

[파이썬 크롤링]네이버 스포츠 추천 뉴스 크롤링 하여 제목과 링크주소출력하기 (bs4, requests)

Appia 2021. 8. 19. 06:14
반응형

[파이썬 크롤링]네이버 스포츠 추천 뉴스 크롤링 하여 제목과 링크주소출력하기 (bs4, requests)

[파이썬 크롤링]네이버 스포츠 추천 뉴스 크롤링 하여 제목과 링크주소출력하기 (bs4, requests)

이전 포스팅에서는 추천뉴스의 제목을 추출하는 방법에 대해서 포스팅을 했습니다. 그 작업을 하고 포스팅을 하고 나니, 관련된 주소또한 추출해볼까라는 생각을 하였습니다. 그래서 다시 한번 코드 보기를 바탕으로 다음과 같은 화면을 봤습니다. 

소스 코드 보기 

이전 포스팅에서는  span 태그에 있는 Text  값을 읽어왔는데 보다보니, a 태그의 속성값을 불러오면 되겠다는 생각을 하였습니다. 그래서 일단, a 태그 값을 한번 분석해봤습니다. 

<a href="/news?oid=413&aid=0000124128" target="" data-model-version="sports_v1.2:category_global:control" data-session-id="Vq0FJ2pjhb6UXDy1" data-clickcode="mnl.txt" data-gdid="88156f7e_000000000000000000124128" title="스털링 막고 인생역전...'무리뉴 유산' 탕강가, 단숨에 토트넘 주전으로">

여기에서는 제목도 주소도 포함되고 있었습니다. 단, 주소의 경우는 앞에 다음과 같은 주소 https://sports.news.naver.com부분이 이 필요합니다. 그럼 럼 이 부분을 토대로 한번 파싱을 해봤습니다. 먼저 전체 코드를 살펴보겠습니다. 

import requests
from bs4 import BeautifulSoup
RecommendAddr = "https://sports.news.naver.com"
res = requests.get(RecommendAddr+"/wfootball/index")
soup = BeautifulSoup(res.content, 'html.parser')
mydata = soup.find('ul', class_="home_news_list")
mydata1 = soup.find('ul', class_="home_news_list division")
recommend_list = mydata.find_all('a')
recommend_list1 = mydata1.find_all('a')
for item in recommend_list:
    title = item['title']
    addr = RecommendAddr+item['href']
    print(title + "\t" +addr)

for item in recommend_list1:
    title = item['title']
    addr = RecommendAddr + item['href']
    print(title + "\t" + addr)

 a라는 태그를 받아오니, 각 항목들이 Dictionary형태로 값을 받아 왔습니다. 

a 태그의 딕셔너리

그래서 각 항목에 대해서 href 부분을 이용하여 주소 값을, title 부분을 이용하여 제목 부분을 출력할 수 있습니다. 그럼 결과를 한번 살펴보겠습니다. 

코드 실행결과 

이와 같이 추천뉴스의 제목과 링크가 출력되는 것을 확인할 수 있습니다. 

[파이썬 크롤링]네이버 스포츠 추천 뉴스 크롤링 하여 제목 출력하기 (bs4, requests)

 

[파이썬 크롤링]네이버 스포츠 추천 뉴스 크롤링 하여 제목 출력하기 (bs4, requests)

[파이썬 크롤링]네이버 스포츠 추천 뉴스 크롤링 하여 제목 출력하기 (bs4, requests) 요새 한참 웹페이지 크롤링에 대해서 열을 올리고 있습니다. 그중에서, 오늘은 네이버에 특정 부분에 대해서 크

appia.tistory.com

이번 포스팅에서는 [파이썬 크롤링]네이버 스포츠 추천 뉴스 크롤링 하여 제목과 링크주소출력하기 (bs4, requests)라는 주제로 간단히 포스팅을 해봤습니다. 하다보니, 다양한 아이디어들이 떠올리고 있고, 관련해서 적용해보고자 합니다. 혹 궁금하신 점이나 문의 사항이 있으시면 언제든지 댓글 및 방명록에 글 남겨주시길 바랍니다. 감사합니다. 

반응형
Comments