일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- VBA
- pythongui
- 비주얼베이직
- Excel
- html
- 안드로이드
- 파이썬
- python
- 파이썬3
- python3
- 아웃룩
- 문자열
- pyqt5
- 엑셀
- 파워포인트
- office
- 오피스
- 윈도우11
- windows
- git
- Android
- 파이썬GUI
- Windows11
- Windows10
- matlab
- pandas
- 윈도우10
- Outlook
- win32com
- 깃
Appia의 IT세상
[파이썬 크롤링]네이버 스포츠 추천 뉴스 크롤링 하여 제목과 링크주소출력하기 (bs4, requests) 본문
[파이썬 크롤링]네이버 스포츠 추천 뉴스 크롤링 하여 제목과 링크주소출력하기 (bs4, requests)
Appia 2021. 8. 19. 06:14[파이썬 크롤링]네이버 스포츠 추천 뉴스 크롤링 하여 제목과 링크주소출력하기 (bs4, requests)
이전 포스팅에서는 추천뉴스의 제목을 추출하는 방법에 대해서 포스팅을 했습니다. 그 작업을 하고 포스팅을 하고 나니, 관련된 주소또한 추출해볼까라는 생각을 하였습니다. 그래서 다시 한번 코드 보기를 바탕으로 다음과 같은 화면을 봤습니다.
이전 포스팅에서는 span 태그에 있는 Text 값을 읽어왔는데 보다보니, a 태그의 속성값을 불러오면 되겠다는 생각을 하였습니다. 그래서 일단, a 태그 값을 한번 분석해봤습니다.
<a href="/news?oid=413&aid=0000124128" target="" data-model-version="sports_v1.2:category_global:control" data-session-id="Vq0FJ2pjhb6UXDy1" data-clickcode="mnl.txt" data-gdid="88156f7e_000000000000000000124128" title="스털링 막고 인생역전...'무리뉴 유산' 탕강가, 단숨에 토트넘 주전으로">
여기에서는 제목도 주소도 포함되고 있었습니다. 단, 주소의 경우는 앞에 다음과 같은 주소 https://sports.news.naver.com부분이 이 필요합니다. 그럼 럼 이 부분을 토대로 한번 파싱을 해봤습니다. 먼저 전체 코드를 살펴보겠습니다.
import requests
from bs4 import BeautifulSoup
RecommendAddr = "https://sports.news.naver.com"
res = requests.get(RecommendAddr+"/wfootball/index")
soup = BeautifulSoup(res.content, 'html.parser')
mydata = soup.find('ul', class_="home_news_list")
mydata1 = soup.find('ul', class_="home_news_list division")
recommend_list = mydata.find_all('a')
recommend_list1 = mydata1.find_all('a')
for item in recommend_list:
title = item['title']
addr = RecommendAddr+item['href']
print(title + "\t" +addr)
for item in recommend_list1:
title = item['title']
addr = RecommendAddr + item['href']
print(title + "\t" + addr)
a라는 태그를 받아오니, 각 항목들이 Dictionary형태로 값을 받아 왔습니다.
그래서 각 항목에 대해서 href 부분을 이용하여 주소 값을, title 부분을 이용하여 제목 부분을 출력할 수 있습니다. 그럼 결과를 한번 살펴보겠습니다.
이와 같이 추천뉴스의 제목과 링크가 출력되는 것을 확인할 수 있습니다.
[파이썬 크롤링]네이버 스포츠 추천 뉴스 크롤링 하여 제목 출력하기 (bs4, requests)
이번 포스팅에서는 [파이썬 크롤링]네이버 스포츠 추천 뉴스 크롤링 하여 제목과 링크주소출력하기 (bs4, requests)라는 주제로 간단히 포스팅을 해봤습니다. 하다보니, 다양한 아이디어들이 떠올리고 있고, 관련해서 적용해보고자 합니다. 혹 궁금하신 점이나 문의 사항이 있으시면 언제든지 댓글 및 방명록에 글 남겨주시길 바랍니다. 감사합니다.
'Python > Python Crawler[크롤러]' 카테고리의 다른 글
[파이썬 크롤링]네이버 주식 시가 총액 코스피전체 항목 출력하기 (0) | 2021.09.26 |
---|---|
[파이썬 크롤링]네이버 주식 시가 총액 코스피 50위까지 순위 항목 가격 출력하기(bs4, requests) (0) | 2021.09.24 |
[파이썬 크롤링]네이버 스포츠 추천 뉴스 크롤링 하여 제목 출력하기 (bs4, requests) (0) | 2021.08.18 |
Python[파이썬 웹크롤러] 05-WebCrawler beautifulsoup4(뷰티풀 수프) 웹페이지(HTML)를 파싱하기(Parsing) (0) | 2020.10.24 |
Python[파이썬 웹크롤러] 04-WebCrawler beautifulsoup4(뷰티풀 수프)설치하기 (0) | 2020.10.22 |