import requests
from bs4 import BeautifulSoup
def create_soup(url):
res = requests.get(url)
res.raise_for_status()
soup = BeautifulSoup(res.text, "lxml")
return soup
def print_news(index, title, link):
print("{}. {}".format(index + 1, title))
print(" (링크 : {}".format(link))
def scrape_it_news():
print("[IT 뉴스]")
url = "https://news.naver.com/main/list.nhn?mode=LS2D&mid=shm&sid1=105&sid2=230"
soup = create_soup(url)
news_list = soup.find("ul", attrs={"class":"type06_headline"}).find_all("li", limit=3) # 3개 까지만 가져오기
for index, news in enumerate(news_list):
a_idx = 0
img = news.find("img")
if img:
a_idx = 1 # img 태그가 있으면 1번째 a 태그의 정보를 사용
a_tag = news.find_all("a")[a_idx]
title = a_tag.get_text().strip()
link = a_tag["href"]
print_news(index, title, link)
if __name__ == "__main__":
scrape_it_news() # IT 뉴스 정보 가져오기
<결과값>
[IT 뉴스]
1. [SNS에세이]인싸가 된 인디게임 '어몽어스'
(링크 : https://news.naver.com/main/read.nhn?mode=LS2D&mid=shm&sid1=105&sid2=230&oid=293&aid=0000030856
2. 스트라드비젼 등 '컴업 스타즈' 120곳 선정
(링크 : https://news.naver.com/main/read.nhn?mode=LS2D&mid=shm&sid1=105&sid2=230&oid=092&aid=0002199144
3. 나도 모르는 내 마음을 아는 ‘전전두엽 활성’ [신경과학 저널클럽]
(링크 : https://news.naver.com/main/read.nhn?mode=LS2D&mid=shm&sid1=105&sid2=230&oid=032&aid=0003032187
[파이썬 웹 스크래핑] 해커스 어학원 오늘의 회화 가져오기 - 17 (0) | 2020.09.16 |
---|---|
[파이썬 웹 스크래핑] 네이버 헤드 라인 뉴스 가져오기 - 15 (0) | 2020.09.14 |
[파이썬 웹 스크래핑] 네이버 날씨 정보 가져오기 - 14 (0) | 2020.09.13 |
[파이썬 웹 스크래핑] 다음에서 부동산 매물 정보 받아오기 - 13 (0) | 2020.09.12 |
[파이썬 웹 스크래핑] Headless 정보 처리 - 13 (0) | 2020.09.11 |
댓글 영역