티스토리 뷰
저는 개발도구 pycharm을 사용합니다. 참고해주세요. 간략하게 웹크롤링에 필요한 부문만 설명드리겠습니다.
웹크롤링을 위한 필요 기능
1. 특정 사이트의 html을 가져온다 -> requests package
2. html에 특정 부분을 선택하여 가져온다. -> bs4 package (beautifulsoup)
패키지 설치

pycharm에서 +버튼을 클릭하여 패키지 설치를 할 수 있습니다. bs4, requests 패키지를 설치해주세요.
특정 요소 데이터 가져오기
네이버 영화에서 영화 포스터 이미지를 가져오도록하겠습니다.
요소복사 방법
요소복사 방법 : 크롬 개발자도구(F12) > 원하는 요소 클릭 > 요소복사 (위 영상 참고)
요소복사 하시면 해당 요소의 selector가 복사됩니다.
패키지를 활용한 코드 작성
import requests
from bs4 import BeautifulSoup
url = 'https://movie.naver.com/movie/bi/mi/basic.naver?code=191597' # 네이버영화 주소
res = requests.get(url) # html 가져오기
soup = BeautifulSoup(res.text, 'html.parser') # html 텍스트 -> object로 변경(by html parser)
#선택자(selector)를 통해 원하는 부분 가져오기
movie_img = soup.select_one('#content > div.article > div.mv_info_area > div.poster > a > img')
print("이미지 태그 : ", movie_img)
print("이미지 태그 src 속성 : ", movie_img['src'])


'python' 카테고리의 다른 글
| [Python] Jinja, Blueprint를 활용해 웹 페이지 컴포넌트화 하기 (0) | 2022.08.22 |
|---|---|
| [python] python -m pip install vs pip install (0) | 2022.08.18 |
| [Python] VS Code에 python 환경 구성하기 (0) | 2022.08.16 |
| [Python]명령어 py vs python 차이 (0) | 2022.08.16 |
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 외래키 삭제
- oracle 19c 설치
- vue onunmounted
- docker mssql
- nuxt3 quasar 설정
- vue 리팩토링
- vue 타이머 해제
- docker mssql 이미지 생성
- 티스토리챌린지
- 스마트피싱보호_캠페인
- docker mssql create database
- vue 이벤트 해제
- docker multi stage build
- vue watch 대체
- unplugin-auto-import
- nuxt3 eslint prettier 설정
- unmounted document.addlistener
- Oracle Database 19c install
- docker image 경량화
- 오블완
- nuxt3 프로젝트 설정
- 스파르타 코딩클럽
- Oracle Database 19C 설치
- unmounted setinterval
- dockerignore
- vue unmounted
- unmounted composable
- vue watch 위험성
- nuxt3 structure
- vue watch 문제점
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | ||||
| 4 | 5 | 6 | 7 | 8 | 9 | 10 |
| 11 | 12 | 13 | 14 | 15 | 16 | 17 |
| 18 | 19 | 20 | 21 | 22 | 23 | 24 |
| 25 | 26 | 27 | 28 | 29 | 30 | 31 |
글 보관함
