파이썬[Python] 고급 크롤링을 위한 selenium 모듈 설치하기
파이썬[Python] 고급 크롤링을 위한 selenium 모듈 설치하기
먼저 크롤링 관련된 이야기를 하면서 뷰티풀 수프, Beautiful Soup을 이용하는 부분에 대해서 이야기를 해봤습니다. 그리고 그 부분을 통해서 많지는 않지만 필요한 부분에 대해서 포스팅을 했고, 또 앞으로도 관련된 포스팅을 진행해보고자 합니다.
하지만, 관련해서 블로그를 진행하면 할수록, 약간의 부족함을 느꼈습니다. 특정 버튼을 클릭후에 나오는 데이터를 바탕으로 진행한다던지, 아니면 특정 부분에 대한 로그인을 진행하고 나서 특정 정보를 크롤링 해야하는 경우가 비일비재하였습니다. 그래서 이와 같은 문제의 해결하기 위해서 selenium모듈과 WebDriver(Chrome)에 대해서 설치하는 방법에 대해서이야기를 해보고자 합니다.
1. selenium설치하기
먼저, 명령 프롬프트에서 다음과 같은 명령어를 입력해주시길 바랍니다.
pip install selenium |
위의 명령어를 입력하면 다음과 같은 화면이 나타나면서 설치가 진행되는 것을 알 수 있습니다.
D:\BlogProject>pip install selenium
Collecting selenium
Downloading selenium-4.0.0-py3-none-any.whl (954 kB)
|████████████████████████████████| 954 kB ...
Collecting trio-websocket~=0.9
Downloading trio_websocket-0.9.2-py3-none-any.whl (16 kB)
Collecting trio~=0.17
Downloading trio-0.19.0-py3-none-any.whl (356 kB)
|████████████████████████████████| 356 kB 6.8 MB/s
Requirement already satisfied: urllib3[secure]~=1.26 in d:\blogproject\venv\lib\site-packages (from selenium) (1.26.3)
Collecting outcome
Downloading outcome-1.1.0-py2.py3-none-any.whl (9.7 kB)
Collecting async-generator>=1.9
Downloading async_generator-1.10-py3-none-any.whl (18 kB)
Collecting cffi>=1.14
Downloading cffi-1.15.0-cp38-cp38-win32.whl (167 kB)
|████████████████████████████████| 167 kB 6.4 MB/s
Collecting attrs>=19.2.0
Downloading attrs-21.2.0-py2.py3-none-any.whl (53 kB)
|████████████████████████████████| 53 kB ...
Collecting sortedcontainers
Downloading sortedcontainers-2.4.0-py2.py3-none-any.whl (29 kB)
Collecting sniffio
Downloading sniffio-1.2.0-py3-none-any.whl (10 kB)
Requirement already satisfied: idna in d:\blogproject\venv\lib\site-packages (from trio~=0.17->selenium) (2.10)
Collecting pycparser
Downloading pycparser-2.20-py2.py3-none-any.whl (112 kB)
|████████████████████████████████| 112 kB ...
Collecting wsproto>=0.14
Downloading wsproto-1.0.0-py3-none-any.whl (24 kB)
Requirement already satisfied: certifi in d:\blogproject\venv\lib\site-packages (from urllib3[secure]~=1.26->selenium) (2020.12.5)
Collecting pyOpenSSL>=0.14
Downloading pyOpenSSL-21.0.0-py2.py3-none-any.whl (55 kB)
|████████████████████████████████| 55 kB ...
Collecting cryptography>=1.3.4
Downloading cryptography-35.0.0-cp36-abi3-win32.whl (1.8 MB)
|████████████████████████████████| 1.8 MB ...
Requirement already satisfied: six>=1.5.2 in d:\blogproject\venv\lib\site-packages (from pyOpenSSL>=0.14->urllib3[secure]~=1.26->selenium) (1.15.0)
Collecting h11<1,>=0.9.0
Downloading h11-0.12.0-py3-none-any.whl (54 kB)
|████████████████████████████████| 54 kB 1.4 MB/s
Installing collected packages: pycparser, cffi, attrs, sortedcontainers, sniffio, outcome, h11, cryptography, async-generator, wsproto, trio, pyOpenSSL, t
rio-websocket, selenium
Successfully installed async-generator-1.10 attrs-21.2.0 cffi-1.15.0 cryptography-35.0.0 h11-0.12.0 outcome-1.1.0 pyOpenSSL-21.0.0 pycparser-2.20 selenium
-4.0.0 sniffio-1.2.0 sortedcontainers-2.4.0 trio-0.19.0 trio-websocket-0.9.2 wsproto-1.0.0
이와 같은 방식으로 selenium을 설치할 수 있습니다.
2. WebDriver 설치하기
아마도 아시는 사람들은 여기에서 이 것외에도 다른 정보가 필요하다는 것을 알 수 있을 것입니다. 바로, WebDrvier가 필요로 합니다. 저의 경우, 대부분 크롬을 이용하기 때문에 크롬에 맞는 webdriver를 설치를 합니다. WebDriver를 가장 쉽게 생각하시면 바로, 웹사이트에 클릭등이 이루어질 수 있게 해주는 매개체라고 보시면 됩니다.
ChromeDriver - WebDriver for Chrome (google.com)
위의 링크를 클릭하시면 다음과 같은 화면이 나타날 것입니다. 여기에서 빨간색 표시 되어 있는 거와 같이 안정화된 버전을 다운로드 받으시길 바랍니다.
위에서 빨간색 부분을 클릭하시면 다음과 같은 화면이 나타날 것입니다. 여기에서, 저의 경우는 윈도우이기 때문에 win32 부분을 클릭하시면 다운로드가 이루어집니다.
그럼 다음과 같이 다운로드가 된 파일을 볼수 있습니다. 이 부분을 특정 폴도에 압축을 해제하여 놓으시면 됩니다. 이 부분을 향후에 사용이 됩니다.
이와 같은 방법으로 WebDrvier를 다운로드 할 수 있습니다.
파이썬[Python] 뷰티풀수프, Beautiful Soup을 이용한 xml 읽기
이번 포스팅에서는 파이썬[Python] 고급 크롤링을 위한 selenium 모듈 설치하기라는 주제로 포스팅을 진행했습니다. 실제 웹크롤링하는 데에 뷰디풀수프(Beautiful Soup)로 부족함을 느끼셨다면, 아마도 Selenium에 대해서 관심을 가지기 시작하셨을 것입니다. 혹 궁금하시거나 문의 사항이 있으시면 언제든지 댓글 및 방명록에 글 남겨주시길 바랍니다. 감사합니다.