Python 웹 크롤링 하기 PART 1

Python으로 웹 크롤링하는 방법에 대해 살펴보겠습니다.

예제로 유튜브 크롤링을 진행하려고 합니다.

진짜 크롤링이라기에는 부족하고 단편적인 코드입니다.

진짜 누구에게나 크롤러라고 할 수 있는 크롤러는

다음에 제 실력이 많이 늘고 글 쓸 여유도 많을 때 다시 한번 다뤄보겠습니다.

 

개발환경 세팅하기

먼저 아래 글을 참조하여 개발환경 세팅합니다.

 

Python 개발환경 설치 - VisualStudioCode

프로그래밍 개발환경을 갖추기 위해서는 코드를 작성할 수 있는 텍스트 에디터, 그 코드를 실행할 코드실행기가 필요합니다. 즉 우리는 파이썬 코드를 입력할 수 있는 텍스트 에디터, 파이썬 코

lcs1245.tistory.com

 

Python module 설치하기

개발하기 앞서 여러 외부 모듈을 사용하여 개발에 임할 예정입니다.

대표적으로 Selenium, ChromeDriverManager 등 외부 모듈을 사용하기 전에 설치해줘야 합니다.

설치하는 방법은 간단합니다.

VisualStudioCode Terminal에 아래 명령어를 입력해주세요

pip install selenium
pip install ChromeDriverManager

추후 다른 모듈도 같은 방법으로 설치하시면 됩니다.

 

Selenium, ChromeDriverManager로 Chrome 실행하기

제일 먼저 웹크롤링을 하기 위해서는 브라우저를 통해 웹페이지에 접근해야겠죠?

Selenium과 ChromeDriverManager를 사용해 크롬을 열어보겠습니다.

from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome.options import Options

# Chrome Browser의 Option 설정
options = Options();
options.add_argument('--no-sandbox');
options.add_argument('--incognito');
options.add_argument('--window-size=1920,1980');

driver = webdriver.Chrome(ChromeDriverManager().install(), chrome_options=options);
driver.get('https://www.youtube.com');

 

 

위 코드를 저장한 후 해당 파일을 실행하면

Chrome Browser를 통해 유튜브 홈페이지가 열린 것을 확인할 수 있을 겁니다.

( 실행 명령어는 python 파일명입니다. )

 

'Chrome이 자동화된 테스트 소프트웨어에 의해 제어되고 있습니다.'

라는 문구가 보일 텐데요~ Selenium에 의해 제어되고 있다는 뜻입니다.

우리가 브라우저 내에 타이핑 또는 클릭 시 중단되니 주의해주세요

 

자, 이제 시작인데요~

우리는 코드를 통해 Chrome Browser를 열어 유튜브로 이동했습니다.

다음 단계부터 본격적으로 진행하겠습니다.