Develop/Web Crawling 5

Selenium을 알아보자.

웹자동화를 위한 도구, Selenium   오늘은 웹크롤링 도구인 Selenium을 알아보자.오늘의 배움Selenium의 개요 및 특징Selenium 함수 및 메서드 SeleniumSelenium은 브라우저를 자동화하는 도구로, 웹 페이지의 JavaScript 렌더링까지 처리할 수 있다. 브라우저 드라이버를 사용하여 실제 브라우저(예: Chrome, Firefox)를 구동하여 웹 페이지를 로드하고, 스크립트를 통해 브라우저 내에서 클릭, 입력 등의 동작을 자동화한다. JavaScript 실행을 통해 생성된 콘텐츠도 로드하여 처리할 수 있다. 따라서 웹 페이지의 인터랙션과 동적 데이터를 크롤링하는 데 유용하다. Selenium 장단점장점JavaScript로 생성된 콘텐츠를 포함하여 모든 웹 요소에 접근 가..

BeautifulSoup을 알아보자.

css, html을 같이 알아야 좋은 Beautiful Soup   오늘은 Beautiful Soup에 대해 알아보자.오늘의 배움 Beautiful Soup 특징 Beautiful Soup 주요 함수 및 메서드 BeautifulSoup  처음 BeautifulSoup을 접했을 때는 그저 HTML 문서를 파싱하는 도구로만 생각했다.하지만 실제 프로젝트에서 사용하면서, HTML 문서를 DOM 트리로 변환하여 데이터를 구조화하는 강력한 도구라는 것을 깨달았다. 파서(Parser) 선택의 중요성'html.parser'는 기본적이지만 안정적'lxml'은 속도가 필요할 때 탁월한 선택'html5lib'은 깨진 HTML을 처리할 때 유용 BeautifulSoup 장단점장점가볍고 사용법이 간단하다.HTML 구조에서 특..

크롤링 도구에 대해 알아보자.

크롤링 도구는 많고 여기서 뭐가 쉽게 접근할 수 있을까.   오늘은 크롤링 도구에 대해 공부해보자. 실제 프로젝트에서 어떤 도구를 선택해야 할지, 각 도구의 특징과 장단점에 대해 알아보자.오늘의 배움크롤링 도구 및 특징Beautiful Soup과 Selenium 차이점 크롤링 도구파이썬 크롤링 라이브러리 종류1. Requests특징 : HTTP 요청을 간단히 처리할 수 있는 라이브러리용도 :웹 페이지의 HTML 소스를 가져오기 위해 사용REST API 호출장점 :간단하고 빠른 HTTP 요청 지원쿠키, 세션, 인증 등 지원단점 :동적 콘텐츠(JavaScript로 렌더링되는 데이터)는 처리 불가예제 코드import requestsurl = 'https://example.com'response = reques..

Crawling 크롤링(2)을 알아보자

SQL과 Python 두군데서 모두 사용해보자.  오늘은 크롤링을 이용하여 데이터 저장 방식에 대해 알아보자.오늘의 배움웹의 기본 구조데이터 저장 방식데이터베이스의 역할과 중요성WEB의 구조웹은 수많은 웹 페이지들이 하이퍼링크로 연결된 거대한 네트워크로 구성되어 있으며, 이러한 연결성을 이용하여 크롤러는 웹 사이트를 탐색하고 필요한 데이터를 수집한다. 웹의 구조와 프로토콜, 그리고 표준화된 문서 형식은 크롤러가 효율적으로 웹을 탐색하고 정보를 추출할 수 있도록 한다. WEB 구조 기초1. 기본 구성 요소URL (Uniform Resource Locator)웹에서 자원의 위치를 나타내는 표준화된 주소 체계이다.프로토콜(http, https), 도메인 이름, 경로, 쿼리 스트링 등으로 구성된다.예시: "ht..

Crawling 크롤링(1)을 알아보자.

웹 데이터를 수집할 때 이렇게 빌려올 수 있는 거구나.  오늘은 웹에서 데이터를 수집하고 활용하는 웹 크롤링과 Open API를 배워보자.오늘의 배움웹 크롤링의 개념Open API의 정의와 활용Open API 크롤링의 실용성크롤링(Crawling)  크롤링(Crawling)은 웹 페이지나 API로부터 원하는 정보를 자동으로 수집하는 기술로, 웹 스크래핑(Web Scraping)이라고도 불린다. 크롤러(Crawler) 또는 스파이더(Spider)라고 불리는 프로그램이 인터넷상의 웹 사이트를 링크를 따라가며 웹 전체 또는 특정 사이트를 자동으로 탐색하며 데이터를 추출한다.크롤링은 대량의 데이터를 효율적으로 수집하여 데이터 분석, 머신러닝 모델 학습, 시장 조사 등 다양한 분야에서 활용된다. 웹 스크래핑: 특..

728x90