You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
• Web Scraping vs Crawling
• CORS (Cross-Origin Resource Sharing)
• Headless Browser
• Cheerio (jQuery-like API for Node.js)
• Puppeteer / Playwright
• API 응답 파싱 vs HTML 파싱
• 동적 렌더링 페이지 크롤링
• robots.txt / 사이트 이용 약관
• Rate Limiting / User-Agent 설정
• 백엔드 연계 (Proxy 서버)
• 크롤링 데이터 시각화
📘 배워야 할 개념
• 기초지식 : 크롤링의 정의, HTTP 구조, HTML 구조 분석
• 보안/제약 : CORS 우회, robots.txt 해석, IP 차단 방지 기업
• 라이브러리 : axios, cheerio, puppeteer, playwright, jsdom
• 환경 구성 : Node.js 기반 크롤링 환경 구축(프론트와 별개 서버 실행)
• 동적 페이지 : 자바스크립트 렌더링된 사이트 대응 방식
• 성능 : 요청간 sleep, retry 처리, 캐싱 처리
• 데이터 가공 : JSON 변환, 구조화, 중복제거, 시각화 라이브러리 연계
reacted with thumbs up emoji reacted with thumbs down emoji reacted with laugh emoji reacted with hooray emoji reacted with confused emoji reacted with heart emoji reacted with rocket emoji reacted with eyes emoji
Uh oh!
There was an error while loading. Please reload this page.
-
✅ 키워드
📘 배워야 할 개념
• 기초지식 : 크롤링의 정의, HTTP 구조, HTML 구조 분석
• 보안/제약 : CORS 우회, robots.txt 해석, IP 차단 방지 기업
• 라이브러리 : axios, cheerio, puppeteer, playwright, jsdom
• 환경 구성 : Node.js 기반 크롤링 환경 구축(프론트와 별개 서버 실행)
• 동적 페이지 : 자바스크립트 렌더링된 사이트 대응 방식
• 성능 : 요청간 sleep, retry 처리, 캐싱 처리
• 데이터 가공 : JSON 변환, 구조화, 중복제거, 시각화 라이브러리 연계
Beta Was this translation helpful? Give feedback.
All reactions