Skip to content

Conversation

@SolfE
Copy link
Member

@SolfE SolfE commented Nov 9, 2025

Summary

YouTube Shorts 감지, 언어 필터링, 콘텐츠 크롤링 가능성 검증을 포함한 종합 피드 필터링 시스템 구현

Problem

  • YouTube Shorts 영상이 RSS 피드에 포함되어 필터링이 필요했음
  • 영어 콘텐츠에 비영어 콘텐츠(한글, 일본어, 중국어, 힌디어, 아랍어, 페르시아어, 러시아어, 태국어 등)가 섞여 있음
  • 피드를 수락하기 전에 아티클 URL에서 콘텐츠 추출이 가능한지 검증 필요
  • YouTube 피드는 RSS에서 description을 제공하는데도 불필요하게 크롤링 검증을 수행함

Solution

서로 다른 검증 전략을 가진 3단계 필터 체인 구현:

  1. YouTubeShortsFilter: YouTube Shorts 감지를 위한 빠른 URL 패턴 매칭
  2. LanguageFilter: 유니코드 기반 비영어 문자 감지
  3. ContentCrawlabilityFilter: YouTube 예외 처리를 포함한 실제 콘텐츠 추출 검증

Related Issues

closes #287

@SolfE SolfE merged commit a4c4591 into develop Nov 9, 2025
1 check passed
@SolfE SolfE deleted the feat/feed-crawling-filter branch November 9, 2025 12:13
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

Feed 크롤링 필터링 로직 강화

2 participants