Cheerio Web Scraper

์ง€์ •ํ•œ URL์˜ ์ •์  HTML ์ฝ˜ํ…์ธ ๋ฅผ Cheerio ๊ธฐ๋ฐ˜์œผ๋กœ ํฌ๋กค๋งํ•˜์—ฌ ๋ฌธ์„œ(Document) ํ˜•์‹์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๋กœ๋” ๋…ธ๋“œ์ž…๋‹ˆ๋‹ค. ๋น ๋ฅธ ์†๋„๋กœ ๋‹จ์ผ ํŽ˜์ด์ง€ ๋˜๋Š” ๋‹ค์ˆ˜์˜ ๋‚ด๋ถ€ ๋งํฌ๋ฅผ ํฌ๋กค๋งํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, CSS ์…€๋ ‰ํ„ฐ ๊ธฐ๋ฐ˜ ์ถ”์ถœ๋„ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค.


์ฃผ์š” ๊ธฐ๋Šฅ

  • Cheerio๋ฅผ ํ™œ์šฉํ•œ ๊ฒฝ๋Ÿ‰ HTML ์Šคํฌ๋ž˜ํ•‘ ๊ธฐ๋Šฅ ์ œ๊ณต

  • URL ๊ธฐ์ค€ ์ƒ๋Œ€ ๋งํฌ ์ถ”์ถœ ๊ธฐ๋Šฅ(Web Crawl, XML Sitemap ๋ฐฉ์‹)

  • CSS Selector๋กœ ์ฝ˜ํ…์ธ  ์˜์—ญ ์ง€์ • ๊ฐ€๋Šฅ

  • Text Splitter ์—ฐ๊ฒฐ์„ ํ†ตํ•ด ์žฅ๋ฌธ ์ฝ˜ํ…์ธ  ๋ถ„ํ•  ์ฒ˜๋ฆฌ ๊ฐ€๋Šฅ

  • ์ถœ๋ ฅ ํ˜•ํƒœ ์„ ํƒ ๊ฐ€๋Šฅ: Document ๋˜๋Š” ๋‹จ์ผ ํ…์ŠคํŠธ

WindyFlo Cheerio Web Scraper
WindyFlo Cheerio Web Scraper Parameters

์ž…๋ ฅ๊ฐ’ (Inputs)

ํ•ญ๋ชฉ
์„ค๋ช…
ํ•„์ˆ˜ ์—ฌ๋ถ€

Text Splitter

ํฌ๋กค๋ง ๊ฒฐ๊ณผ ํ…์ŠคํŠธ ๋ถ„ํ•  ์šฉ๋„

์„ ํƒ

URL

ํฌ๋กค๋ง ๋Œ€์ƒ URL

ํ•„์ˆ˜


ํŒŒ๋ผ๋ฏธํ„ฐ (Parameters)

ํ•ญ๋ชฉ
์„ค๋ช…

Get Relative Links Method

๋‚ด๋ถ€ ๋งํฌ ์ˆ˜์ง‘ ๋ฐฉ์‹ ์„ ํƒ (Web Crawl ๋˜๋Š” XML Sitemap)

Get Relative Links Limit

์ˆ˜์ง‘ํ•  ์ƒ๋Œ€ ๋งํฌ ์ตœ๋Œ€ ์ˆ˜ (์˜ˆ: 10)

Selector (CSS)

์ถ”์ถœํ•  ์ฝ˜ํ…์ธ  ์˜์—ญ์˜ CSS ์…€๋ ‰ํ„ฐ ์ง€์ • (์„ ํƒ ์‹œ ํ•ด๋‹น ์˜์—ญ๋งŒ ํฌ๋กค๋ง)

Additional Metadata

๋ฌธ์„œ์— ํฌํ•จํ•  ์‚ฌ์šฉ์ž ์ •์˜ ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ

Omit Metadata Keys

์ œ์™ธํ•  metadata ํ‚ค (์‰ผํ‘œ ๊ตฌ๋ถ„, ์˜ˆ: source.href, header.title)


์ถœ๋ ฅ๊ฐ’ (Outputs)

์ถœ๋ ฅ ํ•ญ๋ชฉ
์„ค๋ช…

Document

pageContent์™€ metadata๋ฅผ ํฌํ•จํ•œ ๋ฌธ์„œ ๊ฐ์ฒด ๋ฐฐ์—ด

Text

๋ชจ๋“  ๋ฌธ์„œ ๋‚ด์šฉ์„ ํ•˜๋‚˜๋กœ ์—ฐ๊ฒฐํ•œ ํ…์ŠคํŠธ (์„ ํƒ ์ถœ๋ ฅ ํ˜•์‹)


ํ™œ์šฉ ์˜ˆ์‹œ

  • ๋‹จ์ผ ์›นํŽ˜์ด์ง€ ๋˜๋Š” ์›น์‚ฌ์ดํŠธ์˜ ์„œ๋ธŒ ํŽ˜์ด์ง€๋“ค์—์„œ ์ฝ˜ํ…์ธ  ์ˆ˜์ง‘ ๋ฐ ๋ถ„์„

  • ๊ธฐ์ˆ  ๋ธ”๋กœ๊ทธ๋‚˜ ์ œํ’ˆ ์†Œ๊ฐœ ํŽ˜์ด์ง€์˜ ์ฃผ์š” ์˜์—ญ๋งŒ CSS Selector๋กœ ์ถ”์ถœ

  • ๊ธฐ์—… ๋‚ด๋ถ€ ์œ„ํ‚ค ๋˜๋Š” ๋งค๋‰ด์–ผ ํŽ˜์ด์ง€๋ฅผ ์ˆ˜์ง‘ํ•ด LLM ํ•™์Šต์— ํ™œ์šฉ

  • ์ƒ๋Œ€ ๋งํฌ ์ž๋™ ์ˆ˜์ง‘์„ ํ†ตํ•œ ์ •์  ๋ฌธ์„œ ์ „์ฒด ํฌ๋กค๋ง ์ž๋™ํ™”

  • ์˜ˆ: /docs, /faq ๋“ฑ ๊ตฌ์กฐํ™”๋œ ์ฝ˜ํ…์ธ  ํŽ˜์ด์ง€ ๋ฐ˜๋ณต ์ˆ˜์ง‘

  • XML Sitemap ์ œ๊ณต ์‚ฌ์ดํŠธ์˜ ๋ชจ๋“  ๋ฌธ์„œ ์ž๋™ ๋กœ๋”ฉ

  • ๋‹ค์–‘ํ•œ HTML ๊ตฌ์กฐ ๋Œ€์‘ ์‹œ Selector ์‚ฌ์šฉ์œผ๋กœ ์ •๋ฐ€ ์ œ์–ด


์‚ฌ์šฉ ํŒ

  • Selector (CSS)๋ฅผ ํ™œ์šฉํ•˜๋ฉด ๊ด‘๊ณ ๋‚˜ ๋ถˆํ•„์š”ํ•œ ์ฝ˜ํ…์ธ ๋ฅผ ์ œ๊ฑฐํ•˜๊ณ  ํ•ต์‹ฌ ๋‚ด์šฉ๋งŒ ์ถ”์ถœ ๊ฐ€๋Šฅ

  • Get Relative Links Method๋ฅผ Web Crawl๋กœ ์„ค์ • ์‹œ ๋ฐ˜๋ณต ํŽ˜์ด์ง€ ์ˆ˜์ง‘ ๊ฐ€๋Šฅ

  • ์ƒ๋Œ€ ๋งํฌ ์ˆ˜์ง‘ ์‹œ Get Relative Links Limit์„ ์ ์ ˆํžˆ ์„ค์ •ํ•˜์—ฌ ๊ณผ๋ถ€ํ•˜ ๋ฐฉ์ง€

  • Text Splitter๋ฅผ ์—ฐ๊ฒฐํ•ด ๊ธด ์ฝ˜ํ…์ธ ๋„ ๊ตฌ์กฐํ™”๋œ ์ฒ˜๋ฆฌ ๊ฐ€๋Šฅ


์ฃผ์˜์‚ฌํ•ญ

  • JavaScript ๊ธฐ๋ฐ˜ ๋™์  ์ฝ˜ํ…์ธ ๋Š” Cheerio๋กœ ์ˆ˜์ง‘๋˜์ง€ ์•Š์Œ (์ •์  HTML ์ „์šฉ)

  • ์ƒ๋Œ€ ๋งํฌ ์ž๋™ ์ˆ˜์ง‘ ์‹œ ํŽ˜์ด์ง€ ์ˆ˜์— ๋”ฐ๋ผ ํฌ๋กค๋ง ์‹œ๊ฐ„์ด ๊ธธ์–ด์งˆ ์ˆ˜ ์žˆ์Œ

  • Web Crawl ๋ฐฉ์‹์€ ๋ฐ˜๋ณต ์‹คํ–‰ ์‹œ ๋™์ผํ•œ ๋งํฌ๊ฐ€ ์ค‘๋ณต ์ฒ˜๋ฆฌ๋  ์ˆ˜ ์žˆ์Œ

  • Selector ์ž…๋ ฅ ์˜ค๋ฅ˜ ์‹œ ์ฝ˜ํ…์ธ ๊ฐ€ ์ถ”์ถœ๋˜์ง€ ์•Š์„ ์ˆ˜ ์žˆ์Œ

Last updated