Apify Website Content Crawler

Apify ํ”Œ๋žซํผ์„ ํ™œ์šฉํ•ด ์›น์‚ฌ์ดํŠธ์˜ ์ฝ˜ํ…์ธ ๋ฅผ ํฌ๋กค๋งํ•˜๊ณ  ๋ฌธ์„œ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๋กœ๋” ๋…ธ๋“œ์ž…๋‹ˆ๋‹ค. ์ง€์ •ํ•œ URL์—์„œ ํŽ˜์ด์ง€ ๋‚ด์šฉ์„ ์ˆ˜์ง‘ํ•˜๋ฉฐ, ํฌ๋กค๋ง ๋ฒ”์œ„, ๊นŠ์ด, ๋ฐฉ์‹ ๋“ฑ์„ ์œ ์—ฐํ•˜๊ฒŒ ์„ค์ •ํ•  ์ˆ˜ ์žˆ์–ด ๋™์  ์›น์‚ฌ์ดํŠธ์—๋„ ๋Œ€์‘ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.


์ฃผ์š” ๊ธฐ๋Šฅ

  • ์ง€์ •ํ•œ Start URL ๊ธฐ์ค€์œผ๋กœ ์›น ์ฝ˜ํ…์ธ ๋ฅผ ์ž๋™ ์ˆ˜์ง‘

  • Chrome, Firefox, Cheerio ๋“ฑ ๋‹ค์–‘ํ•œ ํฌ๋กค๋Ÿฌ ํƒ€์ž… ์ง€์›

  • ์ตœ๋Œ€ ๊นŠ์ด(depth)์™€ ํŽ˜์ด์ง€ ์ˆ˜ ์ œํ•œ์œผ๋กœ ํฌ๋กค๋ง ๋ฒ”์œ„ ์กฐ์ ˆ

  • Apify API๋ฅผ ํ†ตํ•ด ์ •๊ตํ•œ ํฌ๋กค๋ง ์ œ์–ด

  • ๋ฌธ์„œ ๋ณ€ํ™˜ ์ „ Text Splitter์™€ ์—ฐ๊ฒฐํ•˜์—ฌ ๊ตฌ์กฐํ™” ๊ฐ€๋Šฅ

WindyFlo Apify Website Content Crawler
WindyFlo Apify Website Content Crawler Parameters

์ž…๋ ฅ๊ฐ’ (Inputs)

ํ•ญ๋ชฉ
์„ค๋ช…
ํ•„์ˆ˜ ์—ฌ๋ถ€

Text Splitter

ํฌ๋กค๋ง ๊ฒฐ๊ณผ ํ…์ŠคํŠธ ๋ถ„ํ•  ์šฉ๋„

์„ ํƒ

Connect Apify API

Apify API Key๋ฅผ Credential์— ๋“ฑ๋ก ํ›„ ์„ ํƒ

ํ•„์ˆ˜

Start URLs

ํฌ๋กค๋ง ์‹œ์ž‘ ๋Œ€์ƒ URL (ํ•˜๋‚˜ ๋˜๋Š” ๋ณต์ˆ˜ ์ž…๋ ฅ ๊ฐ€๋Šฅ)

ํ•„์ˆ˜

Crawler type

์‚ฌ์šฉํ•  ํฌ๋กค๋Ÿฌ ๋ฐฉ์‹ ์„ ํƒ (Browser, HTTP ๋“ฑ)

ํ•„์ˆ˜


ํŒŒ๋ผ๋ฏธํ„ฐ (Parameters)

ํ•ญ๋ชฉ
์„ค๋ช…

Max crawling depth

ํฌ๋กค๋ง ๊นŠ์ด (0=ํ•ด๋‹น ํŽ˜์ด์ง€๋งŒ, 1=๋งํฌ 1๋‹จ๊ณ„ ๋“ฑ)

Max crawl pages

์ตœ๋Œ€ ํฌ๋กค ํŽ˜์ด์ง€ ์ˆ˜ ์ œํ•œ (์˜ˆ: 3)

Additional input

ํฌ๋กค๋ง ์‹คํ–‰ ์‹œ ์ „๋‹ฌํ•  ์ถ”๊ฐ€ ์ž…๋ ฅ ๊ฐ’

Additional Metadata

์ƒ์„ฑ๋œ ๋ฌธ์„œ์— ํฌํ•จํ•  ์ถ”๊ฐ€ ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ

Omit Metadata Keys

๋ฌธ์„œ์—์„œ ์ œ์™ธํ•  ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ ํ‚ค (์‰ผํ‘œ๋กœ ๊ตฌ๋ถ„)

*Crawler type ์˜ต์…˜ ๋ชฉ๋ก:

  • Headless web browser (Chrome+Playwright)

  • Stealthy web browser (Firefox+Playwright)

  • Raw HTTP client (Cheerio)

  • Raw HTTP client with JS execution (JSDOM)


์ถœ๋ ฅ๊ฐ’ (Outputs)

์ถœ๋ ฅ ํ•ญ๋ชฉ
์„ค๋ช…

Document

์ˆ˜์ง‘๋œ ์›น ์ฝ˜ํ…์ธ ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ƒ์„ฑ๋œ Document ๊ฐ์ฒด ๋ฐฐ์—ด

Text

๋ฌธ์„œ ๋‚ด์šฉ์„ ํ•˜๋‚˜์˜ ๋ฌธ์ž์—ด๋กœ ๋ณ‘ํ•ฉํ•œ ํ…์ŠคํŠธ (์„ ํƒ ์ถœ๋ ฅ ํ˜•์‹)


ํ™œ์šฉ ์˜ˆ์‹œ

  • SaaS ๊ณต์‹ ์‚ฌ์ดํŠธ์—์„œ ์ž์ฃผ ๋ฌป๋Š” ์งˆ๋ฌธ(FAQ)์ด๋‚˜ ๊ฐ€์ด๋“œ ๋ฌธ์„œ๋ฅผ ์ž๋™ ์ˆ˜์ง‘ํ•ด AI ์‘๋‹ต ํ•™์Šต์— ํ™œ์šฉ

  • ๋™์  ๋ Œ๋”๋ง๋˜๋Š” ๊ธฐ์ˆ  ๋ฌธ์„œ ํŽ˜์ด์ง€๋ฅผ Stealthy ๋ธŒ๋ผ์šฐ์ €๋กœ ์ •ํ™•ํžˆ ํฌ๋กค๋ง

  • ํŠน์ • URL๋งŒ ์ง€์ •ํ•˜์—ฌ ์ฝ˜ํ…์ธ  ์—…๋ฐ์ดํŠธ ์—ฌ๋ถ€๋ฅผ ์ถ”์ ํ•˜๊ณ  ์š”์•ฝ ์ œ๊ณต

  • ๊ธฐ์ˆ  ๋ธ”๋กœ๊ทธ/์ œํ’ˆ ๋งค๋‰ด์–ผ์„ ์ž๋™ ๋ฌธ์„œํ™”

  • ๊ฒฝ์Ÿ์‚ฌ ์›น์‚ฌ์ดํŠธ ์ฝ˜ํ…์ธ ๋ฅผ ์ˆ˜์ง‘ํ•˜์—ฌ ๋ถ„์„

  • ๊ฒ€์ƒ‰์—”์ง„์— ๋…ธ์ถœ๋˜์ง€ ์•Š๋Š” ๋‚ด๋ถ€ ๋งํฌ ์ฝ˜ํ…์ธ  ์ˆ˜์ง‘ ๊ฐ€๋Šฅ


์‚ฌ์šฉ ํŒ

  • Crawler type์—์„œ ๋™์  ํŽ˜์ด์ง€์ธ ๊ฒฝ์šฐ ๋ธŒ๋ผ์šฐ์ € ๊ธฐ๋ฐ˜ ํฌ๋กค๋Ÿฌ(์˜ˆ: Stealthy web browser)๋ฅผ ์„ ํƒ

  • Max crawling depth๋ฅผ ๋Š˜๋ฆด์ˆ˜๋ก ๋งํฌ๋ฅผ ๋”ฐ๋ผ๊ฐ€๋Š” ๋ฒ”์œ„๊ฐ€ ์ปค์ง€๋ฏ€๋กœ ์„ฑ๋Šฅ ๊ณ ๋ ค

  • Max crawl pages ์„ค์ •์„ ํ†ตํ•ด ๋ฌดํ•œ ํฌ๋กค๋ง ๋ฐฉ์ง€

  • Start URL์€ ๋ณต์ˆ˜ ์ž…๋ ฅ ๊ฐ€๋Šฅ (์‰ผํ‘œ ๋˜๋Š” ๋ฐฐ์—ด ํ˜•ํƒœ)


์ฃผ์˜์‚ฌํ•ญ

  • Apify API Key๋Š” ์‚ฌ์ „ ๋ฐœ๊ธ‰ ํ›„ Credential์— ๋“ฑ๋ก ํ•„์š”

  • ๋„ˆ๋ฌด ๋งŽ์€ ๋งํฌ๋ฅผ ํฌํ•จํ•œ ์‚ฌ์ดํŠธ๋Š” ์ฒ˜๋ฆฌ ์‹œ๊ฐ„์ด ๊ธธ์–ด์งˆ ์ˆ˜ ์žˆ์Œ

  • JSDOM ํƒ€์ž…์€ ์‹คํ—˜์  ๊ธฐ๋Šฅ์œผ๋กœ ์˜ˆ์™ธ ๋ฐœ์ƒ ๊ฐ€๋Šฅ์„ฑ ์กด์žฌ

  • ์‚ฌ์ดํŠธ robots.txt ์ •์ฑ…์„ ์ค€์ˆ˜ํ•ด์•ผ ํ•จ

Last updated