S3
S3 ๋ ธ๋๋ Amazon S3์ ์ ์ฅ๋ ๋จ์ผ ํ์ผ์ Unstructured API์ ์ฐ๋ํ์ฌ ํ ์คํธ๋ก ๋ณํํ๊ณ , ๋ฌธ์ ๊ฐ์ฒด(Document)๋ก ์ถ๋ ฅํฉ๋๋ค. OCR, ๋ ์ด์์ ๋ถ์, Chunking ๋ฑ ๊ณ ๊ธ ์ ์ฒ๋ฆฌ ์ต์ ์ ํ์ฉํ์ฌ ์ ๊ตํ ๋ฌธ์ ํ์ฑ์ด ๊ฐ๋ฅํฉ๋๋ค.
์ฃผ์ ๊ธฐ๋ฅ
์ง์ ํ S3 ๋ฒํท์ ๊ฐ๋ณ ํ์ผ์ ๋ถ๋ฌ์ ํ ์คํธ๋ก ๋ณํ
Unstructured API์ ์ฐ๋ํ์ฌ ๋ฌธ์ ์ ํ์ ๋ฐ๋ฅธ ์๋ ํ์ฑ
OCR ๋ฐ ๊ณ ํด์๋ ๋ชจ๋ธ์ ํตํ ๋ ์ด์์ ๊ธฐ๋ฐ ๋ถ์ ์ง์
Chunk ๋จ์ ๋ถํ , ํ๊ทธ ์ ์ง, ํ์ด์ง ๊ตฌ๋ถ ๋ฑ ์ธ๋ฐํ ์ ์ฒ๋ฆฌ ์ต์ ์ ๊ณต



์
๋ ฅ๊ฐ (Inputs)
AWS Credential
S3 ์ ๊ทผ์ฉ ์ธ์ฆ ์ ๋ณด (Credential์ ๋ฑ๋ก)
ํ์
Bucket
๋์ S3 ๋ฒํท ์ด๋ฆ
ํ์
Object Key
๋์ ํ์ผ ๊ฒฝ๋ก ๋ฐ ์ด๋ฆ (์: doc/sample.pdf)
ํ์
Region
๋ฒํท ๋ฆฌ์ (์: us-east-1)
ํ์
Unstructured API URL
๋ฌธ์ ๋ถ์์ ์ํ Unstructured API ์๋ฒ ์ฃผ์
ํ์
Unstructured API KEY
Unstructured API ์ธ์ฆ ํค
ํ์
Text Splitter
๋ถ์๋ ํ ์คํธ๋ฅผ ๋ถํ ํ๋ ๋ฐ ์ฌ์ฉํ Text Splitter ๋ ธ๋
์ ํ
ํ๋ผ๋ฏธํฐ (Parameters)
Strategy
๋ฌธ์ ์ถ์ถ ์ ๋ต (Auto, Hi-Res, Fast ๋ฑ)
Encoding
๋ฌธ์ ์ธ์ฝ๋ฉ ๋ฐฉ์ (์: utf-8)
Skip Infer Table Types
ํ ์ถ๋ก ์ ๊ฑด๋๋ธ ํ์ผ ํ์ (jpg, png, pdf ๋ฑ)
Hi-Res Model Name
๊ณ ํด์๋ ๋ชจ๋ธ ์ ํ (์: detectron2_onnx)
Chunking Strategy
ํ ์คํธ ๋ถํ ๊ธฐ์ค (์: By Title, By Element ๋ฑ)
OCR Languages
OCR ๋ถ์์ ์ฌ์ฉํ ์ธ์ด (์: eng, kor ๋ฑ)
Source ID Key
๋ฌธ์ ์ถ์ฒ ๋ฉํ๋ฐ์ดํฐ ํค ์ด๋ฆ
Coordinates
๊ฐ ํ ์คํธ ๋ธ๋ก์ ์ขํ ์ ๋ณด ํฌํจ ์ฌ๋ถ
XML Keep Tags
XML ํ๊ทธ ์ ์ง ์ฌ๋ถ
Include Page Breaks
ํ์ด์ง ๊ตฌ๋ถ ํ๊ทธ ์ฝ์ ์ฌ๋ถ
Multi-Page Sections
๋ฉํฐํ์ด์ง ์น์ ๋ณํฉ ์ฒ๋ฆฌ ์ฌ๋ถ
Combine Under N Chars
์ง์ ๊ธธ์ด ์ดํ ํ ์คํธ ๋ณํฉ ๊ธฐ์ค (๋ฌธ์ ์)
New After N Chars
์ง์ ๊ธธ์ด ์ดํ ํ ์คํธ ๋ถํ ๊ธฐ์ค (๋ฌธ์ ์)
Max Characters
Chunk ๋น ์ต๋ ๋ฌธ์ ์ (๊ธฐ๋ณธ๊ฐ: 500)
Additional Metadata
์ฝ์ ํ ์ปค์คํ ๋ฉํ๋ฐ์ดํฐ (JSON)
Omit Metadata Keys
์ ๊ฑฐํ ๋ฉํ๋ฐ์ดํฐ ํค (์ผํ๋ก ๊ตฌ๋ถ)
์ถ๋ ฅ๊ฐ (Outputs)
Document
Unstructured API ๋ถ์ ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์์ฑ๋ ๋ฌธ์ ๊ฐ์ฒด ๋ฆฌ์คํธ
Text
์ ์ฒด pageContent๋ฅผ ๋ณํฉํ ํ ์คํธ ๋ฌธ์์ด
ํ์ฉ ์์
์ค์บ ๊ธฐ๋ฐ PDF๋ฅผ OCR ๋ถ์ํ์ฌ ํ ์คํธ๋ก ์ถ์ถ ๋ฐ ์์ฝ
์ ํ ๋ฆฌํฌํธ ๋ฌธ์๋ฅผ ์น์ ๋ณ๋ก ๋ถํ ํ ๊ฒ์ ๊ธฐ๋ฐ AI ์๋ต์ ํ์ฉ
๋ค์ํ ์ธ์ด์ ๊ณ์ฝ์, ์ ์ฑ ๋ฌธ์ ๋ฑ์ ๊ตฌ์กฐํํ์ฌ ๋น๊ต ๋ถ์
์ฌ์ฉ ํ
Strategy๋ฅผAuto๋ก ์ค์ ํ๋ฉด ํ์ผ ์ ํ์ ๋ฐ๋ผ ์ต์ ์ถ์ถ ๋ฐฉ์ ์๋ ์ ์ฉOCR ๊ธฐ๋ฐ ์ถ์ถ ์ ํ๋๋ฅผ ๋์ด๋ ค๋ฉด
Hi-Res Model๊ณผOCR Language๋ฅผ ํจ๊ป ์ค์ Text Splitter์ ํจ๊ป ์ฌ์ฉํ๋ฉด ๊ณผ๋ํ ๊ธธ์ด ๋ฌธ์ ๋ฅผ ๋ฐฉ์งํ๊ณ ์ฒ๋ฆฌ ์์ ์ฑ ํฅ์
์ฃผ์์ฌํญ
Unstructured API ์๋ฒ ์ฃผ์ ๋ฐ ํค ์ ๋ ฅ์ด ๋๋ฝ๋๋ฉด ๋ฌธ์ ๋ถ์์ด ์คํ๋์ง ์์
์ผ๋ถ ์ด๋ฏธ์ง ๊ธฐ๋ฐ PDF๋ ์ ํํ ํ ์คํธ ์ถ์ถ์ ์ํด OCR ์ต์ ํ์
๋ณํฉ/๋ถํ ๊ธฐ์ค์ด ๊ณผ๋ํ๊ฒ ์ค์ ๋๋ฉด ์๋ต ๋๋ฝ ๋๋ ๊ณผ๋ถํ ๊ฐ๋ฅ์ฑ ์์
Last updated