Chat Nvdia NIM
ChatNvdiaNIM ๋ ธ๋๋ NVIDIA์ NIM(NVIDIA Inference Microservices) ํ๋ซํผ์ ํตํด Microsoft, Mistral, Meta ๋ฑ ๋ค์ํ ํํธ๋์ฌ์ LLM์ ํธ์ถํ๋ Chat Model ๋ ธ๋์ ๋๋ค. ๊ณ ์ฑ๋ฅ ์ถ๋ก ์ธํ๋ผ ์์์ ๋ค์์ ๋ชจ๋ธ์ API ํํ๋ก ๋น ๋ฅด๊ฒ ํ์ฉํ ์ ์์ต๋๋ค.
์ฃผ์ ๊ธฐ๋ฅ
NIM ํ๋ซํผ์ ๋ฑ๋ก๋ ๋ค์ํ LLM ๋ชจ๋ธ ํธ์ถ ๊ฐ๋ฅ (์: microsoft/phi-3-mini-4k-instruct)
Temperature, Top-P ๋ฑ ์๋ต ์์ฑ ์ ์ด ์ต์ ์ง์
Streaming ์๋ต ์ง์
NVIDIA API ๊ธฐ๋ฐ์ผ๋ก ์ ๋ขฐ์ฑ ๋์ ์ถ๋ก ์ฒ๋ฆฌ ๊ฐ๋ฅ
Base Options๋ฅผ ํตํ ํ์ฅ ์ค์ ๊ฐ๋ฅ


์
๋ ฅ๊ฐ (Inputs)
Connect Credential
NVIDIA NGC API Key ๋๋ NIM ์ธ์ฆ ํค (Credential์ ๋ฑ๋ก๋ ๊ฐ)
ํ์
Model Name
ํธ์ถํ ๋ชจ๋ธ ์ด๋ฆ (์: microsoft/phi-3-mini-4k-instruct ๋ฑ NIM ๋ฑ๋ก ๋ชจ๋ธ)
ํ์
Temperature
์๋ต ์ฐฝ์์ฑ ์กฐ์ ๊ฐ (0.0 ~ 1.0, ๊ธฐ๋ณธ๊ฐ: 0.9)
์ ํ
ํ๋ผ๋ฏธํฐ (Parameters)
Streaming
์๋ต์ ์คํธ๋ฆฌ๋ฐ ๋ฐฉ์์ผ๋ก ๋ฐ์์ง ์ฌ๋ถ (๊ธฐ๋ณธ๊ฐ: true)
Max Tokens
์์ฑํ ์ต๋ ์๋ต ํ ํฐ ์
Top Probability
Top-P ํ๋ฅ ๊ธฐ๋ฐ ์ํ๋ง ๊ฐ
Frequency Penalty
์ค๋ณต ๋จ์ด ์ต์ ๊ณ์
Presence Penalty
์๋ก์ด ์ฃผ์ ์ ๋ ๊ณ์
Timeout
์๋ต ์ ํ ์๊ฐ (ms)
Base Options
์ถ๊ฐ ์ค์ ์ต์ (JSON ํ์์ผ๋ก key-value ์ ๋ฌ)
์ถ๋ ฅ๊ฐ (Outputs)
ChatNvdiaNIM
์ ํํ ๋ชจ๋ธ๋ก๋ถํฐ์ ์๋ต ๋๋ ์คํธ๋ฆฌ๋ฐ ๊ฐ์ฒด
ํ์ฉ ์์
NVIDIA ์ธํ๋ผ ๊ธฐ๋ฐ์ผ๋ก ์์ ์ฑ๊ณผ ์ฑ๋ฅ์ ํ๋ณดํ ์ํฐํ๋ผ์ด์ฆ ๋ํํ ์๋น์ค ๊ฐ๋ฐ
Microsoft Phi-3 ๋ชจ๋ธ์ ํ์ฉํ ๊ฒฝ๋ ๊ณ ์ ์๋ต ์์คํ ๊ตฌํ
Mistral, Meta ๋ฑ ์คํ ๋ชจ๋ธ์ ๋จ์ผ ํ๋ซํผ์์ ํตํฉ ์ด์ํ๋ ๋ฉํฐ๋ชจ๋ธ ์ฑ๋ด ๊ตฌ์ฑ
GPU ์๋ฒ ์์ด๋ ๊ณ ์ฑ๋ฅ LLM ์ถ๋ก ๊ธฐ๋ฅ์ API ํํ๋ก ํ์ฉํ๊ณ ์ถ์ ์คํํธ์ /SMB ๋์ ์๋น์ค ๊ตฌ์ถ
์ฌ์ฉ ํ
๋ชจ๋ธ ์ด๋ฆ์ NIM์์ ์ ๊ณตํ๋ ์ ํํ ์๋ณ์๋ฅผ ์ฌ์ฉํด์ผ ํ๋ฉฐ ์ฌ์ ํ์ธ ํ์
Base Optionsํ๋๋ JSON ํ์์ผ๋ก ๋ค์ํ ์คํ์ ํ๋ผ๋ฏธํฐ๋ ํ์ฅ ์ค์ ์ ๋ฌ์ ํ์ฉ ๊ฐ๋ฅStreaming ๋ชจ๋๋ UX๋ฅผ ๊ฐ์ ํ๋ ๋ฐ ํจ๊ณผ์ ์ด๋ฉฐ, ํนํ ํ๋ก ํธ์๋ ์ค์๊ฐ ์๋ต์ ์ ํฉ
Top-P์ Temperature๋ฅผ ํจ๊ป ์กฐ์ ํ์ฌ ์ฐฝ์์ฑ๊ณผ ์ผ๊ด์ฑ ์ฌ์ด ๋ฐธ๋ฐ์ค๋ฅผ ์กฐ์ ํ ์ ์์
์ฃผ์์ฌํญ
Connect Credential์ NVIDIA NGC ๊ณ์ ์์ ์์ฑ๋ ์ ํจํ ํค์ฌ์ผ ํ๋ฉฐ, ๊ถํ์ด ๋ถ์กฑํ ๊ฒฝ์ฐ ์ธ์ฆ ์ค๋ฅ ๋ฐ์
์ง์ ๋ Base Path๊ฐ ์ ํํ์ง ์์ผ๋ฉด ์ฐ๊ฒฐ ์คํจ ๋ฐ์
์ฌ์ฉ ๊ฐ๋ฅํ ๋ชจ๋ธ ๋ชฉ๋ก์ NIM ํ๋ซํผ ๊ณ์ ์ ํ์ ๋ฐ๋ผ ์ ํ๋ ์ ์์
Base Options ํ์ฉ ์ JSON ๊ตฌ์กฐ ์ค๋ฅ๊ฐ ๋ฐ์ํ์ง ์๋๋ก ์ฃผ์ ํ์
Last updated