ChatLocalAI
ChatLocalAI ๋ ธ๋๋ ๋ก์ปฌ ์๋ฒ์ ๋ฐฐํฌ๋ LLM ๋ชจ๋ธ์ ์ง์ ํธ์ถํ๋ Chat Model ๋ ธ๋์ ๋๋ค. OpenLLM, GPT4All, LLaMA ๋ฑ ๋ค์ํ ์คํ์์ค ๋ชจ๋ธ์ ๋ด๋ถ ๋คํธ์ํฌ์์ ์คํํ๊ณ ์ ํ ๋ ์ ์ฉํ๋ฉฐ, ๋น์ฉ ๋ถ๋ด ์์ด ๋ ๋ฆฝ์ ํ๊ฒฝ์์ ์์ ๋กญ๊ฒ ์คํ์ด ๊ฐ๋ฅํฉ๋๋ค.
์ฃผ์ ๊ธฐ๋ฅ
๋ก์ปฌ ํ๊ฒฝ(Localhost)์์ ๊ตฌ๋ ์ค์ธ LLM ๋ชจ๋ธ ํธ์ถ
Base Path ๋ฐ ๋ชจ๋ธ ํ์ผ๋ช ์ ์ง์ ์ง์ ํ์ฌ ์ ์ฐํ ์ค์ ๊ฐ๋ฅ
Temperature, Top-P ๋ฑ ์๋ต ์ ์ด ํ๋ผ๋ฏธํฐ ์ง์
Streaming ์๋ต ์ฒ๋ฆฌ ๊ฐ๋ฅ
์ธ๋ถ API ๋น์ฉ ์์ด ๋ ๋ฆฝํ LLM ํ๊ฒฝ ์ด์ ๊ฐ๋ฅ


์
๋ ฅ๊ฐ (Inputs)
Connect Credential
API Key ๋๋ ๋ก์ปฌ ์๋ฒ ์ธ์ฆ ์ ๋ณด (Credential์ ๋ฑ๋ก๋ ๊ฐ)
์ ํ
Model Name
์คํ ์ค์ธ ๋ก์ปฌ ๋ชจ๋ธ ํ์ผ๋ช (์: gpt4all-lora-quantized.bin)
ํ์
Temperature
์๋ต์ ์ฐฝ์์ฑ ์กฐ์ ๊ฐ (0.0 ~ 1.0, ๊ธฐ๋ณธ๊ฐ: 0.9)
์ ํ
ํ๋ผ๋ฏธํฐ (Parameters)
Streaming
์ค์๊ฐ ์๋ต ์คํธ๋ฆฌ๋ฐ ์ฌ๋ถ (๊ธฐ๋ณธ๊ฐ: true)
Max Tokens
์๋ต ์ต๋ ํ ํฐ ์ ์ ํ
Top Probability
Top-P ํ๋ฅ ๊ธฐ๋ฐ ์ํ๋ง ๊ฐ
Timeout
API ์๋ต ์ ํ ์๊ฐ(ms)
์ถ๋ ฅ๊ฐ (Outputs)
ChatLocalAI
๋ก์ปฌ ์๋ฒ LLM์ ์๋ต ํ ์คํธ ๋๋ ์คํธ๋ฆฌ๋ฐ ๊ฐ์ฒด
ํ์ฉ ์์
๋ณด์ ํ๊ฒฝ์์ ์ธํฐ๋ท ์ฐ๊ฒฐ ์์ด ์ฌ๋ด ๋ฌธ์ ๊ธฐ๋ฐ ์๋ต ์์คํ ๊ตฌ์ถ (์: ๋ด๋ถ ์๋ด ์ฑ๋ด)
LLM ์คํ์ฉ ๋ก์ปฌ ์๋ฒ๋ฅผ ๊ตฌ์ถํ์ฌ ๋ชจ๋ธ ์ฑ๋ฅ ๋น๊ต ๋ฐ Prompt ์ต์ ํ ํ ์คํธ
๋น์ฉ ์์ด ์ด์ ๊ฐ๋ฅํ ๊ฐ์ธ ํ๋ก์ ํธ ๋๋ ์ฌ๋ด MVP ์ฑ๋ด ๊ฐ๋ฐ
GPU ๋๋ CPU ํ๊ฒฝ์์ ๋ก์ปฌ LLM ์คํ ํ WindyFlo๋ฅผ ํตํด ์ํฌํ๋ก์ฐ์ ์ฐ๋
์ฌ์ฉ ํ
Base Path๋ ์ค์ API๊ฐ ์ด๋ ค ์๋ ํฌํธ ๋ฐ ๊ฒฝ๋ก์ ์ ํํ ์ผ์นํด์ผ ํจ (์:
/v1/chat/completions)Model Name์ gpt4all, llama.cpp ๋ฑ์์ ์ค์ ๋ก๋ฉ๋ ๋ชจ๋ธ ํ์ผ๋ช ์ ์ ํํ ์ ๋ ฅํด์ผ ํจTop Probability ๊ฐ์ 0.9 ์ดํ๋ก ์ค์ ํ๋ฉด ์๋ต์ ์ง์ค๋๋ฅผ ๋์ผ ์ ์์
Streaming์ ํ์ฉํ๋ฉด ์๋ต ์๋ ์ฒด๊ฐ์ด ํฅ์๋๋ฉฐ, ๋ํํ ์ธํฐํ์ด์ค์ ์ ํฉํจ
์ฃผ์์ฌํญ
ํด๋น ๋ ธ๋๋ ๋ก์ปฌ ์๋ฒ๊ฐ ์ด๋ฏธ ์คํ ์ค์ด์ด์ผ ํ๋ฉฐ, API ์คํ(gpt4all, llama.cpp ๋ฑ)์ ๋ฐ๋ผ์ผ ํฉ๋๋ค
๋ชจ๋ธ ์คํ ์ค ๋ฆฌ์์ค ๋ถ์กฑ(GPU, ๋ฉ๋ชจ๋ฆฌ ๋ฑ)์ผ๋ก ์ธํ ์๊ฐ ์ด๊ณผ๋ ์๋ต ์คํจ๊ฐ ๋ฐ์ํ ์ ์์
๋ก์ปฌ ํ๊ฒฝ์์๋ ์ธ์ฆ ์ค์ ์ด ํ์๊ฐ ์๋์ง๋ง, ๊ณต์ ํ๊ฒฝ์์๋ Credential ์ค์ ์ ๊ถ์ฅํจ
Base Path ์ค์ ์ค๋ฅ ๋๋ ๋ฐฉํ๋ฒฝ ์ค์ ์ผ๋ก ์ธํด ์ฐ๊ฒฐ ์คํจ๊ฐ ๋ฐ์ํ ์ ์์
Last updated