HuggingFace Inference
HuggingFace Inference λ Έλλ Hugging Face Hubμ λ±λ‘λ λ€μν ν μ€νΈ μμ± λͺ¨λΈ(GPT2, BLOOM λ±)μ APIλ₯Ό ν΅ν΄ μ€νν μ μλλ‘ μ§μνλ λ Έλμ λλ€. 컀μ€ν μλν¬μΈνΈ μ€μ μ ν΅ν΄ μ¬λ΄ νΈμ€ν λͺ¨λΈμ΄λ Hugging Face Inference Endpointsμλ μ°κ²° κ°λ₯ν©λλ€.
μ£Όμ κΈ°λ₯
Hugging Face Hubμ λͺ¨λΈ(gpt2, bloom λ±)μ μ§μ νΈμΆν΄ ν μ€νΈ μμ±
Temperature,Top-p,Top-k,Max Tokensλ± μΈλΆ μμ± μ΅μ μ 곡컀μ€ν μλν¬μΈνΈ μ€μ μ ν΅ν νλΌμ΄λΉ λͺ¨λΈ λ°°ν¬ νκ²½ μ°λ κ°λ₯
Cache κΈ°λ₯μΌλ‘ λ°λ³΅ νΈμΆ μ μλ΅ μλ λ° λΉμ© μ΅μ ν


μ
λ ₯κ° (Inputs)
Cache
λμΌ μμ²μ λν κ²°κ³Όλ₯Ό μ μ₯ν΄ μ¬μ¬μ©ν μ§ μ¬λΆ
μ ν
Connect Credential
Hugging Face API ν ν° (Credentialμ λ±λ‘)
νμ
Model
μ¬μ©ν λͺ¨λΈ μ΄λ¦ (μ: gpt2, bigscience/bloom)
νμ
Endpoint
Hugging Face Inference Endpoint λλ μ¬μ€ API URL
μ ν
νλΌλ―Έν° (Parameters)
Temperature
μμ± λ€μμ± μ‘°μ κ° (0.0 ~ 1.0)
Max Tokens
μμ±ν μ΅λ ν ν° μ
Top Probability
Top-p (nucleus sampling) κ° μ€μ (μ: 0.9)
Top K
Top-k μνλ§ μ€μ κ°
Frequency Penalty
λ°λ³΅ λ¨μ΄ μ΅μ μμΉ (-2.0 ~ 2.0)
μΆλ ₯κ° (Outputs)
HuggingFaceInference
λͺ¨λΈλ‘λΆν° μμ±λ ν μ€νΈ κ²°κ³Ό λλ JSON μλ΅
νμ© μμ
μ¬λ΄ μΈνλΌ λλ Hugging Faceμ νλΌμ΄λΉ λͺ¨λΈμ νμ©ν λ§μΆ€ν ν μ€νΈ μμ± μν¬νλ‘μ° κ΅¬μΆ
μ€νμμ€ LLM κΈ°λ° RAG μμ€ν μ€ν
λΉμ©μ κ³ λ €ν΄ OpenAI λμ Hugging Face λͺ¨λΈλ‘ μ€ν νκ²½ ꡬμ±
λ€μν λͺ¨λΈ μ€μ μ ν΅ν μμ± νμ§ λΉκ΅ λ° νκ°
μ¬μ© ν
Modelμ΄λ¦μ Hugging Face λͺ¨λΈ νμ΄μ§μ μ νν κ²½λ‘λ₯Ό μ λ ₯ν΄μΌ νλ©°, μ:bigscience/bloom,tiiuae/falcon-7b-instructEndpointλ Hugging Faceμμ μμ±ν Inference Endpoint URL λλ λ‘컬 νλ‘μ μλ² μ£Όμλ₯Ό μ λ ₯ν μ μμ΅λλ€.Top ProbabilityμTop Kλ ν¨κ» μ¬μ©νλ κ²½μ° κ²°κ³Ό λ€μμ±μ΄ μ»€μ§ μ μμΌλ, νμ§ μ ν κ°λ₯μ±λ μμ΅λλ€.TemperatureμMax Tokensμ‘°ν©μ μ μ ν μ‘°μ νλ©΄ μλ΅ νμ§κ³Ό λΉμ©μ λμμ κ΄λ¦¬ν μ μμ΅λλ€.
μ£Όμμ¬ν
ν΄λΉ λ Έλλ μ λ ₯λ λͺ¨λΈ κ²½λ‘ λλ Endpointκ° μλͺ»λ κ²½μ° μ€λ₯λ₯Ό λ°ννλ―λ‘ μ¬μ νμΈμ΄ νμμ λλ€.
Hugging Faceμ μΌλΆ λͺ¨λΈμ μΈμ¦ ν ν°μ΄ μμΌλ©΄ νΈμΆμ΄ μ νλ μ μμ΅λλ€.
μμ±λ μλ΅ νμμ λͺ¨λΈλ§λ€ λ€λ₯΄λ―λ‘ νμ²λ¦¬ λ‘μ§μμ μ£Όμκ° νμν©λλ€.
λ‘컬 μλ²μ μ°λ μ API Timeout, ν¬λ§· λΆμΌμΉ λ±μ λν μμΈμ²λ¦¬ νμ
Last updated