Π‘ΡŠΠ΄ΡŠΡ€ΠΆΠ°Π½ΠΈΠ΅ скрий

Π’ настоящата ситуация Π½Π° Π±ΡƒΡ€Π½ΠΎ AI Ρ€Π°Π·Π²ΠΈΡ‚ΠΈΠ΅, Π»ΠΎΠΊΠ°Π»Π½ΠΎΡ‚ΠΎ изпълнСниС Π½Π° LLM ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π° CPU сС ΠΏΡ€Π΅Π²ΡŠΡ€Π½Π° Π² ΠΏΡ€ΠΈΠ²Π»Π΅ΠΊΠ°Ρ‚Π΅Π»Π½Π° опция Π·Π° ΠΌΠ½ΠΎΠ³ΠΎ Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΡ†ΠΈ ΠΈ ΠΎΡ€Π³Π°Π½ΠΈΠ·Π°Ρ†ΠΈΠΈ. Π’ΠΎΠ·ΠΈ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ Π½Π΅ сС фокусира Π²ΡŠΡ€Ρ…Ρƒ Π΄ΠΎΡΡ‚ΡŠΠΏΠ° Π΄ΠΎ Π½Π°ΠΉ-ΠΌΠΎΡ‰Π½ΠΈΡ‚Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ, Π° ΠΏΠΎ-скоро Π²ΡŠΡ€Ρ…Ρƒ Π½Π°ΠΌΠΈΡ€Π°Π½Π΅Ρ‚ΠΎ Π½Π° баланс ΠΌΠ΅ΠΆΠ΄Ρƒ Π²ΡŠΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡ‚ΠΈ ΠΈ практичност.

πŸ’‘
Ако ΠΏΡ€Π΅Π΄ΠΏΠΎΡ‡ΠΈΡ‚Π°Ρ‚Π΅ статията Π½Π° английски Π΅Π·ΠΈΠΊ, Π²ΠΈΠΆΡ‚Π΅ Ρ‚ΡƒΠΊ.

Π›ΠΎΠΊΠ°Π»Π½ΠΎΡ‚ΠΎ ΠΈΠ·Π²Π»ΠΈΡ‡Π°Π½Π΅ Π½Π° ΠΈΠ·Π²ΠΎΠ΄ΠΈ позволява Π½Π° ΠΏΠΎΡ‚Ρ€Π΅Π±ΠΈΡ‚Π΅Π»ΠΈΡ‚Π΅ Π΄Π° ΠΈΠ·ΠΏΠΎΠ»Π·Π²Π°Ρ‚ Π΄ΠΎΡΡ‚Π°Ρ‚ΡŠΡ‡Π½ΠΎ Π΄ΠΎΠ±Ρ€ΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ, ΠΊΠΎΠΈΡ‚ΠΎ ΠΌΠΎΠ³Π°Ρ‚ Π΅Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎ Π΄Π° сС справят с ΡˆΠΈΡ€ΠΎΠΊ ΡΠΏΠ΅ΠΊΡ‚ΡŠΡ€ ΠΎΡ‚ Π·Π°Π΄Π°Ρ‡ΠΈ, ΠΊΠ°Ρ‚ΠΎ ΡΡŠΡ‰Π΅Π²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎ Π·Π°ΠΏΠ°Π·Π²Π°Ρ‚ ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»Π° Π²ΡŠΡ€Ρ…Ρƒ повСритСлността Π½Π° Π΄Π°Π½Π½ΠΈΡ‚Π΅ ΠΈ намаляват зависимостта ΠΎΡ‚ ΠΎΠ±Π»Π°Ρ‡Π½ΠΈ услуги.

Π˜Π·ΠΏΡŠΠ»Π½Π΅Π½ΠΈΠ΅Ρ‚ΠΎ Π½Π° LLM ΠΌΠΎΠ΄Π΅Π»ΠΈ Π»ΠΎΠΊΠ°Π»Π½ΠΎ Π½Π° CPU ΠΏΡ€Π΅Π΄Π»Π°Π³Π° няколко прСдимства:

  • ΠŸΠΎΠ²Π΅Ρ€ΠΈΡ‚Π΅Π»Π½ΠΎΡΡ‚ Π½Π° Π΄Π°Π½Π½ΠΈΡ‚Π΅: Π—Π°ΠΏΠ°Π·Π²Π°Π½Π΅ Π½Π° чувствитСлната информация Π² Ρ€Π°ΠΌΠΊΠΈΡ‚Π΅ Π½Π° собствСната инфраструктура.
  • Π˜ΠΊΠΎΠ½ΠΎΠΌΠΈΡ‡Π΅ΡΠΊΠ° СфСктивност: Π•Π»ΠΈΠΌΠΈΠ½ΠΈΡ€Π°Π½Π΅ Π½Π° Ρ‚Π΅ΠΊΡƒΡ‰ΠΈΡ‚Π΅ Ρ€Π°Π·Ρ…ΠΎΠ΄ΠΈ Π·Π° ΠΎΠ±Π»Π°Ρ‡Π½ΠΈ изчислСния.
  • ΠžΡ„Π»Π°ΠΉΠ½ Π²ΡŠΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡ‚ΠΈ: ΠžΡΠΈΠ³ΡƒΡ€ΡΠ²Π°Π½Π΅ Π½Π° AI функционалност Π±Π΅Π· Π½ΡƒΠΆΠ΄Π° ΠΎΡ‚ ΠΈΠ½Ρ‚Π΅Ρ€Π½Π΅Ρ‚ ΡΠ²ΡŠΡ€Π·Π°Π½ΠΎΡΡ‚.
  • ΠŸΠ΅Ρ€ΡΠΎΠ½Π°Π»ΠΈΠ·Π°Ρ†ΠΈΡ: По-лСсно Ρ„ΠΈΠ½ΠΎ настройванС ΠΈ Π°Π΄Π°ΠΏΡ‚ΠΈΡ€Π°Π½Π΅ Π½Π° ΠΌΠΎΠ΄Π΅Π»ΠΈΡ‚Π΅ Π·Π° спСцифични случаи Π½Π° ΡƒΠΏΠΎΡ‚Ρ€Π΅Π±Π°.
  • НамаляванС Π½Π° латСнтността: ΠŸΠΎΡ‚Π΅Π½Ρ†ΠΈΠ°Π»Π½ΠΎ ΠΏΠΎ-ΠΊΡ€Π°Ρ‚ΠΊΠΈ Π²Ρ€Π΅ΠΌΠ΅Π½Π° Π·Π° ΠΎΡ‚Π³ΠΎΠ²ΠΎΡ€ ΠΏΡ€ΠΈ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈ прилоТСния.

Π’ΡŠΠΏΡ€Π΅ΠΊΠΈ Ρ‡Π΅ Ρ‚Π΅Π·ΠΈ Π»ΠΎΠΊΠ°Π»Π½ΠΎ изпълнявани ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΌΠΎΠΆΠ΅ Π΄Π° Π½Π΅ ΡΡŠΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²Π°Ρ‚ Π½Π° суровата ΠΌΠΎΡ‰ Π½Π° Π½Π°ΠΉ-Π³ΠΎΠ»Π΅ΠΌΠΈΡ‚Π΅ ΠΎΠ±Π»Π°Ρ‡Π½ΠΎ Π±Π°Π·ΠΈΡ€Π°Π½ΠΈ LLM ΠΌΠΎΠ΄Π΅Π»ΠΈ (Π½Π°ΠΏΡ€. Claude 3.5 Sonnet), Ρ‚Π΅ чСсто прСдоставят Π΄ΠΎΡΡ‚Π°Ρ‚ΡŠΡ‡Π½ΠΈ Π²ΡŠΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡ‚ΠΈ Π·Π° ΠΌΠ½ΠΎΠ³ΠΎ Ρ€Π΅Π°Π»Π½ΠΈ прилоТСния – ΠΎΡ‚ Π³Π΅Π½Π΅Ρ€ΠΈΡ€Π°Π½Π΅ ΠΈ Π°Π½Π°Π»ΠΈΠ· Π½Π° ΡΡŠΠ΄ΡŠΡ€ΠΆΠ°Π½ΠΈΠ΅ Π΄ΠΎ спСциализирани Π·Π°Π΄Π°Ρ‡ΠΈ Π² ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½ΠΈ области. Π’ΠΎΠ·ΠΈ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ Π΄Π΅ΠΌΠΎΠΊΡ€Π°Ρ‚ΠΈΠ·ΠΈΡ€Π° AI тСхнологията, ΠΏΡ€Π°Π²Π΅ΠΉΠΊΠΈ я Π΄ΠΎΡΡ‚ΡŠΠΏΠ½Π° Π·Π° ΠΏΠΎ-ΡˆΠΈΡ€ΠΎΠΊ ΠΊΡ€ΡŠΠ³ ΠΎΡ‚ ΠΏΠΎΡ‚Ρ€Π΅Π±ΠΈΡ‚Π΅Π»ΠΈ ΠΈ случаи Π½Π° ΡƒΠΏΠΎΡ‚Ρ€Π΅Π±Π°.

Π’ Ρ‚Π°Π·ΠΈ статия Ρ‰Π΅ Ρ€Π°Π·Π³Π»Π΅Π΄Π°ΠΌΠ΅ ΠΈΠ·ΠΏΡŠΠ»Π½Π΅Π½ΠΈΠ΅Ρ‚ΠΎ Π½Π° LLM ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π° Π»ΠΎΠΊΠ°Π»Π½ΠΈ CPU с ΠΏΠΎΠΌΠΎΡ‰Ρ‚Π° Π½Π° Ollama, ΠΊΠ°Ρ‚ΠΎ ΠΎΠ±Ρ…Π²Π°Π½Π΅ΠΌ Ρ‚Π΅Ρ…Π½ΠΈΠΊΠΈ Π·Π° оптимизация, ΠΈΠ·Π±ΠΎΡ€ Π½Π° ΠΌΠΎΠ΄Π΅Π» ΠΈ ΡΡŠΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΡ ΠΏΡ€ΠΈ внСдряванС, с фокус Π²ΡŠΡ€Ρ…Ρƒ Gemma 2 Π½Π° Google – Π΅Π΄ΠΈΠ½ ΠΎΡ‚ Π½Π°ΠΉ-Π΄ΠΎΠ±Ρ€ΠΈΡ‚Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π·Π° своя Ρ€Π°Π·ΠΌΠ΅Ρ€.

Π’ΡŠΠ²Π΅Π΄Π΅Π½ΠΈΠ΅ Π² Ollama

Ollama Ollama Π΅ инструмСнт с ΠΎΡ‚Π²ΠΎΡ€Π΅Π½ ΠΊΠΎΠ΄, ΠΊΠΎΠΉΡ‚ΠΎ опростява процСса Π½Π° изпълнСниС Π½Π° LLM ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π° Π»ΠΎΠΊΠ°Π»Π½ΠΈ машини. Π’ΠΎΠΉ прСдоставя лСсСн Π·Π° ΠΈΠ·ΠΏΠΎΠ»Π·Π²Π°Π½Π΅ интСрфСйс Π·Π° изтСглянС, изпълнСниС ΠΈ ΡƒΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅ Π½Π° Ρ€Π°Π·Π»ΠΈΡ‡Π½ΠΈ Π΅Π·ΠΈΠΊΠΎΠ²ΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ, Π²ΠΊΠ»ΡŽΡ‡ΠΈΡ‚Π΅Π»Π½ΠΎ популярни Ρ‚Π°ΠΊΠΈΠ²Π° ΠΊΠ°Ρ‚ΠΎ Llama 3.1, Qwen2, Phi-3 ΠΈ Gemma 2.

ΠšΠ»ΡŽΡ‡ΠΎΠ²ΠΈ характСристики Π½Π° Ollama Π²ΠΊΠ»ΡŽΡ‡Π²Π°Ρ‚:

  • ΠŸΡ€ΠΎΡΡ‚ интСрфСйс с ΠΊΠΎΠΌΠ°Π½Π΄Π΅Π½ Ρ€Π΅Π΄
  • ΠŸΠΎΠ΄Π΄Ρ€ΡŠΠΆΠΊΠ° Π½Π° мноТСство ΠΌΠΎΠ΄Π΅Π»ΠΈ
  • ЛСсно ΠΏΡ€Π΅Π²ΠΊΠ»ΡŽΡ‡Π²Π°Π½Π΅ ΠΈ ΠΈΠ·ΠΏΠΎΠ»Π·Π²Π°Π½Π΅ Π½Π° ΠΌΠΎΠ΄Π΅Π»ΠΈ
  • ΠŸΠ΅Ρ€ΡΠΎΠ½Π°Π»ΠΈΠ·ΠΈΡ€ΡƒΠ΅ΠΌΠΈ подсказки (ΠΏΡ€ΠΎΠΌΠΏΡ‚ΠΈ)
  • Π˜Π½Ρ‚Π΅Π³Ρ€Π°Ρ†ΠΈΡ с популярни AI/ML Ρ€Π°ΠΌΠΊΠΈ

Ollama 0.2: Π Π΅Π²ΠΎΠ»ΡŽΡ†ΠΈΠΎΠ½Π½Π° актуализация

Наскоро пуснатата вСрсия Ollama 0.2.0 носи Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»Π½ΠΈ подобрСния, особСно Π² ΠΏΠ°Ρ€Π°Π»Π΅Π»Π½Π°Ρ‚Π° ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠ° ΠΈ ΡƒΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅Ρ‚ΠΎ Π½Π° ΠΌΠΎΠ΄Π΅Π»ΠΈ. НСка Ρ€Π°Π·Π³Π»Π΅Π΄Π°ΠΌΠ΅ Π½Π°ΠΊΡ€Π°Ρ‚ΠΊΠΎ ΠΊΠ»ΡŽΡ‡ΠΎΠ²ΠΈΡ‚Π΅ подобрСния:

ΠŸΠ°Ρ€Π°Π»Π΅Π»Π½Π° ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠ°

Π—Π²Π΅Π·Π΄Π½Π°Ρ‚Π° функция Π½Π° Ollama 0.2 Π΅ ΠΏΠ°Ρ€Π°Π»Π΅Π»Π½Π°Ρ‚Π° ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠ°, която Π²Π΅Ρ‡Π΅ Π΅ Π°ΠΊΡ‚ΠΈΠ²ΠΈΡ€Π°Π½Π° ΠΏΠΎ ΠΏΠΎΠ΄Ρ€Π°Π·Π±ΠΈΡ€Π°Π½Π΅. Π’ΠΎΠ²Π° ΠΎΡ‚ΠΊΠ»ΡŽΡ‡Π²Π° Π΄Π²Π΅ основни Π²ΡŠΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡ‚ΠΈ:

  1. ΠŸΠ°Ρ€Π°Π»Π΅Π»Π½ΠΈ заявки: Ollama Π²Π΅Ρ‡Π΅ ΠΌΠΎΠΆΠ΅ Π΄Π° обслуТва мноТСство заявки Π΅Π΄Π½ΠΎΠ²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎ, ΠΈΠ·ΠΏΠΎΠ»Π·Π²Π°ΠΉΠΊΠΈ само ΠΌΠ°Π»ΠΊΠΎ Π΄ΠΎΠΏΡŠΠ»Π½ΠΈΡ‚Π΅Π»Π½Π° ΠΏΠ°ΠΌΠ΅Ρ‚ Π·Π° всяка. Π’ΠΎΠ²Π° позволява Π½Π° ΠΏΠΎΡ‚Ρ€Π΅Π±ΠΈΡ‚Π΅Π»ΠΈΡ‚Π΅ Π΄Π°:
    • Управляват мноТСство Ρ‡Π°Ρ‚ сСсии навСднъТ
    • Π₯остват LLM ΠΌΠΎΠ΄Π΅Π»ΠΈ Π·Π° допълванС Π½Π° ΠΊΠΎΠ΄ Π·Π° Π΅ΠΊΠΈΠΏΠΈ
    • ΠžΠ±Ρ€Π°Π±ΠΎΡ‚Π²Π°Ρ‚ Ρ€Π°Π·Π»ΠΈΡ‡Π½ΠΈ части Π½Π° Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ Π΅Π΄Π½ΠΎΠ²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎ
    • Π˜Π·ΠΏΡŠΠ»Π½ΡΠ²Π°Ρ‚ мноТСство Π°Π³Π΅Π½Ρ‚ΠΈ ΠΏΠ°Ρ€Π°Π»Π΅Π»Π½ΠΎ
  2. ΠŸΠΎΠ΄Π΄Ρ€ΡŠΠΆΠΊΠ° Π½Π° мноТСство ΠΌΠΎΠ΄Π΅Π»ΠΈ: ΠŸΠΎΡ‚Ρ€Π΅Π±ΠΈΡ‚Π΅Π»ΠΈΡ‚Π΅ Π²Π΅Ρ‡Π΅ ΠΌΠΎΠ³Π°Ρ‚ Π΄Π° Π·Π°Ρ€Π΅ΠΆΠ΄Π°Ρ‚ Ρ€Π°Π·Π»ΠΈΡ‡Π½ΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π΅Π΄Π½ΠΎΠ²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎ. Π’ΠΎΠ²Π° драстично подобрява случаи Π½Π° ΡƒΠΏΠΎΡ‚Ρ€Π΅Π±Π° ΠΊΠ°Ρ‚ΠΎ:
    • Π˜Π·Π²Π»ΠΈΡ‡Π°Π½Π΅ Π½Π° информация с Ρ€Π°Π·ΡˆΠΈΡ€ΡΠ²Π°Π½Π΅ (RAG), ΠΊΡŠΠ΄Π΅Ρ‚ΠΎ ΠΌΠΎΠ΄Π΅Π»ΠΈΡ‚Π΅ Π·Π° Π²Π³Ρ€Π°ΠΆΠ΄Π°Π½Π΅ ΠΈ Π·Π°Π²ΡŠΡ€ΡˆΠ²Π°Π½Π΅ Π½Π° тСкст ΠΌΠΎΠ³Π°Ρ‚ Π΄Π° ΡΡŠΡ‰Π΅ΡΡ‚Π²ΡƒΠ²Π°Ρ‚ Π΅Π΄Π½ΠΎΠ²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎ Π² ΠΏΠ°ΠΌΠ΅Ρ‚Ρ‚Π°
    • ИзпълнСниС Π½Π° мноТСство Π°Π³Π΅Π½Ρ‚ΠΈ Π΅Π΄Π½ΠΎΠ²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎ
    • ΠŸΠ°Ρ€Π°Π»Π΅Π»Π½Π° Ρ€Π°Π±ΠΎΡ‚Π° Π½Π° Π³ΠΎΠ»Π΅ΠΌΠΈ ΠΈ ΠΌΠ°Π»ΠΊΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ

Π’ΡŠΠΏΡ€Π΅ΠΊΠΈ Ρ‡Π΅ Π½Π°ΡˆΠΈΡΡ‚ фокус Π΅ Π²ΡŠΡ€Ρ…Ρƒ внСдряванСто Π½Π° CPU, си струва Π΄Π° ΠΎΡ‚Π±Π΅Π»Π΅ΠΆΠΈΠΌ, Ρ‡Π΅ Ollama 0.2 въвСТда ΠΈ ΠΈΠ½Ρ‚Π΅Π»ΠΈΠ³Π΅Π½Ρ‚Π½ΠΎ ΡƒΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅ Π½Π° ΠΏΠ°ΠΌΠ΅Ρ‚Ρ‚Π° Π·Π° ΠΏΠΎΡ‚Ρ€Π΅Π±ΠΈΡ‚Π΅Π»ΠΈ Π½Π° GPU, Π°Π²Ρ‚ΠΎΠΌΠ°Ρ‚ΠΈΡ‡Π½ΠΎ управлявайки Π·Π°Ρ€Π΅ΠΆΠ΄Π°Π½Π΅Ρ‚ΠΎ ΠΈ Ρ€Π°Π·Ρ‚ΠΎΠ²Π°Ρ€Π²Π°Π½Π΅Ρ‚ΠΎ Π½Π° ΠΌΠΎΠ΄Π΅Π»ΠΈ въз основа Π½Π° наличността Π½Π° рСсурси. Π’Π°Π·ΠΈ функция, Π·Π°Π΅Π΄Π½ΠΎ с Π½ΠΎΠ²Π°Ρ‚Π° ΠΊΠΎΠΌΠ°Π½Π΄Π° ollama ps Π·Π° наблюдСниС Π½Π° Π·Π°Ρ€Π΅Π΄Π΅Π½ΠΈΡ‚Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ, подобрява унивСрсалността Π½Π° Ollama Π·Π° Ρ€Π°Π·Π»ΠΈΡ‡Π½ΠΈ Ρ…Π°Ρ€Π΄ΡƒΠ΅Ρ€Π½ΠΈ ΠΊΠΎΠ½Ρ„ΠΈΠ³ΡƒΡ€Π°Ρ†ΠΈΠΈ.

Π Π°Π·ΡˆΠΈΡ€Π΅Π½ΠΎ ΡƒΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅ Π½Π° ΠΏΠ°Ρ€Π°Π»Π΅Π»Π½Π°Ρ‚Π° ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠ°

Ollama 0.2 въвСТда няколко ΠΏΡ€ΠΎΠΌΠ΅Π½Π»ΠΈΠ²ΠΈ Π½Π° срСдата Π·Π° Ρ„ΠΈΠ½ΠΎ ΡƒΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅ Π½Π° ΠΏΠ°Ρ€Π°Π»Π΅Π»Π½Π°Ρ‚Π° ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠ°:

  • OLLAMA_MAX_LOADED_MODELS: ΠšΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΠΈΡ€Π° максималния Π±Ρ€ΠΎΠΉ Π΅Π΄Π½ΠΎΠ²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎ Π·Π°Ρ€Π΅Π΄Π΅Π½ΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ (ΠΏΠΎ ΠΏΠΎΠ΄Ρ€Π°Π·Π±ΠΈΡ€Π°Π½Π΅: 3 ΠΏΡŠΡ‚ΠΈ броя Π½Π° GPU-Ρ‚Π°Ρ‚Π° ΠΈΠ»ΠΈ 3 Π·Π° CPU ΠΈΠ·Π²Π»ΠΈΡ‡Π°Π½Π΅ Π½Π° ΠΈΠ·Π²ΠΎΠ΄ΠΈ)
  • OLLAMA_NUM_PARALLEL: Π—Π°Π΄Π°Π²Π° максималния Π±Ρ€ΠΎΠΉ ΠΏΠ°Ρ€Π°Π»Π΅Π»Π½ΠΈ заявки, ΠΊΠΎΠΈΡ‚ΠΎ всСки ΠΌΠΎΠ΄Π΅Π» ΠΌΠΎΠΆΠ΅ Π΄Π° ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚Π²Π° (ΠΏΠΎ ΠΏΠΎΠ΄Ρ€Π°Π·Π±ΠΈΡ€Π°Π½Π΅: Π°Π²Ρ‚ΠΎΠΌΠ°Ρ‚ΠΈΡ‡Π½ΠΎ ΠΈΠ·Π±ΠΈΡ€Π° ΠΌΠ΅ΠΆΠ΄Ρƒ 4 ΠΈΠ»ΠΈ 1 въз основа Π½Π° Π½Π°Π»ΠΈΡ‡Π½Π°Ρ‚Π° ΠΏΠ°ΠΌΠ΅Ρ‚)
  • OLLAMA_MAX_QUEUE: ΠžΠΏΡ€Π΅Π΄Π΅Π»Ρ максималния Π±Ρ€ΠΎΠΉ заявки, ΠΊΠΎΠΈΡ‚ΠΎ Ollama Ρ‰Π΅ постави Π½Π° опашка, ΠΊΠΎΠ³Π°Ρ‚ΠΎ Π΅ Π·Π°Π΅Ρ‚ (ΠΏΠΎ ΠΏΠΎΠ΄Ρ€Π°Π·Π±ΠΈΡ€Π°Π½Π΅: 512)

Π’Π΅Π·ΠΈ настройки позволяват Π½Π° ΠΏΠΎΡ‚Ρ€Π΅Π±ΠΈΡ‚Π΅Π»ΠΈΡ‚Π΅ Π΄Π° ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·ΠΈΡ€Π°Ρ‚ производитСлността Π½Π° Ollama Π·Π° своя спСцифичСн Ρ…Π°Ρ€Π΄ΡƒΠ΅Ρ€ ΠΈ случаи Π½Π° ΡƒΠΏΠΎΡ‚Ρ€Π΅Π±Π°.

НастройванС Π½Π° Ollama

Π—Π° Π΄Π° Π·Π°ΠΏΠΎΡ‡Π½Π΅Ρ‚Π΅ с Ollama, слСдвайтС Ρ‚Π΅Π·ΠΈ ΡΡ‚ΡŠΠΏΠΊΠΈ:

  1. ΠŸΠΎΡΠ΅Ρ‚Π΅Ρ‚Π΅ официалния уСбсайт Π½Π° Ollama: https://ollama.ai/
  2. Π˜Π·Ρ‚Π΅Π³Π»Π΅Ρ‚Π΅ подходящата вСрсия Π·Π° Π²Π°ΡˆΠ°Ρ‚Π° ΠΎΠΏΠ΅Ρ€Π°Ρ†ΠΈΠΎΠ½Π½Π° систСма (Windows, macOS ΠΈΠ»ΠΈ Linux)
  3. Π˜Π½ΡΡ‚Π°Π»ΠΈΡ€Π°ΠΉΡ‚Π΅ Ollama, слСдвайки инструкциитС, прСдоставСни Π·Π° Π²Π°ΡˆΠ°Ρ‚Π° ОБ
  4. ΠžΡ‚Π²ΠΎΡ€Π΅Ρ‚Π΅ Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π°Π» ΠΈΠ»ΠΈ ΠΊΠΎΠΌΠ°Π½Π΄Π΅Π½ ΠΏΡ€ΠΎΠ·ΠΎΡ€Π΅Ρ†, Π·Π° Π΄Π° взаимодСйстватС с Ollama

ΠŸΡ€Π΅Π΄ΠΈ Π΄Π° ΠΏΡ€ΠΎΠ΄ΡŠΠ»ΠΆΠΈΠΌ с ΠΈΠ·ΠΏΡŠΠ»Π½Π΅Π½ΠΈΠ΅Ρ‚ΠΎ Π½Π° ΠΌΠΎΠ΄Π΅Π»ΠΈ, Π½Π΅ΠΊΠ° Ρ€Π°Π·Π³Π»Π΅Π΄Π°ΠΌΠ΅ ΠΏΠΎ-ΠΎΡ‚Π±Π»ΠΈΠ·ΠΎ квантизацията – ΠΊΠ»ΡŽΡ‡ΠΎΠ²Π° Ρ‚Π΅Ρ…Π½ΠΈΠΊΠ°, която ΠΏΡ€Π°Π²ΠΈ възмоТно Π»ΠΎΠΊΠ°Π»Π½ΠΎΡ‚ΠΎ изпълнСниС Π½Π° LLM ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π° стандартСн Ρ…Π°Ρ€Π΄ΡƒΠ΅Ρ€.

ΠšΠ²Π°Π½Ρ‚ΠΈΠ·Π°Ρ†ΠΈΡ

ΠšΠ²Π°Π½Ρ‚ΠΈΠ·Π°Ρ†ΠΈΡΡ‚Π° Π΅ ΠΊΠ»ΡŽΡ‡ΠΎΠ²Π° Ρ‚Π΅Ρ…Π½ΠΈΠΊΠ° Π·Π° изпълнСниС Π½Π° Π³ΠΎΠ»Π΅ΠΌΠΈ Π΅Π·ΠΈΠΊΠΎΠ²ΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π° потрСбитСлски Ρ…Π°Ρ€Π΄ΡƒΠ΅Ρ€, особСно ΠΊΠΎΠ³Π°Ρ‚ΠΎ сС ΠΈΠ·ΠΏΠΎΠ»Π·Π²Π°Ρ‚ CPU. Π’ΠΎΠ·ΠΈ процСс ΠΏΡ€Π΅ΠΎΠ±Ρ€Π°Π·ΡƒΠ²Π° Ρ‚Π΅Π³Π»Π°Ρ‚Π° Π½Π° ΠΌΠΎΠ΄Π΅Π»Π° ΠΎΡ‚ ΠΏΠΎ-висока прСцизност (Π½Π°ΠΏΡ€. 32-Π±ΠΈΡ‚ΠΎΠ²ΠΈ числа с ΠΏΠ»Π°Π²Π°Ρ‰Π° запСтая) Π² Ρ„ΠΎΡ€ΠΌΠ°Ρ‚ΠΈ с ΠΏΠΎ-ниска прСцизност (Π½Π°ΠΏΡ€. 8-Π±ΠΈΡ‚ΠΎΠ²ΠΈ Ρ†Π΅Π»ΠΈ числа).

ΠšΠ²Π°Π½Ρ‚ΠΈΠ·Π°Ρ†ΠΈΡ

ΠŸΠΎΠ»Π·ΠΈΡ‚Π΅ ΠΎΡ‚ квантизацията Π²ΠΊΠ»ΡŽΡ‡Π²Π°Ρ‚:

  • НамалСно ΠΈΠ·ΠΏΠΎΠ»Π·Π²Π°Π½Π΅ Π½Π° ΠΏΠ°ΠΌΠ΅Ρ‚: ΠšΠ²Π°Π½Ρ‚ΠΈΠ·ΠΈΡ€Π°Π½ΠΈΡ‚Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ изискват Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»Π½ΠΎ ΠΏΠΎ-ΠΌΠ°Π»ΠΊΠΎ RAM, ΠΊΠΎΠ΅Ρ‚ΠΎ ΠΏΡ€Π°Π²ΠΈ възмоТно ΠΈΠ·ΠΏΡŠΠ»Π½Π΅Π½ΠΈΠ΅Ρ‚ΠΎ Π½Π° ΠΏΠΎ-Π³ΠΎΠ»Π΅ΠΌΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π° устройства с ΠΎΠ³Ρ€Π°Π½ΠΈΡ‡Π΅Π½Π° ΠΏΠ°ΠΌΠ΅Ρ‚.
  • По-Π±ΡŠΡ€Π·ΠΎ ΠΈΠ·Π²Π»ΠΈΡ‡Π°Π½Π΅ Π½Π° ΠΈΠ·Π²ΠΎΠ΄ΠΈ (inference): Π˜Π·Ρ‡ΠΈΡΠ»Π΅Π½ΠΈΡΡ‚Π° с ΠΏΠΎ-ниска прСцизност ΠΌΠΎΠ³Π°Ρ‚ Π΄Π° сС ΠΈΠ·Π²ΡŠΡ€ΡˆΠ²Π°Ρ‚ ΠΏΠΎ-Π±ΡŠΡ€Π·ΠΎ, особСно Π½Π° CPU.
  • По-малък ΠΎΠ±Π΅ΠΌ Π½Π° ΡΡŠΡ…Ρ€Π°Π½Π΅Π½ΠΈΠ΅: ΠšΠ²Π°Π½Ρ‚ΠΈΠ·ΠΈΡ€Π°Π½ΠΈΡ‚Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π·Π°Π΅ΠΌΠ°Ρ‚ ΠΏΠΎ-ΠΌΠ°Π»ΠΊΠΎ дисково пространство, ΠΊΠΎΠ΅Ρ‚ΠΎ Π΅ ΠΏΠΎΠ»Π΅Π·Π½ΠΎ Π·Π° внСдряванС ΠΈ разпространСниС.

НапримСр, ΠΌΠΎΠ΄Π΅Π» с 27 ΠΌΠΈΠ»ΠΈΠ°Ρ€Π΄Π° ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚ΡŠΡ€Π°, ΠΊΠΎΠΉΡ‚ΠΎ ΠΌΠΎΠΆΠ΅ Π΄Π° изисква Π½Π°Π΄ 100GB RAM ΠΏΡ€ΠΈ пълна прСцизност, ΠΏΠΎΡ‚Π΅Π½Ρ†ΠΈΠ°Π»Π½ΠΎ Π±ΠΈ могъл Π΄Π° Ρ€Π°Π±ΠΎΡ‚ΠΈ Π½Π° систСма с 32GB ΠΈΠ»ΠΈ ΠΏΠΎ-ΠΌΠ°Π»ΠΊΠΎ слСд квантизация. Π˜Π½ΡΡ‚Ρ€ΡƒΠΌΠ΅Π½Ρ‚ΠΈ ΠΊΠ°Ρ‚ΠΎ transformers ΠΎΡ‚ Hugging Face ΠΈΠ»ΠΈ спСциализирани Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠΈ Π·Π° квантизация ΠΌΠΎΠ³Π°Ρ‚ Π΄Π° Π²ΠΈ ΠΏΠΎΠΌΠΎΠ³Π½Π°Ρ‚ Π΄Π° ΠΈΠ·Π²ΡŠΡ€ΡˆΠΈΡ‚Π΅ Ρ‚Π°Π·ΠΈ оптимизация.

Колко ΠΏΠ°ΠΌΠ΅Ρ‚ ΠΌΠΈ Π΅ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠ°

НСобходимата ΠΏΠ°ΠΌΠ΅Ρ‚ Π·Π° изпълнСниС Π½Π° LLM ΠΌΠΎΠ΄Π΅Π» Π΅ тясно ΡΠ²ΡŠΡ€Π·Π°Π½Π° с броя Π½Π° Π½Π΅Π³ΠΎΠ²ΠΈΡ‚Π΅ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΈ. ΠšΠ°Ρ‚ΠΎ ΠΎΠ±Ρ‰ΠΎ ΠΏΡ€Π°Π²ΠΈΠ»ΠΎ, са Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΈ ΠΎΠΊΠΎΠ»ΠΎ 4 Π±Π°ΠΉΡ‚Π° ΠΏΠ°ΠΌΠ΅Ρ‚ Π½Π° ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚ΡŠΡ€ Π·Π° ΠΌΠΎΠ΄Π΅Π»ΠΈ с пълна прСцизност (FP32). Π’ΠΎΠ²Π° ΠΎΠ·Π½Π°Ρ‡Π°Π²Π°, Ρ‡Π΅ ΠΌΠΎΠ΄Π΅Π» с 27 ΠΌΠΈΠ»ΠΈΠ°Ρ€Π΄Π° ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚ΡŠΡ€Π° Ρ‚Π΅ΠΎΡ€Π΅Ρ‚ΠΈΡ‡Π½ΠΎ Π±ΠΈ изисквал ΠΎΠΊΠΎΠ»ΠΎ 108GB RAM Π² ΠΏΡŠΠ»Π½Π°Ρ‚Π° си Ρ„ΠΎΡ€ΠΌΠ°.

Π’ΡŠΠΏΡ€Π΅ΠΊΠΈ Ρ‚ΠΎΠ²Π°, Ρ‡Ρ€Π΅Π· Ρ‚Π΅Ρ…Π½ΠΈΠΊΠΈ ΠΊΠ°Ρ‚ΠΎ квантизация (намаляванС Π½Π° прСцизността Π΄ΠΎ INT8 ΠΈΠ»ΠΈ Π΄ΠΎΡ€ΠΈ INT4), изискванията Π·Π° ΠΏΠ°ΠΌΠ΅Ρ‚ ΠΌΠΎΠ³Π°Ρ‚ Π΄Π° Π±ΡŠΠ΄Π°Ρ‚ Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»Π½ΠΎ Π½Π°ΠΌΠ°Π»Π΅Π½ΠΈ, ΠΏΠΎΡ‚Π΅Π½Ρ†ΠΈΠ°Π»Π½ΠΎ 2-4 ΠΏΡŠΡ‚ΠΈ ΠΈΠ»ΠΈ ΠΏΠΎΠ²Π΅Ρ‡Π΅. Π”ΠΎΡ€ΠΈ с Ρ‚Π΅Π·ΠΈ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ, ΠΈΠ·ΠΏΡŠΠ»Π½Π΅Π½ΠΈΠ΅Ρ‚ΠΎ Π½Π° ΠΌΠΎΠ΄Π΅Π» с 27 ΠΌΠΈΠ»ΠΈΠ°Ρ€Π΄Π° ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚ΡŠΡ€Π° Π½Π° ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π΅Π½ Mac M1 с 8GB RAM Π±ΠΈ Π±ΠΈΠ»ΠΎ ΠΏΠΎΡ‡Ρ‚ΠΈ нСвъзмоТно.

ОбикновСно потрСбитСлскитС устройства с 8GB RAM са ΠΏΠΎ-подходящи Π·Π° ΠΌΠΎΠ΄Π΅Π»ΠΈ Π² Π΄ΠΈΠ°ΠΏΠ°Π·ΠΎΠ½Π° ΠΎΡ‚ 1 Π΄ΠΎ 7 ΠΌΠΈΠ»ΠΈΠ°Ρ€Π΄Π° ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚ΡŠΡ€Π°, Π² зависимост ΠΎΡ‚ Π½ΠΈΠ²ΠΎΡ‚ΠΎ Π½Π° квантизация ΠΈ ΠΏΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΡ‚Π΅ Ρ‚Π΅Ρ…Π½ΠΈΠΊΠΈ Π·Π° оптимизация. Π—Π° ΠΏΠΎ-Π³ΠΎΠ»Π΅ΠΌΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΊΠ°Ρ‚ΠΎ вСрсията с 27 ΠΌΠΈΠ»ΠΈΠ°Ρ€Π΄Π° ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚ΡŠΡ€Π°, ΠΎΠ±ΠΈΠΊΠ½ΠΎΠ²Π΅Π½ΠΎ Ρ‰Π΅ Π²ΠΈ трябва ΠΏΠΎΠ²Π΅Ρ‡Π΅ RAM (16GB+) ΠΈΠ»ΠΈ Ρ‰Π΅ трябва Π΄Π° ΠΏΡ€ΠΈΠ»ΠΎΠΆΠΈΡ‚Π΅ ΠΎΡ‰Π΅ ΠΏΠΎ-Π½Π°ΠΏΡ€Π΅Π΄Π½Π°Π»ΠΈ Ρ‚Π΅Ρ…Π½ΠΈΠΊΠΈ ΠΊΠ°Ρ‚ΠΎ размяна Π½Π° диска, ΠΊΠΎΠ΅Ρ‚ΠΎ ΠΌΠΎΠΆΠ΅ сСриозно Π΄Π° повлияС Π½Π° производитСлността.

Π—Π° Ρ‚ΠΎΡ‡Π½Π° ΠΎΡ†Π΅Π½ΠΊΠ° Π½Π° изискванията Π·Π° ΠΏΠ°ΠΌΠ΅Ρ‚ Π·Π° Ρ€Π°Π·Π»ΠΈΡ‡Π½ΠΈ Ρ€Π°Π·ΠΌΠ΅Ρ€ΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ, ΠΏΡ€ΠΎΠ²Π΅Ρ€Π΅Ρ‚Π΅ Ρ‚ΠΎΠ·ΠΈ страхотСн ΠΊΠ°Π»ΠΊΡƒΠ»Π°Ρ‚ΠΎΡ€, прСдоставСн ΠΎΡ‚ Hugging Face: https://huggingface.co/spaces/hf-accelerate/model-memory-usage

Π˜Π·Π±ΠΎΡ€ Π½Π° ΠΌΠΎΠ΄Π΅Π»

Π˜Π·Π±ΠΎΡ€ΡŠΡ‚ Π½Π° правилния ΠΌΠΎΠ΄Π΅Π» Π·Π° Π»ΠΎΠΊΠ°Π»Π½ΠΎ изпълнСниС Π½Π° CPU Π΅ ΠΎΡ‚ Ρ€Π΅ΡˆΠ°Π²Π°Ρ‰ΠΎ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ Π·Π° балансиранС Π½Π° производитСлността ΠΈ ΠΈΠ·ΠΏΠΎΠ»Π·Π²Π°Π½Π΅Ρ‚ΠΎ Π½Π° рСсурси. Π’Π·Π΅ΠΌΠ΅Ρ‚Π΅ ΠΏΡ€Π΅Π΄Π²ΠΈΠ΄ слСднитС Ρ„Π°ΠΊΡ‚ΠΎΡ€ΠΈ:

  • Π Π°Π·ΠΌΠ΅Ρ€ Π½Π° ΠΌΠΎΠ΄Π΅Π»Π°: По-ΠΌΠ°Π»ΠΊΠΈΡ‚Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ (1-7 ΠΌΠΈΠ»ΠΈΠ°Ρ€Π΄Π° ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚ΡŠΡ€Π°) са ΠΏΠΎ-подходящи Π·Π° ΠΏΠΎΠ²Π΅Ρ‡Π΅Ρ‚ΠΎ потрСбитСлски CPU.
  • БпСциализация Π½Π° Π·Π°Π΄Π°Ρ‡Π°Ρ‚Π°: Π˜Π·Π±Π΅Ρ€Π΅Ρ‚Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ, Ρ„ΠΈΠ½ΠΎ настроСни Π·Π° Π²Π°ΡˆΠ°Ρ‚Π° ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½Π° Π·Π°Π΄Π°Ρ‡Π°.
  • Π•Π·ΠΈΠΊΠΎΠ²Π° ΠΏΠΎΠ΄Π΄Ρ€ΡŠΠΆΠΊΠ°: Π—Π° Π·Π°Π΄Π°Ρ‡ΠΈ, ΠΊΠΎΠΈΡ‚ΠΎ Π½Π΅ са Π½Π° английски Π΅Π·ΠΈΠΊ, помислСтС Π·Π° ΠΌΠΎΠ΄Π΅Π»ΠΈ, ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈ Π½Π° цСлСвия Π΅Π·ΠΈΠΊ.
  • Готовност Π·Π° квантизация: Π’ΡŠΡ€ΡΠ΅Ρ‚Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ, ΠΊΠΎΠΈΡ‚ΠΎ ΠΈΠΌΠ°Ρ‚ Π½Π°Π»ΠΈΡ‡Π½ΠΈ ΠΊΠ²Π°Π½Ρ‚ΠΈΠ·ΠΈΡ€Π°Π½ΠΈ вСрсии ΠΈΠ»ΠΈ са лСсни Π·Π° квантизация. Много ΠΌΠΎΠ΄Π΅Π»ΠΈ Π² Hugging Face Π²Π΅Ρ‡Π΅ ΠΏΡ€Π΅Π΄Π»Π°Π³Π°Ρ‚ GGUF (GPT-Generated Unified Format) вСрсии, ΠΊΠΎΠΈΡ‚ΠΎ са ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·ΠΈΡ€Π°Π½ΠΈ Π·Π° ΠΈΠ·Π²Π»ΠΈΡ‡Π°Π½Π΅ Π½Π° ΠΈΠ·Π²ΠΎΠ΄ΠΈ Π½Π° CPU.
  • ΠŸΠΎΠ΄ΠΊΡ€Π΅ΠΏΠ° ΠΎΡ‚ общността: ΠœΠΎΠ΄Π΅Π»ΠΈΡ‚Π΅ с Π°ΠΊΡ‚ΠΈΠ²Π½Π° ΠΏΠΎΠ΄ΠΊΡ€Π΅ΠΏΠ° ΠΎΡ‚ общността чСсто ΠΈΠΌΠ°Ρ‚ ΠΏΠΎΠ²Π΅Ρ‡Π΅ рСсурси ΠΈ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ, Π½Π°Π»ΠΈΡ‡Π½ΠΈ Π·Π° Π»ΠΎΠΊΠ°Π»Π½ΠΎ внСдряванС.

ΠŸΠΎΠΌΠ½Π΅Ρ‚Π΅, Ρ‡Π΅ Π½Π°ΠΉ-голСмият ΠΈΠ»ΠΈ Π½Π°ΠΉ-новият ΠΌΠΎΠ΄Π΅Π» Π½Π΅Π²ΠΈΠ½Π°Π³ΠΈ Π΅ Π½Π°ΠΉ-добрият ΠΈΠ·Π±ΠΎΡ€ Π·Π° Π»ΠΎΠΊΠ°Π»Π½ΠΎ изпълнСниС Π½Π° CPU. ЧСсто Π΄ΠΎΠ±Ρ€Π΅ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·ΠΈΡ€Π°Π½ ΠΏΠΎ-малък ΠΌΠΎΠ΄Π΅Π» ΠΌΠΎΠΆΠ΅ Π΄Π° осигури ΠΏΠΎ-Π΄ΠΎΠ±Ρ€Π° Ρ€Π΅Π°Π»Π½Π° производитСлност Π½Π° ΠΎΠ³Ρ€Π°Π½ΠΈΡ‡Π΅Π½ Ρ…Π°Ρ€Π΄ΡƒΠ΅Ρ€.

Π—Π° Ρ‚Π°Π·ΠΈ статия Ρ‰Π΅ сС ΡΡŠΡΡ€Π΅Π΄ΠΎΡ‚ΠΎΡ‡ΠΈΠΌ Π²ΡŠΡ€Ρ…Ρƒ Gemma 2 Π½Π° Google, Π½ΠΎ си струва Π΄Π° ΠΎΡ‚Π±Π΅Π»Π΅ΠΆΠΈΠΌ, Ρ‡Π΅ ΠΈΠΌΠ° няколко Π΄Ρ€ΡƒΠ³ΠΈ ΠΎΡ‚Π»ΠΈΡ‡Π½ΠΈ ΠΎΠΏΡ†ΠΈΠΈ Π·Π° Π»ΠΎΠΊΠ°Π»Π½ΠΎ ΠΈΠ·ΠΏΠΎΠ»Π·Π²Π°Π½Π΅, Π²ΠΊΠ»ΡŽΡ‡ΠΈΡ‚Π΅Π»Π½ΠΎ Phi-3 Π½Π° Microsoft ΠΈ Llama 3 Π½Π° Meta.

ИзпълнСниС на Gemma 2 на Ollama

Gemma 2 Π½Π° Google Π΅ ΡΡŠΠ²Ρ€Π΅ΠΌΠ΅Π½Π΅Π½ Π΅Π·ΠΈΠΊΠΎΠ² ΠΌΠΎΠ΄Π΅Π», Π½Π°Π»ΠΈΡ‡Π΅Π½ Π² Π΄Π²Π° Ρ€Π°Π·ΠΌΠ΅Ρ€Π°: 9 ΠΌΠΈΠ»ΠΈΠ°Ρ€Π΄Π° ΠΈ 27 ΠΌΠΈΠ»ΠΈΠ°Ρ€Π΄Π° ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚ΡŠΡ€Π°. Бтатията Π΅ Π΄ΠΎΡΡ‚ΡŠΠΏΠ½Π° Ρ‚ΡƒΠΊ, Π°ΠΊΠΎ сС интСрСсуватС Π΄Π° Π½Π°ΡƒΡ‡ΠΈΡ‚Π΅ ΠΏΠΎΠ²Π΅Ρ‡Π΅ Π·Π° Π΄Π°Π½Π½ΠΈΡ‚Π΅ Π·Π° ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅, Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π°Ρ‚Π° ΠΈ Ρ‚.Π½.

НСка Ρ€Π°Π·Π³Π»Π΅Π΄Π°ΠΌΠ΅ ΠΊΠ°ΠΊ Π΄Π° изпълнявамС Ρ‚Π΅Π·ΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ с ΠΏΠΎΠΌΠΎΡ‰Ρ‚Π° Π½Π° Ollama. Π‘ΠΏΠΎΡ€Π΅Π΄ ΠΌΠ½ΠΎΠ³ΠΎ мнСния Π½Π° ΠΏΡ€Π°ΠΊΡ‚ΠΈΠΊΡƒΠ²Π°Ρ‰ΠΈ, Ρ‚ΠΎΠ²Π° Π΅ Π΅Π΄ΠΈΠ½ ΠΎΡ‚ Π½Π°ΠΉ-Π΄ΠΎΠ±Ρ€ΠΈΡ‚Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π·Π° своя Ρ€Π°Π·ΠΌΠ΅Ρ€.

Gemma 2: 9 ΠΌΠΈΠ»ΠΈΠ°Ρ€Π΄Π° ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚ΡŠΡ€Π°

Π—Π° Π΄Π° ΠΈΠ·ΠΏΡŠΠ»Π½ΠΈΡ‚Π΅ вСрсията с 9 ΠΌΠΈΠ»ΠΈΠ°Ρ€Π΄Π° ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚ΡŠΡ€Π° Π½Π° Gemma 2, ΠΈΠ·ΠΏΠΎΠ»Π·Π²Π°ΠΉΡ‚Π΅ слСдната ΠΊΠΎΠΌΠ°Π½Π΄Π°:


ollama run gemma2

Π’Π°Π·ΠΈ ΠΊΠΎΠΌΠ°Π½Π΄Π° Ρ‰Π΅ ΠΈΠ·Ρ‚Π΅Π³Π»ΠΈ ΠΌΠΎΠ΄Π΅Π»Π°, Π°ΠΊΠΎ Π²Π΅Ρ‡Π΅ Π½Π΅ ΠΏΡ€ΠΈΡΡŠΡΡ‚Π²Π° във Π²Π°ΡˆΠ°Ρ‚Π° систСма, ΠΈ Ρ‰Π΅ стартира ΠΈΠ½Ρ‚Π΅Ρ€Π°ΠΊΡ‚ΠΈΠ²Π½Π° сСсия.

Gemma 2: 27 ΠΌΠΈΠ»ΠΈΠ°Ρ€Π΄Π° ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚ΡŠΡ€Π°

Π—Π° ΠΏΠΎ-голямата вСрсия с 27 ΠΌΠΈΠ»ΠΈΠ°Ρ€Π΄Π° ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚ΡŠΡ€Π°, ΠΈΠ·ΠΏΠΎΠ»Π·Π²Π°ΠΉΡ‚Π΅:


ollama run gemma2:27b

ВСрсията с 27 ΠΌΠΈΠ»ΠΈΠ°Ρ€Π΄Π° ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚ΡŠΡ€Π° ΠΏΡ€Π΅Π΄Π»Π°Π³Π° ΠΏΠΎ-Π΄ΠΎΠ±Ρ€Π° производитСлност, Π½ΠΎ изисква ΠΏΠΎΠ²Π΅Ρ‡Π΅ изчислитСлни рСсурси.

ΠŸΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»Π½ΠΎΡΡ‚ ΠΈ СфСктивност

Gemma 2 Π΅ ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ΠΈΡ€Π°Π½ Π·Π° Π²ΠΎΠ΄Π΅Ρ‰Π° Π² класа си производитСлност ΠΈ СфСктивност. НСка Ρ€Π°Π·Π³Π»Π΅Π΄Π°ΠΌΠ΅ ΠΊΠ°ΠΊ сС сравнява с Π΄Ρ€ΡƒΠ³ΠΈ популярни ΠΌΠΎΠ΄Π΅Π»ΠΈ Π² Ρ€Π°Π·Π»ΠΈΡ‡Π½ΠΈ тСстовС:

ВСст ΠœΠ΅Ρ‚Ρ€ΠΈΠΊΠ° Gemma 2 9B Gemma 2 27B Llama 3 8B Llama 3 70B Grok-1 314B
ΠžΠ±Ρ‰ MMLU (5-shot, top-1) 71.3 75.2 66.6 79.5 73.0
РазсъТдСниС BBH (3-shot, CoT) 68.2 74.9 61.1 81.3 –
HellaSwag (10-shot) 81.9 86.4 82 – –
ΠœΠ°Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊΠ° GSM8K (5-shot, maj@1) 68.6 74.0 45.7 – 62.9 (8-shot)
MATH (4-shot) 36.6 42.3 – – 23.9
Код HumanEval (pass@1) 40.2 51.8 – – 63.2 (0-shot)

Π’Π°Π·ΠΈ Ρ‚Π°Π±Π»ΠΈΡ†Π° дСмонстрира СфСктивността Π½Π° Gemma 2, особСно вСрсията с 9 ΠΌΠΈΠ»ΠΈΠ°Ρ€Π΄Π° ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚ΡŠΡ€Π°, която сС ΠΊΠΎΠ½ΠΊΡƒΡ€ΠΈΡ€Π° Π΄ΠΎΠ±Ρ€Π΅ с ΠΏΠΎ-Π³ΠΎΠ»Π΅ΠΌΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π² Ρ‚Π΅Π·ΠΈ тСстовС.

Π—Π° Π΄Π° изслСдватС Ρ‚Π΅Ρ…Π½ΠΈΠΊΠΈ Π·Π° Ρ„ΠΈΠ½ΠΎ настройванС Π½Π° Gemma 2, Π²ΠΊΠ»ΡŽΡ‡ΠΈΡ‚Π΅Π»Π½ΠΎ Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»Π½ΠΈ подобрСния Π² скоростта ΠΈ ΠΏΠ°ΠΌΠ΅Ρ‚Ρ‚Π°, ΠΏΡ€ΠΎΠ²Π΅Ρ€Π΅Ρ‚Π΅ Ρ‚Π°Π·ΠΈ статия.

ΠŸΡ€Π°ΠΊΡ‚ΠΈΡ‡Π΅ΡΠΊΠΈ прилоТСния

Gemma 2, ΠΏΠΎΠ΄ΠΎΠ±Π½ΠΎ Π½Π° Π΄Ρ€ΡƒΠ³ΠΈ ΠΎΡ‚Π²ΠΎΡ€Π΅Π½ΠΈ LLM ΠΌΠΎΠ΄Π΅Π»ΠΈ, ΠΈΠΌΠ° ΡˆΠΈΡ€ΠΎΠΊ ΡΠΏΠ΅ΠΊΡ‚ΡŠΡ€ ΠΎΡ‚ прилоТСния Π² Ρ€Π°Π·Π»ΠΈΡ‡Π½ΠΈ области. Π•Ρ‚ΠΎ някои ΠΊΠ»ΡŽΡ‡ΠΎΠ²ΠΈ области, ΠΊΡŠΠ΄Π΅Ρ‚ΠΎ ΠΌΠΎΠΆΠ΅Ρ‚Π΅ Π΄Π° ΠΈΠ·ΠΏΠΎΠ»Π·Π²Π°Ρ‚Π΅ Ρ‚ΠΎΠ·ΠΈ ΠΌΠΎΠ΄Π΅Π»:

  • БъздаванС Π½Π° ΡΡŠΠ΄ΡŠΡ€ΠΆΠ°Π½ΠΈΠ΅ ΠΈ комуникация: Автоматизирано писанС, ΡΡŠΡΡ‚Π°Π²ΡΠ½Π΅ Π½Π° ΠΈΠΌΠ΅ΠΉΠ»ΠΈ ΠΈ Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚ΠΊΠ° Π½Π° Ρ‡Π°Ρ‚Π±ΠΎΡ‚ΠΎΠ²Π΅
  • Научни изслСдвания ΠΈ ΠΎΠ±Ρ€Π°Π·ΠΎΠ²Π°Π½ΠΈΠ΅: ΠžΠ±ΠΎΠ±Ρ‰Π°Π²Π°Π½Π΅ Π½Π° Π»ΠΈΡ‚Π΅Ρ€Π°Ρ‚ΡƒΡ€Π°, отговарянС Π½Π° Π²ΡŠΠΏΡ€ΠΎΡΠΈ ΠΈ Π³Π΅Π½Π΅Ρ€ΠΈΡ€Π°Π½Π΅ Π½Π° Ρ…ΠΈΠΏΠΎΡ‚Π΅Π·ΠΈ
  • Π Π°Π·Ρ€Π°Π±ΠΎΡ‚ΠΊΠ° Π½Π° софтуСр: Π”ΠΎΠΏΡŠΠ»Π²Π°Π½Π΅ Π½Π° ΠΊΠΎΠ΄, Π³Π΅Π½Π΅Ρ€ΠΈΡ€Π°Π½Π΅ Π½Π° докумСнтация ΠΈ ΠΎΡ‚ΠΊΡ€ΠΈΠ²Π°Π½Π΅ Π½Π° Π³Ρ€Π΅ΡˆΠΊΠΈ
  • Анализ Π½Π° Π΄Π°Π½Π½ΠΈ: ΠšΠ»Π°ΡΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΡ Π½Π° тСкст, Π°Π½Π°Π»ΠΈΠ· Π½Π° настроСния ΠΈ Π³Π΅Π½Π΅Ρ€ΠΈΡ€Π°Π½Π΅ Π½Π° ΠΎΡ‚Ρ‡Π΅Ρ‚ΠΈ
  • ВворчСски Π·Π°Π΄Π°Ρ‡ΠΈ: ΠŸΠ»Π°Π½ΠΈΡ€Π°Π½Π΅ Π½Π° истории, създаванС Π½Π° поСзия ΠΈ ΠΏΡ€Π΅Π²ΠΎΠ΄ Π½Π° Π΅Π·ΠΈΡ†ΠΈ

Π˜Π½Ρ‚Π΅Π³Ρ€ΠΈΡ€Π°Π½Π΅ Π½Π° Gemma 2 с популярни ML Ρ€Π°ΠΌΠΊΠΈ

Ollama улСснява ΠΈΠ½Ρ‚Π΅Π³Ρ€ΠΈΡ€Π°Π½Π΅Ρ‚ΠΎ Π½Π° Gemma 2 с популярни Ρ€Π°ΠΌΠΊΠΈ Π·Π° машинно ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅.

Π•Ρ‚ΠΎ ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΈ с ΠΈΠ·ΠΏΠΎΠ»Π·Π²Π°Π½Π΅ Π½Π° LangChain ΠΈ LlamaIndex:

LangChain интСграция:


from langchain_community.llms import Ollama

llm = Ollama(model="gemma2")
response = llm.invoke("Π—Π°Ρ‰ΠΎ Π½Π΅Π±Π΅Ρ‚ΠΎ Π΅ синьо?")
print(response)

LlamaIndex интСграция:


from llama_index.llms.ollama import Ollama

llm = Ollama(model="gemma2")
response = llm.complete("Π—Π°Ρ‰ΠΎ Π½Π΅Π±Π΅Ρ‚ΠΎ Π΅ синьо?")
print(response)

Π‘ΡŠΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΡ ΠΏΡ€ΠΈ Π»ΠΎΠΊΠ°Π»Π½ΠΎ ΠΈΠ·ΠΏΠΎΠ»Π·Π²Π°Π½Π΅ Π½Π° LLM

ΠŸΡ€ΠΈ настройванСто Π½Π° LLM ΠΌΠΎΠ΄Π΅Π»ΠΈ Π·Π° Π»ΠΎΠΊΠ°Π»Π½ΠΎ изпълнСниС Π½Π° CPU, трябва Π΄Π° сС Π²Π·Π΅ΠΌΠ°Ρ‚ ΠΏΡ€Π΅Π΄Π²ΠΈΠ΄ няколко практичСски Ρ„Π°ΠΊΡ‚ΠΎΡ€Π°:

  1. Π‘ΡŠΠ²ΠΌΠ΅ΡΡ‚ΠΈΠΌΠΎΡΡ‚ с ΠΎΠΏΠ΅Ρ€Π°Ρ†ΠΈΠΎΠ½Π½Π°Ρ‚Π° систСма: Π£Π²Π΅Ρ€Π΅Ρ‚Π΅ сС, Ρ‡Π΅ инструмСнтитС ΠΈ Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠΈΡ‚Π΅, ΠΊΠΎΠΈΡ‚ΠΎ ΠΈΠ·ΠΏΠΎΠ»Π·Π²Π°Ρ‚Π΅, са ΡΡŠΠ²ΠΌΠ΅ΡΡ‚ΠΈΠΌΠΈ с Π²Π°ΡˆΠ°Ρ‚Π° ОБ. НапримСр, някои настройки Π½Π° Docker ΠΌΠΎΠΆΠ΅ Π΄Π° сС нуТдаят ΠΎΡ‚ корСкция ΠΌΠ΅ΠΆΠ΄Ρƒ Linux, macOS ΠΈ Windows.
  2. CPU Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π°: Π Π°Π·Π»ΠΈΡ‡Π½ΠΈΡ‚Π΅ CPU Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€ΠΈ (Π½Π°ΠΏΡ€. x86, ARM) ΠΌΠΎΠΆΠ΅ Π΄Π° изискват спСцифични изграТдания ΠΈΠ»ΠΈ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ Π½Π° избрания ΠΎΡ‚ вас ΠΌΠΎΠ΄Π΅Π» ΠΈΠ»ΠΈ Ρ€Π°ΠΌΠΊΠ°.
  3. ΠžΡ…Π»Π°ΠΆΠ΄Π°Π½Π΅ ΠΈ Π·Π°Ρ…Ρ€Π°Π½Π²Π°Π½Π΅: Π˜Π·ΠΏΡŠΠ»Π½Π΅Π½ΠΈΠ΅Ρ‚ΠΎ Π½Π° LLM ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΌΠΎΠΆΠ΅ Π΄Π° бъдС изчислитСлно ΠΈΠ½Ρ‚Π΅Π½Π·ΠΈΠ²Π½ΠΎ. Π£Π²Π΅Ρ€Π΅Ρ‚Π΅ сС, Ρ‡Π΅ Π²Π°ΡˆΠ°Ρ‚Π° систСма ΠΈΠΌΠ° Π°Π΄Π΅ΠΊΠ²Π°Ρ‚Π½ΠΎ ΠΎΡ…Π»Π°ΠΆΠ΄Π°Π½Π΅, особСно ΠΏΡ€ΠΈ ΠΏΡ€ΠΎΠ΄ΡŠΠ»ΠΆΠΈΡ‚Π΅Π»Π½Π° ΡƒΠΏΠΎΡ‚Ρ€Π΅Π±Π°. ΠŸΡ€ΠΈ Π»Π°ΠΏΡ‚ΠΎΠΏΠΈ, ΠΈΠΌΠ°ΠΉΡ‚Π΅ ΠΏΡ€Π΅Π΄Π²ΠΈΠ΄ ΡƒΠ²Π΅Π»ΠΈΡ‡Π΅Π½Π°Ρ‚Π° консумация Π½Π° СнСргия.
  4. Бкорост Π½Π° ΡΡŠΡ…Ρ€Π°Π½Π΅Π½ΠΈΠ΅: Π‘ΡŠΡ€Π·ΠΎΡ‚ΠΎ ΡΡŠΡ…Ρ€Π°Π½Π΅Π½ΠΈΠ΅ (ΠΊΠ°Ρ‚ΠΎ SSD) ΠΌΠΎΠΆΠ΅ Π΄Π° ΠΏΠΎΠ΄ΠΎΠ±Ρ€ΠΈ Π²Ρ€Π΅ΠΌΠ΅Π½Π°Ρ‚Π° Π·Π° Π·Π°Ρ€Π΅ΠΆΠ΄Π°Π½Π΅ Π½Π° ΠΌΠΎΠ΄Π΅Π»Π° ΠΈ производитСлността, ΠΊΠΎΠ³Π°Ρ‚ΠΎ Π΅ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠ° размяна.
  5. Π€ΠΎΠ½ΠΎΠ²ΠΈ процСси: Π—Π°Ρ‚Π²ΠΎΡ€Π΅Ρ‚Π΅ Π½Π΅Π½ΡƒΠΆΠ½ΠΈΡ‚Π΅ прилоТСния, Π·Π° Π΄Π° освободитС CPU ΠΈ ΠΏΠ°ΠΌΠ΅Ρ‚ рСсурси Π·Π° LLM ΠΌΠΎΠ΄Π΅Π»Π°.
  6. ЧСстота Π½Π° Π°ΠΊΡ‚ΡƒΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ: ΠŸΠΎΠ΄Π΄ΡŠΡ€ΠΆΠ°ΠΉΡ‚Π΅ Π²Π°ΡˆΠΈΡ‚Π΅ Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠΈ ΠΈ Ρ€Π°ΠΌΠΊΠΈ Π°ΠΊΡ‚ΡƒΠ°Π»ΠΈΠ·ΠΈΡ€Π°Π½ΠΈ, Ρ‚ΡŠΠΉ ΠΊΠ°Ρ‚ΠΎ ΠΏΠΎ-Π½ΠΎΠ²ΠΈΡ‚Π΅ вСрсии чСсто Π²ΠΊΠ»ΡŽΡ‡Π²Π°Ρ‚ подобрСния Π² производитСлността ΠΈ отстраняванС Π½Π° Π³Ρ€Π΅ΡˆΠΊΠΈ, ΠΊΠΎΠΈΡ‚ΠΎ са ΠΎΡ‚ Ρ€Π΅ΡˆΠ°Π²Π°Ρ‰ΠΎ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ Π·Π° Π»ΠΎΠΊΠ°Π»Π½ΠΎΡ‚ΠΎ изпълнСниС Π½Π° LLM.

ΠžΠΏΡ‚ΠΈΠΌΠΈΠ·ΠΈΡ€Π°Π½Π΅ Π½Π° CPU производитСлността

  1. Π˜Π·ΠΏΡŠΠ»Π½Π΅Π½ΠΈΠ΅Ρ‚ΠΎ Π½Π° LLM ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π° CPU изисква Π²Π½ΠΈΠΌΠ°Ρ‚Π΅Π»Π½Π° оптимизация Π·Π° постиганС Π½Π° възмоТно Π½Π°ΠΉ-Π΄ΠΎΠ±Ρ€Π° производитСлност. ΠŸΡŠΡ€Π²ΠΎΡ‚ΠΎ ΡΡŠΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠ΅ Π΅ ΠΈΠ·Π±ΠΎΡ€ Π½Π° подходящ Ρ€Π°Π·ΠΌΠ΅Ρ€ Π½Π° ΠΌΠΎΠ΄Π΅Π»Π° Π·Π° вашия Ρ…Π°Ρ€Π΄ΡƒΠ΅Ρ€.
  2. По-ΠΌΠ°Π»ΠΊΠΈΡ‚Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ, ΠΎΠ±ΠΈΠΊΠ½ΠΎΠ²Π΅Π½ΠΎ Π² Π΄ΠΈΠ°ΠΏΠ°Π·ΠΎΠ½Π° ΠΎΡ‚ 1 Π΄ΠΎ 7 ΠΌΠΈΠ»ΠΈΠ°Ρ€Π΄Π° ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚ΡŠΡ€Π°, са ΠΏΠΎ-подходящи Π·Π° ΠΏΠΎΠ²Π΅Ρ‡Π΅Ρ‚ΠΎ потрСбитСлски CPU. Π’Π΅Π·ΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ постигат баланс ΠΌΠ΅ΠΆΠ΄Ρƒ Π²ΡŠΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡ‚ΠΈ ΠΈ изисквания Π·Π° рСсурси, позволявайки Ρ€Π°Π·ΡƒΠΌΠ½ΠΈ скорости Π½Π° ΠΈΠ·Π²Π»ΠΈΡ‡Π°Π½Π΅ Π½Π° ΠΈΠ·Π²ΠΎΠ΄ΠΈ Π½Π° стандартСн Ρ…Π°Ρ€Π΄ΡƒΠ΅Ρ€.
  3. Π£ΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅Ρ‚ΠΎ Π½Π° ΠΏΠ°ΠΌΠ΅Ρ‚Ρ‚Π° Π΅ ΠΎΡ‚ Ρ€Π΅ΡˆΠ°Π²Π°Ρ‰ΠΎ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ ΠΏΡ€ΠΈ ΠΈΠ·ΠΏΡŠΠ»Π½Π΅Π½ΠΈΠ΅Ρ‚ΠΎ Π½Π° LLM ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π° CPU. Π£Π²Π΅Π»ΠΈΡ‡Π°Π²Π°Π½Π΅Ρ‚ΠΎ Π½Π° RAM Π½Π° Π²Π°ΡˆΠ°Ρ‚Π° систСма ΠΌΠΎΠΆΠ΅ Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»Π½ΠΎ Π΄Π° ΠΏΠΎΠ΄ΠΎΠ±Ρ€ΠΈ производитСлността, Ρ‚ΡŠΠΉ ΠΊΠ°Ρ‚ΠΎ позволява ΠΏΠΎΠ²Π΅Ρ‡Π΅ ΠΎΡ‚ ΠΌΠΎΠ΄Π΅Π»Π° Π΄Π° сС ΡΡŠΡ…Ρ€Π°Π½ΡΠ²Π° Π² ΠΏΠ°ΠΌΠ΅Ρ‚Ρ‚Π°, намалявайки Π½ΡƒΠΆΠ΄Π°Ρ‚Π° ΠΎΡ‚ размяна Π½Π° диска. Π’ΡŠΠΏΡ€Π΅ΠΊΠΈ Ρ‚ΠΎΠ²Π°, Π΄ΠΎΡ€ΠΈ с ΠΎΠ³Ρ€Π°Π½ΠΈΡ‡Π΅Π½Π° RAM, Ρ‚Π΅Ρ…Π½ΠΈΠΊΠΈ ΠΊΠ°Ρ‚ΠΎ ΠΏΠ°ΠΌΠ΅Ρ‚ ΠΌΠ°ΠΏΠΈΠ½Π³ ΠΈ Π΅Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎ Π·Π°Ρ€Π΅ΠΆΠ΄Π°Π½Π΅ Π½Π° Π΄Π°Π½Π½ΠΈ ΠΌΠΎΠ³Π°Ρ‚ Π΄Π° ΠΏΠΎΠΌΠΎΠ³Π½Π°Ρ‚ Π·Π° ΡƒΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅Ρ‚ΠΎ Π½Π° ΠΏΠΎ-Π³ΠΎΠ»Π΅ΠΌΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ.
  4. Π•Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΡ‚ΠΎ конструиранС Π½Π° подсказки (ΠΏΡ€ΠΎΠΌΠΏΡ‚ΠΎΠ²Π΅) Π΅ Π΄Ρ€ΡƒΠ³ ΠΊΠ»ΡŽΡ‡ΠΎΠ² Ρ„Π°ΠΊΡ‚ΠΎΡ€ Π·Π° ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·ΠΈΡ€Π°Π½Π΅ Π½Π° CPU производитСлността. Π‘ΡŠΠ·Π΄Π°Π²Π°Π½Π΅Ρ‚ΠΎ Π½Π° ясни, ΠΊΡ€Π°Ρ‚ΠΊΠΈ подсказки, ΠΊΠΎΠΈΡ‚ΠΎ Π΄ΠΈΡ€Π΅ΠΊΡ‚Π½ΠΎ адрСсират Π·Π°Π΄Π°Ρ‡Π°Ρ‚Π°, ΠΌΠΎΠΆΠ΅ Π΄Π° Π½Π°ΠΌΠ°Π»ΠΈ Π½Π΅Π½ΡƒΠΆΠ½ΠΈΡ‚Π΅ изчислСния. Π’ΠΎΠ²Π° Π½Π΅ само подобрява Π²Ρ€Π΅ΠΌΠ΅Ρ‚ΠΎ Π·Π° ΠΎΡ‚Π³ΠΎΠ²ΠΎΡ€, Π½ΠΎ ΠΈ ΠΏΠΎΠΌΠ°Π³Π° Π·Π° ΠΏΠΎΠ΄Π΄ΡŠΡ€ΠΆΠ°Π½Π΅ Π½Π° контСкста Π² Ρ€Π°ΠΌΠΊΠΈΡ‚Π΅ Π½Π° ограничСния контСкстов ΠΏΡ€ΠΎΠ·ΠΎΡ€Π΅Ρ† Π½Π° ΠΌΠΎΠ΄Π΅Π»Π°.
  5. ΠšΠΎΠ³Π°Ρ‚ΠΎ сС справятС с мноТСство заявки ΠΈΠ»ΠΈ Π³ΠΎΠ»Π΅ΠΌΠΈ Π½Π°Π±ΠΎΡ€ΠΈ ΠΎΡ‚ Π΄Π°Π½Π½ΠΈ, помислСтС Π·Π° внСдряванС Π½Π° ΠΏΠ°ΠΊΠ΅Ρ‚Π½Π° ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠ°. Π“Ρ€ΡƒΠΏΠΈΡ€Π°Π½Π΅Ρ‚ΠΎ Π½Π° ΠΏΠΎΠ΄ΠΎΠ±Π½ΠΈ заявки Π·Π°Π΅Π΄Π½ΠΎ ΠΌΠΎΠΆΠ΅ Π΄Π° ΠΈΠ·ΠΏΠΎΠ»Π·Π²Π° ΠΏΠΎ-Π΅Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎ способността Π½Π° CPU Π΄Π° ΠΈΠ·Π²ΡŠΡ€ΡˆΠ²Π° ΠΏΠ°Ρ€Π°Π»Π΅Π»Π½ΠΈ изчислСния, ΠΏΠΎΡ‚Π΅Π½Ρ†ΠΈΠ°Π»Π½ΠΎ ΡƒΠ²Π΅Π»ΠΈΡ‡Π°Π²Π°ΠΉΠΊΠΈ производитСлността.
  6. ΠžΠ³Ρ€Π°Π½ΠΈΡ‡Π°Π²Π°Π½Π΅Ρ‚ΠΎ Π½Π° ΠΏΠ°Ρ€Π°Π»Π΅Π»Π½ΠΈΡ‚Π΅ Π·Π°Π΄Π°Ρ‡ΠΈ във Π²Π°ΡˆΠ°Ρ‚Π° систСма, Π΄ΠΎΠΊΠ°Ρ‚ΠΎ ΠΈΠ·ΠΏΡŠΠ»Π½ΡΠ²Π°Ρ‚Π΅ LLM ΠΌΠΎΠ΄Π΅Π»Π°, ΡΡŠΡ‰ΠΎ ΠΌΠΎΠΆΠ΅ Π΄Π° повиши производитСлността. Π€ΠΎΠ½ΠΎΠ²ΠΈΡ‚Π΅ процСси ΠΌΠΎΠ³Π°Ρ‚ Π΄Π° сС ΠΊΠΎΠ½ΠΊΡƒΡ€ΠΈΡ€Π°Ρ‚ Π·Π° CPU рСсурси, Ρ‚Π°ΠΊΠ° Ρ‡Π΅ затварянСто Π½Π° Π½Π΅Π½ΡƒΠΆΠ½ΠΈ прилоТСния ΠΈ услуги ΠΌΠΎΠΆΠ΅ Π΄Π° осигури ΠΏΠΎΠ²Π΅Ρ‡Π΅ изчислитСлна ΠΌΠΎΡ‰ Π·Π° ΠΌΠΎΠ΄Π΅Π»Π°.
  7. Π£ΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅Ρ‚ΠΎ Π½Π° Ρ‚Π΅ΠΌΠΏΠ΅Ρ€Π°Ρ‚ΡƒΡ€Π°Ρ‚Π° чСсто сС ΠΏΡ€Π΅Π½Π΅Π±Ρ€Π΅Π³Π²Π°, Π½ΠΎ Π΅ ΠΊΡ€ΠΈΡ‚ΠΈΡ‡Π½ΠΎ Π·Π° ΠΏΠΎΠ΄Π΄ΡŠΡ€ΠΆΠ°Π½Π΅ Π½Π° устойчива производитСлност, особСно ΠΏΠΎ Π²Ρ€Π΅ΠΌΠ΅ Π½Π° дълги сСсии Π½Π° ΠΈΠ·Π²Π»ΠΈΡ‡Π°Π½Π΅ Π½Π° ΠΈΠ·Π²ΠΎΠ΄ΠΈ. Π£Π²Π΅Ρ€Π΅Ρ‚Π΅ сС, Ρ‡Π΅ Π²Π°ΡˆΠ°Ρ‚Π° систСма ΠΈΠΌΠ° Π°Π΄Π΅ΠΊΠ²Π°Ρ‚Π½ΠΎ ΠΎΡ…Π»Π°ΠΆΠ΄Π°Π½Π΅, Ρ‚ΡŠΠΉ ΠΊΠ°Ρ‚ΠΎ CPU ΠΌΠΎΠ³Π°Ρ‚ Π΄Π° намалят своята производитСлност, ΠΊΠΎΠ³Π°Ρ‚ΠΎ прСгрСят, ΠΊΠΎΠ΅Ρ‚ΠΎ Π²ΠΎΠ΄ΠΈ Π΄ΠΎ ΠΏΠΎ-Π±Π°Π²Π½ΠΈ Π²Ρ€Π΅ΠΌΠ΅Π½Π° Π·Π° ΠΈΠ·Π²Π»ΠΈΡ‡Π°Π½Π΅ Π½Π° ΠΈΠ·Π²ΠΎΠ΄ΠΈ.
  8. ΠšΠ²Π°Π½Ρ‚ΠΈΠ·Π°Ρ†ΠΈΡΡ‚Π°, ΠΊΠ°ΠΊΡ‚ΠΎ бСшС спомСнато ΠΏΠΎ-Ρ€Π°Π½ΠΎ, Π΅ ΠΌΠΎΡ‰Π½Π° Ρ‚Π΅Ρ…Π½ΠΈΠΊΠ° Π·Π° CPU оптимизация. Π§Ρ€Π΅Π· намаляванС Π½Π° прСцизността Π½Π° Ρ‚Π΅Π³Π»Π°Ρ‚Π° Π½Π° ΠΌΠΎΠ΄Π΅Π»Π°, квантизацията Π½Π΅ само намалява ΠΈΠ·ΠΏΠΎΠ»Π·Π²Π°Π½Π΅Ρ‚ΠΎ Π½Π° ΠΏΠ°ΠΌΠ΅Ρ‚, Π½ΠΎ ΠΌΠΎΠΆΠ΅ ΠΈ Π΄Π° ускори изчислСнията Π½Π° CPU Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€ΠΈ, ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·ΠΈΡ€Π°Π½ΠΈ Π·Π° ΠΎΠΏΠ΅Ρ€Π°Ρ†ΠΈΠΈ с ΠΏΠΎ-ниска прСцизност.
  9. Накрая, помислСтС Π·Π° Π²ΡŠΠ·Π΄Π΅ΠΉΡΡ‚Π²ΠΈΠ΅Ρ‚ΠΎ Π½Π° избрания ΠΎΡ‚ вас софтуСрСн стСк. Някои Ρ€Π°ΠΌΠΊΠΈ ΠΈ Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠΈ са ΠΏΠΎ-Π΄ΠΎΠ±Ρ€Π΅ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·ΠΈΡ€Π°Π½ΠΈ Π·Π° CPU ΠΈΠ·Π²Π»ΠΈΡ‡Π°Π½Π΅ Π½Π° ΠΈΠ·Π²ΠΎΠ΄ΠΈ ΠΎΡ‚ Π΄Ρ€ΡƒΠ³ΠΈ. НапримСр, ONNX Runtime ΠΈΠ»ΠΈ TensorRT ΠΌΠΎΠ³Π°Ρ‚ Π΄Π° осигурят Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»Π½ΠΈ подобрСния Π² скоростта Π² сравнСниС със стандартнитС PyTorch ΠΈΠ»ΠΈ TensorFlow ΠΈΠΌΠΏΠ»Π΅ΠΌΠ΅Π½Ρ‚Π°Ρ†ΠΈΠΈ Π·Π° ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ.
  10. ΠŸΡ€ΠΈΠ»Π°Π³Π°ΠΉΠΊΠΈ Ρ‚Π΅Π·ΠΈ стратСгии Π·Π° оптимизация, ΠΌΠΎΠΆΠ΅Ρ‚Π΅ Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»Π½ΠΎ Π΄Π° ΠΏΠΎΠ΄ΠΎΠ±Ρ€ΠΈΡ‚Π΅ производитСлността Π½Π° LLM ΠΌΠΎΠ΄Π΅Π»ΠΈ, изпълнявани Π½Π° CPU, ΠΏΡ€Π°Π²Π΅ΠΉΠΊΠΈ локалния AI ΠΏΠΎ-Π΄ΠΎΡΡ‚ΡŠΠΏΠ΅Π½ ΠΈ Π΅Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π΅Π½ Π·Π° ΡˆΠΈΡ€ΠΎΠΊ ΡΠΏΠ΅ΠΊΡ‚ΡŠΡ€ ΠΎΡ‚ прилоТСния.
    GUI ΠΎΠΏΡ†ΠΈΠΈ Π·Π° взаимодСйствиС с Π»ΠΎΠΊΠ°Π»Π½ΠΈ LLM ΠΌΠΎΠ΄Π΅Π»ΠΈ
  11. Π”ΠΎΠΊΠ°Ρ‚ΠΎ интСрфСйситС с ΠΊΠΎΠΌΠ°Π½Π΄Π΅Π½ Ρ€Π΅Π΄ са ΠΌΠΎΡ‰Π½ΠΈ, Π³Ρ€Π°Ρ„ΠΈΡ‡Π½ΠΈΡ‚Π΅ потрСбитСлски интСрфСйси (GUI) ΠΌΠΎΠ³Π°Ρ‚ Π΄Π° направят взаимодСйствиСто с вашия Π»ΠΎΠΊΠ°Π»Π΅Π½ LLM ΠΌΠΎΠ΄Π΅Π» ΠΏΠΎ-ΠΈΠ½Ρ‚ΡƒΠΈΡ‚ΠΈΠ²Π½ΠΎ ΠΈ ΡƒΠ΄ΠΎΠ±Π½ΠΎ Π·Π° потрСбитСля. Π•Ρ‚ΠΎ някои популярни ΠΎΠΏΡ†ΠΈΠΈ:
  • Chatbot OllamaΠ˜Π½Ρ‚Π΅Ρ€Ρ„Π΅ΠΉΡ, ΠΏΠΎΠ΄ΠΎΠ±Π΅Π½ Π½Π° ChatGPT, ΠΊΠΎΠΉΡ‚ΠΎ Ρ€Π°Π±ΠΎΡ‚ΠΈ Π΄ΠΎΠ±Ρ€Π΅ с ΠΌΠΎΠ΄Π΅Π»ΠΈΡ‚Π΅, ΠΎΠ±Π²ΠΈΡ‚ΠΈ ΠΎΡ‚ Ollama. Π’ΠΎΠΉ осигурява ΠΏΠΎΠ·Π½Π°Ρ‚ΠΎ Ρ‡Π°Ρ‚ изТивяванС ΠΈ Π΅ сравнитСлно лСсСн Π·Π° настройка.
  • Open WebUI: Π”Ρ€ΡƒΠ³ ΡƒΠ΅Π±-Π±Π°Π·ΠΈΡ€Π°Π½ интСрфСйс, ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ΠΈΡ€Π°Π½ спСциално Π·Π° Ollama ΠΌΠΎΠ΄Π΅Π»ΠΈ, ΠΏΡ€Π΅Π΄Π»Π°Π³Π°Ρ‰ чист ΠΈ ΠΎΡ‚Π·ΠΈΠ²Ρ‡ΠΈΠ² Π΄ΠΈΠ·Π°ΠΉΠ½.
  • Streamlit: Python Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠ°, която Π²ΠΈ позволява Π±ΡŠΡ€Π·ΠΎ Π΄Π° ΡΡŠΠ·Π΄Π°Π²Π°Ρ‚Π΅ пСрсонализирани ΡƒΠ΅Π± интСрфСйси. Вя Π΅ силно пСрсонализируСма ΠΈ ΠΌΠΎΠΆΠ΅ Π΄Π° бъдС Π°Π΄Π°ΠΏΡ‚ΠΈΡ€Π°Π½Π° към вашия спСцифичСн случай Π½Π° ΡƒΠΏΠΎΡ‚Ρ€Π΅Π±Π°.
  • Gradio: Подобно Π½Π° Streamlit, Gradio позволява Π±ΡŠΡ€Π·ΠΎ Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π²Π°Π½Π΅ Π½Π° ΡƒΠ΅Π± интСрфСйси Π·Π° ΠΌΠΎΠ΄Π΅Π»ΠΈ Π·Π° машинно ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅, Π²ΠΊΠ»ΡŽΡ‡ΠΈΡ‚Π΅Π»Π½ΠΎ LLM.
  • LM Studio: ДСсктоп ΠΏΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠ΅, ΠΊΠΎΠ΅Ρ‚ΠΎ прСдоставя ΡƒΠ΄ΠΎΠ±Π΅Π½ Π·Π° потрСбитСля интСрфСйс Π·Π° изтСглянС, изпълнСниС ΠΈ взаимодСйствиС с Ρ€Π°Π·Π»ΠΈΡ‡Π½ΠΈ LLM ΠΌΠΎΠ΄Π΅Π»ΠΈ с ΠΎΡ‚Π²ΠΎΡ€Π΅Π½ ΠΊΠΎΠ΄.

ΠŸΡ€ΠΈ ΠΈΠ·Π±ΠΎΡ€Π° Π½Π° GUI, Π²Π·Π΅ΠΌΠ΅Ρ‚Π΅ ΠΏΡ€Π΅Π΄Π²ΠΈΠ΄ Ρ„Π°ΠΊΡ‚ΠΎΡ€ΠΈ ΠΊΠ°Ρ‚ΠΎ Π»Π΅ΠΊΠΎΡ‚Π° Π½Π° настройката, ΠΎΠΏΡ†ΠΈΠΈ Π·Π° пСрсонализация, ΠΈΠ·ΠΏΠΎΠ»Π·Π²Π°Π½Π΅ Π½Π° рСсурси ΠΈ ΡΡŠΠ²ΠΌΠ΅ΡΡ‚ΠΈΠΌΠΎΡΡ‚ с избрания ΠΎΡ‚ вас ΠΌΠΎΠ΄Π΅Π» ΠΈ ΠΌΠ΅Ρ‚ΠΎΠ΄ Π½Π° внСдряванС. Някои интСрфСйси ΠΌΠΎΠΆΠ΅ Π΄Π° изискват Π΄ΠΎΠΏΡŠΠ»Π½ΠΈΡ‚Π΅Π»Π½ΠΈ ΡΡ‚ΡŠΠΏΠΊΠΈ Π·Π° настройка ΠΈΠ»ΠΈ зависимости, Ρ‚Π°ΠΊΠ° Ρ‡Π΅ Π²Π·Π΅ΠΌΠ΅Ρ‚Π΅ Ρ‚ΠΎΠ²Π° ΠΏΡ€Π΅Π΄Π²ΠΈΠ΄ Π² ΠΏΠ»Π°Π½Π° си Π·Π° внСдряванС.

АлтСрнативи Π½Π° Ollama

Π’ΡŠΠΏΡ€Π΅ΠΊΠΈ Ρ‡Π΅ Ollama прСдоставя ΠΎΡ‚Π»ΠΈΡ‡Π½ΠΎ Ρ€Π΅ΡˆΠ΅Π½ΠΈΠ΅ Π·Π° Π»ΠΎΠΊΠ°Π»Π½ΠΎ изпълнСниС Π½Π° LLM ΠΌΠΎΠ΄Π΅Π»ΠΈ, ΠΈΠΌΠ° ΠΈ Π΄Ρ€ΡƒΠ³ΠΈ Π°Π»Ρ‚Π΅Ρ€Π½Π°Ρ‚ΠΈΠ²ΠΈ, ΠΊΠΎΠΈΡ‚ΠΎ си струва Π΄Π° сС Ρ€Π°Π·Π³Π»Π΅Π΄Π°Ρ‚:

Hugging Face Transformers

Hugging Face ΠΏΡ€Π΅Π΄Π»Π°Π³Π° ΠΎΠ±ΡˆΠΈΡ€Π½Π° Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠ° Π·Π° Ρ€Π°Π±ΠΎΡ‚Π° с трансформСр-Π±Π°Π·ΠΈΡ€Π°Π½ΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ, Π²ΠΊΠ»ΡŽΡ‡ΠΈΡ‚Π΅Π»Π½ΠΎ инструмСнти Π·Π° Π»ΠΎΠΊΠ°Π»Π½ΠΎ изпълнСниС Π½Π° ΠΌΠΎΠ΄Π΅Π»ΠΈ.

ΠŸΡ€Π΅Π΄ΠΈΠΌΡΡ‚Π²Π°:

  • ΠžΠ±ΡˆΠΈΡ€Π½Π° Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠ° с ΠΌΠΎΠ΄Π΅Π»ΠΈ
  • Π“ΡŠΠ²ΠΊΠ°Π²ΠΎ API
  • Π‘ΠΈΠ»Π½Π° ΠΏΠΎΠ΄ΠΊΡ€Π΅ΠΏΠ° ΠΎΡ‚ общността

ΠŸΡ€ΠΈΠΌΠ΅Ρ€ Π·Π° ΡƒΠΏΠΎΡ‚Ρ€Π΅Π±Π°:


from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("gpt2")
model = AutoModelForCausalLM.from_pretrained("gpt2")

input_text = "Π—Π΄Ρ€Π°Π²Π΅ΠΉ, ΠΊΠ°ΠΊ си?"
input_ids = tokenizer.encode(input_text, return_tensors="pt")
output = model.generate(input_ids, max_length=50)

print(tokenizer.decode(output[0], skip_special_tokens=True))

GGUF Ρ„ΠΎΡ€ΠΌΠ°Ρ‚ ΠΈ llama.cpp

GGUF (GPT-Generated Unified Format) Π΅ Ρ„Π°ΠΉΠ»ΠΎΠ² Ρ„ΠΎΡ€ΠΌΠ°Ρ‚, ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ΠΈΡ€Π°Π½ Π·Π° Π΅Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎ ΡΡŠΡ…Ρ€Π°Π½Π΅Π½ΠΈΠ΅ ΠΈ Π·Π°Ρ€Π΅ΠΆΠ΄Π°Π½Π΅ Π½Π° Π³ΠΎΠ»Π΅ΠΌΠΈ Π΅Π·ΠΈΠΊΠΎΠ²ΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ. Π’ΠΎΠΉ Π΅ особСно ΠΏΠΎΠ»Π΅Π·Π΅Π½ Π·Π° изпълнСниС Π½Π° ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π° потрСбитСлски Ρ…Π°Ρ€Π΄ΡƒΠ΅Ρ€.

ΠŸΡ€Π΅Π΄ΠΈΠΌΡΡ‚Π²Π°:

  • Π‘ΠΈΠ»Π½ΠΎ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·ΠΈΡ€Π°Π½ Π·Π° CPU ΠΈΠ·Π²Π»ΠΈΡ‡Π°Π½Π΅ Π½Π° ΠΈΠ·Π²ΠΎΠ΄ΠΈ
  • ΠŸΠΎΠ΄Π΄ΡŠΡ€ΠΆΠ° квантизация Π·Π° Π½Π°ΠΌΠ°Π»Π΅Π½ΠΎ ΠΈΠ·ΠΏΠΎΠ»Π·Π²Π°Π½Π΅ Π½Π° ΠΏΠ°ΠΌΠ΅Ρ‚
  • ΠšΡ€ΠΎΡ-ΠΏΠ»Π°Ρ‚Ρ„ΠΎΡ€ΠΌΠ΅Π½Π° ΡΡŠΠ²ΠΌΠ΅ΡΡ‚ΠΈΠΌΠΎΡΡ‚

ΠŸΡ€ΠΈΠΌΠ΅Ρ€ Π·Π° ΡƒΠΏΠΎΡ‚Ρ€Π΅Π±Π° с llama.cpp:


# ΠšΠ»ΠΎΠ½ΠΈΡ€Π°Π½Π΅ Π½Π° Ρ…Ρ€Π°Π½ΠΈΠ»ΠΈΡ‰Π΅Ρ‚ΠΎ
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

# Π˜Π·Π³Ρ€Π°ΠΆΠ΄Π°Π½Π΅ Π½Π° ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π°
make

# Π˜Π·Ρ‚Π΅Π³Π»ΡΠ½Π΅ Π½Π° GGUF ΠΌΠΎΠ΄Π΅Π» (Π½Π°ΠΏΡ€. Gemma 2B)
wget https://huggingface.co/mlabonne/gemma-2b-GGUF/resolve/main/gemma-2b.Q2_K.gguf

# ИзпълнСниС на модСла
./llama-cli -m gemma-2b.Q2_K.gguf -n 128 -p "Π—Π΄Ρ€Π°Π²Π΅ΠΉ, ΠΊΠ°ΠΊ си?"

Π›ΠΎΠΊΠ°Π»Π½ΠΎ внСдряванС Π½Π° Mac с Apple Silicon

Π—Π° ΠΏΠΎΡ‚Ρ€Π΅Π±ΠΈΡ‚Π΅Π»ΠΈ с Mac устройства, Π²ΠΊΠ»ΡŽΡ‡Π²Π°Ρ‰ΠΈ Apple Silicon Ρ‡ΠΈΠΏΠΎΠ²Π΅ (M1, M2, M3), ΠΈΠΌΠ° ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·ΠΈΡ€Π°Π½ΠΈ Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ Π·Π° Π»ΠΎΠΊΠ°Π»Π½ΠΎ изпълнСниС Π½Π° LLM ΠΌΠΎΠ΄Π΅Π»ΠΈ:

MLX Ρ€Π°ΠΌΠΊΠ°

MLX Ρ€Π°ΠΌΠΊΠ°Ρ‚Π° Π½Π° Apple Π΅ ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ΠΈΡ€Π°Π½Π° спСциално Π·Π° машинно ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ Π½Π° Apple Silicon.

ΠŸΡ€Π΅Π΄ΠΈΠΌΡΡ‚Π²Π°:

  • ΠžΠΏΡ‚ΠΈΠΌΠΈΠ·ΠΈΡ€Π°Π½Π° Π·Π° Apple Silicon
  • ΠŸΠΎΠ΄Π΄ΡŠΡ€ΠΆΠ° Ρ€Π°Π·Π»ΠΈΡ‡Π½ΠΈ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€ΠΈ Π½Π° ΠΌΠΎΠ΄Π΅Π»ΠΈ
  • Π˜Π½Ρ‚Π΅Π³Ρ€ΠΈΡ€Π° сС Π΄ΠΎΠ±Ρ€Π΅ с СкосистСмата Π½Π° Apple

ΠŸΡ€ΠΈΠΌΠ΅Ρ€ Π·Π° ΡƒΠΏΠΎΡ‚Ρ€Π΅Π±Π°:


import mlx.core as mx
import mlx.nn as nn

# Π—Π°Ρ€Π΅ΠΆΠ΄Π°Π½Π΅ Π½Π° ΠΏΡ€Π΅Π΄Π²Π°Ρ€ΠΈΡ‚Π΅Π»Π½ΠΎ ΠΎΠ±ΡƒΡ‡Π΅Π½ ΠΌΠΎΠ΄Π΅Π» (опростСн ΠΏΡ€ΠΈΠΌΠ΅Ρ€)
model = nn.TransformerLM(...)
model.load_weights("ΠΏΡŠΡ‚/Π΄ΠΎ/Ρ‚Π΅Π³Π»Π°Ρ‚Π°")

# Π“Π΅Π½Π΅Ρ€ΠΈΡ€Π°Π½Π΅ Π½Π° тСкст
input_text = "Π—Π΄Ρ€Π°Π²Π΅ΠΉ, ΠΊΠ°ΠΊ си?"
tokens = tokenize(input_text)
output = model.generate(tokens, max_length=50)
print(detokenize(output))

Π—Π°ΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΠ΅

Π›ΠΎΠΊΠ°Π»Π½ΠΎΡ‚ΠΎ изпълнСниС Π½Π° LLM ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π° CPU с ΠΏΠΎΠΌΠΎΡ‰Ρ‚Π° Π½Π° инструмСнти ΠΊΠ°Ρ‚ΠΎ Ollama ΠΈ Π½Π΅Π³ΠΎΠ²ΠΈΡ‚Π΅ Π°Π»Ρ‚Π΅Ρ€Π½Π°Ρ‚ΠΈΠ²ΠΈ отваря свят ΠΎΡ‚ Π²ΡŠΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡ‚ΠΈ Π·Π° Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΡ†ΠΈ, изслСдоватСли ΠΈ Снтусиасти. ЕфСктивността Π½Π° ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΊΠ°Ρ‚ΠΎ Gemma 2, ΠΊΠΎΠΌΠ±ΠΈΠ½ΠΈΡ€Π°Π½Π° с Π»Π΅ΠΊΠΎΡ‚Π°Ρ‚Π° Π½Π° ΠΈΠ·ΠΏΠΎΠ»Π·Π²Π°Π½Π΅, прСдоставСна ΠΎΡ‚ Ρ‚Π΅Π·ΠΈ инструмСнти, ΠΏΡ€Π°Π²ΠΈ възмоТно СкспСримСнтиранСто ΠΈ внСдряванСто Π½Π° ΡΡŠΠ²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΈ Π΅Π·ΠΈΠΊΠΎΠ²ΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π° стандартСн Ρ…Π°Ρ€Π΄ΡƒΠ΅Ρ€.

Π”ΠΎΠΊΠ°Ρ‚ΠΎ изслСдватС Π²ΡŠΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡ‚ΠΈΡ‚Π΅ Π½Π° Π»ΠΎΠΊΠ°Π»Π½ΠΎ ΠΈΠ·ΠΏΡŠΠ»Π½ΡΠ²Π°Π½ΠΈΡ‚Π΅ LLM ΠΌΠΎΠ΄Π΅Π»ΠΈ, Π·Π°ΠΏΠΎΠΌΠ½Π΅Ρ‚Π΅ слСдното:

  1. Π˜Π·Π±Π΅Ρ€Π΅Ρ‚Π΅ подходящия инструмСнт ΠΈ ΠΌΠΎΠ΄Π΅Π» Π·Π° вашия ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π΅Π½ случай Π½Π° ΡƒΠΏΠΎΡ‚Ρ€Π΅Π±Π°
  2. ΠžΠΏΡ‚ΠΈΠΌΠΈΠ·ΠΈΡ€Π°ΠΉΡ‚Π΅ Π²Π°ΡˆΠΈΡ‚Π΅ Ρ€Π°Π±ΠΎΡ‚Π½ΠΈ процСси Π·Π° CPU ΠΈΠ·Π²Π»ΠΈΡ‡Π°Π½Π΅ Π½Π° ΠΈΠ·Π²ΠΎΠ΄ΠΈ
  3. Π’Π·Π΅ΠΌΠ΅Ρ‚Π΅ ΠΏΡ€Π΅Π΄Π²ΠΈΠ΄ компромиситС ΠΌΠ΅ΠΆΠ΄Ρƒ Ρ€Π°Π·ΠΌΠ΅Ρ€Π° Π½Π° ΠΌΠΎΠ΄Π΅Π»Π°, производитСлността ΠΈ изискванията Π·Π° рСсурси
  4. Π‘Π»Π΅Π΄Π΅Ρ‚Π΅ Π·Π° Π½Π°ΠΉ-Π½ΠΎΠ²ΠΈΡ‚Π΅ Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ Π² областта Π½Π° Π»ΠΎΠΊΠ°Π»Π½ΠΎΡ‚ΠΎ внСдряванС Π½Π° LLM ΠΌΠΎΠ΄Π΅Π»ΠΈ, Ρ‚ΡŠΠΉ ΠΊΠ°Ρ‚ΠΎ Ρ‚Π°Π·ΠΈ област сС Ρ€Π°Π·Π²ΠΈΠ²Π° Π±ΡŠΡ€Π·ΠΎ

Π‘ Ρ‚Π΅Π·ΠΈ инструмСнти ΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π° вашС Ρ€Π°Π·ΠΏΠΎΠ»ΠΎΠΆΠ΅Π½ΠΈΠ΅, ΠΌΠΎΠΆΠ΅Ρ‚Π΅ Π΄Π° ΠΈΠ·ΠΏΠΎΠ»Π·Π²Π°Ρ‚Π΅ ΠΌΠΎΡ‰Ρ‚Π° Π½Π° Π½Π°ΠΏΡ€Π΅Π΄Π½Π°Π»ΠΈΡ‚Π΅ Π΅Π·ΠΈΠΊΠΎΠ²ΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π·Π° подобряванС Π½Π° Π²Π°ΡˆΠΈΡ‚Π΅ прилоТСния, изслСдвания ΠΈ процСси Π½Π° Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚ΠΊΠ°, ΠΊΠ°Ρ‚ΠΎ ΡΡŠΡ‰Π΅Π²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎ Π·Π°ΠΏΠ°Π·Π²Π°Ρ‚Π΅ ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ» Π²ΡŠΡ€Ρ…Ρƒ Π²Π°ΡˆΠΈΡ‚Π΅ Π΄Π°Π½Π½ΠΈ ΠΈ намаляватС зависимостта ΠΎΡ‚ ΠΎΠ±Π»Π°Ρ‡Π½ΠΈ услуги.

Π›ΠΎΠΊΠ°Π»Π½ΠΎΡ‚ΠΎ изпълнСниС Π½Π° LLM ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π΅ само Π΄Π΅ΠΌΠΎΠΊΡ€Π°Ρ‚ΠΈΠ·ΠΈΡ€Π° Π΄ΠΎΡΡ‚ΡŠΠΏΠ° Π΄ΠΎ AI Ρ‚Π΅Ρ…Π½ΠΎΠ»ΠΎΠ³ΠΈΠΈ, Π½ΠΎ ΠΈ отваря Π½ΠΎΠ²ΠΈ Π²ΡŠΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡ‚ΠΈ Π·Π° ΠΈΠ½ΠΎΠ²Π°Ρ†ΠΈΠΈ Π² области, ΠΊΡŠΠ΄Π΅Ρ‚ΠΎ повСритСлността Π½Π° Π΄Π°Π½Π½ΠΈΡ‚Π΅, ΠΎΡ„Π»Π°ΠΉΠ½ функционалността ΠΈΠ»ΠΈ пСрсонализацията са ΠΎΡ‚ ΠΏΡŠΡ€Π²ΠΎΡΡ‚Π΅ΠΏΠ΅Π½Π½ΠΎ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅. Π”ΠΎΠΊΠ°Ρ‚ΠΎ ΠΏΡ€ΠΎΠ΄ΡŠΠ»ΠΆΠ°Π²Π°Ρ‚Π΅ Π΄Π° изслСдватС ΠΈ СкспСримСнтиратС с Ρ‚Π΅Π·ΠΈ Ρ‚Π΅Ρ…Π½ΠΎΠ»ΠΎΠ³ΠΈΠΈ, ΠΏΠΎΠΌΠ½Π΅Ρ‚Π΅, Ρ‡Π΅ ΠΊΠ»ΡŽΡ‡ΡŠΡ‚ към успСха чСсто Π»Π΅ΠΆΠΈ Π² Π½Π°ΠΌΠΈΡ€Π°Π½Π΅Ρ‚ΠΎ Π½Π° правилния баланс ΠΌΠ΅ΠΆΠ΄Ρƒ слоТност Π½Π° ΠΌΠΎΠ΄Π΅Π»Π° ΠΈ практичСска прилоТимост Π·Π° Π²Π°ΡˆΠΈΡ‚Π΅ спСцифични Π½ΡƒΠΆΠ΄ΠΈ.

Π‘ Π½Π΅ΠΏΡ€Π΅ΠΊΡŠΡΠ½Π°Ρ‚ΠΎΡ‚ΠΎ Ρ€Π°Π·Π²ΠΈΡ‚ΠΈΠ΅ Π½Π° Ρ…Π°Ρ€Π΄ΡƒΠ΅Ρ€Π° ΠΈ софтуСра, ΠΌΠΎΠΆΠ΅ΠΌ Π΄Π° ΠΎΡ‡Π°ΠΊΠ²Π°ΠΌΠ΅ ΠΎΡ‰Π΅ ΠΏΠΎ-Π΅Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΈ ΠΈ ΠΌΠΎΡ‰Π½ΠΈ Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ Π·Π° Π»ΠΎΠΊΠ°Π»Π½ΠΎ AI Π² Π±ΡŠΠ΄Π΅Ρ‰Π΅. ΠžΡΡ‚Π°Π½Π΅Ρ‚Π΅ Π»ΡŽΠ±ΠΎΠΏΠΈΡ‚Π½ΠΈ, ΠΏΡ€ΠΎΠ΄ΡŠΠ»ΠΆΠ°Π²Π°ΠΉΡ‚Π΅ Π΄Π° ΡƒΡ‡ΠΈΡ‚Π΅ ΠΈ Π½Π΅ сС страхувайтС Π΄Π° СкспСримСнтиратС с Ρ€Π°Π·Π»ΠΈΡ‡Π½ΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈ ΠΊΠΎΠ½Ρ„ΠΈΠ³ΡƒΡ€Π°Ρ†ΠΈΠΈ, Π·Π° Π΄Π° Π½Π°ΠΌΠ΅Ρ€ΠΈΡ‚Π΅ ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»Π½ΠΎΡ‚ΠΎ Ρ€Π΅ΡˆΠ΅Π½ΠΈΠ΅ Π·Π° Π²Π°ΡˆΠΈΡ‚Π΅ ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ΠΈ.

ПослСдно обновяванС: сСптСмври 8, 2024