Llama 3.x (Duży Model Językowy, Meta AI): Kontynuacja Open Source — Co nowego w wersjach 3.1, 3.2 i 3.3 oraz jak z nich korzystać

10 września, 2025
Llama 3.x - Large Language Model underneath
Llama 3.x - Large Language Model underneath
  • Wydania: Llama 3 (8B/70B, kwiecień 2024) → Llama 3.1 (8B/70B/405B, lipiec 2024, kontekst 128K, wielojęzyczny, wywoływanie narzędzi/funkcji) → Llama 3.2 (multimodalny Vision 11B/90B + tylko tekstowy 1B/3B dla edge, wrzesień 2024) → Llama 3.3 (70B tylko tekstowy instruct, grudzień 2024). Meta AI, Hugging Face
  • Gdzie uruchomić: Chmura (AWS Bedrock, Azure AI, Google Vertex, NVIDIA NIM), self‑host (vLLM, TGI, llama.cpp), lokalnie (Ollama) oraz na urządzeniu przez ExecuTorch/Core ML dla modeli edge 1B/3B. Amazon Web Services, Inc., Microsoft Tech Community, Google Cloud, NVIDIA NGC Catalog, vLLM Blog, Hugging Face, GitHub, PyTorch, Apple Machine Learning Research
  • Niuaanse „open source”: Llama jest open‑weight / source‑available na licencji Llama Community License (niezatwierdzona przez OSI jako open source); OSI i FSF wyraziły to jednoznacznie. Meta złagodziła warunki w 3.1, pozwalając na użycie wyników modelu do trenowania innych modeli. Open Source Initiative Free Software Foundation Llama, Meta AI
  • Bezpieczeństwo i zabezpieczenia: Llama Guard 3 (tekst + wariant wizualny), Prompt Guard oraz szerszy zestaw narzędzi Purple Llama są dostępne do filtrowania wejść/wyjść i ewaluacji cyberbezpieczeństwa. Hugging Face, Llama, Meta AI, arXiv

1) Czym jest Llama 3.x — i dlaczego to ważne

Llama 3.1 (23 lipca 2024) rozszerzyła Llama z 8B/70B do 405B parametrów, dodała kontekst 128K‑tokenów, wywoływanie narzędzi/funkcji oraz obsługę ośmiu języków, plasując ją w czołówce rankingów społeczności i szeroko udostępniając w głównych chmurach. Meta trenowała na bezprecedensową skalę (ponad 16 tys. GPU H100). Meta AI Hugging Face, Llama, Amazon Web Services, Inc., Microsoft Tech Community, Google Cloud, NVIDIA Developer

Llama 3.2 (25 września 2024) wprowadziła multimodalność: modele wizualne o wielkości 11B/90B, oraz małe modele tekstowe 1B/3B zaprojektowane dla edge/mobile z oficjalnymi wydaniami skwantyzowanymi i pipeline’ami ExecuTorch; Apple udokumentowało także wydajność Core ML dla Llama na urządzeniu. Hugging Face, PyTorch, Meta AI, Apple Machine Learning Research

Llama 3.3 (6 grudnia 2024) dodał 70B model instrukcyjny tylko tekstowy (nowy wariant licencji) jako iterację stabilności/jakości do produkcyjnych czatów. Hugging Face

Dostępność i ekosystem eksplodowały: Bedrock, Azure AI i Vertex AI oferują Llama; vLLM dodał pełne wsparcie dla 3.1 (chunked prefill, FP8, pipeline/tensor parallel), a NVIDIA NIM oferuje gotowe mikroserwisy dla 3.1 i 3.2 Vision. Amazon Web Services, Inc., Microsoft Tech Community, Google Cloud, vLLM Blog, NVIDIA NGC Catalog


2) Oś czasu wydań w skrócie

  • 18 kwietnia 2024 — Llama 3 (8B/70B). Meta AI
  • 23 lipca 2024 — Llama 3.1 (8B/70B/405B; 128K kontekstu; wywoływanie narzędzi; wielojęzyczność; integracje z chmurą). Meta AI
  • 25 września 2024 — Llama 3.2 (Vision 11B/90B; 1B/3B edge). Meta AI
  • 6 grudnia 2024 — Llama 3.3 (70B instruct). Hugging Face

Sygnały benchmarków: Llama‑3.1‑405B awansował do najwyższej klasy w LMSYS Chatbot Arena; LM‑Sys odnotował to w swoich analizach ocen sterowanych stylem. Traktuj porównania bezpośrednie ostrożnie i weryfikuj pod kątem własnych zadań. LMArena, lmsys.org


3) Możliwości dostarczone z 3.x

  • Długi kontekst: 3.1 obsługuje 128K tokenów we wszystkich rozmiarach (8B/70B/405B). Hugging Face
  • Wywoływanie narzędzi/funkcji: Oficjalne wywoływanie narzędzi oparte na JSON z szablonami w dokumentacji Llama; obsługiwane przez Transformers i vLLM. Llama, Hugging Face, VLLM Docs
  • Multimodalność (3.2): Vision 11B/90B akceptuje obraz + tekst (wyjście tekstowe). Dokumentacja NIM opisuje API i obecne ograniczenia (np. jeden obraz na żądanie). Hugging Face, NVIDIA Docs
  • Wielojęzyczność: Modele 3.1 instruct obsługują osiem języków (EN, DE, FR, IT, PT, HI, ES, TH). Hugging Face

4) „Open source” vs „open weights” — co faktycznie możesz zrobić

Modele Llama są wydawane na licencji Llama Community Licenses. Możesz: pobierać wagi, dostrajać, wdrażać komercyjnie (z AUP i atrybucją) oraz (od wersji 3.1) wykorzystywać wyniki modelu do ulepszania innych modeli (destylacja/dane syntetyczne). Jednak te licencje nie są otwartoźródłowe zatwierdzone przez OSI; zarówno OSI, jak i FSF to potwierdziły. Jeśli Twoja polityka wymaga zgodności z prawdziwą Open Source Definition, traktuj Llama jako dostępne źródło. Llama, Meta AI, Open Source Initiative, Free Software Foundation

Uwaga praktyczna: Większość ekosystemu jest open source (vLLM, llama.cpp, TGI), więc możesz zbudować w pełni otwartą infrastrukturę wokół wag Llama. vLLM Blog, GitHub


5) Bezpieczeństwo i odpowiedzialne użycie: co jest dostarczane z Llama

  • Llama Guard 3 (tekst 1B/8B oraz 11B‑Vision) klasyfikuje prompt’y/odpowiedzi według ustandaryzowanych taksonomii zagrożeń. Prompt Guard wykrywa próby jailbreak/prompt‑injection (22M/86M). Oba są udokumentowane z przykładami promptów i sposobem użycia. Hugging Face, Llama
  • Purple Llama zawiera CyberSecEval (obecnie w wersji v2, arXiv) oraz inne narzędzia bezpieczeństwa/ewaluacji do wdrażania guardrails. Meta AI, arXiv

6) Jak ludzie tego używają (w rzeczywistości)

Duże przedsiębiorstwa z branży finansowej i telekomunikacyjnej zgłosiły pilotaże i użycie (np. Goldman Sachs, AT&T, Nomura, DoorDash, Accenture), wraz z szeroką dostępnością w chmurze; adopcja gwałtownie wzrosła do połowy 2024 roku. Reuters


7) Sprzęt i realia skalowania

  • 8B działa komfortowo na pojedynczym GPU z 16 GB VRAM; 70B zwykle wymaga ~140 GB; 405B potrzebuje ~800–810 GB w BF16 (często multi-node z FP8/INT4). vLLM i TGI oferują pipeline/tensor parallel + ścieżki kwantyzacji. Hugging Face, Snowflake, vLLM Blog
  • Meta trenowała na skali 16K+ H100; obsługa 405B zwykle wykorzystuje kwantyzację FP8 lub INT4 na 8× A100/H100/MI300X. NVIDIA Developer, vLLM Blog

8) Stos Llama i standardy

Meta Llama Stack standaryzuje API dla wnioskowania, bezpieczeństwa, agentów, pamięci i telemetrii; jest wspierany przez ekosystem partnerów (w tym NVIDIA NIM ujednolicający ładunki API) oraz wspierany przez AI Alliance, aby przyspieszyć otwarty rozwój. GitHub, llama-stack.readthedocs.io, NVIDIA Docs, thealliance.ai


9) Szybki start, konkretne przykłady

A. Uruchom Llama 3.1 8B z vLLM (serwer kompatybilny z OpenAI)

pip install "vllm>=0.5.3" transformers accelerate
python -m vllm.entrypoints.openai.api_server 
  --model meta-llama/Meta-Llama-3.1-8B-Instruct 
  --max-model-len 131072
# Następnie wywołaj to za pomocą SDK OpenAI, wskazując na http://localhost:8000/v1

Dlaczego to działa: vLLM dodał jawne wsparcie dla 3.1 (długi kontekst, FP8, chunked prefill). vLLM Blog

B. Wywoływanie funkcji/narzędzi (szablon czatu Transformers)

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch, json

tok = AutoTokenizer.from_pretrained("meta-llama/Meta-Llama-3.1-8B-Instruct")
model = AutoModelForCausalLM.from_pretrained(
    "meta-llama/Meta-Llama-3.1-8B-Instruct",
    torch_dtype=torch.bfloat16, device_map="auto"
)

tools = [{
  "type": "function",
  "function": {
    "name": "get_current_temperature",
    "description": "Get the current temperature at a location",
    "parameters": {
      "type": "object",
      "properties": {"location": {"type": "string"}},
      "required": ["location"]
    }
  }
}]

messages = [
  {"role": "system", "content": "You are helpful."},
  {"role": "user", "content": "What's the temperature in Reykjavík?"}
]

# Użyj formatu wywoływania narzędzi opartego na JSON zgodnie z dokumentacją Llama
# (formatowanie zależy od biblioteki/szablonu czatu)

Llama 3.1 obsługuje wywoływanie narzędzi oparte na JSON, z oficjalnymi szablonami w dokumentacji oraz integracją w Transformers/vLLM. Llama, Hugging Face, VLLM Docs

C. Samodzielne hostowanie Llama 3.1 z TGI (Text‑Generation‑Inference)

docker run --gpus all --shm-size 1g -p 8080:80 
  ghcr.io/huggingface/tgi:latest 
  --model-id meta-llama/Meta-Llama-3.1-8B-Instruct 
  --max-input-tokens 131072 --max-total-tokens 139264

TGI zawiera przepisy i przewodniki wdrożeniowe dla Llama 3.1 (Cloud Run, GKE) oraz obsługuje kwantyzacje INT4/AWQ/GPTQ. Hugging Face

D. Lokalny development z Ollama (kwantyzowany GGUF)

# Zainstaluj Ollama, następnie:
ollama pull llama3.1:8b-instruct-q4_K_M
ollama run llama3.1:8b-instruct-q4_K_M

Ollama może importować GGUF i inne formaty przez Modelfile, co ułatwia lokalne testowanie. GitHub

E. Na urządzeniu (Llama 3.2 1B/3B) z ExecuTorch / Core ML

F. Owiń Llamę guardrailsami

  • Llama Guard 3: klasyfikuje prompt i odpowiedzi przed/po LLM; istnieje wersja Vision 11B dla wejść obrazowych.
  • Prompt Guard: wykrywa jailbreak/injection.
    Zintegruj je jako filtry pre i post wokół swojego endpointu Llama. Hugging Face, Llama

10) Wybór odpowiedniego modelu Llama 3.x (szybka lista kontrolna)

  • RAG, agenci, długie dokumenty: Llama 3.1 70B lub 405B jeśli potrzebujesz 128K kontekstu + wywoływanie narzędzi. Użyj chmury (Bedrock/Azure/Vertex/NIM) lub samodzielnego hostingu na wielu GPU. Meta AI, Amazon Web Services, Inc., Microsoft Tech Community
  • Edge i urządzenia mobilne: Llama 3.2 1B/3B (kwantyzowane) z ExecuTorch/Core ML. PyTorch
  • Zadania wizji (opisywanie, VQA): Llama 3.2 11B/90B Vision (tekst na wyjściu). Hugging Face
  • Stabilny czat produkcyjny: Llama 3.3 70B Instruct. Hugging Face

11) Koszty, wydajność i wskazówki operacyjne

  • Dla 405B, oczekuj ~800 GB pamięci w BF16; praktyczne serwowanie używa FP8/INT4 + pipeline/tensor parallel. Na jednej maszynie, MI300X (192 GB) lub H200 (141 GB) w 8‑GPU to typowe konfiguracje. Snowflake, vLLM Blog
  • vLLM i TGI mają swoje mocne strony (chunking prefill, cache’owanie, kwantyzacja, obsługa długich sekwencji). Przetestuj pod swój workload i zabezpiecz pamięć na cache KV. vLLM Blog, Hugging Face
  • Jeśli chcesz gotowe rozwiązanie, użyj kontenerów NVIDIA NIM dla Llama 3.1/3.2 (API kompatybilne z OpenAI, Helm charts itd.). NVIDIA NGC Catalog

12) Zarządzanie i otwarta debata — praktyczne wskazówki

  • Polityka i zgodność: Traktuj Llama jako dostępne na zasadach source‑available z AUP; przejrzyj ograniczenia dotyczące użytkowania i wymagania dotyczące atrybucji. Jeśli Twoja organizacja wymaga licencji zgodnej z OSI, rozważ alternatywy lub ogranicz użycie Llama do usług, gdzie jej licencja jest akceptowalna. Llama, Open Source Initiative
  • Pochodzenie danych: Meta nie udostępnia pełnych szczegółów dotyczących danych treningowych; jeśli wymagasz przejrzystości zbioru danych ze względów regulacyjnych, udokumentuj swoje działania zaradcze. (To jeden z powodów, dla których OSI/FSF wahają się nazwać to open source.) Open Source Initiative, Free Software Foundation

13) Sygnały z mapy drogowej

  • AI Alliance oficjalnie wspierająca Llama Stack (lipiec 2025) sugeruje dalszą standaryzację otwartego rozwoju pomiędzy dostawcami (bezpieczeństwo, agenci, telemetria). thealliance.ai
  • Dostawcy stale dodają zoptymalizowane wdrożenia (np. NIM Dokumentacja Vision jest zgodna z Llama Stack i API w stylu OpenAI). Spodziewaj się większej przenośności między dostawcami. NVIDIA Docs

Źródła i dalsza lektura


Ostateczna uwaga

Open” w świecie Llama oznacza otwarte wagi + otwarty ekosystem—nie licencjonowanie open‑source zgodnie z OSI. Jednak tempo ciągłego rozwoju przez 3.1 → 3.2 → 3.3, plus silne standardy (Llama Stack) i narzędzia bezpieczeństwa, czynią Llama 3.x pragmatycznym wyborem domyślnym dla zespołów, które chcą przenośności między chmurami, możliwości samodzielnego hostowania i ścieżek do AI na urządzeniu. Jeśli potrzebujesz gotowego do produkcji, kontrolowanego kosztowo stacku już dziś, możesz: wybrać 70B/405B (serwer) lub 1B/3B (edge), wdrożyć przez vLLM/TGI/NIM lub wybraną chmurę i otoczyć Llama Guard/Prompt Guard—wszystko według jasnych, udokumentowanych wzorców i z szerokim wsparciem społeczności. Blog vLLM, Hugging Face, NVIDIA NGC Catalog

Dodaj komentarz

Your email address will not be published.

Don't Miss