Llama 3.x (Duży Model Językowy, Meta AI): Kontynuacja Open Source — Co nowego w wersjach 3.1, 3.2 i 3.3 oraz jak z nich korzystać

Wydania: Llama 3 (8B/70B, kwiecień 2024) → Llama 3.1 (8B/70B/405B, lipiec 2024, kontekst 128K, wielojęzyczny, wywoływanie narzędzi/funkcji) → Llama 3.2 (multimodalny Vision 11B/90B + tylko tekstowy 1B/3B dla edge, wrzesień 2024) → Llama 3.3 (70B tylko tekstowy instruct, grudzień 2024). Meta AI, Hugging Face
Gdzie uruchomić: Chmura (AWS Bedrock, Azure AI, Google Vertex, NVIDIA NIM), self‑host (vLLM, TGI, llama.cpp), lokalnie (Ollama) oraz na urządzeniu przez ExecuTorch/Core ML dla modeli edge 1B/3B. Amazon Web Services, Inc., Microsoft Tech Community, Google Cloud, NVIDIA NGC Catalog, vLLM Blog, Hugging Face, GitHub, PyTorch, Apple Machine Learning Research
Niuaanse „open source”: Llama jest open‑weight / source‑available na licencji Llama Community License (niezatwierdzona przez OSI jako open source); OSI i FSF wyraziły to jednoznacznie. Meta złagodziła warunki w 3.1, pozwalając na użycie wyników modelu do trenowania innych modeli. Open Source Initiative Free Software Foundation Llama, Meta AI
Bezpieczeństwo i zabezpieczenia: Llama Guard 3 (tekst + wariant wizualny), Prompt Guard oraz szerszy zestaw narzędzi Purple Llama są dostępne do filtrowania wejść/wyjść i ewaluacji cyberbezpieczeństwa. Hugging Face, Llama, Meta AI, arXiv

1) Czym jest Llama 3.x — i dlaczego to ważne

Llama 3.1 (23 lipca 2024) rozszerzyła Llama z 8B/70B do 405B parametrów, dodała kontekst 128K‑tokenów, wywoływanie narzędzi/funkcji oraz obsługę ośmiu języków, plasując ją w czołówce rankingów społeczności i szeroko udostępniając w głównych chmurach. Meta trenowała na bezprecedensową skalę (ponad 16 tys. GPU H100). Meta AI Hugging Face, Llama, Amazon Web Services, Inc., Microsoft Tech Community, Google Cloud, NVIDIA Developer

Llama 3.2 (25 września 2024) wprowadziła multimodalność: modele wizualne o wielkości 11B/90B, oraz małe modele tekstowe 1B/3B zaprojektowane dla edge/mobile z oficjalnymi wydaniami skwantyzowanymi i pipeline’ami ExecuTorch; Apple udokumentowało także wydajność Core ML dla Llama na urządzeniu. Hugging Face, PyTorch, Meta AI, Apple Machine Learning Research

Llama 3.3 (6 grudnia 2024) dodał 70B model instrukcyjny tylko tekstowy (nowy wariant licencji) jako iterację stabilności/jakości do produkcyjnych czatów. Hugging Face

Dostępność i ekosystem eksplodowały: Bedrock, Azure AI i Vertex AI oferują Llama; vLLM dodał pełne wsparcie dla 3.1 (chunked prefill, FP8, pipeline/tensor parallel), a NVIDIA NIM oferuje gotowe mikroserwisy dla 3.1 i 3.2 Vision. Amazon Web Services, Inc., Microsoft Tech Community, Google Cloud, vLLM Blog, NVIDIA NGC Catalog

2) Oś czasu wydań w skrócie

18 kwietnia 2024 — Llama 3 (8B/70B). Meta AI
23 lipca 2024 — Llama 3.1 (8B/70B/405B; 128K kontekstu; wywoływanie narzędzi; wielojęzyczność; integracje z chmurą). Meta AI
25 września 2024 — Llama 3.2 (Vision 11B/90B; 1B/3B edge). Meta AI
6 grudnia 2024 — Llama 3.3 (70B instruct). Hugging Face

Sygnały benchmarków: Llama‑3.1‑405B awansował do najwyższej klasy w LMSYS Chatbot Arena; LM‑Sys odnotował to w swoich analizach ocen sterowanych stylem. Traktuj porównania bezpośrednie ostrożnie i weryfikuj pod kątem własnych zadań. LMArena, lmsys.org

3) Możliwości dostarczone z 3.x

Długi kontekst: 3.1 obsługuje 128K tokenów we wszystkich rozmiarach (8B/70B/405B). Hugging Face
Wywoływanie narzędzi/funkcji: Oficjalne wywoływanie narzędzi oparte na JSON z szablonami w dokumentacji Llama; obsługiwane przez Transformers i vLLM. Llama, Hugging Face, VLLM Docs
Multimodalność (3.2): Vision 11B/90B akceptuje obraz + tekst (wyjście tekstowe). Dokumentacja NIM opisuje API i obecne ograniczenia (np. jeden obraz na żądanie). Hugging Face, NVIDIA Docs
Wielojęzyczność: Modele 3.1 instruct obsługują osiem języków (EN, DE, FR, IT, PT, HI, ES, TH). Hugging Face

4) „Open source” vs „open weights” — co faktycznie możesz zrobić

Modele Llama są wydawane na licencji Llama Community Licenses. Możesz: pobierać wagi, dostrajać, wdrażać komercyjnie (z AUP i atrybucją) oraz (od wersji 3.1) wykorzystywać wyniki modelu do ulepszania innych modeli (destylacja/dane syntetyczne). Jednak te licencje nie są otwartoźródłowe zatwierdzone przez OSI; zarówno OSI, jak i FSF to potwierdziły. Jeśli Twoja polityka wymaga zgodności z prawdziwą Open Source Definition, traktuj Llama jako dostępne źródło. Llama, Meta AI, Open Source Initiative, Free Software Foundation

Uwaga praktyczna: Większość ekosystemu jest open source (vLLM, llama.cpp, TGI), więc możesz zbudować w pełni otwartą infrastrukturę wokół wag Llama. vLLM Blog, GitHub

5) Bezpieczeństwo i odpowiedzialne użycie: co jest dostarczane z Llama

Llama Guard 3 (tekst 1B/8B oraz 11B‑Vision) klasyfikuje prompt’y/odpowiedzi według ustandaryzowanych taksonomii zagrożeń. Prompt Guard wykrywa próby jailbreak/prompt‑injection (22M/86M). Oba są udokumentowane z przykładami promptów i sposobem użycia. Hugging Face, Llama
Purple Llama zawiera CyberSecEval (obecnie w wersji v2, arXiv) oraz inne narzędzia bezpieczeństwa/ewaluacji do wdrażania guardrails. Meta AI, arXiv

6) Jak ludzie tego używają (w rzeczywistości)

Duże przedsiębiorstwa z branży finansowej i telekomunikacyjnej zgłosiły pilotaże i użycie (np. Goldman Sachs, AT&T, Nomura, DoorDash, Accenture), wraz z szeroką dostępnością w chmurze; adopcja gwałtownie wzrosła do połowy 2024 roku. Reuters

7) Sprzęt i realia skalowania

8B działa komfortowo na pojedynczym GPU z 16 GB VRAM; 70B zwykle wymaga ~140 GB; 405B potrzebuje ~800–810 GB w BF16 (często multi-node z FP8/INT4). vLLM i TGI oferują pipeline/tensor parallel + ścieżki kwantyzacji. Hugging Face, Snowflake, vLLM Blog
Meta trenowała na skali 16K+ H100; obsługa 405B zwykle wykorzystuje kwantyzację FP8 lub INT4 na 8× A100/H100/MI300X. NVIDIA Developer, vLLM Blog

8) Stos Llama i standardy

Meta Llama Stack standaryzuje API dla wnioskowania, bezpieczeństwa, agentów, pamięci i telemetrii; jest wspierany przez ekosystem partnerów (w tym NVIDIA NIM ujednolicający ładunki API) oraz wspierany przez AI Alliance, aby przyspieszyć otwarty rozwój. GitHub, llama-stack.readthedocs.io, NVIDIA Docs, thealliance.ai

9) Szybki start, konkretne przykłady

A. Uruchom Llama 3.1 8B z vLLM (serwer kompatybilny z OpenAI)

pip install "vllm>=0.5.3" transformers accelerate
python -m vllm.entrypoints.openai.api_server 
  --model meta-llama/Meta-Llama-3.1-8B-Instruct 
  --max-model-len 131072
# Następnie wywołaj to za pomocą SDK OpenAI, wskazując na http://localhost:8000/v1

Dlaczego to działa: vLLM dodał jawne wsparcie dla 3.1 (długi kontekst, FP8, chunked prefill). vLLM Blog

B. Wywoływanie funkcji/narzędzi (szablon czatu Transformers)

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch, json

tok = AutoTokenizer.from_pretrained("meta-llama/Meta-Llama-3.1-8B-Instruct")
model = AutoModelForCausalLM.from_pretrained(
    "meta-llama/Meta-Llama-3.1-8B-Instruct",
    torch_dtype=torch.bfloat16, device_map="auto"
)

tools = [{
  "type": "function",
  "function": {
    "name": "get_current_temperature",
    "description": "Get the current temperature at a location",
    "parameters": {
      "type": "object",
      "properties": {"location": {"type": "string"}},
      "required": ["location"]
    }
  }
}]

messages = [
  {"role": "system", "content": "You are helpful."},
  {"role": "user", "content": "What's the temperature in Reykjavík?"}
]

# Użyj formatu wywoływania narzędzi opartego na JSON zgodnie z dokumentacją Llama
# (formatowanie zależy od biblioteki/szablonu czatu)

Llama 3.1 obsługuje wywoływanie narzędzi oparte na JSON, z oficjalnymi szablonami w dokumentacji oraz integracją w Transformers/vLLM. Llama, Hugging Face, VLLM Docs

C. Samodzielne hostowanie Llama 3.1 z TGI (Text‑Generation‑Inference)

docker run --gpus all --shm-size 1g -p 8080:80 
  ghcr.io/huggingface/tgi:latest 
  --model-id meta-llama/Meta-Llama-3.1-8B-Instruct 
  --max-input-tokens 131072 --max-total-tokens 139264

TGI zawiera przepisy i przewodniki wdrożeniowe dla Llama 3.1 (Cloud Run, GKE) oraz obsługuje kwantyzacje INT4/AWQ/GPTQ. Hugging Face

D. Lokalny development z Ollama (kwantyzowany GGUF)

# Zainstaluj Ollama, następnie:
ollama pull llama3.1:8b-instruct-q4_K_M
ollama run llama3.1:8b-instruct-q4_K_M

Ollama może importować GGUF i inne formaty przez Modelfile, co ułatwia lokalne testowanie. GitHub

E. Na urządzeniu (Llama 3.2 1B/3B) z ExecuTorch / Core ML

Użyj ExecuTorch dla Android/edge: oficjalne kwantyzowane modele 1B/3B są opublikowane, z przyspieszeniami na Arm/KleidiAI. PyTorch, Meta AI, community.arm.com
Post Apple’a o Core ML pokazuje dekodowanie w czasie rzeczywistym na Apple silicon z Llama 3.1 8B. Apple Machine Learning Research

F. Owiń Llamę guardrailsami

Llama Guard 3: klasyfikuje prompt i odpowiedzi przed/po LLM; istnieje wersja Vision 11B dla wejść obrazowych.
Prompt Guard: wykrywa jailbreak/injection.
Zintegruj je jako filtry pre i post wokół swojego endpointu Llama. Hugging Face, Llama

10) Wybór odpowiedniego modelu Llama 3.x (szybka lista kontrolna)

RAG, agenci, długie dokumenty: Llama 3.1 70B lub 405B jeśli potrzebujesz 128K kontekstu + wywoływanie narzędzi. Użyj chmury (Bedrock/Azure/Vertex/NIM) lub samodzielnego hostingu na wielu GPU. Meta AI, Amazon Web Services, Inc., Microsoft Tech Community
Edge i urządzenia mobilne: Llama 3.2 1B/3B (kwantyzowane) z ExecuTorch/Core ML. PyTorch
Zadania wizji (opisywanie, VQA): Llama 3.2 11B/90B Vision (tekst na wyjściu). Hugging Face
Stabilny czat produkcyjny: Llama 3.3 70B Instruct. Hugging Face

11) Koszty, wydajność i wskazówki operacyjne

Dla 405B, oczekuj ~800 GB pamięci w BF16; praktyczne serwowanie używa FP8/INT4 + pipeline/tensor parallel. Na jednej maszynie, MI300X (192 GB) lub H200 (141 GB) w 8‑GPU to typowe konfiguracje. Snowflake, vLLM Blog
vLLM i TGI mają swoje mocne strony (chunking prefill, cache’owanie, kwantyzacja, obsługa długich sekwencji). Przetestuj pod swój workload i zabezpiecz pamięć na cache KV. vLLM Blog, Hugging Face
Jeśli chcesz gotowe rozwiązanie, użyj kontenerów NVIDIA NIM dla Llama 3.1/3.2 (API kompatybilne z OpenAI, Helm charts itd.). NVIDIA NGC Catalog

12) Zarządzanie i otwarta debata — praktyczne wskazówki

Polityka i zgodność: Traktuj Llama jako dostępne na zasadach source‑available z AUP; przejrzyj ograniczenia dotyczące użytkowania i wymagania dotyczące atrybucji. Jeśli Twoja organizacja wymaga licencji zgodnej z OSI, rozważ alternatywy lub ogranicz użycie Llama do usług, gdzie jej licencja jest akceptowalna. Llama, Open Source Initiative
Pochodzenie danych: Meta nie udostępnia pełnych szczegółów dotyczących danych treningowych; jeśli wymagasz przejrzystości zbioru danych ze względów regulacyjnych, udokumentuj swoje działania zaradcze. (To jeden z powodów, dla których OSI/FSF wahają się nazwać to open source.) Open Source Initiative, Free Software Foundation

13) Sygnały z mapy drogowej

AI Alliance oficjalnie wspierająca Llama Stack (lipiec 2025) sugeruje dalszą standaryzację otwartego rozwoju pomiędzy dostawcami (bezpieczeństwo, agenci, telemetria). thealliance.ai
Dostawcy stale dodają zoptymalizowane wdrożenia (np. NIM Dokumentacja Vision jest zgodna z Llama Stack i API w stylu OpenAI). Spodziewaj się większej przenośności między dostawcami. NVIDIA Docs

Źródła i dalsza lektura

Oficjalne ogłoszenia i karty modeli: Meta AI — Llama 3 (kwiecień 2024), Llama 3.1 (lipiec 2024), Llama 3.2 (wrzesień 2024), Llama 3.3 (grudzień 2024); karty modeli i dokumentacja Hugging Face. Meta AI, Hugging Face
Dostępność w chmurze: AWS Bedrock, Azure AI, Google Vertex AI. Amazon Web Services, Inc., Microsoft Tech Community, Google Cloud
Ekosystem: wsparcie vLLM 3.1; przewodniki TGI; llama.cpp; Ollama. Blog vLLM, Hugging Face, GitHub
Wizja multimodalna: karty modeli Llama‑3.2 11B/90B; API/uwagi NVIDIA NIM Vision. Hugging Face, Dokumentacja NVIDIA
Na urządzeniu: blog ExecuTorch; Meta quantized 1B/3B; post Apple Core ML Llama. PyTorch, Meta AI , Apple Machine Learning Research
Bezpieczeństwo: Llama Guard 3 i Prompt Guard; Purple Llama i CyberSecEval. Hugging Face, Llama, Meta AI arXiv
Licencjonowanie i definicje: Licencja Llama 3.1; stanowiska OSI i FSF. Llama, Open Source Initiative, Free Software Foundation
Trenowanie/skala i sprzęt: blog NVIDIA o trenowaniu 16K H100; inżynieria Snowflake o śladzie pamięci 405B. NVIDIA Developer, Snowflake
Adopcja: podsumowanie zastosowań korporacyjnych Reuters. Reuters
Tablice wyników: Przegląd miejsc w LMSYS Arena; Analiza kontroli stylu LM‑Sys. LMArena, lmsys.org

Ostateczna uwaga

„Open” w świecie Llama oznacza otwarte wagi + otwarty ekosystem—nie licencjonowanie open‑source zgodnie z OSI. Jednak tempo ciągłego rozwoju przez 3.1 → 3.2 → 3.3, plus silne standardy (Llama Stack) i narzędzia bezpieczeństwa, czynią Llama 3.x pragmatycznym wyborem domyślnym dla zespołów, które chcą przenośności między chmurami, możliwości samodzielnego hostowania i ścieżek do AI na urządzeniu. Jeśli potrzebujesz gotowego do produkcji, kontrolowanego kosztowo stacku już dziś, możesz: wybrać 70B/405B (serwer) lub 1B/3B (edge), wdrożyć przez vLLM/TGI/NIM lub wybraną chmurę i otoczyć Llama Guard/Prompt Guard—wszystko według jasnych, udokumentowanych wzorców i z szerokim wsparciem społeczności. Blog vLLM, Hugging Face, NVIDIA NGC Catalog

Llama 3.x (Duży Model Językowy, Meta AI): Kontynuacja Open Source — Co nowego w wersjach 3.1, 3.2 i 3.3 oraz jak z nich korzystać

1) Czym jest Llama 3.x — i dlaczego to ważne

2) Oś czasu wydań w skrócie

3) Możliwości dostarczone z 3.x

4) „Open source” vs „open weights” — co faktycznie możesz zrobić

5) Bezpieczeństwo i odpowiedzialne użycie: co jest dostarczane z Llama

6) Jak ludzie tego używają (w rzeczywistości)

7) Sprzęt i realia skalowania

8) Stos Llama i standardy

9) Szybki start, konkretne przykłady

10) Wybór odpowiedniego modelu Llama 3.x (szybka lista kontrolna)

11) Koszty, wydajność i wskazówki operacyjne

12) Zarządzanie i otwarta debata — praktyczne wskazówki

13) Sygnały z mapy drogowej

Źródła i dalsza lektura

Ostateczna uwaga

Artur Ślesik

Dodaj komentarz Anuluj pisanie odpowiedzi

Latest Articles

Pojedynek zasięgu hulajnóg elektrycznych 2025: Poznaj długodystansowych tytanów, demony prędkości i mistrzów budżetu

Zasil swój dom przez kilka dni na jednym ładowaniu: Najtrwalsze domowe systemy magazynowania energii w 2025 roku

Elektryczne samochody o najdłuższym zasięgu 2025: nawet do 1600 km na jednym ładowaniu

Płonąca Granica: Voyager 1 Odsłania „Ścianę Ognia” na Skraju Naszego Układu Słonecznego

Apple AirPods Pro 3: Tłumaczenie na żywo, monitorowanie tętna i więcej – najnowsze wiadomości i analiza

Chińska dominacja w zielonej energii: Dlaczego Pekin wyprzedza Zachód w odnawialnych źródłach energii i czystych technologiach

Japonia zamienia wodę morską w energię elektryczną: Wewnątrz pierwszej na świecie elektrowni osmotycznej