Gemma – rodzina otwartych dużych modeli językowych Google DeepMind, udostępniana z otwartymi wagami i zbudowana w oparciu o badania i technologię stojące za zamkniętą rodziną modeli Gemini[1]. Nazwa pochodzi od łacińskiego słowa gemma oznaczającego klejnot. Oprócz głównej linii generacyjnej rodzina obejmuje warianty pochodne: CodeGemma (kod), RecurrentGemma (architektura rekurencyjna) oraz PaliGemma (model wizyjno-językowy)[2]. Modele są dystrybuowane między innymi przez Hugging Face, Kaggle(inne języki) i Vertex AI oraz mogą być uruchamiane lokalnie na sprzęcie konsumenckim.

Gemma
Logo Gemma
Logo programu
Autor Google DeepMind
Pierwsze wydanie 21 lutego 2024
Aktualna wersja stabilna Gemma 4 (31 marca 2026; około 3 miesiące temu)
Rodzaj duży model językowy
Licencja Apache 2.0 (Gemma 4); Gemma Terms of Use (wersje 1–3)
Strona internetowa

Historia wersji

edytuj

Gemma 1

edytuj

Pierwsza generacja, wydana 21 lutego 2024, obejmowała warianty 2B i 7B w wersji bazowej oraz dostrojonej instrukcyjnie. Model przyjmował i generował wyłącznie tekst, głównie w języku angielskim[1].

Gemma 2

edytuj

Druga generacja ukazała się 27 czerwca 2024 w wariantach 9B i 27B (2B dołączył 31 lipca 2024)[3]. Wprowadzono Grouped Query Attention oraz naprzemienne warstwy uwagi globalnej i lokalnej (sliding window). Model 27B trenowano od podstaw na około 13 bilionach tokenów, a warianty 2B i 9B powstały z destylacji wiedzy z większego modelu[4].

Gemma 3

edytuj

Trzecia generacja została zaprezentowana 10 marca 2025 w wariantach 1B, 4B, 12B i 27B (270M dołączył w sierpniu 2025)[3]. Modele od 4B wzwyż otrzymały koder wizyjny SigLIP umożliwiający przyjmowanie obrazu jako wejścia[5]. Okno kontekstu zwiększono do 128 tysięcy tokenów[5]. Nathan Lambert w analizie portalu Interconnects ocenił, że Gemma 3 27B była pierwszym otwartym modelem porównywalnym z Gemini 1.5 Pro[6].

Gemma 4

edytuj

Czwarta generacja została opublikowana 31 marca 2026 w czterech wariantach: Effective 2B (E2B), Effective 4B (E4B), 26B Mixture of Experts oraz 31B Dense[7]. Wszystkie warianty są multimodalne i przyjmują tekst, obraz oraz wideo, a modele E2B i E4B obsługują dodatkowo natywne wejście dźwiękowe[7]. Małe modele dysponują oknem kontekstu 128 tys. tokenów, a warianty 26B i 31B 256 tys.[7] Wraz z Gemmą 4 Google przeszedł z własnych Gemma Terms of Use na licencję Apache 2.0[8].

Warianty pochodne

edytuj

Oprócz głównej linii generacyjnej Google DeepMind opublikował kilka modeli pochodnych opartych na Gemmie[2]:

  • CodeGemma (9 kwietnia 2024, warianty 2B, 7B i 7B-IT) to model wyspecjalizowany w generowaniu i uzupełnianiu kodu, dotrenowany na 500 miliardach tokenów kodu źródłowego, danych matematycznych i tekstu[9].
  • RecurrentGemma (9 kwietnia 2024, warianty 2B i 9B) opiera się na architekturze Griffin łączącej liniowe rekurencje z lokalną uwagą, dzięki czemu zużywa mniej pamięci i zachowuje stałą prędkość próbkowania niezależnie od długości kontekstu[10].
  • PaliGemma (14 maja 2024, 3B) to model wizyjno-językowy łączący koder obrazu SigLIP-So400m z Gemmą 2B, przeznaczony do dostrajania na zadaniach takich jak podpisywanie obrazów, odpowiadanie na pytania wizualne i segmentacja[11].
  • PaliGemma 2 (5 grudnia 2024, warianty 3B, 10B i 28B) wykorzystuje ten sam koder wizyjny SigLIP-So400m, ale jako komponent językowy stosuje Gemmę 2, osiągając po dostrojeniu najlepsze wyniki m.in. w OCR, rozpoznawaniu struktur tabelarycznych i generowaniu opisów radiogramów[12][13].

Architektura

edytuj

Modele Gemma opierają się na dekoderach transformera. Począwszy od Gemmy 2 stosowane są Grouped Query Attention, RMSNorm, GeGLU oraz osadzenia pozycyjne RoPE[4]. W Gemmie 2 i 3 wprowadzono naprzemienne warstwy uwagi lokalnej i globalnej w proporcjach 1:1 oraz 5:1, co służy redukcji rozmiaru pamięci podręcznej kluczy i wartości przy długim kontekście[4][5]. W generacjach trzeciej i czwartej dodano ścieżkę przetwarzania obrazów opartą na koderze SigLIP, a w Gemmie 4 natywne wejścia wideo i audio dla mniejszych wariantów[7].

Cechy charakterystyczne Gemmy 4

edytuj

Najistotniejszą zmianą jest zastosowanie techniki MatFormer (ang. Matryoshka Transformer), rozszerzenia Matryoshka Representation Learning na pełny dekoderowy transformer[14]. W MatFormerze mniejsze warianty są strukturalnie zagnieżdżone w większych: wagi E2B stanowią ścisły podzbiór wag E4B, a te są podzbiorem wag wariantu 26B. Cała rodzina powstaje z jednego treningu, bez osobnej destylacji. Powiązany mechanizm Mix'n'Match pozwala łączyć w jednym modelu warstwy o różnych szerokościach, generując z jednego punktu kontrolnego setki podmodeli dopasowanych do różnych ograniczeń sprzętowych[15].

Wariant 26B opiera się na rzadkim Mixture of Experts ze 128 ekspertami i routingiem top-8, dzięki czemu w czasie wnioskowania aktywne pozostaje około 3,8 mld parametrów[7]. Warianty Effective 2B i 4B mają więcej parametrów fizycznych, ale dzięki technice osadzeń per warstwa (ang. Per-Layer Embeddings, PLE) ich efektywny ślad pamięciowy odpowiada modelom o nominalnej wielkości 2 i 4 mld[3]. Licencja Apache 2.0 jest pierwszą w historii rodziny licencją zatwierdzoną przez Open Source Initiative i znosi dotychczasowe ograniczenia treściowe oraz obowiązek dystrybucji pochodnych z polityką Google[16].

Odbiór

edytuj

Gemma 4 31B osiągnęła wynik ELO około 1452 w rankingu LMArena, plasujący ją w okolicach trzeciego miejsca wśród otwartych modeli[7]. The Register, omawiając publikację Gemmy 4, ocenił, że zmiana licencji oraz rozszerzenie obsługi do ponad 140 języków stanowiły bezpośrednią reakcję Google na wzrost popularności otwartych modeli chińskich firm Moonshot AI i Alibaba[8].

Przypisy

edytuj
  1. a b Gemma: Introducing new state-of-the-art open models [online], blog.google, 21 lutego 2024 [dostęp 2026-04-11].
  2. a b Gemma Family Expands with Models Tailored for Developers and Researchers [online], Google Developers Blog, 9 kwietnia 2024 [dostęp 2026-04-27].
  3. a b c Gemma releases [online], Google AI for Developers [dostęp 2026-04-11].
  4. a b c Gemma Team, Gemma 2: Improving Open Language Models at a Practical Size, „arXiv”, 2024, arXiv:2408.00118 [dostęp 2026-04-11].
  5. a b c Gemma Team, Gemma 3 Technical Report, „arXiv”, 2025, arXiv:2503.19786 [dostęp 2026-04-11].
  6. Nathan Lambert, Gemma 3, OLMo 2 32B, and the growing potential of open-source AI [online], Interconnects, marzec 2025 [dostęp 2026-04-11].
  7. a b c d e f Welcome Gemma 4: Frontier multimodal intelligence on device [online], Hugging Face, 2 kwietnia 2026 [dostęp 2026-04-11].
  8. a b Google battles Chinese open-weights models with Gemma 4 [online], The Register, 2 kwietnia 2026 [dostęp 2026-04-11].
  9. CodeGemma Team, CodeGemma: Open Code Models Based on Gemma, „arXiv”, 2024, arXiv:2406.11409 [dostęp 2026-04-27].
  10. Aleksandar Botev i inni, RecurrentGemma: Moving Past Transformers for Efficient Open Language Models, „arXiv”, 2024, arXiv:2404.07839 [dostęp 2026-04-27].
  11. PaliGemma: A versatile 3B VLM for transfer, „arXiv”, 2024, arXiv:2407.07726 [dostęp 2026-04-27].
  12. PaliGemma 2: A Family of Versatile VLMs for Transfer, „arXiv”, 2024, arXiv:2412.03555 [dostęp 2026-04-27].
  13. Introducing PaliGemma 2: Powerful Vision-Language Models, Simple Fine-Tuning [online], Google Developers Blog, 5 grudnia 2024 [dostęp 2026-04-27].
  14. MatFormer: Nested Transformer for Elastic Inference [online], NeurIPS 2023 ENLSP Workshop, 2023 [dostęp 2026-04-11].
  15. Maarten Grootendorst, A Visual Guide to Gemma 4 [online], newsletter.maartengrootendorst.com, 2026 [dostęp 2026-04-11].
  16. Gemma 4: Expanding the Gemmaverse with Apache 2.0 [online], Google Open Source Blog, marzec 2026 [dostęp 2026-04-11].

Linki zewnętrzne

edytuj