Gemma (model językowy) 📖 Wikipedia

Gemma
	; Logo programu
Autor	Google DeepMind
Pierwsze wydanie	21 lutego 2024
Aktualna wersja stabilna	Gemma 4 (31 marca 2026; około 3 miesiące temu)
Rodzaj	duży model językowy
Licencja	Apache 2.0 (Gemma 4); Gemma Terms of Use (wersje 1–3)
	Strona internetowa

Gemma – rodzina otwartych dużych modeli językowych Google DeepMind, udostępniana z otwartymi wagami i zbudowana w oparciu o badania i technologię stojące za zamkniętą rodziną modeli Gemini^[1]. Nazwa pochodzi od łacińskiego słowa gemma oznaczającego klejnot. Oprócz głównej linii generacyjnej rodzina obejmuje warianty pochodne: CodeGemma (kod), RecurrentGemma (architektura rekurencyjna) oraz PaliGemma (model wizyjno-językowy)^[2]. Modele są dystrybuowane między innymi przez Hugging Face, Kaggle(inne języki) i Vertex AI oraz mogą być uruchamiane lokalnie na sprzęcie konsumenckim.

Historia wersji

edytuj

Gemma 1

edytuj

Pierwsza generacja, wydana 21 lutego 2024, obejmowała warianty 2B i 7B w wersji bazowej oraz dostrojonej instrukcyjnie. Model przyjmował i generował wyłącznie tekst, głównie w języku angielskim^[1].

Gemma 2

edytuj

Druga generacja ukazała się 27 czerwca 2024 w wariantach 9B i 27B (2B dołączył 31 lipca 2024)^[3]. Wprowadzono Grouped Query Attention oraz naprzemienne warstwy uwagi globalnej i lokalnej (sliding window). Model 27B trenowano od podstaw na około 13 bilionach tokenów, a warianty 2B i 9B powstały z destylacji wiedzy z większego modelu^[4].

Gemma 3

edytuj

Trzecia generacja została zaprezentowana 10 marca 2025 w wariantach 1B, 4B, 12B i 27B (270M dołączył w sierpniu 2025)^[3]. Modele od 4B wzwyż otrzymały koder wizyjny SigLIP umożliwiający przyjmowanie obrazu jako wejścia^[5]. Okno kontekstu zwiększono do 128 tysięcy tokenów^[5]. Nathan Lambert w analizie portalu Interconnects ocenił, że Gemma 3 27B była pierwszym otwartym modelem porównywalnym z Gemini 1.5 Pro^[6].

Gemma 4

edytuj

Czwarta generacja została opublikowana 31 marca 2026 w czterech wariantach: Effective 2B (E2B), Effective 4B (E4B), 26B Mixture of Experts oraz 31B Dense^[7]. Wszystkie warianty są multimodalne i przyjmują tekst, obraz oraz wideo, a modele E2B i E4B obsługują dodatkowo natywne wejście dźwiękowe^[7]. Małe modele dysponują oknem kontekstu 128 tys. tokenów, a warianty 26B i 31B 256 tys.^[7] Wraz z Gemmą 4 Google przeszedł z własnych Gemma Terms of Use na licencję Apache 2.0^[8].

Warianty pochodne

edytuj

Oprócz głównej linii generacyjnej Google DeepMind opublikował kilka modeli pochodnych opartych na Gemmie^[2]:

CodeGemma (9 kwietnia 2024, warianty 2B, 7B i 7B-IT) to model wyspecjalizowany w generowaniu i uzupełnianiu kodu, dotrenowany na 500 miliardach tokenów kodu źródłowego, danych matematycznych i tekstu^[9].
RecurrentGemma (9 kwietnia 2024, warianty 2B i 9B) opiera się na architekturze Griffin łączącej liniowe rekurencje z lokalną uwagą, dzięki czemu zużywa mniej pamięci i zachowuje stałą prędkość próbkowania niezależnie od długości kontekstu^[10].
PaliGemma (14 maja 2024, 3B) to model wizyjno-językowy łączący koder obrazu SigLIP-So400m z Gemmą 2B, przeznaczony do dostrajania na zadaniach takich jak podpisywanie obrazów, odpowiadanie na pytania wizualne i segmentacja^[11].
PaliGemma 2 (5 grudnia 2024, warianty 3B, 10B i 28B) wykorzystuje ten sam koder wizyjny SigLIP-So400m, ale jako komponent językowy stosuje Gemmę 2, osiągając po dostrojeniu najlepsze wyniki m.in. w OCR, rozpoznawaniu struktur tabelarycznych i generowaniu opisów radiogramów^[12]^[13].

Architektura

edytuj

Modele Gemma opierają się na dekoderach transformera. Począwszy od Gemmy 2 stosowane są Grouped Query Attention, RMSNorm, GeGLU oraz osadzenia pozycyjne RoPE^[4]. W Gemmie 2 i 3 wprowadzono naprzemienne warstwy uwagi lokalnej i globalnej w proporcjach 1:1 oraz 5:1, co służy redukcji rozmiaru pamięci podręcznej kluczy i wartości przy długim kontekście^[4]^[5]. W generacjach trzeciej i czwartej dodano ścieżkę przetwarzania obrazów opartą na koderze SigLIP, a w Gemmie 4 natywne wejścia wideo i audio dla mniejszych wariantów^[7].

Cechy charakterystyczne Gemmy 4

edytuj

Najistotniejszą zmianą jest zastosowanie techniki MatFormer (ang. Matryoshka Transformer), rozszerzenia Matryoshka Representation Learning na pełny dekoderowy transformer^[14]. W MatFormerze mniejsze warianty są strukturalnie zagnieżdżone w większych: wagi E2B stanowią ścisły podzbiór wag E4B, a te są podzbiorem wag wariantu 26B. Cała rodzina powstaje z jednego treningu, bez osobnej destylacji. Powiązany mechanizm Mix'n'Match pozwala łączyć w jednym modelu warstwy o różnych szerokościach, generując z jednego punktu kontrolnego setki podmodeli dopasowanych do różnych ograniczeń sprzętowych^[15].

Wariant 26B opiera się na rzadkim Mixture of Experts ze 128 ekspertami i routingiem top-8, dzięki czemu w czasie wnioskowania aktywne pozostaje około 3,8 mld parametrów^[7]. Warianty Effective 2B i 4B mają więcej parametrów fizycznych, ale dzięki technice osadzeń per warstwa (ang. Per-Layer Embeddings, PLE) ich efektywny ślad pamięciowy odpowiada modelom o nominalnej wielkości 2 i 4 mld^[3]. Licencja Apache 2.0 jest pierwszą w historii rodziny licencją zatwierdzoną przez Open Source Initiative i znosi dotychczasowe ograniczenia treściowe oraz obowiązek dystrybucji pochodnych z polityką Google^[16].

Odbiór

edytuj

Gemma 4 31B osiągnęła wynik ELO około 1452 w rankingu LMArena, plasujący ją w okolicach trzeciego miejsca wśród otwartych modeli^[7]. The Register, omawiając publikację Gemmy 4, ocenił, że zmiana licencji oraz rozszerzenie obsługi do ponad 140 języków stanowiły bezpośrednią reakcję Google na wzrost popularności otwartych modeli chińskich firm Moonshot AI i Alibaba^[8].

Przypisy

edytuj

↑ ^a ^b Gemma: Introducing new state-of-the-art open models [online], blog.google, 21 lutego 2024 [dostęp 2026-04-11] .
↑ ^a ^b Gemma Family Expands with Models Tailored for Developers and Researchers [online], Google Developers Blog, 9 kwietnia 2024 [dostęp 2026-04-27] .
↑ ^a ^b ^c Gemma releases [online], Google AI for Developers [dostęp 2026-04-11] .
↑ ^a ^b ^c GemmaG. Team GemmaG., Gemma 2: Improving Open Language Models at a Practical Size, „arXiv”, 2024, arXiv:2408.00118 [dostęp 2026-04-11] .
↑ ^a ^b ^c GemmaG. Team GemmaG., Gemma 3 Technical Report, „arXiv”, 2025, arXiv:2503.19786 [dostęp 2026-04-11] .
↑ NathanN. Lambert NathanN., Gemma 3, OLMo 2 32B, and the growing potential of open-source AI [online], Interconnects, marzec 2025 [dostęp 2026-04-11] .
↑ ^a ^b ^c ^d ^e ^f Welcome Gemma 4: Frontier multimodal intelligence on device [online], Hugging Face, 2 kwietnia 2026 [dostęp 2026-04-11] .
↑ ^a ^b Google battles Chinese open-weights models with Gemma 4 [online], The Register, 2 kwietnia 2026 [dostęp 2026-04-11] .
↑ CodeGemmaC. Team CodeGemmaC., CodeGemma: Open Code Models Based on Gemma, „arXiv”, 2024, arXiv:2406.11409 [dostęp 2026-04-27] .
↑ AleksandarA. Botev AleksandarA. i inni, RecurrentGemma: Moving Past Transformers for Efficient Open Language Models, „arXiv”, 2024, arXiv:2404.07839 [dostęp 2026-04-27] .
↑ PaliGemma: A versatile 3B VLM for transfer, „arXiv”, 2024, arXiv:2407.07726 [dostęp 2026-04-27] .
↑ PaliGemma 2: A Family of Versatile VLMs for Transfer, „arXiv”, 2024, arXiv:2412.03555 [dostęp 2026-04-27] .
↑ Introducing PaliGemma 2: Powerful Vision-Language Models, Simple Fine-Tuning [online], Google Developers Blog, 5 grudnia 2024 [dostęp 2026-04-27] .
↑ MatFormer: Nested Transformer for Elastic Inference [online], NeurIPS 2023 ENLSP Workshop, 2023 [dostęp 2026-04-11] .
↑ MaartenM. Grootendorst MaartenM., A Visual Guide to Gemma 4 [online], newsletter.maartengrootendorst.com, 2026 [dostęp 2026-04-11] .
↑ Gemma 4: Expanding the Gemmaverse with Apache 2.0 [online], Google Open Source Blog, marzec 2026 [dostęp 2026-04-11] .

Linki zewnętrzne

edytuj

[blog-gemma1-1] Gemma: Introducing new state-of-the-art open models [online], blog.google, 21 lutego 2024 [dostęp 2026-04-11] .

[devblog-expand-2] Gemma Family Expands with Models Tailored for Developers and Researchers [online], Google Developers Blog, 9 kwietnia 2024 [dostęp 2026-04-27] .

[releases-3] Gemma releases [online], Google AI for Developers [dostęp 2026-04-11] .

[gemma2-report-4] GemmaG. Team GemmaG., Gemma 2: Improving Open Language Models at a Practical Size, „arXiv”, 2024, arXiv:2408.00118 [dostęp 2026-04-11] .

[gemma3-report-5] GemmaG. Team GemmaG., Gemma 3 Technical Report, „arXiv”, 2025, arXiv:2503.19786 [dostęp 2026-04-11] .

[lambert-gemma3-6] NathanN. Lambert NathanN., Gemma 3, OLMo 2 32B, and the growing potential of open-source AI [online], Interconnects, marzec 2025 [dostęp 2026-04-11] .

[hf-gemma4-7] ↑ ^a ^b ^c ^d ^e ^f Welcome Gemma 4: Frontier multimodal intelligence on device [online], Hugging Face, 2 kwietnia 2026 [dostęp 2026-04-11] .

[register-gemma4-8] Google battles Chinese open-weights models with Gemma 4 [online], The Register, 2 kwietnia 2026 [dostęp 2026-04-11] .

[codegemma-report-9] CodeGemmaC. Team CodeGemmaC., CodeGemma: Open Code Models Based on Gemma, „arXiv”, 2024, arXiv:2406.11409 [dostęp 2026-04-27] .

[recgemma-report-10] AleksandarA. Botev AleksandarA. i inni, RecurrentGemma: Moving Past Transformers for Efficient Open Language Models, „arXiv”, 2024, arXiv:2404.07839 [dostęp 2026-04-27] .

[paligemma-report-11] PaliGemma: A versatile 3B VLM for transfer, „arXiv”, 2024, arXiv:2407.07726 [dostęp 2026-04-27] .

[paligemma2-report-12] PaliGemma 2: A Family of Versatile VLMs for Transfer, „arXiv”, 2024, arXiv:2412.03555 [dostęp 2026-04-27] .

[paligemma2-blog-13] Introducing PaliGemma 2: Powerful Vision-Language Models, Simple Fine-Tuning [online], Google Developers Blog, 5 grudnia 2024 [dostęp 2026-04-27] .

[matformer-14] MatFormer: Nested Transformer for Elastic Inference [online], NeurIPS 2023 ENLSP Workshop, 2023 [dostęp 2026-04-11] .

[matformer-guide-15] MaartenM. Grootendorst MaartenM., A Visual Guide to Gemma 4 [online], newsletter.maartengrootendorst.com, 2026 [dostęp 2026-04-11] .

[opensource-gemma4-16] Gemma 4: Expanding the Gemmaverse with Apache 2.0 [online], Google Open Source Blog, marzec 2026 [dostęp 2026-04-11] .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

Logo programu
Autor	Google DeepMind
Pierwsze wydanie	21 lutego 2024
Aktualna wersja stabilna	Gemma 4 (31 marca 2026; około 3 miesiące temu)
Rodzaj	duży model językowy
Licencja	Apache 2.0 (Gemma 4); Gemma Terms of Use (wersje 1–3)
Strona internetowa