Gemma – rodzina otwartych dużych modeli językowych Google DeepMind, udostępniana z otwartymi wagami i zbudowana w oparciu o badania i technologię stojące za zamkniętą rodziną modeli Gemini[1]. Nazwa pochodzi od łacińskiego słowa gemma oznaczającego klejnot. Oprócz głównej linii generacyjnej rodzina obejmuje warianty pochodne: CodeGemma (kod), RecurrentGemma (architektura rekurencyjna) oraz PaliGemma (model wizyjno-językowy)[2]. Modele są dystrybuowane między innymi przez Hugging Face, Kaggle(inne języki) i Vertex AI oraz mogą być uruchamiane lokalnie na sprzęcie konsumenckim.

Gemma
Logo Gemma
Logo programu
Autor Google DeepMind
Pierwsze wydanie 21 lutego 2024
Aktualna wersja stabilna Gemma 4 (31 marca 2026; około 3 miesiące temu)
Rodzaj duży model językowy
Licencja Apache 2.0 (Gemma 4); Gemma Terms of Use (wersje 1–3)
Strona internetowa

Historia wersji

edytuj

Gemma 1

edytuj

Pierwsza generacja, wydana 21 lutego 2024, obejmowała warianty 2B i 7B w wersji bazowej oraz dostrojonej instrukcyjnie. Model przyjmował i generował wyłącznie tekst, głównie w języku angielskim[1].

Gemma 2

edytuj

Druga generacja ukazała się 27 czerwca 2024 w wariantach 9B i 27B (2B dołączył 31 lipca 2024)[3]. Wprowadzono Grouped Query Attention oraz naprzemienne warstwy uwagi globalnej i lokalnej (sliding window). Model 27B trenowano od podstaw na około 13 bilionach tokenów, a warianty 2B i 9B powstały z destylacji wiedzy z większego modelu[4].

Gemma 3

edytuj

Trzecia generacja została zaprezentowana 10 marca 2025 w wariantach 1B, 4B, 12B i 27B (270M dołączył w sierpniu 2025)[3]. Modele od 4B wzwyż otrzymały koder wizyjny SigLIP umożliwiający przyjmowanie obrazu jako wejścia[5]. Okno kontekstu zwiększono do 128 tysięcy tokenów[5]. Nathan Lambert w analizie portalu Interconnects ocenił, że Gemma 3 27B była pierwszym otwartym modelem porównywalnym z Gemini 1.5 Pro[6].

Gemma 4

edytuj

Czwarta generacja została opublikowana 31 marca 2026 w czterech wariantach: Effective 2B (E2B), Effective 4B (E4B), 26B Mixture of Experts oraz 31B Dense[7]. Wszystkie warianty są multimodalne i przyjmują tekst, obraz oraz wideo, a modele E2B i E4B obsługują dodatkowo natywne wejście dźwiękowe[7]. Małe modele dysponują oknem kontekstu 128 tys. tokenów, a warianty 26B i 31B 256 tys.[7] Wraz z Gemmą 4 Google przeszedł z własnych Gemma Terms of Use na licencję Apache 2.0[8].

Warianty pochodne

edytuj

Oprócz głównej linii generacyjnej Google DeepMind opublikował kilka modeli pochodnych opartych na Gemmie[2]:

  • CodeGemma (9 kwietnia 2024, warianty 2B, 7B i 7B-IT) to model wyspecjalizowany w generowaniu i uzupełnianiu kodu, dotrenowany na 500 miliardach tokenów kodu źródłowego, danych matematycznych i tekstu[9].
  • RecurrentGemma (9 kwietnia 2024, warianty 2B i 9B) opiera się na architekturze Griffin łączącej liniowe rekurencje z lokalną uwagą, dzięki czemu zużywa mniej pamięci i zachowuje stałą prędkość próbkowania niezależnie od długości kontekstu[10].
  • PaliGemma (14 maja 2024, 3B) to model wizyjno-językowy łączący koder obrazu SigLIP-So400m z Gemmą 2B, przeznaczony do dostrajania na zadaniach takich jak podpisywanie obrazów, odpowiadanie na pytania wizualne i segmentacja[11].
  • PaliGemma 2 (5 grudnia 2024, warianty 3B, 10B i 28B) wykorzystuje ten sam koder wizyjny SigLIP-So400m, ale jako komponent językowy stosuje Gemmę 2, osiągając po dostrojeniu najlepsze wyniki m.in. w OCR, rozpoznawaniu struktur tabelarycznych i generowaniu opisów radiogramów[12][13].

Architektura

edytuj

Modele Gemma opierają się na dekoderach transformera. Począwszy od Gemmy 2 stosowane są Grouped Query Attention, RMSNorm, GeGLU oraz osadzenia pozycyjne RoPE[4]. W Gemmie 2 i 3 wprowadzono naprzemienne warstwy uwagi lokalnej i globalnej w proporcjach 1:1 oraz 5:1, co służy redukcji rozmiaru pamięci podręcznej kluczy i wartości przy długim kontekście[4][5]. W generacjach trzeciej i czwartej dodano ścieżkę przetwarzania obrazów opartą na koderze SigLIP, a w Gemmie 4 natywne wejścia wideo i audio dla mniejszych wariantów[7].

Cechy charakterystyczne Gemmy 4

edytuj

Najistotniejszą zmianą jest zastosowanie techniki MatFormer (ang. Matryoshka Transformer), rozszerzenia Matryoshka Representation Learning na pełny dekoderowy transformer[14]. W MatFormerze mniejsze warianty są strukturalnie zagnieżdżone w większych: wagi E2B stanowią ścisły podzbiór wag E4B, a te są podzbiorem wag wariantu 26B. Cała rodzina powstaje z jednego treningu, bez osobnej destylacji. Powiązany mechanizm Mix'n'Match pozwala łączyć w jednym modelu warstwy o różnych szerokościach, generując z jednego punktu kontrolnego setki podmodeli dopasowanych do różnych ograniczeń sprzętowych[15].

Wariant 26B opiera się na rzadkim Mixture of Experts ze 128 ekspertami i routingiem top-8, dzięki czemu w czasie wnioskowania aktywne pozostaje około 3,8 mld parametrów[7]. Warianty Effective 2B i 4B mają więcej parametrów fizycznych, ale dzięki technice osadzeń per warstwa (ang. Per-Layer Embeddings, PLE) ich efektywny ślad pamięciowy odpowiada modelom o nominalnej wielkości 2 i 4 mld[3]. Licencja Apache 2.0 jest pierwszą w historii rodziny licencją zatwierdzoną przez Open Source Initiative i znosi dotychczasowe ograniczenia treściowe oraz obowiązek dystrybucji pochodnych z polityką Google[16].

Odbiór

edytuj

Gemma 4 31B osiągnęła wynik ELO około 1452 w rankingu LMArena, plasujący ją w okolicach trzeciego miejsca wśród otwartych modeli[7]. The Register, omawiając publikację Gemmy 4, ocenił, że zmiana licencji oraz rozszerzenie obsługi do ponad 140 języków stanowiły bezpośrednią reakcję Google na wzrost popularności otwartych modeli chińskich firm Moonshot AI i Alibaba[8].

Przypisy

edytuj
  1. a b Gemma: Introducing new state-of-the-art open models [online], blog.google, 21 lutego 2024 [dostęp 2026-04-11].
  2. a b Gemma Family Expands with Models Tailored for Developers and Researchers [online], Google Developers Blog, 9 kwietnia 2024 [dostęp 2026-04-27].
  3. a b c Gemma releases [online], Google AI for Developers [dostęp 2026-04-11].
  4. a b c Gemma Team, Gemma 2: Improving Open Language Models at a Practical Size, „arXiv”, 2024, arXiv:2408.00118 [dostęp 2026-04-11].
  5. a b c Gemma Team, Gemma 3 Technical Report, „arXiv”, 2025, arXiv:2503.19786 [dostęp 2026-04-11].
  6. Nathan Lambert, Gemma 3, OLMo 2 32B, and the growing potential of open-source AI [online], Interconnects, marzec 2025 [dostęp 2026-04-11].
  7. a b c d e f Welcome Gemma 4: Frontier multimodal intelligence on device [online], Hugging Face, 2 kwietnia 2026 [dostęp 2026-04-11].
  8. a b Google battles Chinese open-weights models with Gemma 4 [online], The Register, 2 kwietnia 2026 [dostęp 2026-04-11].
  9. CodeGemma Team, CodeGemma: Open Code Models Based on Gemma, „arXiv”, 2024, arXiv:2406.11409 [dostęp 2026-04-27].
  10. Aleksandar Botev i inni, RecurrentGemma: Moving Past Transformers for Efficient Open Language Models, „arXiv”, 2024, arXiv:2404.07839 [dostęp 2026-04-27].
  11. PaliGemma: A versatile 3B VLM for transfer, „arXiv”, 2024, arXiv:2407.07726 [dostęp 2026-04-27].
  12. PaliGemma 2: A Family of Versatile VLMs for Transfer, „arXiv”, 2024, arXiv:2412.03555 [dostęp 2026-04-27].
  13. Introducing PaliGemma 2: Powerful Vision-Language Models, Simple Fine-Tuning [online], Google Developers Blog, 5 grudnia 2024 [dostęp 2026-04-27].
  14. MatFormer: Nested Transformer for Elastic Inference [online], NeurIPS 2023 ENLSP Workshop, 2023 [dostęp 2026-04-11].
  15. Maarten Grootendorst, A Visual Guide to Gemma 4 [online], newsletter.maartengrootendorst.com, 2026 [dostęp 2026-04-11].
  16. Gemma 4: Expanding the Gemmaverse with Apache 2.0 [online], Google Open Source Blog, marzec 2026 [dostęp 2026-04-11].

Linki zewnętrzne

edytuj

📚 Artikel Terkait di Wikipedia

Visual FoxPro

Windows Vista, oraz Office 12. Na zasadach open source, nakładami społeczności programistów Visual FoxPro, pod nazwą VFPx (poprzednio SednaX), opracowywane

Llama (model językowy)

open source do opisania Llamy zostało zakwestionowane przez Open Source Initiative (odpowiadającą za definicję otwartego źródła) i innych. Code Llama

Half-Life 2

Counter-Strike: Source. Wersja „srebrna” i „złota” (edycja kolekcjonerska) zawierały również tytuł Half-Life: Source oraz Day of Defeat: Source – porty gier

Premiera WWE Raw na Netflixie

vs. Cody Rhodes for the WWE Universal Championship with Bloodline Rules, Seth Rollins vs. Drew McIntyre for the World Heavyweight Championship. Pro Wrestling

Vera Farmiga

Henry’ego (Henry's Crime) jako Julie Ivanova 2011: Kod nieśmiertelności (Source Code) jako Colleen Goodwin 2013: Obecność (The Conjuring) jako Lorraine Warren

AbiWord

AmigaOS [online], www.amigaos.net [dostęp 2017-11-21]  (ang.). AbiWord Source Code Now Available [online], News Slashdot, 21 sierpnia 1998 [dostęp 2025-02-12] 

NoSQL

2018-02-28]  (ang.). The Different Types of NoSQL Databases – open source for you, „Open Source For You”, 16 maja 2017 [dostęp 2018-02-28]  (ang.). Overview

Spis formatów plików

nazwy pliku Rozszerzenia plików by Akuła the Finch. [dostęp 2021-10-26]. [zarchiwizowane z tego adresu (2018-03-30)]. FILExt - The File Extension Source