A kérés elküldése és a válasz megérkezése között az MI-modell több fontos lépést hajt végre. Ezek a lépések nem függetlenek, hanem szorosan összekapcsolódnak.

1. Szövegfeldolgozás és Tokenizálás (Text Processing & Tokenization)

Amikor megnyomod a küldés gombot, szöveges kérésed a számítógép számára érthetővé kell tenni. Az első lépés tehát a tokenizálás, vagyis a szöveg felbontása kisebb részekre, úgynevezett „tokenekre". Egy token lehet egy teljes szó, egy szógyök, egy toldalék vagy akár egyetlen karakter is (pl. írásjel). A tokenizálás nyelvfüggő, és a modell betanításakor megtanult szabályok alapján történik.

Példa: A „The cat sat" mondat felbontható így: ["The", " cat", " sat"] – de egy hosszabb vagy összetett szó több tokenre is törhet, pl. „tokenization" → ["token", "ization"].

2. Embedding és pozíciókódolás (Embedding & Positional Encoding)

A tokenek még mindig csak szimbólumok. Ahhoz, hogy a modell megértsen jelentést, ezeket a tokeneket többdimenziós vektorokká (számok sorozatává) kell alakítani – ez az embedding réteg feladata. Képzeld el, hogy minden szónak van egy helye egy hatalmas, több száz dimenziós térképen: a hasonló jelentésű szavak (pl. „macska" és „kutya") egymáshoz közel helyezkednek el.

Mivel azonban a transzformer önmagában nem érzékeli a szavak sorrendjét, minden tokenhez hozzáadódik egy pozíciókód is, amely megmutatja, hogy az adott token hol helyezkedik el a mondatban. E nélkül a modell számára „A kutya megharapta az embert" és „Az ember megharapta a kutyát" egyenértékű lenne.

Embedding & Positional Encoding

3. Transzformer architektúra és a figyelemmechanizmus (Attention Mechanism)

Ez a folyamat legösszetettebb és legfontosabb lépése. A figyelemmechanizmus (self-attention) azt dönti el, hogy egy adott token feldolgozásakor a mondat mely többi tokenje a releváns. Például a „Péter elvitte a könyvét, mert ő szerette olvasni" mondatban a modellnek fel kell ismernie, hogy az „ő" névmás Péterre utal vissza – ezt az attention réteg oldja meg.

A transzformer több ilyen figyelemréteget (multi-head attention) futtat párhuzamosan, így egyszerre több összefüggést is képes megragadni a szövegben. Az így feldolgozott reprezentációk rétegről rétegre gazdagodnak, mire eljutnak a kimenetig.

Attention Mechanism

4. Következő token előrejelzése és mintavételezés

A modell a feldolgozás végén minden lehetséges következő tokenre egy nyers pontszámot (logit) számol ki. Ezeket a softmax függvény valószínűségi eloszlássá alakítja: minden lehetséges következő tokennek van egy százalékos esélye arra, hogy ő következzen.

Hogy a válasz ne legyen minden alkalommal ugyanaz, a modell nem mindig a legnagyobb valószínűségű tokent választja, hanem mintavételezési technikákat alkalmaz:

  • Top-k: csak a k legvalószínűbb token közül választ véletlenszerűen.
  • Top-p (nucleus sampling): azokat a tokeneket tartja meg, amelyek együttes valószínűsége eléri a p küszöbértéket (pl. 90%).
  • Temperature: szabályozza a „kreativitást" – alacsony értéknél a modell óvatosabb és kiszámíthatóbb, magas értéknél változatosabb, de kockázatosabb kimeneteket ad.

Ez a lépés tokenenként ismétlődik, egészen addig, amíg a modell el nem éri a válasz végét.

előrejelzése és mintavételezés

5. Detokenizálás – vissza az emberi nyelvre

Miután a modell legenerálta az összes tokent, ezeket vissza kell alakítani olvasható szöveggé – ezt nevezzük detokenizálásnak. A tokensorozatból a tokenizáló fordított irányban állítja helyre az eredeti szöveget (szóközökkel, írásjelekkel együtt).

A legtöbb modern chatbot esetén ez streamelve történik: a válasz nem egyszerre jelenik meg, hanem tokenenként érkezik – ezért látjuk a szöveget szavanként „gépelődni" a képernyőn.

6. Válasz elküldése

Végül a teljesen kiformált, olvasható szöveges válasz visszakerül a felületre (pl. a böngésződbe vagy az alkalmazásba). Streamelt módban ez már az első tokenektől megkezdődik, így nem kell megvárnod, amíg a teljes válasz elkészül.