Egy ChatGPT-vel vagy Claude-dal dolgozó ember életében van egy pont, ahol már nem az a kérdés, hogy az AI tud-e válaszolni — hanem hogy mikor ad vissza valami használhatót. Komplex kérdésnél 20-40 másodperc is eltelhet, mire a válasz megérkezik. Ez nem nagy szám, de ha tucatnyi feladaton dolgozol, összeadódik. A Skeleton of Thought (SoT) erre a problémára született — nem egy trükkös „magic prompt”, hanem egy 2023-as Microsoft Research és Tsinghua University kutatás eredménye, amit az ICLR 2024-en publikáltak, és 12 különböző modellen teszteltek.

A rövid verzió — mi az a Skeleton of Thought prompt technika

Az LLM-ek alapból tokenenként, sorban dolgoznak. Egy válasz generálása szekvenciális folyamat: az első szót kiadja, a második a visszajelzésére épül, és így tovább. A SoT ezt az egyirányú folyamatot töri meg.

A módszer két lépésből áll:

  1. Először csak egy rövid vázlatot kérsz — 3-10 pont, egyenként 3-5 szó.
  2. Aztán minden pontot egyszerre, párhuzamosan bontasz ki.

Az eredmény: Vicuna-33B modellen mért 2,39×-os gyorsulás end-to-end latencián. 12 modellből 8-nál legalább kétszeres speedupot értek el. És ami meglepő: az esetek 60%-ában a kapott válasz minősége egyenlő volt vagy jobb, mint a normál generálásnál.

Egy mondatban: váz először, tartalom párhuzamosan — a régi újságírói munkamodell, AI-ra fordítva.

Hogyan működik — a két fázis

1. fázis: Skeleton Stage (Vázlatkészítés)

A modell kap egy promptot, ami arra kéri, hogy ne írjon teljes választ — csak egy számozott vázlatot adjon vissza, minden pont maximum 3-5 szó. Ez az első fázis gyors, mert rövid.

Az eredeti kutatásban így néz ki a skeleton prompt:

You're an organizer responsible for only giving the skeleton (not the full content) for answering the question. Provide the skeleton in a list of points (numbered 1., 2., 3., etc.) to answer the question. Instead of writing a full sentence, each skeleton point should be very short with only 3~5 words. Generally, the skeleton should have 3~10 points. Now, please provide the skeleton for the following question.
{question}
Skeleton:
1.

A „1.” a végén szándékos — ráveszi a modellt, hogy a formátumot folytassa.

2. fázis: Point-Expanding Stage (Pontok kibontása)

Minden skeleton-ponthoz egy külön kérés megy — párhuzamosan. Mindegyik megkapja az eredeti kérdést, a teljes vázlatot, és instrukciót, hogy csak a saját pontját fejtse ki, 1-2 mondatban.

You're responsible for continuing the writing of one and only one point in the overall answer to the following question.
{question}
The skeleton of the answer is
{skeleton}
Continue and only continue the writing of point {point index}. Write it very short in 1~2 sentences and do not continue with other points!
{point index}.{Point skeleton}

API-alapú modelleknél (ChatGPT, Claude, Gemini) ez párhuzamos API hívásokat jelent. Helyi modellnél batch dekódolással oldják meg. A végeredményt a pontok sorrendben összeillesztve kapod meg.

Mikor jobb, mint az egyszerű prompt

A SoT ott remekel, ahol a válasz természetesen tagolható egymástól független részekre.

Néhány konkrét eset, ahol bevált:

Ha az általad épített vagy használt eszközben a generálási idő fejfájást okoz, és a válaszok listás szerkezetű kérdésekre felelnek — próbáld ki.

Mikor NE használd — a valódi korlátok

Ez az a rész, amivel sokan adósak maradnak, amikor egy új technikát bemutatnak — az előnyök mellé a korlátoknak ugyanakkora helyet adok.

Step-by-step logikánál ne nyúlj hozzá. Ha matematikát, kódot, rejtvényt oldasz meg, a párhuzamos pontok nem látják egymás tartalmát. Az egyik pont nem tudja, mit számított ki a másik. Ez nem apróság — itt a SoT aktívan ront a minőségen.

Rövid kérdéseknél felesleges overhead. Ha a válasz egy mondat vagy egy szám lenne, a kétfázisú folyamat csak lassabb és drágább. „Mi Magyarország fővárosa?” kérdésre nem kell skeleton.

Folyamatos szövegnél elvész a koherencia. Esszét, fikciót, narratív szöveget nem lehet 6 párhuzamos darabra szétszedni és összeilleszteni anélkül, hogy az illesztések ne látszódjanak. A kutatók maguk is megemlítik: az olvasónak nyilvánvaló lehet, hogy a szöveg részenként készült.

Tokenköltség. Ez az, amiről kevesen írnak. Minden point-expanding kérés újra elküldi a teljes vázlatot és az eredeti kérdést — prefilling overhead. Átlagosan ~6,8 skeleton pont esetén ez 20-40%-os tokenköltség-növekedést jelent. Gyorsabb lesz, de drágább is. Ha a latencia nem számít (batch feldolgozás, nem valós idejű), a SoT nincs indokolva.

Modellfüggőség. Kisebb vagy gyengébb modelleken a skeleton rossz szerkezetet ad vissza, vagy a point-expanding nem tartja magát az instrukcióhoz. A legjobb eredményeket ChatGPT, Claude és Vicuna-33B fölött mérték. Egy gyengébb modellen próbálva előfordulhat, hogy a normál prompt egyszerűen jobb.

Magas terhelésnél a párhuzamos kérések csökkenthetik a throughput-ot. Ez inkább az infrastruktúrát üzemeltetőknek releváns, de érdemes tudni: a SoT egy felhasználó számára gyorsít, de sok párhuzamos kérés esetén a szerver oldalon torlódást okozhat.

SoT vs Chain-of-Thought vs Tree-of-Thought

Chain of ThoughtSkeleton of ThoughtTree of Thought
Elsődleges célReasoning javításaLatencia csökkentéseKomplex problémamegoldás
SzerkezetLineáris, lépésenkéntiVáz → párhuzamos kibontásDöntési fa, elágazó
ErősségMatek, logika, szekvenciális feladatokStruktúrált válaszok gyorsanKreatív feladatok, backtracking
GyengeségNem explorálja az alternatívákatKoherencia, interdependens pontokImplementációs bonyolultság, drága
ImplementációEgyszerű promptKétfázisú prompt + parallel APIKomplex, külön algoritmus

A három technika nem egymás riválisa — különböző problémákra valók.

A Chain-of-Thought a klasszikus: „gondolkodj lépésről lépésre.” Arra jó, amire az LLM-ek alapból gyengék — matematika, logikai láncok, szekvenciális döntéshozatal. Nem gyorsít, de okosabbá teszi a modellt a nehéz feladatokon.

A Skeleton of Thought más síkon játszik. Nem a reasoning-et javítja, hanem azt, hogy a strukturált kimenet gyorsabban kerüljön hozzád. Ha a válasz minőségén akarsz javítani és latencia nem számít, a CoT erősebb eszköz.

A Tree of Thought a leghatalmasabb és legdrágább. Több lehetséges gondolati utat generál egyszerre, értékel, visszalép, ha egy útvonal zsákutca. Komplex puzzle-ra, kreatív feladatra, tervezésre. Implementálni nem triviális, és a tokenköltség messze a legmagasabb a háromból.

Hogyan próbáld ki most — kódolás nélkül, ChatGPT-vel vagy Claude-dal

Én ezt először egy tartalomtervezési feladaton próbáltam ki: egy hírlevél tématervhez kértem vázlatot, aztán pontokra bontottam. A végeredmény strukturáltabb volt, mint a szokásos egylépéses kéréssel — és gyorsabban el tudtam dönteni, melyik pontot fejtsem ki részletesebben.

A teljes SoT-hoz párhuzamos API hívások kellenek. De az elv — váz előbb, tartalom utána — működik chat felületen is, két egymást követő prompttal.

1. lépés — Kérd el a vázlatot:

Feladat: [Ide kerül a kérdésed vagy feladatod]

Kérés: Először csak egy rövid, számozott vázlatot adj — minden pont legfeljebb 3-5 szó, nem teljes mondat. Adj 3-10 pontot. A teljes kifejtést ne írd meg még.

Váz:
1.

2. lépés — Bontsd ki a pontokat egyenként:

A fenti váz alapján bontsd ki a [X]. pontot: "[Pont szövege]"
Csak erre a pontra fókuszálj, 1-2 mondatban. Ne ugorj tovább a többi pontra.

Kombináció egy promptba (ha nem akarod kétlépésessé tenni):

Kérdés: [Ide kerül a feladatod]

Lépés 1: Adj egy rövid, számozott vázlatot (minden pont 3-5 szó, legfeljebb 8 pont).
Lépés 2: Minden pontot fejts ki 2-3 mondatban, a vázlat sorrendjét követve.

Ez nem igazi párhuzamos SoT — de a kétfázisú gondolkodást meghívja, és a legtöbb esetben strukturáltabb választ kapsz, mint egy sima kérésnél.

GYIK

Mi az a Skeleton of Thought?

Egy kétfázisú prompt engineering technika: az első fázisban a modell csak egy rövid vázlatot generál (3-10 pont, pár szó), a másodikban minden pontot párhuzamosan fejt ki. A Microsoft Research és a Tsinghua University fejlesztette, ICLR 2024-en publikálták. Fő előnye a csökkentett válaszidő — akár 2,39×-os gyorsulás is elérhető.

Miben különbözik a Chain-of-Thought-tól?

A Chain-of-Thought a reasoning minőségét javítja: a modell megmutatja a gondolkodási lépéseit, mielőtt eredményt ad. A SoT a kimenet struktúráját és a generálás sebességét optimalizálja, nem a reasoning-et. CoT-ot matekhoz és logikához, SoT-ot strukturált, párhuzamosan kibontható válaszokhoz érdemes használni.

Magyar kérdéseknél is működik?

Igen, a technika nyelvfüggetlen — az LLM-ek a legtöbb esetben ugyanúgy reagálnak magyar promptokra. A prompt template-ek lefordíthatók, és a skeleton-expanding mechanizmus ugyanúgy működik. Gyengébb modellnél figyelj arra, hogy a skeleton valóban 3-5 szavas, rövid ponttöredékekből álljon.

Mibe kerül? Drágább lesz az API-használat?

Igen, jellemzően drágább. Minden point-expanding kérés újra elküldi a teljes kérdést és vázlatot — ez prefilling overhead. Átlagosan 20-40%-os tokenköltség-növekedéssel kell számolni. Ha a sebesség nem prioritás (például batch feldolgozásnál), az SoT nem indokolt csak a minőség miatt.

Melyik prompt technikát mikor érdemes használni?

Ha lépésről-lépésre gondolkodást kell modellezni (matek, kód, logika): Chain-of-Thought. Ha strukturált, gyors választ akarsz: Skeleton of Thought. Ha komplex döntési fán kell végigmenni és megéri a magasabb cost: Tree of Thought. A három technika nem egymást váltja ki.

Szükség van-e prompt engineering tudásra az AI hatékony használatához?

Az alapvető használathoz nem — de a kimenet minősége és sebessége érezhetően javul, ha ismersz pár technikát. A SoT például két-három plusz sor a promptban, és máris más struktúrájú választ kapsz. Nem kell mindent megtanulni, de az ilyen kis fogásokat érdemes eszköztárban tartani.

Hogyan tesztelhetem, hogy valóban jobb-e a SoT-tal kapott válasz?

Adj fel ugyanazt a kérdést kétszer: egyszer SoT-tal, egyszer normál prompttal. Hasonlítsd össze a struktúrát, a teljességet és hogy melyikből hiányzik kevesebb releváns pont. Nincs tökéletes mérce — de a legtöbb esetben a különbség szabad szemmel is látható.

Van elérhető kód hozzá?

A kutatók a projekthez tartozó implementációt a GitHubon tették elérhetővé. Az arxiv paper (arxiv.org/abs/2307.15337) tartalmazza a promptokat és a kódot. Az egyszerűbb, manuális változat — amit fentebb leírtam — bármilyen chat felületen kipróbálható programozás nélkül.

A SoT azt mondja ki, amit minden írói oktatáson elmondanak: először váz, aztán tartalom. Az AI-val való munkában ez egy közbeszúrt lépés, ami gyorsabbá és strukturáltabbá teszi az eredményt. Érdemes egyszer kipróbálni valós feladaton — a különbség az első próbánál is látszik.

Szerző