Adatábrázolás

Numerikus adatok tárolása

Akkor tárolunk numerikusan adatot, ha matematikai műveletet (összeadás, kivonás, ...) lehet rajta értelmezni.

A mindennapi életben többnyire a decimális helyiértékes számrendszert használjuk, de a számítógépes műveletvégzésre a bináris számrendszer a legalkalmasabb (lsd.: Claude Elwood Shannon 1916-2001 munkássága). Ezért a decimálisan kapott értéket tárolás előtt a bináris megfelelőjére alakítjuk. A számítógépek mindegyike fizikailag kiépített kommunikációs csatornákkal rendelkezik (adatbusz, címbusz és vezérlősínek) amelyek fizikailag meghatározzák egyszerre mennyi bittel milyen műveletet képes elvégezni. A fejlődés során kialakult a 8 bites szóhossz, ennek többszöröseire tervezik a CPU-kat. Az adattárolásnál is ez az alap (8 bit = 1 byte). Jobb olvashatósága miatt az informatikusok előszeretettel használják a hexadecimális számrendszert, mert ezzel biztosabban olvashatóvá és negyed olyan hosszúságúvá válnak (2⁴ = 16) a hosszú bináris jelsorozatok.

Fixpontos számábrázolás

A fixpontos számábrázolás lényege, hogy a szám kettes számrendszerbeli számjegyeit egy rögzített nagyságú memóriaterületen tárolja, minden bithez a kettes számrendszer helyi értékeit rendeli.

Előjel nélküli egész számok ábrázolása: A számítógép az egész számot bináris jelekké alakítja át. A számítógép meghatározott számú bitet (állandó szóhosszúságot) használ az ábrázoláshoz. Ha a szám ennél rövidebb, nullákkal egészíti ki balról a gép az adott szóhosszúság eléréséhez.; pl.: 89₁₀ = 0101 1001₂; 9₁₀ = 0000 1001₂
Előjeles egész számok ábrázolása: Az ábrázolásnál a legelső bit előjelként működik. Ha a bit 0, akkor pozitív, ha 1-es, akkor negatív számról van szó.; Negatív szám esetén a bináris érték kettes komplemensét tárolja, így egyszerűbb kapuáramkörök segítsével végezhetők vele a műveletek.; pl.: 89₁₀ = 0101 1001₂; -89₁₀ = 1010 0111₂

Lebegőpontos számábrázolás - IEEE 754

Az 54.59375₁₀ 32 bites IEEE 754 alakja: 01000010010110100110000000000000₂

átváltjuk 54.59375₁₀ = 110110.10011₂
számítástechnikai normál alakra hozzuk 110110.10011 = 0.11011010011*2^-5
a 0. bitet beállítjuk 0-ra, ha pozitív a szám, 1-re ha negatív
következő 8 bit a 127-el eltolt a karakterisztika (127 + 5)₁₀ = 132₁₀ = 1000 0100₂
a maradék 23 bit a mantissza, vezető 1-es nélkül 10110100110000000000000₂

IEEE-754 Floating Point Converter

BCD-kód (Binary Coded Decimal)

A decimális tört (frakció) végtelen szakaszos kettedes törtalakja akkor jön létre, ha a nevezőjében (miután leegyszerűsítettük) található más prímtényező is, mint a 2. Ha a nevező kizárólag a 2 hatványait tartalmazza, akkor a bináris alak véges lesz.

1/3 0.010101... (végtelen szakaszos)
1/5 0.0011... (végtelen szakaszos)
1/6 0.00101... (végtelen szakaszos)

Ezért ha nem akarunk a ~15-ik decimális számjegy környékén pontatlanságot a decimálisból binárisba, abból újra decimálisba való átalakítás során akkor a BCD kódolást kell használnunk.

Pontossága miatt a rövid távú adatátvitelnél is általában ezt a kódolási formát használják.

Karakterek kódolása

Az ember számára értelmezhető jeleket (kisbetű, nagybetű, írásjelek, számjegyek, ...) egy adott táblázat szerint numerikus értékekkel helyettesítjük. Kezdetben volt az ASCII táblázat. Ez került be minimális eltéréssel az ANSI-ba. A 90'-es években az európai nemzetek is létrehozták a saját nemzeti karaktertáblájukat, így születtek meg az ISO-k. A Microsoft természetesen felülemelkedett ezeken a kötöttségeken és létrehozta a különböző Latin kód táblákat. A káosznak az UTF-8 2003-as bevezetése vetett volna véget, de sajnos még nagyon sok programot nem írtak át.

Az UTF-8 egy változó hosszúságú karakterkódolási szabvány. Az UTF-8 képes mind az 1 112 064 (~2²²) érvényes Unicode karakter kódolására egy-négy egybájtos (8 bites) kódegység használatával. Az alacsonyabb numerikus értékű karakterek, amelyek gyakrabban fordulnak elő, kevesebb bájttal vannak kódolva. Úgy tervezték, hogy visszafelé kompatibilis legyen az ASCII- vel: a Unicode első 128 karaktere, amely egy az egyben megfelel az ASCII-nek, egyetlen bájttal van kódolva, ugyanazzal a bináris értékkel, mint az ASCII, így az érvényes ASCII szöveg érvényes UTF-8 -kódolt Unicode is.