Lidé mají odvěkou touhu získávat a shromažďovat informace. To není v informační době problém. Co je omezené, je kapacita médií a úložišť. Proto vznikaly a stále vznikají různé metody, jak na nich ušetřit místo a mít tak prostor pro další data. Také kapacitou přenosových kanálů se musí nakládat ekonomicky a každá možnost, jak jimi protlačit více informací za časovou jednotku, přijde telekomunikačním společnostem vhod. Právě komprese umožnila vznik a rychlý rozvoj technologií pro vzdálený přenos obrazu či videa.
Komprese je speciální druh kódování dat za účelem zmenšení jejich objemu odstraněním nadbytečné informace (redundance). Kompresní algoritmus definuje přesný postup, jak toho docílit. Musí obsahovat i odpovídající opačný postup pro dekompresi, který původní informaci zpětně zrekonstruuje. Kompresní algoritmus převádí zdrojové jednotky (symboly a posloupnosti symbolů – tzv. slova a posloupnosti slov) na posloupnosti bitů. Zdrojové jednotky se mohou označovat jako vzory (originály) a výsledné posloupnosti jako obrazy.
Komprese je založená na odstraňování nadbytečnosti (redundance), která je způsobena především:
Obecným principem komprese je přiřazení krátkých kódů častým symbolům a delších kódů symbolům vzácnějším.
Ztrátová komprese využívá nedokonalosti lidských smyslů. Je pouhou aproximací originálu – z informace odstraňuje detaily do té míry, dokud ji ještě lze uspokojivě rekonstruovat. Tento způsob komprese se nejčastěji používá pro hudbu, video a obrázky. Příklady: JPEG, H.264, MPEG.
Bezeztrátová komprese, jak již název napovídá, zachovává vždy kompletní informaci. Dekomprimovaná data jsou identická originálu. Příklady: LZ77, LZ78, LZW, Huffmanovo kódování.
Statistické metody komprese jsou založené na pravděpodobnosti výskytu jednotlivých symbolů.
Slovníkové metody jako svůj model používají slovník – speciální dynamickou datovou strukturu, které se postupně vytváří během čtení vstupu.
Rodina statistických bajtově-orientovaných slovníkových kompresních metod je primárně určená pro kompresi textů v přirozeném jazyce a zdrojových kódů.
Aby bylo možné jednotlivé metody komprese objektivně porovnávat, vzniklo několik standardních benchmarků a metrik. Mezi nejznámější benchmarky patří již starší, ale stále používané množiny souborů: Calgary Corpus a Canterbury Corpus. Další korpusy jsou již ve vývoji, mimo jiné i na ČVUT.