Comprimarea datelor fără pierderi este o metodă computerizată de stocare a fișierelor și de combinare a acestora în arhive care ocupă mai puțin spațiu fizic în memorie decât ar fi altfel fișierele, fără a pierde informațiile pe care le conțin în proces. Prin contrast, compresia cu pierderi reduce dimensiunea fișierului cu aproximări ale datelor, iar restaurarea este un facsimil apropiat de conținutul fișierului original. Algoritmii utilizați pentru comprimarea datelor fără pierderi sunt, în esență, un set de reguli simplificate sau instrucțiuni pentru codificarea informațiilor folosind mai puțini biți de memorie, păstrând în același timp capacitatea de a restaura datele în formatul original fără modificare.
Unele tipuri obișnuite de fișiere care utilizează compresia fără pierderi de date includ arhivele de fișiere zip bazate pe computer International Business Machines (IBM) și arhivele de fișiere gzip Unix. De asemenea, sunt utilizate formatele de fișiere imagine, cum ar fi formatul de schimb grafic (GIF), grafica de rețea portabilă (PNG) și fișierele Bitmap (BMP). Algoritmii de comprimare a datelor variază, de asemenea, în funcție de tipul de fișier care este comprimat, cu variații comune pentru fișierele text, audio și program executabil.
Cele două categorii principale de algoritmi pentru comprimarea datelor fără pierderi se bazează pe un model statistic al datelor de intrare și un model de mapare a șirurilor de biți dintr-un fișier de date. Algoritmii statistici de rutină utilizați sunt transformarea Burrows-Wheeler (BWT), algoritmul Abraham Lempel și Jacob Ziv (LZ77) publicat în 1977 și metoda Predicție prin potrivire parțială (PPM). Algoritmii de cartografiere folosiți frecvent includ algoritmul de codare Huffman și codarea aritmetică.
Unii algoritmi sunt instrumente open source, iar alții sunt proprietari și brevetați, deși brevetele pentru unii au expirat și acum. Acest lucru poate duce la aplicarea metodelor de compresie la un format de fișier greșit. Datorită faptului că anumite metode de comprimare a datelor sunt incompatibile între ele, stocarea fișierelor mixte poate adesea degrada o componentă a unui fișier. De exemplu, un fișier imagine cu text comprimat poate prezenta o degradare a lizibilității textului odată restaurat. Scanerele și software-ul care utilizează inducția gramaticală pot extrage semnificația din textul stocat împreună cu fișierele imagine, aplicând ceea ce este cunoscut sub numele de analiză semantică latentă (LSA).
O altă formă de metodă de algoritm de mapare pentru compresia fără pierderi a datelor este utilizarea codului universal. Mai flexibil de utilizat decât codarea Huffman, nu necesită cunoașterea valorilor întregi maxime în avans. Codarea Huffman și codarea aritmetică produc totuși rate de compresie a datelor mai bune. De asemenea, se depun eforturi pentru a produce metode universale de compresie a datelor care ar crea algoritmi care funcționează bine pentru o varietate de surse.