OCR sunt cele de recunoaștere optică a caracterelor sau cunoscute și în spaniolă sub numele de recunoaștere optică a caracterelor. OCR este un software care permite recunoașterea textului, producând o imagine a acestuia pentru a-l transforma într-o succesiune de caractere și apoi să le salvați într-un format dat care poate fi utilizat în acele programe de editare a textului. Cu alte cuvinte, datorită acestei noi tehnologii, orice tip de text sau document, inclusiv fișiere PDF, hârtii scanate sau chiar imagini preluate de pe camerele digitale, pot fi convertite în date pentru a avea posibilitatea de a fi editate.
Acest software funcționează în felul următor, mai întâi analizează fiecare parte a imaginii documentului în cauză; distribuie pagina în bucăți, cum ar fi tabele, imagini, blocuri de text, printre altele; apoi liniile sunt distribuite în cuvinte pentru a deveni ulterior caractere; și din moment ce personajele au fost deja indicate, software-ul face comparația cu un grup de imagini ale modelului. Acest lucru progresează în funcție de seria de ipoteze despre ce este fiecare personaj; și pe baza acestor ipoteze, analizează diferitele variante de rupere a liniilor în cuvinte și cuvinte în caractere. Și după un număr mare de analize și procesări ale ipotezelor, programul prezintă în cele din urmă textul deja recunoscut și transformat cu un nou format.
Trebuie remarcat faptul că astăzi există o serie de programe pe care piața computerelor le oferă pe baza OCR precum OmniPage, Abbyy Fine Reader sau READiris. YY care au capacitatea, nu numai de a analiza și recunoaște un text ca atare, ci și de a recunoaște formatul și stilul, dar cu anumite limitări, necesitând astfel ca textul, după ce a fost analizat, să fie editat pentru a face ajustările care sunt solicita.