🍋
Menu
PDF

OCR

OCR (Reconnaissance optique de caractères)

Une technologie qui analyse les images de texte imprimé ou manuscrit et les convertit en texte modifiable et interrogeable par un ordinateur.

Détail technique

Les pipelines OCR modernes comprennent le prétraitement de l'image (redressement, binarisation, suppression du bruit), la segmentation du texte (détection des blocs, lignes et mots), la reconnaissance de caractères (traditionnellement par mise en correspondance de modèles, aujourd'hui par réseaux neuronaux convolutifs ou Transformers) et le post-traitement (correction orthographique, analyse de mise en page). Tesseract 5 utilise un réseau LSTM, tandis que les systèmes basés sur les Transformers (TrOCR, PaddleOCR) obtiennent de meilleurs résultats sur l'écriture manuscrite.

Exemple

```javascript
// OCR: PDF manipulation example
import { PDFDocument } from 'pdf-lib';

const pdfDoc = await PDFDocument.load(fileBytes);
const pages = pdfDoc.getPages();
console.log(`Pages: ${pages.length}`);
```

Outils associés

Termes associés