От оптического распознавания хаоса к оптическому распознаванию символов: автостопом по сортировке…

Вы устали щуриться на экран, пытаясь разобраться в искаженном тексте, выдаваемом вашей ультрасовременной системой OCR? Вы когда-нибудь чувствовали, что ваш вывод OCR больше похож на авангардную поэзию, чем на простой английский? Что ж, вы не одиноки. Известно, что системы OCR преобразуют простое текстовое изображение в строку символов, которые выглядят так, как будто они были случайно набраны на клавиатуре. Но не беспокойтесь! Наше руководство поможет вам освоить волшебство машинного обучения, которое превратит ваши ошибки оптического распознавания символов в согласованные структурированные данные. Пристегнитесь, пока мы путешествуем по этому миру машинно зашифрованной тарабарщины.

OCR: система, которая иногда забывает свой английский

OCR, инструмент, который обещал преобразовать изображения печатного или рукописного текста в машинно-кодированный текст, кажется, страдает от случайных приступов амнезии, производя результат, который даже машина Enigma не смогла бы расшифровать.

Подготовка к битве: предварительная обработка

Прежде чем наши смелые алгоритмы машинного обучения приготовятся к большой битве против тарабарщины, им нужен чистый холст. Думайте об этом как о уборке в своей комнате перед началом занятий (или откладывании на потом, если вы чем-то похожи на меня).

def preprocess_text(text):
    text = text.lower()
    text = re.sub(r'[^\w\s]', '', text)
    text = re.sub(r'\s+', ' ', text)
    return text

Это включает в себя:
– Токенизацию текста в слова (то есть разрезание его на небольшие кусочки)
– Преобразование текста в нижний регистр (здесь мы все равны!)
– Отображение специальных символов и знаки препинания на выходе (Извините, лишнего драматизма не надо!)
- Избавляемся от лишних пробелов (ведь никто не любит пустоту, да?)

Сборка Мстителей с машинным обучением (и Волшебника)

Познакомьтесь с нашими супергероями — машинным переводом, исправлением орфографии, глубоким обучением и новым дополнением — Fuzzy Logic Sorcerer!:

- Машинный перевод. Этот изящный трюк рассматривает искаженный вывод OCR как «иностранный язык», а исправленный текст — как старый добрый «английский». Это как Google Translate для мира OCR. Как это круто?

- Орфографическая коррекция: это наш супергерой, обладающий способностью вычитывать. Используя алгоритмы исправления орфографии, такие как расстояние редактирования, он выявляет орфографические ошибки и исправляет их.

Подходы к глубокому обучению: введите наш Халк, сверточно-рекуррентные нейронные сети (CRNN). CRNN объединяют возможности полностью сверточных сетей, глубокого двунаправленного LSTM и уровня транскрипции, чтобы преодолевать ошибки OCR, как чемпион.
Волшебник нечеткой логики. Новое пополнение в команде, обладающее уникальной способностью сплетать магию с нечеткой логикой, а точнее, с расстоянием Левенштейна — заклинанием, предназначенным для поиска слов, наиболее похожих на наш беспорядок. вверх.

Вот фрагмент того, как собираются наши Мстители:

pip install pyspellchecker
from spellchecker import SpellChecker
import re

def preprocess_text(text):
    text = text.lower()
    text = re.sub(r'[^\w\s]', '', text)
    text = re.sub(r'\s+', ' ', text)
    return text

def correct_text(text):
    spell = SpellChecker()
    corrected_text = []
    
    words = preprocess_text(text).split()
    for word in words:
        corrected_word = spell.correction(word)
        corrected_text.append(corrected_word)
    
    return ' '.join(corrected_text)

ocr_output = "Teh qikc brown fox jmps ovr the lzay dog"
corrected_text = correct_text(ocr_output)
print(corrected_text)

При этом наш текст трансформируется из «Teh qikc brown fox jmps ovr the lzay dog» в «быстрая коричневая лиса перепрыгивает через ленивую собаку». Нет пота!

Время обучения!

Точно так же, как наши супергерои нуждаются в обучении, каждая модель должна быть отточена на подходящих наборах данных. Как только они попали в

тренажерный зал с машинным обучением и накачанный, они могут поиграть мускулами над выводом OCR.

OCR 2.0: больше не ящик Пандоры

В конце концов, с машинным переводом, исправлением орфографии и CRNN в нашем арсенале мы можем перейти от «оптического распознавания хаоса» к «оптическому распознаванию символов». Теперь, когда вывод OCR бросает вам вызов, помните, что у вас есть команда Мстителей (и Волшебник), к которым нужно обратиться. Давай, ОКР!