Tesseract OCR
| Tesseract OCR | |
|---|---|
| Ошибка Lua в Модуль:Wikidata на строке 1098: attempt to index field 'wikibase' (a nil value). | |
| Ошибка Lua в Модуль:Wikidata на строке 288: attempt to index field 'wikibase' (a nil value). | |
| Тип | оптическое распознавание символов |
| Автор | Ошибка Lua в Модуль:Wikidata на строке 1098: attempt to index field 'wikibase' (a nil value). |
| Разработчики | Hewlett-Packard, Google |
| Интерфейс | командная строка |
| Операционная система | Linux, Mac OS X и др. UNIX-подобные, Windows |
| Первый выпуск | середина 1980-х |
| Последняя версия | Ошибка Lua в Модуль:Wikidata на строке 1098: attempt to index field 'wikibase' (a nil value). |
| Кандидат в релизы | Ошибка Lua в Модуль:Wikidata на строке 1098: attempt to index field 'wikibase' (a nil value). |
| Бета-версия | Ошибка Lua в Модуль:Wikidata на строке 1098: attempt to index field 'wikibase' (a nil value). |
| Альфа-версия | Ошибка Lua в Модуль:Wikidata на строке 1098: attempt to index field 'wikibase' (a nil value). |
| Тестовая версия | Ошибка Lua в Модуль:Wikidata на строке 1098: attempt to index field 'wikibase' (a nil value). |
Tesseract (с англ. — «тессеракт», от др.-греч. τέσσαρες ἀκτῖνες — «четыре луча») — свободная компьютерная программа для распознавания текстов, разрабатывавшаяся Hewlett-Packard с середины 1980-х по середину 1990-х, а затем 10 лет «пролежавшая на полке». В августе 2006 г. Google купил её и открыл исходные тексты под лицензией Apache 2.0[1] для продолжения разработки. В настоящий момент программа уже работает с UTF-8, поддержка языков (включая русский с версии 3.0[2][3]) осуществляется с помощью дополнительных модулей.
История
Ядро программы Tesseract было разработано в Бристольской лаборатории Hewlett Packard и в Hewlett Packard Co, Greeley штат Колорадо в 1985—1994 годах. В 1996 были проведены значительные изменения и подготовлен порт для Windows. Затем, с 1998 года — частичная миграция с C на C++. Значительная часть кода изначально написана на C, но проводились доработки для совместимости с C++ компиляторами.[1]
В настоящее время Tesseract 3.0 собирается под Linux с GCC 2.95 и старше и под Windows с Visual C++ 2008 Express и старше (поддержка Visual C++ 6 была удалена в версии 3.0[2]).
На данный момент последней версией является Tesseract 5.0, основанная на LSTM[4].
Графические интерфейсы для Tesseract
Для Linux
Для Windows
Сайты на базе движка Tesseract
Зависимости
Интересные факты
Программа Tesseract используется менеджером загрузок Tucan Manager для распознавания текстов в тестах CAPTCHA.
Примечания
- ↑ 1,0 1,1 Vincent, Luc Announcing Tesseract OCR (August 2006). Дата обращения: 26 июня 2008. Архивировано 18 марта 2012 года.
- ↑ 2,0 2,1 Tesseract 3.00 Released. Дата обращения: 5 октября 2010. Архивировано 9 октября 2010 года.
- ↑ Tesseract Download Page. Архивировано 18 марта 2012 года.
- ↑ TESSERACT(1) Manual Page (англ.). Дата обращения: 12 января 2019. Архивировано 5 мая 2020 года.
Ссылки
- Руководство по обучению программы русскому языку
- Страница с исходными кодами Tesseract Source
- Java/.NET GUI фронтенд для движка Tesseract OCR
Шаблон:OCR Шаблон:Свободное и открытое программное обеспечение Google
- Википедия:Cite web (заменить webcitation-архив: deadlink no)
- Программное обеспечение по алфавиту
- Программное обеспечение, разработанное в 1980 году
- Свободное программное обеспечение оптического распознавания символов
- Программное обеспечение с лицензией Apache
- Свободное программное обеспечение, написанное на C++
- Свободное программное обеспечение, написанное на Си
- Свободное программное обеспечение Google
- Кроссплатформенное программное обеспечение
- Программное обеспечение для Linux
- Программное обеспечение для macOS
- Программное обеспечение для Windows