ilyaovodov / angelinareader Goto Github PK
View Code? Open in Web Editor NEWAngelina Braille Reader. Braille photo -> text.
Home Page: http://angelina-reader.ru
Angelina Braille Reader. Braille photo -> text.
Home Page: http://angelina-reader.ru
В общем, то, что касается CEO
При отправке писем сделать поле с комментом и подстановку адреса Angelina
А к кнопке отправки добавить "сообщить об ошибке"
При отправке письма заменить отправителя на имя и мейл пользователя
... в т.ч. проверить, что если в качестве E-mail указана фигня, должно быть нормальное сообщение
... которая была до PR #46
Будет удобно если с сайта можно будет попасть на страницу проекта в GitHub.
Сделать более подробный help
Как минимум нужен интерфейс на EN с возможностью добавления других языков. Выбор языка в UI.
Дополнительно - выбор языка распознаваемого текста по умолчанию в зависимости от выбранного языка UI.
Текущая реализация не позволяет отойти от использования серверов с GPU. Достаточно высокое время обработки изображения на стандартных CPU серверах AWS/GCP может стать ещё выше после внедрения языковых моделей. Одно из решений этой проблемы - реализация более эффективной архитектуры object detector-a. Подобный процесс можно разделить на следующие шаги:
EfficientDet в 2-8 раз быстрее RetinaNet на CPU. Для его внедрения нужно:
Модифицировать основу https://github.com/rwightman/efficientdet-pytorch
Обучить модель для русского языка
Обновление инструментов проверки скорости и качества работы
Скрипты validate_retinanet не подходят для другой архитектуры.
Перевод в ONNX (опционально - с квантизацией) может положительно сказаться на эффективности
Сейчас если не выбрана ни одна галочка (согласен-не согласен), то ошибка высвечивается только после того, как сделано фото или выбран файл. Надо проверять до выбора файла.
При этом отсутствие выбора по умолчанию сделано специально, чтобы выбор был осмысленным.
При возникновении ошибок на стороне сервера должна быть возможность:
Сейчас картинка с клиента отсылается на сервер в исходном формате, а на сервере масштабируется до ширины 1024, требуемой для отправки в нейросеть. В результате по сети гоняется в разы больший объем данных чем надо, что при плохом канале создает задержки.
Надо уменьшать картинку до отправки на клиенте.
с ограничениями:
Сейчас запуск распознавания происходит синхронно с запросом пользователя.
Надо отделить одно от другого: чтобы задача на распознавание ставилась в очередь, а код, вызванный пользователем, или сразу возвращал управление пользователю, или ждал небольшое время, потом возвращал, даже если результата нет, и потом ожидал завершения распознавания.
1 мин 6 с интерпретируется как 1 ми№ 6 с
Знак ударения - 4 точка - распознается как апостроф (3 точка)
Параллельно надо заменить разметку.
Возможно (предположительно), с использованием liblouis.
Скооперироваться с мужем T.E., который это сделал.
The host angelina-reader.ovdv.ru
doesn't exist anymore and the file retina_chars_eced60.clr.008
is not available on any other site.
[mvutcovi@laptop AngelinaReader]$ wget -O weights/model.t7 http://angelina-reader.ovdv.ru/retina_chars_eced60.clr.008
--2023-02-23 13:47:29-- http://angelina-reader.ovdv.ru/retina_chars_eced60.clr.008
Resolving angelina-reader.ovdv.ru (angelina-reader.ovdv.ru)... failed: Name or service not known.
wget: unable to resolve host address ‘angelina-reader.ovdv.ru’
[mvutcovi@laptop AngelinaReader]$ host angelina-reader.ovdv.ru
Host angelina-reader.ovdv.ru not found: 3(NXDOMAIN)
[mvutcovi@laptop AngelinaReader]$
Апостроф - 3 точка (в данном случае обозначает мягкость звука Й)
Ударение - 4 точка, перед буквой (сейчас распознается как апостроф, нужен отдельный знак)
Проблема в том, что конфликтует с английским апострофом
Сейчас изображение, правильно повернутое средствами Windows, если отключен авто-поиск ориентации, остается повернутым не правильно. Т.к. при открытии картинки не учитывается информация о повороте из EXIF.
Илья, я так понял, вам удобнее по-русски. Если скажете, что нужно репортовать по-английски, не вопрос, переведу :).
Суть в следующем: существует три формы греческого Брайля — немного об этом на моей страничке про греческий Брайль.
Есть стандарт, который используется в Греции и республике Кипр как литературный Брайль; есть международный греческий Брайль, который используется по всему миру в формулах и математических выражениях; и есть советский математический стандарт, который слабо отличается от международного стандарта.
Так вот, на данный момент в Angelina Braille Reader используется именно советский математический стандарт (если хотите, можете посмотреть отличия по точкам на моей странице). Это неплохо само по себе, но если кому-то придёт в голову распознавать реальную греческую книжку, он столкнётся с непредсказуемыми, мягко говоря, результатами. Попытаюсь разобраться в коде и организовать пулл-реквест по этому поводу, но пока логирую здесь, чтобы если что, вы знали, в чём проблема.
Сделать это надо при регистрации, а при работе без регистрации, когда она будет - каждый раз.
Или снять галочку "согласен" в форме результатов, или удалить результат (для использования без регистрации только этот вариант)
Object detector обучается на кропах и "не видит" контекста конкретных символов. Простая замена архитектурных элементов или функции потерь с этим не поможет, нужно переосмысление процесса обучения. Возможна постобработка с помощью языковых моделей.
= распознается как ( во фразах типа "3дм. = 30см."
В целом проблема в том, что не понятно как формализовать выход из математического режима. Надо применять ML
Поиск ориентации по итогам распознавания исходной ориентации, без пробных запусков на повернутых картинках.
I noticed that Liblouis has moved from http://liblouis.org to https://liblouis.io/ - please correct this in the installation instructions.
I think it's a great idea to include Liblouis support - I'd like to add Grade-2 support for DE, but unfortunately i ran into problems with the installation procedure described here: https://raw.githubusercontent.com/liblouis/liblouis/master/README.windows
and here: https://github.com/liblouis/liblouis/tree/master/python
Although i could get liblouis.dll and liblouis.lib V3.26.0 compiled and the setup.py script installed the .egg, run_local.py fails with error module 'louis' has no attribute 'backTranslateString'... It seems that the module is not correclty installed, as import louis
works but dir(louis)
does not show any functions. (I just tried the installation procedure for Windows by now).
Any ideas?
Жалуются на случаи, когда приходится повторно заходить в приложение несмотря на поставленную галочку "запомнить меня".
Я не знаю, при каких условиях это происходит.
Отдельный пункт "история" в меню.
Показывается список ранее распознанных страниц. Минимум - имена файлов. Опционально - предпросмотр содержания, например, в виде первых строк текста.
При выборе документа - открывается в стандартной странице "результаты".
Опционально - возможность выбора нескольких страниц и открытия их в одном окне (страница "результаты" это уже умеет).
Предполагаемая архитектура:
Предполагаемые шаги:
При работе с регистрацией - запоминать предпочтения пользователя, и использовать их при открытии страницы:
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.