Страницы 1
Еще одна разминка для ума.
Есть PDF (см. аттач) в нем есть блоки с картинками и мусорный текст. Все блоки с картинками имеют рамку. Задача в автоматическом режиме распарсить PDF и вытащить все картинки. Под вытащить подойдет: 1. закинуть все картинки в Word 2. сложить их в папку по порядку.
Подозреваю, что возможно что-то подобное умеет FineReader. Вопрос в том, как его настроить таким образом, чтобы он работал так как мне надо. Кто плотно с FineReader работал - подскажите.
В каждом блоке может быть произвольная картинка или текст. Задача выкусывать все опираясь именно на рамку. Она во всем тексте одинаковая.
Попутно вопрос линуксоидам. Как бы вы решили эту задачу своими линуксовыми средствами?
Неактивен
Попутно вопрос линуксоидам. Как бы вы решили эту задачу своими линуксовыми средствами?
pdfimages file_name.pdf image_prefix
Yesterday it worked.
Today it is not working.
Windows is like that.
Неактивен
ikkunan salvataja, поясни. Можешь продемонстрировать на примере что получится?
Неактивен
Можешь продемонстрировать на примере что получится?
/forum/img/external/rghost.ru/private/39641446/89a5c … 5d42ee69ee
Yesterday it worked.
Today it is not working.
Windows is like that.
Неактивен
MOP3E, ikkunan salvataja, к сожалению оказалось что вариант не канает абсолютно. В оригинале картинки впилены не как картинки, а как рамка + картинка, в результате все программы экспорта их не правильно обрабатывают.
Остается только вариант мутить что-то с FineReader т.к. тут нужна система по распознаванию этих прямоугольников.
Неактивен
В оригинале картинки впилены не как картинки, а как рамка + картинка,
А оригинал можно?
Yesterday it worked.
Today it is not working.
Windows is like that.
Неактивен
ikkunan salvataja, к сожалению оригинал дать не могу.
Придется поверить на слово, что все системы, что там идет фрейм, который все экспортеры не правильно обрабатывают. Плюс почему-то этого фрейма цельые картинки на части разбивают. Ну оно и понятно внутри фрейма изображения могут быть не литые.
Неактивен
Плюс почему-то этого фрейма цельые картинки на части разбивают.
Ну с картинками по частям сталкиваться приходилось, думаю это делается намеренно. montage из image magick здесь выручает.
Yesterday it worked.
Today it is not working.
Windows is like that.
Неактивен
ikkunan salvataja, как оно работает?
Здесь единственный критерий - это определенного цвета блок, который присутствует на всех картинках и обрамляет их.
Неактивен
как оно работает?
Ну там, где с разрезанными картинками сталкивался я, особых трудностей не было. Картинки были нарезаны на тонкие горизонтальные полоски и в вытащенных изображениях нумерация была последовательная. Просто вытаскивал все фрагменты одного изображения в отдельный каталог и там давал montage с -tile Nx1, где N это количество кусков.
Для твоего случая думаю готового рецепта нет. Можно попробовать digikam на всю эту байду натравить, он умеет искать похожие изображения и по идее если тыркнуть ему в первый блок он по цвету должен и остальные блоки обрамления показать, которые того же цвета, ну может придётся ему нужный уровень распознавания задать, чтобы как надо срабатывало. Ну а дальше уже будет понятно с какими номерами изображения надо в общую картинку с помощью montage склеивать.
Правда у digikam есть существенный недостаток, он с каталогами изображений работать не умеет, только с альбомами.
Yesterday it worked.
Today it is not working.
Windows is like that.
Неактивен
Страницы 1