Распарсить PDF (Страница 1) / Программирование / Форум StopLinux

Объявление

Kwork.ru - услуги фрилансеров от 500 руб.

#1 08-08-12 15:15:36

Luca
Участник
Зарегистрирован: 03-09-09
Сообщений: 1,413
Windows XPFirefox 14.0.1

Распарсить PDF

Еще одна разминка для ума.
Есть PDF (см. аттач) в нем есть блоки с картинками и мусорный текст. Все блоки с картинками имеют рамку. Задача в автоматическом режиме распарсить PDF и вытащить все картинки. Под вытащить подойдет: 1. закинуть все картинки в Word 2. сложить их в папку по порядку.

Подозреваю, что возможно что-то подобное умеет FineReader. Вопрос в том, как его настроить таким образом, чтобы он работал так как мне надо. Кто плотно с FineReader работал - подскажите.

В каждом блоке может быть произвольная картинка или текст. Задача выкусывать все опираясь именно на рамку. Она во всем тексте одинаковая.

Попутно вопрос линуксоидам. Как бы вы решили эту задачу своими линуксовыми средствами?

1.zip

Неактивен

#2 08-08-12 15:35:21

ikkunan salvataja
Участник
Зарегистрирован: 30-01-10
Сообщений: 2,688
LinuxFirefox 10.0.5

Re: Распарсить PDF

Luca пишет:

Попутно вопрос линуксоидам. Как бы вы решили эту задачу своими линуксовыми средствами?

pdfimages file_name.pdf image_prefix


Yesterday it worked.
Today it is not working.
Windows is like that.

Неактивен

#3 08-08-12 15:50:16

Luca
Участник
Зарегистрирован: 03-09-09
Сообщений: 1,413
Windows XPFirefox 14.0.1

Re: Распарсить PDF

ikkunan salvataja, поясни. Можешь продемонстрировать на примере что получится?

Неактивен

#4 08-08-12 16:01:04

ikkunan salvataja
Участник
Зарегистрирован: 30-01-10
Сообщений: 2,688
LinuxFirefox 10.0.5

Re: Распарсить PDF

Luca пишет:

Можешь продемонстрировать на примере что получится?

/forum/img/external/rghost.ru/private/39641446/89a5c … 5d42ee69ee


Yesterday it worked.
Today it is not working.
Windows is like that.

Неактивен

Следующие пользователи поставили вам "+1":Luca

#5 08-08-12 21:53:47

Luca
Участник
Зарегистрирован: 03-09-09
Сообщений: 1,413
Windows 7Firefox 14.0.1

Re: Распарсить PDF

MOP3E, ikkunan salvataja, к сожалению оказалось что вариант не канает абсолютно. В оригинале картинки впилены не как картинки, а как рамка + картинка, в результате все программы экспорта их не правильно обрабатывают.

Остается только вариант мутить что-то с FineReader т.к. тут нужна система по распознаванию этих прямоугольников.

Неактивен

#6 08-08-12 22:32:03

ikkunan salvataja
Участник
Зарегистрирован: 30-01-10
Сообщений: 2,688
LinuxFirefox 10.0.5

Re: Распарсить PDF

Luca пишет:

В оригинале картинки впилены не как картинки, а как рамка + картинка,

А оригинал можно?


Yesterday it worked.
Today it is not working.
Windows is like that.

Неактивен

#7 08-08-12 22:47:54

Luca
Участник
Зарегистрирован: 03-09-09
Сообщений: 1,413
Windows 7Firefox 14.0.1

Re: Распарсить PDF

ikkunan salvataja, к сожалению оригинал дать не могу.
Придется поверить на слово, что все системы, что там идет фрейм, который все экспортеры не правильно обрабатывают. Плюс почему-то этого фрейма цельые картинки на части разбивают. Ну оно и понятно внутри фрейма изображения могут быть не литые.

Неактивен

#8 08-08-12 22:55:20

ikkunan salvataja
Участник
Зарегистрирован: 30-01-10
Сообщений: 2,688
LinuxFirefox 10.0.5

Re: Распарсить PDF

Luca пишет:

Плюс почему-то этого фрейма цельые картинки на части разбивают.

Ну с картинками по частям сталкиваться приходилось, думаю это делается намеренно. montage из image magick здесь выручает.


Yesterday it worked.
Today it is not working.
Windows is like that.

Неактивен

#9 09-08-12 01:09:00

Luca
Участник
Зарегистрирован: 03-09-09
Сообщений: 1,413
Windows 7Firefox 14.0.1

Re: Распарсить PDF

ikkunan salvataja, как оно работает?
Здесь единственный критерий - это определенного цвета блок, который присутствует на всех картинках и обрамляет их.

Неактивен

#10 09-08-12 09:44:56

ikkunan salvataja
Участник
Зарегистрирован: 30-01-10
Сообщений: 2,688
LinuxFirefox 10.0.5

Re: Распарсить PDF

Luca пишет:

как оно работает?

Ну там, где с разрезанными картинками сталкивался я, особых трудностей не было. Картинки были нарезаны на тонкие горизонтальные полоски и в вытащенных изображениях нумерация была последовательная. Просто вытаскивал все фрагменты одного изображения в отдельный каталог и там давал montage  с -tile Nx1, где N это количество кусков.
Для твоего случая думаю готового рецепта нет. Можно попробовать digikam на всю эту байду натравить, он умеет искать похожие изображения и по идее если тыркнуть ему в первый блок он по цвету должен и остальные блоки обрамления показать, которые того же цвета, ну может придётся ему нужный уровень распознавания задать, чтобы как надо срабатывало. Ну а дальше уже будет понятно с какими номерами изображения надо в общую картинку с помощью montage склеивать.
Правда у digikam есть существенный недостаток, он с каталогами изображений работать не умеет, только с альбомами.


Yesterday it worked.
Today it is not working.
Windows is like that.

Неактивен

Kwork.ru - услуги фрилансеров от 500 руб.
Мой VPS с 2016 года !
✅ Виртуальные от 300 ₽/месяц, RAM 1-10GB, DISK 20-360 GB;
✅ Выделенные от 3000 ₽/месяц. RAM 4-64GB, DISK до 4TB;
✅ Intel Xeon, SSD, XEN, iLO/KVM, Windows/Linux, Администрирование;
✅ Бесплатно Full Backup и Anti-DDoS.





Подвал форума

Под управлением FluxBB
Модифицировал Visman

Яндекс.Метрика