Объявление

Односложные и бессмысленные темы, не несущие полезную нагрузку или не содержащие в себе вопрос, будут удаляться!

#1 08-08-12 14:15:36

Luca
Участник
Здесь с 03-09-09
Сообщений: 1,545
Windows XPFirefox 14.0

Распарсить PDF

Еще одна разминка для ума.
Есть PDF (см. аттач) в нем есть блоки с картинками и мусорный текст. Все блоки с картинками имеют рамку. Задача в автоматическом режиме распарсить PDF и вытащить все картинки. Под вытащить подойдет: 1. закинуть все картинки в Word 2. сложить их в папку по порядку.

Подозреваю, что возможно что-то подобное умеет FineReader. Вопрос в том, как его настроить таким образом, чтобы он работал так как мне надо. Кто плотно с FineReader работал - подскажите.

В каждом блоке может быть произвольная картинка или текст. Задача выкусывать все опираясь именно на рамку. Она во всем тексте одинаковая.

Попутно вопрос линуксоидам. Как бы вы решили эту задачу своими линуксовыми средствами?

1.zip

Вне форума

#2 08-08-12 14:35:21

ikkunan salvataja
Участник
Здесь с 30-01-10
Сообщений: 2,803
LinuxFirefox 10.0

Re: Распарсить PDF

Luca пишет:

Попутно вопрос линуксоидам. Как бы вы решили эту задачу своими линуксовыми средствами?

pdfimages file_name.pdf image_prefix


Yesterday it worked.
Today it is not working.
Windows is like that.

Вне форума

#3 08-08-12 14:50:16

Luca
Участник
Здесь с 03-09-09
Сообщений: 1,545
Windows XPFirefox 14.0

Re: Распарсить PDF

ikkunan salvataja, поясни. Можешь продемонстрировать на примере что получится?

Вне форума

#4 08-08-12 15:01:04

ikkunan salvataja
Участник
Здесь с 30-01-10
Сообщений: 2,803
LinuxFirefox 10.0

Re: Распарсить PDF

Luca пишет:

Можешь продемонстрировать на примере что получится?

rghost.ru/private/39641446/89a5cf55b587 … 5d42ee69ee


Yesterday it worked.
Today it is not working.
Windows is like that.

Вне форума

#5 08-08-12 16:27:28

MOP3E
Участник
Здесь с 05-10-09
Сообщений: 4,208
Windows 7Firefox 14.0

Re: Распарсить PDF

Не понимаю, в чём проблема: сейчас дал запрос гуглю, он с десяток программ выдал на эту тему. Именно таких, которые распаковывают изображения, сохранённые в PDF. Среди них есть и бесплатные. Ничего рекламировать не буду, так как сам не пробовал ни одну.


Я не игрушечный. Я, б*я, коллекционный! (с) Duke Nukem Forever
Я не специалист по [вставить название]. Мне главное концептуально решить задачу! (с) АхаRu.
Линукс - это альтернативная ОС о которой известно, что она не является ОС ну вот просто ни разу. (с) Linups_Troolvalds.
А с какого такого перепугу пользователей линукса должно быть больше 1%? (с) petrun

Вне форума

#6 08-08-12 20:53:47

Luca
Участник
Здесь с 03-09-09
Сообщений: 1,545
Windows 7Firefox 14.0

Re: Распарсить PDF

MOP3E, ikkunan salvataja, к сожалению оказалось что вариант не канает абсолютно. В оригинале картинки впилены не как картинки, а как рамка + картинка, в результате все программы экспорта их не правильно обрабатывают.

Остается только вариант мутить что-то с FineReader т.к. тут нужна система по распознаванию этих прямоугольников.

Вне форума

#7 08-08-12 21:21:43

MOP3E
Участник
Здесь с 05-10-09
Сообщений: 4,208
Windows 7Firefox 14.0

Re: Распарсить PDF

Luca пишет:

Остается только вариант мутить что-то с FineReader т.к. тут нужна система по распознаванию этих прямоугольников.

"Ножницы" спасут отца русской демократии. Ну и хорошая трава, конечно! lol


Я не игрушечный. Я, б*я, коллекционный! (с) Duke Nukem Forever
Я не специалист по [вставить название]. Мне главное концептуально решить задачу! (с) АхаRu.
Линукс - это альтернативная ОС о которой известно, что она не является ОС ну вот просто ни разу. (с) Linups_Troolvalds.
А с какого такого перепугу пользователей линукса должно быть больше 1%? (с) petrun

Вне форума

#8 08-08-12 21:32:03

ikkunan salvataja
Участник
Здесь с 30-01-10
Сообщений: 2,803
LinuxFirefox 10.0

Re: Распарсить PDF

Luca пишет:

В оригинале картинки впилены не как картинки, а как рамка + картинка,

А оригинал можно?


Yesterday it worked.
Today it is not working.
Windows is like that.

Вне форума

#9 08-08-12 21:47:54

Luca
Участник
Здесь с 03-09-09
Сообщений: 1,545
Windows 7Firefox 14.0

Re: Распарсить PDF

ikkunan salvataja, к сожалению оригинал дать не могу.
Придется поверить на слово, что все системы, что там идет фрейм, который все экспортеры не правильно обрабатывают. Плюс почему-то этого фрейма цельые картинки на части разбивают. Ну оно и понятно внутри фрейма изображения могут быть не литые.

Вне форума

#10 08-08-12 21:55:20

ikkunan salvataja
Участник
Здесь с 30-01-10
Сообщений: 2,803
LinuxFirefox 10.0

Re: Распарсить PDF

Luca пишет:

Плюс почему-то этого фрейма цельые картинки на части разбивают.

Ну с картинками по частям сталкиваться приходилось, думаю это делается намеренно. montage из image magick здесь выручает.


Yesterday it worked.
Today it is not working.
Windows is like that.

Вне форума

#11 09-08-12 00:09:00

Luca
Участник
Здесь с 03-09-09
Сообщений: 1,545
Windows 7Firefox 14.0

Re: Распарсить PDF

ikkunan salvataja, как оно работает?
Здесь единственный критерий - это определенного цвета блок, который присутствует на всех картинках и обрамляет их.

Вне форума

#12 09-08-12 08:37:12

MOP3E
Участник
Здесь с 05-10-09
Сообщений: 4,208
Windows 7Firefox 14.0

Re: Распарсить PDF

Luca пишет:

ikkunan salvataja, как оно работает?
Здесь единственный критерий - это определенного цвета блок, который присутствует на всех картинках и обрамляет их.

А что - у тебя действительно так много картинок в этом документе? Я ведь на полном серьёзе про "Ножницы" писал. Ведь ты уже сутки пытаешься эвристическим методом решить такую проблему, которая обычным тупым перебором решается за полчаса-час. smile

Отредактировано MOP3E (09-08-12 08:39:11)


Я не игрушечный. Я, б*я, коллекционный! (с) Duke Nukem Forever
Я не специалист по [вставить название]. Мне главное концептуально решить задачу! (с) АхаRu.
Линукс - это альтернативная ОС о которой известно, что она не является ОС ну вот просто ни разу. (с) Linups_Troolvalds.
А с какого такого перепугу пользователей линукса должно быть больше 1%? (с) petrun

Вне форума

#13 09-08-12 08:44:56

ikkunan salvataja
Участник
Здесь с 30-01-10
Сообщений: 2,803
LinuxFirefox 10.0

Re: Распарсить PDF

Luca пишет:

как оно работает?

Ну там, где с разрезанными картинками сталкивался я, особых трудностей не было. Картинки были нарезаны на тонкие горизонтальные полоски и в вытащенных изображениях нумерация была последовательная. Просто вытаскивал все фрагменты одного изображения в отдельный каталог и там давал montage  с -tile Nx1, где N это количество кусков.
Для твоего случая думаю готового рецепта нет. Можно попробовать digikam на всю эту байду натравить, он умеет искать похожие изображения и по идее если тыркнуть ему в первый блок он по цвету должен и остальные блоки обрамления показать, которые того же цвета, ну может придётся ему нужный уровень распознавания задать, чтобы как надо срабатывало. Ну а дальше уже будет понятно с какими номерами изображения надо в общую картинку с помощью montage склеивать.
Правда у digikam есть существенный недостаток, он с каталогами изображений работать не умеет, только с альбомами.


Yesterday it worked.
Today it is not working.
Windows is like that.

Вне форума

Сейчас в этой теме пользователей: 0, гостей: 0

Подвал форума

Под управлением FluxBB
Модифицировал Visman

[ Сгенерировано за 0.010 сек, 7 запросов выполнено - Использовано памяти: 1.72 Мбайт (Пик: 1.81 Мбайт) ]