Вы не вошли.
Страницы 1


Еще одна разминка для ума.
Есть PDF (см. аттач) в нем есть блоки с картинками и мусорный текст. Все блоки с картинками имеют рамку. Задача в автоматическом режиме распарсить PDF и вытащить все картинки. Под вытащить подойдет: 1. закинуть все картинки в Word 2. сложить их в папку по порядку.
Подозреваю, что возможно что-то подобное умеет FineReader. Вопрос в том, как его настроить таким образом, чтобы он работал так как мне надо. Кто плотно с FineReader работал - подскажите.
В каждом блоке может быть произвольная картинка или текст. Задача выкусывать все опираясь именно на рамку. Она во всем тексте одинаковая.
Попутно вопрос линуксоидам. Как бы вы решили эту задачу своими линуксовыми средствами?
Вне форума


Попутно вопрос линуксоидам. Как бы вы решили эту задачу своими линуксовыми средствами?
pdfimages file_name.pdf image_prefix
Yesterday it worked.
Today it is not working.
Windows is like that.
Вне форума


ikkunan salvataja, поясни. Можешь продемонстрировать на примере что получится?
Вне форума


Можешь продемонстрировать на примере что получится?
Yesterday it worked.
Today it is not working.
Windows is like that.
Вне форума


Не понимаю, в чём проблема: сейчас дал запрос гуглю, он с десяток программ выдал на эту тему. Именно таких, которые распаковывают изображения, сохранённые в PDF. Среди них есть и бесплатные. Ничего рекламировать не буду, так как сам не пробовал ни одну.
Я не игрушечный. Я, б*я, коллекционный! (с) Duke Nukem Forever
Я не специалист по [вставить название]. Мне главное концептуально решить задачу! (с) АхаRu.
Линукс - это альтернативная ОС о которой известно, что она не является ОС ну вот просто ни разу. (с) Linups_Troolvalds.
А с какого такого перепугу пользователей линукса должно быть больше 1%? (с) petrun
Вне форума


MOP3E, ikkunan salvataja, к сожалению оказалось что вариант не канает абсолютно. В оригинале картинки впилены не как картинки, а как рамка + картинка, в результате все программы экспорта их не правильно обрабатывают.
Остается только вариант мутить что-то с FineReader т.к. тут нужна система по распознаванию этих прямоугольников.
Вне форума


Остается только вариант мутить что-то с FineReader т.к. тут нужна система по распознаванию этих прямоугольников.
"Ножницы" спасут отца русской демократии. Ну и хорошая трава, конечно! 
Я не игрушечный. Я, б*я, коллекционный! (с) Duke Nukem Forever
Я не специалист по [вставить название]. Мне главное концептуально решить задачу! (с) АхаRu.
Линукс - это альтернативная ОС о которой известно, что она не является ОС ну вот просто ни разу. (с) Linups_Troolvalds.
А с какого такого перепугу пользователей линукса должно быть больше 1%? (с) petrun
Вне форума


В оригинале картинки впилены не как картинки, а как рамка + картинка,
А оригинал можно?
Yesterday it worked.
Today it is not working.
Windows is like that.
Вне форума


ikkunan salvataja, к сожалению оригинал дать не могу.
Придется поверить на слово, что все системы, что там идет фрейм, который все экспортеры не правильно обрабатывают. Плюс почему-то этого фрейма цельые картинки на части разбивают. Ну оно и понятно внутри фрейма изображения могут быть не литые.
Вне форума


Плюс почему-то этого фрейма цельые картинки на части разбивают.
Ну с картинками по частям сталкиваться приходилось, думаю это делается намеренно. montage из image magick здесь выручает.
Yesterday it worked.
Today it is not working.
Windows is like that.
Вне форума


ikkunan salvataja, как оно работает?
Здесь единственный критерий - это определенного цвета блок, который присутствует на всех картинках и обрамляет их.
Вне форума


ikkunan salvataja, как оно работает?
Здесь единственный критерий - это определенного цвета блок, который присутствует на всех картинках и обрамляет их.
А что - у тебя действительно так много картинок в этом документе? Я ведь на полном серьёзе про "Ножницы" писал. Ведь ты уже сутки пытаешься эвристическим методом решить такую проблему, которая обычным тупым перебором решается за полчаса-час. 
Отредактировано MOP3E (09-08-12 08:39:11)
Я не игрушечный. Я, б*я, коллекционный! (с) Duke Nukem Forever
Я не специалист по [вставить название]. Мне главное концептуально решить задачу! (с) АхаRu.
Линукс - это альтернативная ОС о которой известно, что она не является ОС ну вот просто ни разу. (с) Linups_Troolvalds.
А с какого такого перепугу пользователей линукса должно быть больше 1%? (с) petrun
Вне форума


как оно работает?
Ну там, где с разрезанными картинками сталкивался я, особых трудностей не было. Картинки были нарезаны на тонкие горизонтальные полоски и в вытащенных изображениях нумерация была последовательная. Просто вытаскивал все фрагменты одного изображения в отдельный каталог и там давал montage с -tile Nx1, где N это количество кусков.
Для твоего случая думаю готового рецепта нет. Можно попробовать digikam на всю эту байду натравить, он умеет искать похожие изображения и по идее если тыркнуть ему в первый блок он по цвету должен и остальные блоки обрамления показать, которые того же цвета, ну может придётся ему нужный уровень распознавания задать, чтобы как надо срабатывало. Ну а дальше уже будет понятно с какими номерами изображения надо в общую картинку с помощью montage склеивать.
Правда у digikam есть существенный недостаток, он с каталогами изображений работать не умеет, только с альбомами.
Yesterday it worked.
Today it is not working.
Windows is like that.
Вне форума
Страницы 1
[ Сгенерировано за 0.010 сек, 7 запросов выполнено - Использовано памяти: 1.72 Мбайт (Пик: 1.81 Мбайт) ]