понедельник, 9 января 2017 г.

Электронная версия книги из сканов - Легко

Допустим у Вас есть куча сканов обычной книги. Или, как в моём случае, есть книжка, которая была безобразно отсканировна и собрана в pdf (скан разворота 2х страниц, да и вообще не приятно читать)
И нам на помощь приходит программа ScanTailor (есть и под linux и под Windows) и некоторые  tips'ы

Программа ScanTailor действительно магическая:
  • Исправляет ориентиции скановв
  • нарезает 2 страницы из скана разворота книги
  • Исправляет наклоны
  • Оставляет только полезную область скана
  • добавляет поля
  • и делает легкую обработку картинки.
Вобщем, что расказывать. Это примерно так (да, можно обрабатывать не только книги, но и фото конспектов):
До ScanTailor
 
После ScanTailor
 Результат на лицо. С книгами, примерно так же.

Что может еще пригодится.

Команда для bash, которая реализует цикл одной строкой. Преобразует tiff в пдф. Да и вообще, удобный синтаксис, можно что угодно делать.
for i in *.tif ; do tiff2pdf -o "${i%tif}^Cf"  "$i"; done

Утилита для склейки pdf
pdfjam -o book.pdf title.pdf authors.pdf body.pdf # синтаксис понятен.
Так же, она может наоборот расчленять:
 pdfjam -o book.pdf source.pdf 3- # от третий страницы и далее. можно указывать диапазон.
С этим механизмом надо аккуратнее. т.к. если вы хотите "заменить/исключить" одну страницы, то разобрав пдф с разрывом и собрав его заново, результат будет весить больше. Возможно, это связано с тем, что pdfjam работает по средствам pdflatex.


 Что касается djvu. Там есть разные механизмы сжатия картинки, что можно прочесть по ссылкам в низу. Для сжатия фотографий конспекта, я использовал программу cjb2.
Команды использованные:
for file in *.tif; do anytopnm $file | ppmtopgm | pgmtopbm -value 0.499 > ${file%tif}pbm; done #перевести в формат pbm
for i in *.pbm ; do cjb2 "$i" "${i%pbm}djvu"  ; done #сжать алгоритмами cjb2
djvm -c lect.djvu *.djvu   #объединить страницы в один файл
----
Немного статистики. Я этим занялся, наверно раз четвертый за несколько лет. С учетом вспоминания как что делается, пару раз запустить конвертацию заного, решить что в pdf я не хочу, т.к. какой-то тяжеловес получается, да написания этой заметки для себя.
У меня ушел час, на то что бы:
  • Снять на телефон 16 снимков (54 МБ)
  • Обработать их на своём CoreDuo (2ГГц) в ScanTailor
  • Преобразовать всё в djvu
  • получить 10МБ итогового djvu.
Не знаю, надеюсь оправдано.



Ссылки, которые могут пригодится:















1 комментарий:

  1. Casinos Near Me - JTG Hub
    Best 거제 출장안마 Casinos Near Me · Las Vegas – The Strip. 1. Mandalay Bay. 2. Atlantic City. 고양 출장안마 3. 부산광역 출장안마 Harrah's 경주 출장마사지 Resort Atlantic City. 4. 광명 출장마사지 The Venetian. 5. Tulalip Resort.

    ОтветитьУдалить