Який формат електронних книг кращий. Що краще fb2 чи epub? Fb2 epub порівняння

ePUB - один із найпопулярніших у світі форматів електронних книг. Фактично, на заході серйозну конкуренцію йому становить лише MOBI (фірмовий формат Amazon, про нього наступного разу). У Росії та інших країнах пострадянського простору популярний ще Fb2 (про нього я). Але й на простори нашої колишньої великої батьківщини формат ePUB здобуває все більшу популярність, особливо на тлі відсутності оновлень Fb2 та посилення боротьби з піратством. Тому ось вам трохи цікавих та корисних подробиць про формат ePUB.

Що таке ePUB?

ePUB – формат для електронних версій книг. Назва походить від англійського словосполучення « e lectronic pub lication, а правильна російська вимова «іпаб» (ніякого "епуб"!). Книга у форматі ePUB – це насправді архів, що містить кілька папок. В одній текст книги, в іншій опис (ім'я автора, назва, видавництво, мова, ідентифікаційний номер тощо), в третій картинки, в четвертій службова інформація... Програма для читання збирає все це воєдино і видає читачеві результат в вигляді відформатованого тексту із ілюстраціями, формулами тощо. Формат відноситься до відкритих – його може доопрацьовувати будь-хто. ePUB - формат з "плаваючою версткою". Це означає, що читач може в широких межах змінювати такі параметри відображення, як шрифт та інтервали та текст автоматично підлаштовується під потрібний розмір екрана. Розроблено та підтримується Міжнародним форумом з цифрових публікацій (International Digital Publishing Forum – IDPF), в основному силами компанії Adobe.

Історія формату ePUB

Попередником ePUB був розроблений тією ж організацією ще в 1999 OEB (Open eBook Publication). На його основі в 2007 році було створено сучасний ePUB. Формат дуже швидко завоював популярність на заході. Причинами стали як зручність для кінцевого користувача, так і можливість вбудувати в файли так званий DRM-захист, що дозволяє обмежити коло пристроїв, на яких можна читати книгу. До 2010 року на формат ePUBперейшла більшість магазинів електронних книг. Його зробила стандартом зберігання книг найбільша бібліотека Gutenberg.com. З моменту виходу iPad саме ePUB є форматом, який підтримують фірмові програми Apple – iBooks, Pages, iAutor. З 2009 року існує розширення для Firefox, що дозволяє читати книги цього формату прямо в браузері. Аналогічне рішення є і Chrome. Компанія Sony з 2012 року зробила ePUB основним форматом для своїх пристроїв відмовившись від фірмового LRF. З 2010 року у цьому форматі публікуються економічні звіти уряду США. У жовтні 2011 року було представлено актуальну версію формату - 3.0, в якій нарешті було реалізовано виноски.

Переваги та недоліки формату

Якщо говорити про переваги та недоліки, то дивлячись з чим порівнювати. Якщо з такими комп'ютерними форматами як txt, rtf і doc, то виходять суцільні переваги. Ні txt, ні rtf не підтримують зміст, а форматування в них відсутнє або дуже обмежене. Doc - дуже "важкий" для і програм-читалок формат, створений спеціально для Microsoft Word. Жоден із цих форматів не підтримує «метадані». Якщо порівнювати з PDF, то таке порівняння зовсім некоректне, оскільки це формати для різних цілей. Незважаючи на можливість вбудовувати в текст картинки та формули, ePUB погано підходить для насичених цими елементами книг – насамперед підручників та спеціалізованої літератури. Переклад такої літератури до ePUB – досить складне завдання. І тут приходить на допомогу PDF. З іншого боку – PDF це формат із фіксованою версткою, він не підлаштовується під розмір екрану. Раніше читання PDF-документів на екранах менше 9” було зовсім проблематичним – відображалася лише частина сторінки. Наразі існує спеціальний формат, так званий PDF6, але й він проблеми не вирішує.

Але найбільш актуальним буде порівняння із популярними конкурентами – Fb2 та MOBI. З останнім різниці для простого читача ніякої. Порівняно з Fb2 ePUB - більш «просунутий» формат, він має ширші можливості. Наприклад, підтримує формули та деякі інші елементи форматування, які для Fb2 недоступні. Для видавців та продавців електронних книг важлива перевага ePUB – можливість вбудувати у файл DRM-захист. Але для читання звичайної художньої книги не можна сказати, що ePUB – це кардинально краще порівняно з Fb2.

У будь-якому випадку зараз існує велика кількість програм-конвертерів, що дозволяють перекласти потрібну вам книгу з одного формату до іншого. Тому суперечка про те, краще чи гірше формат ePUB, ніж будь-який інший, значною мірою втратила свою актуальність.


Електронні книги (рідери, читалки) вже давно стали звичними пристроями широкого кола користувачів. Їх переваги: ​​доступність контенту (завантажити необхідну книгу з інтернету можна за лічені хвилини), екран E-ink, що псує зір, можливість мати в рідері колекцію з тисяч книг, довга робота на одній зарядці, налаштування типу і розміру шрифту. Нещодавно з'явилися електронні книги з підсвічуванням екрану - вони дозволяють читати у темряві. Загалом переваги рідерів можна перераховувати дуже довго.

Однак, при знайомстві з читалками у користувачів часто виникає одна проблема. Люди, які вирішують придбати рідер вперше, зіштовхуючись із поняттям "формати електронних книг", часто не розуміють про що йдеться. Проблема особливо актуальна для початківців, яким абревіатури "FB2", "EPUB" або "MOBI" зовсім нічого не кажуть.

Звані формати - це різні типи електронних текстових файлів, які підтримуються (відтворюються) тим чи іншим . В електронних бібліотеках інтернету часто пропонується великий набір типів файлів: FB2, EPUB, MOBI, PDF, DOC, RTF, TXT та інші. Вибір широкий, і це ставить перед новачками певні проблеми. Ми опишемо основні формати електронних книг, розповімо про те, чим відрізняються один від одного, якими читалками підтримуються, і на якому форматі краще зупинити свій вибір, якщо у вас є мультиформатний рідер, який читає всі формати.

Різновиди форматів

1. FB2 (FictionBook)- Формат електронних книг, який був створений групою російських розробників. Книги у цьому типі файлів мають структурований вигляд (тобто містять розбивку за розділами, зміст, ілюстрації, обкладинку). Крім того, цей стандарт зберігає інформацію про файл (так звані теги: автор, назва, жанр), яка зчитується рідером і дозволяє користувачеві зручно сортувати файли на пристрої. Даний тип файлів займає невеликий об'єм, може бути заархівований, а він добре конвертується в інші формати. З особливостей: через те, що формат спочатку був розроблений під кирилицю, тексти російською мовою у FB2 мають переноси слів.

Формат спочатку розрахований на російських користувачів, і він практично не використовується за кордоном. Саме тому FB2 не підтримується популярними світовими виробниками читалок – Amazon та Barnes & Noble. Натомість це основний формат файлів для популярних у Росії читалок від Pocketbook, Onyx та Wexler. Крім того, рідери Sony тепер підтримують FB2 – після виходу на російський ринок компанія розробила офіційну прошивку для рідера, яка дозволяє читати книги у FB2.

2. EPUB (Electronic PUBlication)- Найпопулярніший у світі електронний формат для читалок. З ним працюють рідери Barnes & Noble та Sony. За структурою верстки цей тип файлу нагадує заархівовану веб-сторінку, що містить текст, графіку, інтегровані шрифти, ілюстрації.

Крім західних брендів, формат EPUB підтримується моделями виробників, орієнтованих на російський ринок (Pocketbook, Onyx, Wexler) через стрімке зростання популярності в нашій країні. Крім того, цей стандарт електронних книг використовують iPhone та . Фірмова епплівська програма для читання iBooks підтримує саме EPUB.

3. MOBI- Формат електронних книг рідерів. Набуває поширення в російських онлайн-бібліотеках у міру того, як Kindle стає все більш популярним у Росії. Інші рідери мають підтримку цього формату "для галочки". MOBI за своїми властивостями схожий на EPUB. Нещодавно Amazon представив ще один формат електронних текстів Kindle Format 8 або KF8 (його відрізняє більш багате форматування) з уточненням, що нові та старі читалки Amazon не перестануть підтримувати MOBI.

4. TXT- Формат простих текстових документів. Перетворити текст з іншого формату в TXT можна найпростішою дією копіювати-вставити. Незважаючи на те, що даний тип файлу підтримує практично всіма читалками і займає в пам'яті дуже мало місця, читати в ньому книги на рідер ми не рекомендували б. У TXT немає форматування, розмітка, переноси, вирівнювання. Він підходить для коротких текстових нотаток, але не для повноцінних електронних книг.

5. PDF (Portable Document Format)- Формат електронних документів, створений компанією Adobe Systems. Незручний для використання на рідерах із низки причин. По-перше, файли цього формату дуже громіздкі, оскільки розраховані під потужності комп'ютера, і на читалках відкриваються досить повільно. По-друге, якщо файл спеціально не зверстаний під екран 6-дюймового рідера, що має формат аналогічний паперовому аркушу розміру A6, читати на ньому PDF формату A4 (а більшість PDF-файлів представлені саме в розмірі стандартного паперового аркуша), буде дуже важко. У PDF можна збільшити лише масштаб, але не розмір шрифту, а отже, на екрані вдасться розмістити лише якусь частину сторінки. Читати сторінки доведеться частинами, а це дуже незручно.

Для читання PDF пристосовані розмір екрана яких дозволяє відтворити сторінку в масштабі, достатньо великому для комфортного читання.

6. DJVU- Формат, розроблений для зберігання сканованих документів - книг, статей, рукописів. Книга в DJVU фактично є набір сканованих сторінок. У плані комфортності читання на 6-дюймових читалках – все аналогічно історії з PDF. Ви не збільшите розмір шрифту, а лише масштаб. При зумуванні сторінка вилізе за межі екрана, і треба буде постійно переміщати область збільшеного тексту для читання – про комфортне читання годі й говорити. Для читання DJVU вибирайте рієдри з екраном 9 дюймів. Проте навіть на 9-дюймових читалках можливості зручного читання DJVU залежать від того, наскільки якісно відсканована книга, представлена ​​в цьому форматі.

7. LRF- У минулому фірмовий формат рідерів Sony. На нових моделях (починаючи з PRS-T1) вже не використовується, оскільки поступився своїм місцем EPUB. Дуже погано конвертується в інші типи файлів. Незважаючи на те, що де-не-де в бібліотеках ще представлений, використовувати його рекомендується виключно власникам старих моделей Sony.

8. RTF (Rich Text Format)- Формат для зберігання текстових документів. Належить до категорії "комп'ютерних", а не "книжкових". На рідерах читати в RTF не дуже зручно - це великі за обсягом файли, і швидкість роботи читалки значно знижується.

9. DOC(а також DOCX) – текстові документи Microsoft Office. Ці формати підтримують чимало рідерів, але саме для читання документів, а не книг. Файли великого обсягу у цьому форматі можуть бути великі за розміром, і працювати з ними на рідерах непросто. Багатосторінкові книги DOC краще конвертувати в FB2 або EPUB.

Основні формати електронних книг ми перерахували. Зовсім екзотичні типи файлів, які іноді зустрічаються в інтернеті, ми розглядати не станемо, а краще визначимося, в яких із вищезгаданих форматів найзручніше читати книги на електронних рідерах.

Який формат електронних книг вибрати

Якщо у вас читалка з підтримкою всіх форматів, то зупинити свій вибір на певному типі файлу можна виходячи з ряду факторів. Допустимо, Ви купуєте свою першу електронну книгу, і у вас немає попередньо зібраної колекції книг, наприклад, у FB2. У цьому випадку вибирайте формат файлу, який найкраще відтворюється вашим рідером. Традиційні "книжкові" формати EPUB або FB2 для рідера (та й для користувача) більш кращі та зручніші, ніж "комп'ютерні" PDF, TXT, DOC, DOCX та RTF.

У випадку з 9-дюймовими читалками та необхідністю читання DJVU та PDF при інших рівних радимо віддавати перевагу останньому, тому що PDF є більш сучасним форматом, а книги в DJVU часто бувають поганої якості.

З точки зору зручності використання плюси "книжкових" форматів очевидні: EPUB, FB2 або MOBI візуально краще виглядають в меню Вашого рідера (відображаються обкладинки книг), їх зручніше сортувати (є теги: автор, назва, жанр), вони займають у пам'яті набагато менше місця та швидкість роботи читалки з такими форматами буде суттєво вищою.

Чи потрібна підтримка всіх форматів

На наш погляд, зовсім необов'язково обирати всеформатний рідер. Багато користувачів, які мають читалки з підтримкою всіх форматів, завантажують книги одному-двох типах файлів. У всіх читалок (у тому числі мультиформатних), так чи інакше, є основний формат, і розмінюватися на інші ви в результаті не станете. Для Pocketbook, Onyx і Wexler основні формати – це FB2 або EPUB, для Barnes & Noble () та Sony – EPUB, для Kindle – MOBI.

У випадку з читалками Amazon і Barnes & Noble, якщо потрібна книга виявляється у форматі, який ці рідери не підтримують, можна скористатися конвертером (наприклад, Calibre). Це програма, яка встановлюється на комп'ютер і дозволяє переконвертувати той самий FB2 в MOBI або EPUB за лічені хвилини.

Читати книги у рідному для рідера форматі краще, ніж використовувати встановлені на читалку додаткові програми. Наша порада: витратите кілька хвилин, щоб перетворити книгу, наприклад, з RTF в EPUB за допомогою конвертера Calibre . Це зручніше, ніж читати її "в оригіналі" за допомогою додатково встановленої програми (на Sony PRS-T1 або Kindle) або зіткнутися з повільнішою роботою пристрою (наприклад, на рідерах Pocketbook).

Пам'ятайте, що головне – зручність користування електронною книгою, а не кількість форматів, заявлених у неї у параметрах.

Приємного читання!

2015-03-11 |

Без рубрики

Людина, що любить книги, прагне читати скрізь і всюди. Саме тому в останні роки читання з рідерів чи мобільних телефонів набуло такої величезної популярності. Звичайно, ми можемо скільки завгодно говорити про красу запаху нової паперової книги, про приємні моменти в книжковому, при виборі поповнень для вашої бібліотеки, але факт залишається фактом - у повсякденній метушні читати електронні книги простіше, ніж тягати з собою звичні паперові томики. Якщо ж ви пишите і хочете, щоб ваша творчість стала зручною та доступною для читачів, мало викладати тексти на відкритих ресурсах, добре б ще й докласти до них файлові версії, щоб люди змогли завантажити ваш витвір і оцінити його на дозвіллі.

Незалежно від того, чи читач ви, письменник або «два в одному», при скачуванні або викладанні текстів з файлами, ви можете зіткнутися з тим, хто ваш телефон або рідер не підтримують цей формат (або ваші читачі скаржаться на те, що файли такого формату вони не читаються). Щоб розібратися з чому так відбувається, ми написали для вас невелике пояснення про те, які бувають формати електронних книг, чим вони відрізняються і в чому перевага і недолік кожного з них.

Види форматів:

Для початку необхідно помітити, що найпоширеніші формати електронних книг це: FB2, EPUB, MOBI, PDF, RTF, TXT, DOC/DOCX та DjVu. Звичайно, коли непосвячена людина стикається з таким різноманіттям, складно розібратися, що до чого і який формат вибрати для читання або конвертації своїх файлів.

Microsoft Windows, тільки ось, на жаль, DOC/DOCX не підтримуються більшістю рідерів, та й на мобільних телефонах можуть не завжди відкритися, а в TXT читати книги дуже і дуже незручно.

Втім, давайте про все по порядку:

Переваги: ​​Один із найпоширеніших форматів у російськомовному сегменті інтернету. У ньому зручно структурувати документ великого обсягу, ділити на розділи тощо. Файли FB2 займають трохи місця і легко конвертуються в інші формати.

Недоліки: FB2 – розроблений у Росії формат. Він не підтримується більшістю рідерів і невідомий у всьому світі. Відкривається тільки на пристроях з російською прошивкою і далекий від брендових рідерів, що лідирують по всьому світу: Sony, Amazon Kindle, Barnes&Noble, Kobo і т. п. Так, ви можете посперечатися, що на Sony FB2 відкривається, але офіційна прошивка, що дозволяє відкрити цей формат на рідерах Sony, побачила світ всього кілька років тому і встановлена ​​далеко не на всіх моделях. Якщо ж говорити про те, щоб продавати свої твори на Amazon або Itunes, то тут відповідь однозначна - FB2 не підходить для міжнародних майданчиків.

PDF (Adobe Portable Document Format) і DjVu (вимовляється «дежавю») - не розглядатимемо кожен окремо і об'єднаємо їх одним пунктом.

Переваги: ​​Обидва формати використовуються для зберігання сканованих книг. У PDF можна створювати дуже яскраві файли. DjVu просто досить непогано стискає файли, завдяки чому вони менше «важать».

Недоліки: PDF-файли виходять дуже громіздкими. Якщо ж йдеться про сканування, то в будь-якому випадку скановані книги незручно читати з екрану, оскільки їхня якість залишає бажати кращого незалежно від того, у PDF викладений скан або DjVu.

Переваги: ​​TXT відкривається на будь-якому рідері. DOC/DOCX відомі всіма форматами Microsoft Word.

Недоліки: Читати книги в TXT дуже незручно, оскільки в ньому відсутнє форматування тексту (вирівнювання по ширині, перенесення абзаців, поділ на розділи і т.п.). DOC/DOCX підтримується дуже малою кількістю пристроїв для читання.

RTF (Rich Text Format)

Переваги: ​​Зручний та компактний формат для зберігання текстових файлів.

Недоліки: Вкрай рідко підтримується рідерами та мобільними телефонами, планшетами тощо.

Переваги: ​​LRF спеціальний формат електронних книг від Sony. MOBI Книги формату для Amazon Kindle.

Недоліки: В даний час і Sony підтримують популярніший формат електронних книг - EPUB.

EPUB (Electronic PUBlishing)

Переваги: ​​EPUB – найпоширеніший у світі формат електронних книг. Не має проблем із розпізнаванням, дозволяє створити добре структурований текст із ілюстраціями. Цей формат сам собою вже архів, а тому компактний і не вимагає додаткових архіваторів.

Як ви можете бачити, кожен із згаданих вище форматів має свої переваги та недоліки. Наприклад, безумовно, найбільш «читаним» форматом для електронних книг буде TXT, але при цьому читати книги в такому форматі – це практично знущатися з своїх очей. Такий текст неможливо структурувати, у ньому відсутні абзаци, розділи, до нього неможливо вставити ілюстрації тощо.

Найбільш поширеним та зручним форматом для читання електронних книг є EPUB. Однак, якщо йдеться про те, в якому вигляді автору викладати свій твір онлайн, найбільш раціональним рішенням буде викладення відразу в кількох форматах. Наприклад: EPUB (читається скрізь, крім Amazon Kindle) + MOBI (читається тільки на Amazon Kindle) + DOC/DOCX (для тих, кому звично читати з комп'ютерів та ноутбуків). Звичайно, бонусом можна викласти текст і у форматі FB2, до якого так звикла російськомовна аудиторія, проте далеко не на всіх пристроях відкриється файл такого формату.

І звичайно ж, на завершення цієї статті та на правах реклами, хочемо вам повідомити, що нещодавно в СНД розпочала роботу нова інтернет-система Booqla, призначена для зручної та, уваги, безкоштовної конвертації рукописів у формати EPUB та MOBI. Сайт пропонує користувачам з усього світу конвертацію своїх рукописів в електронний формат та надає допомогу у продажу електронних книг, але для російськомовної аудиторії буде доступна лише безкоштовна конвертація рукописів.

Ви можете оцінити простоту і зручність сервісу Booqla, зареєструвавшись на

Коротко про головне
Якщо ви хочете скласти собі адекватне уявлення про epub, уявіть, що ви зберегли на диск якусь (наприклад, цю) веб-сторінку разом із графікою та стилями, що використовується на ній. Для всіх сучасних браузерів це стандартна функція, наприклад FireFox це робиться через меню «Файл → Зберегти як → Веб-сторінка повністю». Можна зберегти не одну, а кілька сторінок. Потім ви кладете поруч із вашими сторінками два службові XML-файли. Один просто мітка "це epub" (container.xml), другий містить перелік всіх файлів - .html, .css, .jpg, etc (зазвичай це файл content.opf).
Залишилося помістити все це в zip-архів і змінити розширення с.zip на.epub.
Всі.
Книжка готова, а ви вже знаєте, що таке epub. Це не жарт і не перебільшення – epub це просто архівований у zip html. Ні більше, ні менше.

Про формат детально
Розміщення вмісту в epub-архіві

Як ми з'ясували, epub - це zip-архів з кількома файлами. Коли ви архівуєте файли ZIP-архіватором і вкладаєте в архів XML-файл container.xml, ви промовляєте прозою створюєте файл у форматі «Open Container». Незважаючи на вбивчо-пафосну назву цього заходу (IDPF варто було знати, що є ISO-стандарт OPC і не винаходити велосипед), за Open Container Format (OCF) цілком можна поставити IDPF «зачот» (чому - з'ясуємо нижче).
Крім файлу container.xml (має лежати в META-INF) epub обов'язково містить ще один службовий файл, де перераховані всі інші файли, розміщені в архіві, і вказаний їх тип, як правило називається content.opf.
Вся конструкція для знаючої людини сильно нагадує java-пакети взагалі та OpenDocument зокрема. І справді, IDPF шукає шляхи об'єднання з OpenDocument. Не дуже зрозуміло, що заважало стартувати з клоном OD, адже OpenDocument на два роки старший за OCF, але, мабуть, велосипеди - неминуча доля дилетантів, вчасно поки почитати не спромоглися. Ось і xpointer IDPF так само, судячи з усього, твердо мають намір винайти в рамках EPUB3 . Версії до 5-ї здогадаються використовувати стандартизований w3c формат для посилань і також шукатимуть шляхи об'єднання.

Які дані зберігаються в epub
epub зазвичай містить таку інформацію:

  • Мета-дані: назва, мова, автори, etc.
  • Засоби навігації: порядок перегортання для xhtml-файлів та «мапа сайту зміст»
  • Власне текст у вигляді декількох xhtml-файлів, які можуть використовувати стилі css, картинки в jpg, gif і png, а також векторну графіку svg і шрифти. Остання версія epub декларує підтримку MathML.
  • Крім цього epub може включати ряд додаткових вузькоспеціалізованих файлів розмітки, PDF-версію книги для друку тощо екзотику, яка реально не використовується, не підтримується читалками і середньому читачеві нецікава.
Мета-інформація в epub
Мінімальна мета-інформація epub включає назву, ID документа та мову. Крім цього, можна вказати авторів, перекладачів та інших учасників створення книги, дату публікації/написання, тему книги (у вільній формі), plain-text опис та дані про видавництво.
Ключова мета-інформація зберігається у стандартній схемі Doublin Core, трохи розширеною. Опис авторів, тематики та всіх інших полів (за винятком дат та мови) дається у вільній текстовій формі, що фактично виключає ефективну автоматичну каталогізацію epub з різних джерел.

Засоби навігації
epub, як ми пам'ятаємо, може містити безліч html-файлів. І файлів буде багато. Не тому, що цього вимагає IDPF, а тому, що від великих файлів epub-читалки падають і роблять багато маленьких. І ось для того, щоб звичне читачеві «перегортання» працювало, автор epub вказує порядок, в якому файли слід пред'являти. «При відкритті показуємо 3.html, коли читач перегортає його до кінця відкриваємо 1.html, потім 8.html. А файл footnotes.html при прямому перегортанні недосяжний, туди читач потраплятиме по виносках», щось таке. Зазвичай міститься у файлі content.opf.
Ще один засіб навігації всередині книги – зміст. Якщо є, то зазвичай зберігається в toc.ncx. Технічно це більше аналог функції «карта сайту», ніж звичного «змісту». Зміст у паперовій книзі (або електронному документі) повторює структуру тексту, а.ncx не пов'язаний із загальним порядком проходження текстових фрагментів і може прямо їм суперечити. Втім, насправді файл зазвичай використовується саме як зміст і оформляється «штатно», повторюючи порядок, заданий для перегортання.
Взагалі, повторне зберігання та переписування на різні лади тих самих даних - фірмовий знак epub. Мета-дані зберігаються в чотирьох місцях: в описі контейнера OPF container.xml, в описі epub-пакета content.opf, у файлі вмісту toc.ncx і в html-файлах (у тегах meta). Зміст описується тричі - "карта книги" з toc.ncx сперечається з перерахуванням фрагментів у content.opf хто з них головніший, а заголовки h1-h6 в html дивляться на все це, і думають про реванш.

Текст книги
Зрозуміло, в Epub присутні і власне html-файли з текстом книги. Так само в архіві зберігаються елементи, що використовуються в тексті - графіка, стилі, скрипти, шрифти.
Жодних істотних «надбудов» чи «обмежень» щодо html, css тощо. epub не ставить. Беремо сучасний Web-контент, що став вже навіть не «динамічним», а «текучим» (epub декларує підтримку html5, більше скидається на ОС, ніж на мову розмітки, його і браузери поки що підтримують обмежено), зберігаємо на диск, архівуємо - та вуаля, електронна книга готова.
«Дорогий, я зберегла інтернет на диск, що далі?»

Історія питання
Щоб краще зрозуміти основну силу та основну слабкість epub, повернемося на 12 років тому. У 2000-му році, коли ваш покірний слуга тільки-но долучився до електронного читання (якщо бути точним, був підступно підсаджений на це відомим the-ebook), в мережі вже існували «Бібліотека Мошкова», «Альдебаран», «Літпортал» і Бог знає, скільки ще дрібних бібліотек. Досить багато текстів було, в принципі, доступним. В основному саме у вигляді HTML.
HTML вже тоді давав найширші можливості оформлення. Завдяки цьому люди, які готували тексти, іноді створювали справжні шедеври верстки. Досить згадати, що абзаци в бібліотеці Мошкова були (і зараз Мошков палить так само, по-моєму) оформлені міксом з тегів

і
Проте, реально існували читалки (iSilo, Microsoft Reader, Mobipocket, пристрої типу REB і т.п.) розуміли лише обмежений діалект HTML і ще більш обмежене підмножина CSS.  Звісно, ​​кожна читалка будувала «розширення» над форматом, але ніхто не верстав під конкретну читалку. 
У фіналі, після з'єднання творчих проривів творців текстів, натхненних силою HTML+CSS і нічим не обмежених у польоті своєї фантазії, з реальними читалками, на екрані користувача виходила, як правило, нісенітниця. У кращому випадку книга була непоказна, але читана. У гіршому - текст взагалі перетворювався на місиво.
Моєю першою відповіддю на це стала програма ClearTXT, яка прибирає з тексту творчість. Однак, досить швидко стало зрозуміло, що ніякий евристичний аналіз не викрадеться за фантазією творців html-книг. У результаті все одно доводилося працювати руками, більше чи менше.

Проблеми з діалектом були єдиними. Програми-читалки мали не лише індивідуальні «виразні засоби» та «мовні уподобання». Жодна не читала HTML безпосередньо (у цьому плані мало, що змінилося, до речі, пропоную поміркувати – чому). Кожна програма використовувала свій, зазвичай закритий, метод підготовки та пакування даних. lit, rb, lrf, chm – кожен творець читалки та розробник пристрою вважав своїм обов'язком «винайти» новий закритий «формат» і своє, особисте, DRM-рішення. Кошти для конвертації в цей закритий формат часто були або недоступні, або випускалися у вигляді додатків та/або бібліотек під конкретну платформу, з обмеженою документацією або зовсім без неї.

Дві проблеми у 2000-му, одна проблема у 2012
Отже, 2000-го року взяти довільний html і згодувати його читалці нам заважали дві речі:

  1. Необхідність використовувати громіздкі сторонні засоби для упаковки HTML у зрозумілий читалці формат
  2. Несумісність читалки з використовуваною розміткою та стилями
epub пропонує рішення для обох проблем:
  1. Засоби упаковки стандартизовані та технологічні – можна навіть вручну, хвилин за 20, зібрати дуже складну книгу використовуючи OCF, notepad та zip-архіватор.
  2. Як ми вже бачили, epub сумісний з усіма та всілякими діалектами, стилями та методами розмітки. Зберігай з web, архівуй та читай.
Здавалося б, усе гаразд.
І з приводу упаковки до epub претензій, крім естетичних, немає. Використовується, нехай нестандартне і не найвдаліше, але адекватне завданням рішення, до того ж просте, як палиця.
А ось щодо відображення тексту в читалках на нас чекають погані новини. Сам «формат» сумісний з усім і усіляким HTML, це так. Куди просто було написати в стандарті «див. специфікацію html». Спокуса була велика і IDPF не встояв. Але ось ми відкриваємо наш «будь-який» HTML в «будь-який читалці» і...
І виявляємо, що ми ні на йоту не зрушили щодо 2000 року. Як і наприкінці минулого століття, кожна конкретна читалка розуміє лише свій, обмежений діалект html+css. Як і минулого століття, діалект зазвичай недокументований. Як і раніше в кожній читалці для вирішення навіть таких стандартних проблем, як виноски, вводяться свої, ні з чим не сумісні, розширення (пошукайте epub footnotes в google, методики створення, крім перетворення виносок на посилання, варіюють від абсолютно кислотного CSS до javascript) . Найпростіші речі зробити практично неможливо, складні речі або не працюють, або кидають читалки.

Ось вам домашнє завдання: не підглядаючи в epub від ЛітРес, зробіть epub з порожнім рядком між двома абзацами (текст, порожній рядок, знову текст, як перед цим абзацом), що однаково відображається в iBooks, ADE, Sony та Nook. Китайські диво-читалки та іншу екзотику залишимо осторонь, щоб завдання залишалося здійсненним. І навіть вирівнювання по ширині та переносів зі виносками не попросимо. Просто порожній рядок, тег у fb2. Час пішов.

Вердикт у справі epub
Явні плюси формату – простота та технологічність zip-пакету, відкритість.
Так само як плюс, можна розглядати єдине DRM-рішення. IDPF сором'язливо робить вигляд, що DRM в epub типу відкритий і типу будь-який може зробити свій. Усі типу вірять. І ясно розуміють, що epub існує на 99%, завдяки тому, що Adobe підтримує для нього DRM-інфраструктуру. DRM-зло, але один DRM на всіх це менше зло, ніж DRM на магазин.
Так, безглуздо, коли архівований HTML із зламуваним за одну хвилину DRM видається за казну якусь інновацію. Але zip та інша стандартизація це який не є, а прогрес.
Щодо плюсів це все.

А ось у галузі створення складної розмітки epub зовсім нікуди не годиться і далі будуть лише мінуси. Формат не дає творцю книги ні гарантій щодо того, що побачить кінцевий читач на екрані, ні надійних засобів контролю, які дозволять відсікти хоча б свідомо «неробочі» варіанти, ні готових рішень для стандартних завдань. Мій перший epub, що тільки-но пройшов валідацію, упустив дві читалки з трьох, на яких я його тестував (занадто великий html - 2Мб, і занадто багато посилань, як я потім встановив). Автори документів змушені або ігнорувати «фічі» окремих epub-читалок, або пропонувати кілька epub, щоб читач міг взяти файл, сумісний саме з його пристроєм. Заради такого фіналу і город городити не варто - що толку верстати html5 знаючи, що читати його будуть в IE3?

Чого нам чекати від epub у майбутньому
Найбільш сприятливий для epub сценарій - витіснення з ніші програм-читалок дрібних розробників кількома великими гравцями. Зробити повнофункціональний html5-парсер із посторінковою розбивкою як мінімум не простіше, ніж зробити сучасний браузер, а віддача незрівнянно менше, і випадкових людей тут не буде. Однак ні google, ні Microsoft, ні Opera поки що не біжать робити нові движки epub-читалок, щоб Adobe міг як слід підняти бабла на своєму диво-DRM. І сама Adobe цілком зрозуміло свій потенціал щодо розвитку рідерів показала - ADE досі не має ні підтримки виносок, ні нормально друкарні, ні переносів.
Тож набагато ймовірніше, що років за п'ять навколо epub сформується якесь «неписане IDPF» неформальне зведення правил верстки, робочих рішень з оформлення, випробуваних на провідних читалках «хаків» та «фокусів». Мережеве співтовариство вже формує «істинний» epub-стандарт поверх всепрощаючого «html5+css3+всього чого хочеться ще». Описуються реальні рішення для реальних проблем у реальних рідерах. Потім ці «фокуси», будучи стандартом де-факто, стануть обов'язковими для розробників нових читалок. Ті, хто в IT досить давно, щоб встигнути наковтатися диму браузерних воєн і попрацювати з IE4, NN4 і Opera 3, чудово уявляють собі, що саме на нас чекає - цим граблям мережева спільнота вже ходила і ікається ця прогулянка досі. Тому коли я бачу «цей epub оптимізований під iBooks» я відчуваю не просто де-жа-вю, а гострий блювотний рефлекс.

І ось за те, що нас намагаються випхати «назад у 90-ті» я ставлю epub незалік. Нам не потрібні хакі, які стають непрацездатними у новій версії софту. Нам не потрібні неписані правила, що по крихтах відловлюються методом тику. Не потрібні узаконені баги. Не потрібна «валідація тестуванням» за всіма читалками – «покаже чи покаже». Все це ми проходили.
Нам потрібна надійна та зручна технологія, чіткий стандарт та робочі засоби контролю якості. І epub цього нам дати не зміг, на жаль.

Чого від epub чекати марно
Серед недоліків epub є ще один, який ми поки не торкалися - принципова несумісність з іншими форматами. epub народжений бути монополістом. Вилучення даних з epub та конвертація в інший формат навіть для нехитрого html є непростим завданням. Коли ж epub заматеріє, обросте хаками під пристрої та хитромудрими рішеннями, типу підсторінкових виносок на CSS, витягти з нього щось буде завданням практично нерозв'язним. Який би формат Adobe не розробляла, виходить PDF – вхід карбованець, а вихід п'ять.
Адже нам все ще потрібна підтримка різних (в т.ч. старих) читалок та пристроїв. Потрібна повноцінна підтримка альтернативних форматів, які вже набули ваги (mobipocket на Kindle) і ще з'являтимуться на ринку.

На додаток нам потрібні засоби каталогізації, обміну цитатами та нотатками та інше, чого epub навіть на декларативному рівні поки що не обіцяє. Іншими словами, нам потрібен fb3, якому буде присвячена наступна стаття.

Практично всі люди, які запитують у мене поради щодо вибору того чи іншого пристрою для читання, ставлять питання і про формати електронних книг – який краще та чому. У цій статті я відповім на ці запитання докладно; розгляну як формати для читання художньої літератури, так і формати для читання літератури технічної, наукової та навчальної.

Художня література

Існують такі формати, де можна зустріти художню літературу в інтернеті: TXT, RTF, FB2, EPUB, MOBI, DOC, PDF, DJVU. Відразу скажу, що краще купувати/завантажувати книги в EPUB, FB2або MOBI. Саме ці формати найбільше пристосовані для читання художньої літератури.

Формати PDF та DJVU надто важкі та незручні; Найчастіше текст у них фактично картинкою, тобто масштабувати можна лише сторінку цілком, але з розмір власне шрифту. На пристроях для читання (рідерах) книги в PDF і DJVU відображаються часом не дуже добре: літери можуть бути дуже маленькими; читати текст незручно.

Формати TXT і RTF позбавлені подібних недоліків, але мають інші мінуси: текст у TXT взагалі не можна відформатувати, тобто заголовки, епіграфи, цитати не виділятимуться ніяк; більше, у TXT не підтримуються обкладинки, малюнки і таблиці. Це дуже убогий, найпростіший формат. У RTF, звичайно, можливості форматування багатші, але і тут є недоліки: не підтримуються автоматичне зміст і виноски. Крім цього, RTF-файли зазвичай важать досить багато, а деякі пристрої для читання їх не завжди коректно відображають.

Формат DOC (і його різновид DOCX) відмінно підходить для складних документів, але для художньої літератури не годиться: він надто громіздкий, складний; документи DOC часто на різних пристроях відображаються по-різному.

Зовсім інша річ – трійка спеціалізованих форматів, заточених саме під художню літературу: EPUB, MOBI, FB2 (і його різновид FB2.ZIP). Дані формати засновані на так званій «плаваючій верстці», яка дозволяє змінювати розмір, гарнітуру шрифту, величину міжрядкового інтервалу та ширину полів. При цьому дані формати підтримують картинки, таблиці, зміст змісту, виноски і багато інших речей. Читати книги FB2/FB2.ZIP, EPUB, MOBI дійсно приємно і комфортно.

Зрозуміло, є певні різницю між даними форматами, але для новачків вони несуттєві. Хоча варто зазначити, що в російськомовному інтернеті найбільше книг у FB2, у EPUB – уже менше, а в MOBI – ще менше.

Кінцевий вибір формату також залежить від вашого пристрою для читання: з якимось форматом воно може працювати краще, з якимось гіршим. Тут треба поекспериментувати. Крім того, зустрічаються пристрої, які підтримують лише один якийсь формат із зазначеної трійки. Наприклад, Amazon Kindle читає лише MOBI, а B&N Nook – лише EPUB.

Детальніше про формат FB2 можете почитати, про EPUB-, про MOBI-.

Наукова, технічна та навчальна література

Тут уже все складніше: така література зазвичай поширюється у форматах PDF, DJVU, DOC (DOCX), кожен з яких, як я зазначив раніше, має певні недоліки. Іноді все ще ускладнюється тим, що деякі книги доступні лише в одному форматі, а часом – і лише в одній версії.

Формат DOC, в принципі, не такий вже й поганий – порівняно з PDF/DJVU. На комп'ютері читати в ньому книги більш менш комфортно. Найгірша справа з пристроями для читання: деякі рідери відображають його практично як голий текст, за винятком ряду ілюстрацій, таблиці, формули та інше. Інші відображають швидше як картинку: елементи оформлення показуються, але не можна змінювати розмір і гарнітуру шрифту, що на маленькому екрані часом перетворюється на катастрофу.

PDF. Є три варіанти цього формату: текстовий, графічний («картинковий») та графічний («картинковий») з OCR-шаром. Перший варіант найкращий: він може містити всі елементи форматування, а текст залишається масштабованим. У випадку з графічним PDF текст є просто картинкою, яку можна збільшувати тільки цілком; розмір шрифту не підлягає зміні. На пристроях з маленькими екранами графічні PDF читати тому дуже важко.

Іноді на сторінки графічних PDF накладається шар OCR за допомогою програми розпізнавання тексту. У книзі PDF з OCR шаром можна проводити пошук, використовувати словник. Це варіант хороший. Але, знову ж таки, не всі пристрої для читання цей OCR-шар "бачать". Та й збільшити розмір шрифту він не дозволяє. Тому OCR-шар часто виявляється марним.

Формат DJVU нагадує графічний PDF: зазвичай це просто набір сканів або фотографій паперової книги. Якість цих сканів/фото може бути просто жахливою, а може бути цілком пристойною. Іноді на скани/фото накладається OCR-шар за допомогою програми розпізнавання тексту. У книзі DJVU з OCR шаром можна проводити пошук, використовувати словник. Це варіант хороший. Але, знову ж таки, не всі пристрої для читання цей OCR-шар "бачать", та й розмір шрифту він збільшити не дозволить. Тому часто OCR-шар буває майже марний.

Підіб'ємо підсумок: найкращим форматом для читання наукової/технічної/навчальної літератури є текстовий PDF, на друге місце я поставив би DOC, на третє - графічний PDF і DJVU з OCR-шаром. Останнє місце займають картинні PDF та DJVU без OCR-шару.

Документи, таблиці та презентації

Більшість документів, таблиць та презентацій поширюється у форматах MS Office: DOC/DOCX, XLS/XLSX, PPT/PPTX. Це формати дуже функціональні, але, на жаль, досить «громіздкі» і «закриті» (іншими словами, стороннім розробникам досить складно створити програму для читання файлів у даних форматах). Тому деякі пристрої їх не підтримують. Доводиться перекладати документи у PDF.

Перекласти документ/таблицю/презентацію PDF дуже нескладно: це дозволяє зробити будь-який пристойний текстовий/табличний редактор. Крім цього, можна скористатися яким-небудь конвертером: їх список ви можете знайти.

Якщо документ простий, і головне в ньому – текст, то краще його сконвертувати не у PDF, а у FB2 – так він читатиметься на рідері з великим комфортом. Список відповідних конвертерів дивіться.

Приємного читання!



Подібні публікації