Дамп интернета

Как-то давно уже зрела идея сделать дамп интернета выкачать весь Баш.орг.ру. Но БОР БОРом, а руки всё не дотягивались до реализации - куда спешить?

И вот однажды, увещеваемый и подначиваемый товарищами, решил-таки энто сделать. Уже совсем скоро представлю результаты. Ждите :-)

Изображение пользователя Satt.

bash.org.ru

Что ж, ждем с нетерпением :)) В чем результат будет? html?

Изображение пользователя Captain Flint.

bor

Формат? Ну, практически любой %))))
Сначала это будет больше 10000 отдельных страничек. Потом, благодаря одному доброму и хорошему товарищу, написавшему для меня на перле скрипт, я достану сами цитаты. А дальше всё зависит от фантазии, текст превратить можно во всё, что угодно %)

Изображение пользователя Captain Flint.

Вроде Баш залился

Так что осталось только обработать. %))))
Класс!!! %)))))

Изображение пользователя Captain Flint.

Итог

Подводя итог: имеем 11749 цитат общим объёмом в 5022434 байт в

  • 11749-ти простых текстовых файлах
  • одном текстовом файле

HTML версию всё-таки готовить? И если да, то по сколько цитат бить?

Изображение пользователя sody.

HTML версия уже

HTML версия уже есть на bash.org.ru ;)

Изображение пользователя Captain Flint.

HTML версия

Так я ж про локальную версию :)
Типа, слил себе в оффлайн на комп и чти на здоровье!

Изображение пользователя Captain Flint.

HTML версия

Без рекламы и всякого такого %)))

Изображение пользователя Satt.

HTML версия

Почти дождались :)) Вообще, формат не принципиально. Пойдет html. Оно то и удобно, что в офлайне почитать. Только не на компе. Не могу читать с монитора. Читать с КПК. Для много читающих людей вещь незаменимая. Притом, что стоит столько же сколько и средненький телефон. год назад я свой Rover P3 купил за 100 баксов, прочел штук 60 книг. При цене на книгу в 3-10 долларов, он уже окупился :)

Изображение пользователя Captain Flint.

HTML версия

Про КПК позже поговорим %)))
А в как разбивать html? Тут мне Eraser посоветовал сделать отдельно страничку с оглавлением и отдельно остальные страницы. Хорошее предложение. Есть лучше варианты? И по сколько цитат бить на страницу?

Изображение пользователя Satt.

HTML версия

Цитат по пятьсот, наверно :)

Изображение пользователя Captain Flint.

Разбивка на страницы

Это будет 23-24 страницы. Нормально?

Изображение пользователя Iron Felix.

Даш скачать?

Даш скачать?

Изображение пользователя Satt.

Разбивка на страницы

Не, так думаю не удобно. В смысле много страциц. Одна часть одна страница. Так будет лучше. Может в fb2 конвертнуть. Могу заняться. :)

Изображение пользователя Iron Felix.

Что такое fb2?

Что такое fb2?

Изображение пользователя Captain Flint.

Не вопрос.

Не вопрос.

Изображение пользователя Satt.

Что такое fb2?

Один из форматов, поддерживаемый большинством читалок.

Из википедии :Правильно подготовленный электронный текст в формате FictionBook
содержит в себе всю необходимую информацию о книге — структурированный
текст, иллюстрации, информацию об авторе и издании, но не содержит
информацию о внешнем виде документа. Как будет выглядеть текст,
полученный из формата .fb2, зависит либо от настроек
программы-просмотрщика этого формата, либо от параметров, заданных при
конвертации файла в другой формат. К примеру, в тексте документа .fb2
содержатся фразы, оформленные как заголовки. Программа, в которой
откроют файл, в зависимости от настроек может отобразить их, в отличие
от остального текста, либо крупным шрифтом, либо другим цветом, или как
то иначе. При конвертации, допустим, в формат HTML,
каждому заголовку может быть сопоставлен определённый HTML-тег,
например, <H4> или <B>. В документе имеется информация о
книге, в виде, пригодном для автоматической обработки. К примеру, в электронную библиотеку
поступила книга в формате .fb2. Эта книга может быть автоматически
помещена в раздел автора книги, а название книги и аннотация могут
автоматически отобразиться в колонке новостей библиотеки. Таким
образом, намного упрощается процесс помещения в библиотеку новых книг.


 

 

Изображение пользователя Captain Flint.

Ок. Сенкс :)

Ок. Сенкс :)

Yandex cite