RSS-прокси к страницам без поддержки RSS
Решил я, что пора и мне оптимизировать процесс прочтения блогов, форумов и прочих новостных лент, подмешав к ним прочих потоков данных. Для сей благородной цели была выбрана система FeedOnFeeds, которая, несмотря на заявления автора о том, что разрабатывается она ужасно и по принципу «itch-scratch-ware» (в переводе на русский что-то в духе «в-попу-стрельнуло»), выглядит вполне работоспособной и свободной от глупых ошибок, свойственных «первым проектам» людей на PHP.
И всё бы хорошо: добавил потоки и живи, но возникает очевидная проблема — что делать, если какая-то страница, явно представляющая из себя список/ленту, банально не имеет RSS или Atom-интерфейса? Пример: форум STi-клуба, «лучшее Бездны» Баша (которое, в отличие от самого баша, ещё можно читать).
Ответ тоже очевиден: нужен инструмент, преобразующий желаемые страницы в RSS-потоки. Идея не нова: есть сайт http://www.rssproxy.ru/ (только он не работает), и вроде как программный агрегатор Shrook что-то подобное умеет.
Но это неполные решения. Я считаю, что такой инструмент должен поддерживать:
- Cookie авторизацию (то есть авторизацию через форму на сайте),
- Импорт многостраничных лент (например, тем форума),
- Для форумов очень актуально обновление не всех тем подряд, а по email-оповещению, и
- Bookmarklet для подписки на тему форума;
- (Опционально) Разбор страниц не по регэкспам или шаблонам, а по XPath. И настройка фильтров в визуальном javascript-интерфейсе (кликами по странице). На нечто подобное для импорта страниц уже заморачивался Рома, не знаю, правда, довёл ли до ума.
Видимо, придётся реализовать нечто своё.
Пример: форумы
Три типичных юз-кейса RSS-лент с форума:
- Подписка на все новые сообщения в теме,
- Подписка на новые личные сообщения,
- Периодическое оповещение о модификации и создании новых тем в форуме, в виде одного элемента в ленте, без самих сообщений («чтение форума»).