RSS-прокси к страницам без поддержки RSS

Материал из YourcmcWiki
Перейти к: навигация, поиск

Решил я, что пора и мне оптимизировать процесс прочтения блогов, форумов и прочих новостных лент, подмешав к ним прочих потоков данных. Для сей благородной цели была выбрана система FeedOnFeeds, которая, несмотря на заявления автора о том, что разрабатывается она ужасно и по принципу «itch-scratch-ware» (в переводе на русский что-то в духе «в-попу-стрельнуло»), выглядит вполне работоспособной и свободной от глупых ошибок, свойственных «первым проектам» людей на PHP.

И всё бы хорошо: добавил потоки и живи, но возникает очевидная проблема — что делать, если какая-то страница, явно представляющая из себя список/ленту, банально не имеет RSS или Atom-интерфейса? Пример: форум STi-клуба, «лучшее Бездны» Баша (которое, в отличие от самого баша, ещё можно читать).

Ответ тоже очевиден: нужен инструмент, преобразующий желаемые страницы в RSS-потоки. Идея не нова: есть сайт http://www.rssproxy.ru/ (только он не работает), и вроде как программный агрегатор Shrook что-то подобное умеет.

Но это неполные решения. Я считаю, что такой инструмент должен поддерживать:

  • Cookie авторизацию (то есть авторизацию через форму на сайте),
  • Импорт многостраничных лент (например, тем форума),
  • Для форумов очень актуально обновление не всех тем подряд, а по email-оповещению, и
  • Bookmarklet для подписки на тему форума;
  • (Опционально) Разбор страниц не по регэкспам или шаблонам, а по XPath. И настройка фильтров в визуальном javascript-интерфейсе (кликами по странице). На нечто подобное для импорта страниц уже заморачивался Рома, не знаю, правда, довёл ли до ума.

Видимо, придётся реализовать нечто своё.

Пример: форумы

Три типичных юз-кейса RSS-лент с форума:

  • Подписка на все новые сообщения в теме,
  • Подписка на новые личные сообщения,
  • Периодическое оповещение о модификации и создании новых тем в форуме, в виде одного элемента в ленте, без самих сообщений («чтение форума»).