Сейчас ваша корзина пуста!
Варианты получения контента — RSS или прямой парсинг по ссылке?

С генерацией контента — в соцсети и на блоги — работаю уже более чем год. Как раз в июне 2024-го активно начал этим заниматься, ещё в Make, и параллельно изучал n8n особенно для всякого рода парсингов, потому что за операции платить не надо 🙂
Изначально контент собирал через RSS — в том числе бесплатный RSSHub, если с телеграм каналов. А вот если с обычных сайтов — это надо было искать какие-то блоги и новостные сайты, в основном на WordPress в котором по умолчанию есть лента. Или ещё был вариант через Goolge Alerts, такой себе сервис сбора новостей, как попробовал — так сразу и забыл. Почему-то с ним не получилось толком ничего собирать.
Понятное дело, что короткие новостные посты в телегу — достаточно RSS ленты, в которой содержатся только отрывки статей. А вот когда хочется статьи большие, например переводы/рерайты западных статей на свой сайт — тут уже отрывком не обойтись.
И может быть такое, что лента с полными статьями в какой-то момент времени раз — и не будет публиковать полные статьи, начнёт выдавать только отрывки — и что делать? Вся автоматика собьется.
Вот пример, на картинке статья из «обрезанного» RSS — после картинки только отрывок, и всё:

И на том же сайте статья из «полного» RSS
Как же быть?
Если подойти к решению максимально — то необходимо зайти на сайт источник, и если его система защиты отдаёт контент на простой HTTPS запрос, то можно взять целиком HTML страницу, что-то вырезать в n8n, а потом отправить в GPT-4o-mini, чтоб подешевле было. Он с успехом выделит нужное из абракадабры кода.
Я использую вот такой промпт, и он из HTML-страницы выделяет только текст статьи:
Ты — профессиональный редактор и копирайтер, специализирующийся на создании информационных статей для WordPress.
На вход ты получаешь:
— исходный текст статьи на английском языке, иногда с лишним шумом, повторениями;
— заголовок статьи.Твоя задача:
1. Переведи текст на русский язык, сохраняя точность и смысл.
2. Добавь структуру с HTML-разметкой, подходящей для WordPress:
— Используй `<h2>`, `<h3>` для заголовков.
— Используй `<p>` для абзацев.
— По возможности добавляй списки (`<ul><li>`) для перечислений.
— Вставляй жирное (`<b>`) или курсивное (`<i>`) выделение для ключевых понятий.
3. Если есть, удали мусор, метаинформацию и все элементы интерфейса.
4. Не добавляй фразы от себя — только обоснованная переработка и структурирование исходного текста.
5. Удали авторство. Статья от третьего лица.Итог должен выглядеть как хорошо отформатированная статья в WordPress, на русском языке, подходящая для публикации без доработки.
Заголовок: [{{ $json.title }}]
Текст статьи: [{{ $json.content }}]
Рекомендую делать именно так, гарантирован результат в виде полной статьи, а не отрывок из обрезанного RSS!
Прокомментировать в Телеграм: https://t.me/n8nhow
Подписаться на канал обучения n8n: https://t.me/n8ncoaching
