← Все материалы
ИИRAG

RAG-поиск по документам: как устроен и сколько стоит в 2026

Архитектура RAG-системы: векторный поиск, embeddings, реранкер, генерация. Стек: pgvector, Qdrant, LlamaIndex. Цена, сроки, типичные ошибки.

ИИ-команда Вадлайн
ИИ-команда Вадлайн
08.05.2026 · 12 мин чтения · Проверено 08.05.2026
Кратко

RAG (Retrieval-Augmented Generation) — архитектура ИИ-системы, которая отвечает на вопросы по вашим документам со ссылкой на источник. Стандартный стек 2026: pgvector или Qdrant + LlamaIndex / LangChain + GigaChat / GPT + реранкер. Стоимость от 900 тыс ₽ за 21 день для базы 10–50 тыс документов. Дешевле и проще fine-tuning для большинства задач.

Что такое RAG

RAG (Retrieval-Augmented Generation) — архитектура ИИ-системы, при которой LLM отвечает на вопрос не из своей «памяти», а на основании найденных в базе документов. На вход — вопрос пользователя. RAG ищет в базе документов релевантные фрагменты, передаёт их в промпт LLM вместе с вопросом, и модель формулирует ответ со ссылкой на источник.

Главные преимущества:

  • Точность — модель работает с конкретным контекстом, а не угадывает по обучающей выборке.
  • Цитирование — каждый ответ ссылается на конкретный документ и страницу.
  • Актуальность — добавили документ, и ИИ его «знает» через 1–5 минут (не нужно переобучать модель).
  • Конфиденциальность — документы хранятся в вашей инфраструктуре, в LLM передаются только релевантные фрагменты.

Главный минус — RAG не «думает», только «ссылается». Для задач, требующих синтеза знаний, нужны сложные конструкции: multi-hop RAG, agentic RAG.

Архитектура RAG

Базовая RAG-система состоит из 5 компонентов:

  • Хранилище документов — там лежат исходники (PDF, Markdown, HTML, базы данных).
  • Embedder — модель, превращающая текст в векторы (OpenAI text-embedding-3, Cohere Embed v3, multilingual-e5).
  • Векторная БД — хранит embeddings и умеет искать ближайших соседей (pgvector, Qdrant, Weaviate, Pinecone).
  • Реранкер — переоценивает результаты векторного поиска для точности (cross-encoder).
  • LLM — формирует ответ на основании найденного контекста (GigaChat, GPT, Claude, локальные модели).

Дополнительные компоненты в продвинутых системах:

  • Hybrid search — сочетание векторного и BM25-поиска для случаев с цифрами и точными терминами.
  • Query rewriting — LLM переписывает запрос пользователя для лучшего поиска.
  • Multi-hop reasoning — последовательность поисков для сложных вопросов.
  • Citation tracking — точное сопоставление ответа с источниками.

Стандартный стек 2026 года

Для большинства проектов оптимальный стек:

  • Хранилище — Postgres (если уже есть) или S3-совместимое.
  • Embedder — OpenAI text-embedding-3-large для качества или multilingual-e5 для локальности.
  • Векторная БД — pgvector (если уже Postgres и до 1–5M документов) или Qdrant (для больших объёмов).
  • Реранкер — Cohere Rerank или BGE-Reranker (локально).
  • LLM — GigaChat или YandexGPT для русскоязычных задач, Claude для длинных контекстов и кода.
  • Framework — LlamaIndex для RAG-фокуса или LangChain для смешанных ИИ-приложений.

Сколько стоит RAG-проект

Стартовые точки:

  • PoC RAG на 100–1000 документов — 200–400 тыс ₽ за 2–3 недели.
  • Полноценный RAG на 10–50 тыс документов — от 900 тыс ₽ за 21 день.
  • RAG на 50–500 тыс документов с реранкером и кастомной логикой — от 1.5 млн ₽ за 30+ дней.
  • Корпоративный RAG с интеграциями (Confluence, Notion, Google Drive, переписка) — от 2.5 млн ₽.

Поддержка:

  • Embeddings считаются один раз при индексации, недорого.
  • LLM-токены — 5–30 тыс ₽/мес для типичной нагрузки.
  • Реранкер — 2–10 тыс ₽/мес или бесплатно (локальный).
  • Поддержка системы — 30–80 тыс ₽/мес: мониторинг качества, обновление базы знаний, тонкая настройка.

Где RAG работает лучше всего

В порядке распространённости:

  • База знаний компании — регламенты, политики, FAQ, документация. Самый частый запрос.
  • Юридический поиск — договоры, решения суда, нормативные акты. Требует высокой точности и цитирования.
  • Техническая документация — внутренние API, библиотеки, гайдлайны для разработчиков.
  • Поддержка клиентов — типовые вопросы со ссылкой на политику или инструкцию.
  • Исследовательский поиск — статьи, патенты, переписка по проектам.

Где RAG работает плохо

  • Задачи с расчётами — RAG не умеет считать, только цитировать.
  • Задачи синтеза — соединить идеи из 10+ документов в новую концепцию RAG не сможет, нужны мульти-агентные конструкции.
  • Задачи с очень структурированными данными — таблицы Excel лучше обрабатывать SQL, не RAG.
  • Задачи реального времени — RAG имеет задержку 1–5 секунд, для критичных по скорости приложений нужны другие архитектуры.

RAG vs fine-tuning

| | RAG | Fine-tuning |
|---|---|---|
| Цена внедрения | 200 тыс ₽ – 2.5 млн ₽ | 150 тыс ₽ – $5000 + |
| Скорость старта | 2–4 недели | 2–6 недель |
| Обновление данных | Минуты | Переобучение |
| Цитирование | Из коробки | Требует доп. работы |
| Стиль / тон бренда | Через промпт | Лучше |
| Узкая доменная лексика | Хуже | Лучше |
| Окно контекста | Зависит от LLM | Зависит от LLM |

В 95% задач RAG проще, дешевле, гибче. Fine-tuning имеет смысл для:

  • Очень специфического стиля письма (например, медицинская терминология);
  • Узкого домена с малой долей в обучающей выборке моделей (юридическая практика РФ);
  • Задач классификации по сотням категорий с сильным дисбалансом.

Типичные ошибки RAG-проектов

  • «Загрузим всё подряд». RAG требует чистоты данных. Дубликаты, устаревшие версии, шум — всё снижает качество.
  • «Без реранкера». Векторный поиск даёт топ-50 кандидатов, реранкер выбирает топ-3 для промпта. Без реранкера точность падает на 15–25%.
  • «Окно поиска 100 документов». Передавать в LLM 100 документов = переплачивать за токены и снижать качество. Стандарт — 3–5 топ-релевантных фрагментов.
  • «Нет цитирования». Если ответ без ссылки на источник — пользователь не доверяет. Citation tracking — обязательно.
  • «Большая модель решит проблему». Чаще проблема — в качестве данных или промпта, а не в выборе LLM.

Что дальше

ИИ и AEO для бизнеса — pillar.

ChatGPT vs Claude для бизнеса — выбор LLM.

ИИ-агенты в бизнесе: практика — следующий уровень.

RAG-поиск как услуга — заказать.

Калькулятор ИИ-проекта — оценить.

Хотите свой проект на этих принципах?

Похожие статьи