Краткий ответ: RAG-поиск по документам: как устроен и сколько стоит в 2026

ИИRAG

RAG-поиск по документам: как устроен и сколько стоит в 2026

Архитектура RAG-системы: векторный поиск, embeddings, реранкер, генерация. Стек: pgvector, Qdrant, LlamaIndex. Цена, сроки, типичные ошибки.

ИИ-команда Вадлайн

08.05.2026 · 12 мин чтения · Проверено 08.05.2026

Кратко

RAG (Retrieval-Augmented Generation) — архитектура ИИ-системы, которая отвечает на вопросы по вашим документам со ссылкой на источник. Стандартный стек 2026: pgvector или Qdrant + LlamaIndex / LangChain + GigaChat / GPT + реранкер. Стоимость от 900 тыс ₽ за 21 день для базы 10–50 тыс документов. Дешевле и проще fine-tuning для большинства задач.

Что такое RAG

RAG (Retrieval-Augmented Generation) — архитектура ИИ-системы, при которой LLM отвечает на вопрос не из своей «памяти», а на основании найденных в базе документов. На вход — вопрос пользователя. RAG ищет в базе документов релевантные фрагменты, передаёт их в промпт LLM вместе с вопросом, и модель формулирует ответ со ссылкой на источник.

Главные преимущества:

Точность — модель работает с конкретным контекстом, а не угадывает по обучающей выборке.
Цитирование — каждый ответ ссылается на конкретный документ и страницу.
Актуальность — добавили документ, и ИИ его «знает» через 1–5 минут (не нужно переобучать модель).
Конфиденциальность — документы хранятся в вашей инфраструктуре, в LLM передаются только релевантные фрагменты.

Главный минус — RAG не «думает», только «ссылается». Для задач, требующих синтеза знаний, нужны сложные конструкции: multi-hop RAG, agentic RAG.

Архитектура RAG

Базовая RAG-система состоит из 5 компонентов:

Хранилище документов — там лежат исходники (PDF, Markdown, HTML, базы данных).
Embedder — модель, превращающая текст в векторы (OpenAI text-embedding-3, Cohere Embed v3, multilingual-e5).
Векторная БД — хранит embeddings и умеет искать ближайших соседей (pgvector, Qdrant, Weaviate, Pinecone).
Реранкер — переоценивает результаты векторного поиска для точности (cross-encoder).
LLM — формирует ответ на основании найденного контекста (GigaChat, GPT, Claude, локальные модели).

Дополнительные компоненты в продвинутых системах:

Hybrid search — сочетание векторного и BM25-поиска для случаев с цифрами и точными терминами.
Query rewriting — LLM переписывает запрос пользователя для лучшего поиска.
Multi-hop reasoning — последовательность поисков для сложных вопросов.
Citation tracking — точное сопоставление ответа с источниками.

Стандартный стек 2026 года

Для большинства проектов оптимальный стек:

Хранилище — Postgres (если уже есть) или S3-совместимое.
Embedder — OpenAI text-embedding-3-large для качества или multilingual-e5 для локальности.
Векторная БД — pgvector (если уже Postgres и до 1–5M документов) или Qdrant (для больших объёмов).
Реранкер — Cohere Rerank или BGE-Reranker (локально).
LLM — GigaChat или YandexGPT для русскоязычных задач, Claude для длинных контекстов и кода.
Framework — LlamaIndex для RAG-фокуса или LangChain для смешанных ИИ-приложений.

Сколько стоит RAG-проект

Стартовые точки:

PoC RAG на 100–1000 документов — 200–400 тыс ₽ за 2–3 недели.
Полноценный RAG на 10–50 тыс документов — от 900 тыс ₽ за 21 день.
RAG на 50–500 тыс документов с реранкером и кастомной логикой — от 1.5 млн ₽ за 30+ дней.
Корпоративный RAG с интеграциями (Confluence, Notion, Google Drive, переписка) — от 2.5 млн ₽.

Поддержка:

Embeddings считаются один раз при индексации, недорого.
LLM-токены — 5–30 тыс ₽/мес для типичной нагрузки.
Реранкер — 2–10 тыс ₽/мес или бесплатно (локальный).
Поддержка системы — 30–80 тыс ₽/мес: мониторинг качества, обновление базы знаний, тонкая настройка.

Где RAG работает лучше всего

В порядке распространённости:

База знаний компании — регламенты, политики, FAQ, документация. Самый частый запрос.
Юридический поиск — договоры, решения суда, нормативные акты. Требует высокой точности и цитирования.
Техническая документация — внутренние API, библиотеки, гайдлайны для разработчиков.
Поддержка клиентов — типовые вопросы со ссылкой на политику или инструкцию.
Исследовательский поиск — статьи, патенты, переписка по проектам.

Где RAG работает плохо

Задачи с расчётами — RAG не умеет считать, только цитировать.
Задачи синтеза — соединить идеи из 10+ документов в новую концепцию RAG не сможет, нужны мульти-агентные конструкции.
Задачи с очень структурированными данными — таблицы Excel лучше обрабатывать SQL, не RAG.
Задачи реального времени — RAG имеет задержку 1–5 секунд, для критичных по скорости приложений нужны другие архитектуры.

RAG vs fine-tuning

| | RAG | Fine-tuning |
|---|---|---|
| Цена внедрения | 200 тыс ₽ – 2.5 млн ₽ | 150 тыс ₽ – $5000 + |
| Скорость старта | 2–4 недели | 2–6 недель |
| Обновление данных | Минуты | Переобучение |
| Цитирование | Из коробки | Требует доп. работы |
| Стиль / тон бренда | Через промпт | Лучше |
| Узкая доменная лексика | Хуже | Лучше |
| Окно контекста | Зависит от LLM | Зависит от LLM |

В 95% задач RAG проще, дешевле, гибче. Fine-tuning имеет смысл для:

Очень специфического стиля письма (например, медицинская терминология);
Узкого домена с малой долей в обучающей выборке моделей (юридическая практика РФ);
Задач классификации по сотням категорий с сильным дисбалансом.

Типичные ошибки RAG-проектов

«Загрузим всё подряд». RAG требует чистоты данных. Дубликаты, устаревшие версии, шум — всё снижает качество.
«Без реранкера». Векторный поиск даёт топ-50 кандидатов, реранкер выбирает топ-3 для промпта. Без реранкера точность падает на 15–25%.
«Окно поиска 100 документов». Передавать в LLM 100 документов = переплачивать за токены и снижать качество. Стандарт — 3–5 топ-релевантных фрагментов.
«Нет цитирования». Если ответ без ссылки на источник — пользователь не доверяет. Citation tracking — обязательно.
«Большая модель решит проблему». Чаще проблема — в качестве данных или промпта, а не в выборе LLM.