RAG-поиск по документам: как устроен и сколько стоит в 2026
Архитектура RAG-системы: векторный поиск, embeddings, реранкер, генерация. Стек: pgvector, Qdrant, LlamaIndex. Цена, сроки, типичные ошибки.
RAG (Retrieval-Augmented Generation) — архитектура ИИ-системы, которая отвечает на вопросы по вашим документам со ссылкой на источник. Стандартный стек 2026: pgvector или Qdrant + LlamaIndex / LangChain + GigaChat / GPT + реранкер. Стоимость от 900 тыс ₽ за 21 день для базы 10–50 тыс документов. Дешевле и проще fine-tuning для большинства задач.
Что такое RAG
RAG (Retrieval-Augmented Generation) — архитектура ИИ-системы, при которой LLM отвечает на вопрос не из своей «памяти», а на основании найденных в базе документов. На вход — вопрос пользователя. RAG ищет в базе документов релевантные фрагменты, передаёт их в промпт LLM вместе с вопросом, и модель формулирует ответ со ссылкой на источник.
Главные преимущества:
- Точность — модель работает с конкретным контекстом, а не угадывает по обучающей выборке.
- Цитирование — каждый ответ ссылается на конкретный документ и страницу.
- Актуальность — добавили документ, и ИИ его «знает» через 1–5 минут (не нужно переобучать модель).
- Конфиденциальность — документы хранятся в вашей инфраструктуре, в LLM передаются только релевантные фрагменты.
Главный минус — RAG не «думает», только «ссылается». Для задач, требующих синтеза знаний, нужны сложные конструкции: multi-hop RAG, agentic RAG.
Архитектура RAG
Базовая RAG-система состоит из 5 компонентов:
- Хранилище документов — там лежат исходники (PDF, Markdown, HTML, базы данных).
- Embedder — модель, превращающая текст в векторы (OpenAI text-embedding-3, Cohere Embed v3, multilingual-e5).
- Векторная БД — хранит embeddings и умеет искать ближайших соседей (pgvector, Qdrant, Weaviate, Pinecone).
- Реранкер — переоценивает результаты векторного поиска для точности (cross-encoder).
- LLM — формирует ответ на основании найденного контекста (GigaChat, GPT, Claude, локальные модели).
Дополнительные компоненты в продвинутых системах:
- Hybrid search — сочетание векторного и BM25-поиска для случаев с цифрами и точными терминами.
- Query rewriting — LLM переписывает запрос пользователя для лучшего поиска.
- Multi-hop reasoning — последовательность поисков для сложных вопросов.
- Citation tracking — точное сопоставление ответа с источниками.
Стандартный стек 2026 года
Для большинства проектов оптимальный стек:
- Хранилище — Postgres (если уже есть) или S3-совместимое.
- Embedder — OpenAI text-embedding-3-large для качества или multilingual-e5 для локальности.
- Векторная БД — pgvector (если уже Postgres и до 1–5M документов) или Qdrant (для больших объёмов).
- Реранкер — Cohere Rerank или BGE-Reranker (локально).
- LLM — GigaChat или YandexGPT для русскоязычных задач, Claude для длинных контекстов и кода.
- Framework — LlamaIndex для RAG-фокуса или LangChain для смешанных ИИ-приложений.
Сколько стоит RAG-проект
Стартовые точки:
- PoC RAG на 100–1000 документов — 200–400 тыс ₽ за 2–3 недели.
- Полноценный RAG на 10–50 тыс документов — от 900 тыс ₽ за 21 день.
- RAG на 50–500 тыс документов с реранкером и кастомной логикой — от 1.5 млн ₽ за 30+ дней.
- Корпоративный RAG с интеграциями (Confluence, Notion, Google Drive, переписка) — от 2.5 млн ₽.
Поддержка:
- Embeddings считаются один раз при индексации, недорого.
- LLM-токены — 5–30 тыс ₽/мес для типичной нагрузки.
- Реранкер — 2–10 тыс ₽/мес или бесплатно (локальный).
- Поддержка системы — 30–80 тыс ₽/мес: мониторинг качества, обновление базы знаний, тонкая настройка.
Где RAG работает лучше всего
В порядке распространённости:
- База знаний компании — регламенты, политики, FAQ, документация. Самый частый запрос.
- Юридический поиск — договоры, решения суда, нормативные акты. Требует высокой точности и цитирования.
- Техническая документация — внутренние API, библиотеки, гайдлайны для разработчиков.
- Поддержка клиентов — типовые вопросы со ссылкой на политику или инструкцию.
- Исследовательский поиск — статьи, патенты, переписка по проектам.
Где RAG работает плохо
- Задачи с расчётами — RAG не умеет считать, только цитировать.
- Задачи синтеза — соединить идеи из 10+ документов в новую концепцию RAG не сможет, нужны мульти-агентные конструкции.
- Задачи с очень структурированными данными — таблицы Excel лучше обрабатывать SQL, не RAG.
- Задачи реального времени — RAG имеет задержку 1–5 секунд, для критичных по скорости приложений нужны другие архитектуры.
RAG vs fine-tuning
| | RAG | Fine-tuning | |---|---|---| | Цена внедрения | 200 тыс ₽ – 2.5 млн ₽ | 150 тыс ₽ – $5000 + | | Скорость старта | 2–4 недели | 2–6 недель | | Обновление данных | Минуты | Переобучение | | Цитирование | Из коробки | Требует доп. работы | | Стиль / тон бренда | Через промпт | Лучше | | Узкая доменная лексика | Хуже | Лучше | | Окно контекста | Зависит от LLM | Зависит от LLM |
В 95% задач RAG проще, дешевле, гибче. Fine-tuning имеет смысл для:
- Очень специфического стиля письма (например, медицинская терминология);
- Узкого домена с малой долей в обучающей выборке моделей (юридическая практика РФ);
- Задач классификации по сотням категорий с сильным дисбалансом.
Типичные ошибки RAG-проектов
- «Загрузим всё подряд». RAG требует чистоты данных. Дубликаты, устаревшие версии, шум — всё снижает качество.
- «Без реранкера». Векторный поиск даёт топ-50 кандидатов, реранкер выбирает топ-3 для промпта. Без реранкера точность падает на 15–25%.
- «Окно поиска 100 документов». Передавать в LLM 100 документов = переплачивать за токены и снижать качество. Стандарт — 3–5 топ-релевантных фрагментов.
- «Нет цитирования». Если ответ без ссылки на источник — пользователь не доверяет. Citation tracking — обязательно.
- «Большая модель решит проблему». Чаще проблема — в качестве данных или промпта, а не в выборе LLM.
Что дальше
ИИ и AEO для бизнеса — pillar.
ChatGPT vs Claude для бизнеса — выбор LLM.
ИИ-агенты в бизнесе: практика — следующий уровень.
RAG-поиск как услуга — заказать.
Калькулятор ИИ-проекта — оценить.