Cуть проекта — инструмент на базе ML для автоматизированного мониторинга и аналитики новостей в СМИ и соцсетях, оценки их тональности, классификации по тематикам сообщений и кластеризации инфоповодов для эффективного управления инфополем и снижения репутационных угроз.
Введение
В данном документе представлен успешный проект интеграции автоматизированной системы мониторинга и обработки новостей СМИ и социальных сетей, реализованный нашей командой для клиента — крупного медиааналитического агенства. Проект охватывал полный цикл разработки, начиная с фазы проектирования и заканчивая финальной стадией интеграции в рабочий процесс клиента и обучения пользователей. Результаты проекта - это сокращение времени на ручную обработку текстовых данных, оптимизацию расходов и улучшение качества предоставляемых услуг.
Клиент
Заказчик - Медиа Аналитическое Агенство в РФ
Крупное медиааналитическое агентство в России, с 2005 года предоставляющее услуги по мониторингу и анализу СМИ и соцмедиа для брендов, государственных корпораций и структур, малого и среднего бизнеса
Боль-Запрос
Высокая зависимость от ручного труда и высокой себестоимости проектов
→ Автоматизировать ручной и трудоемкий процесс анализа новостей и комментариевНизкое качество ручной обработки
→ Увеличить качество анализаИз-за высокой зависимости от ручного труда ограничены возможности принимать множество проектов
→ Дать автоматизированный инструмент для клиента, позволив масштабировать количество рабочих проектов
Описание проекта
Необходимо было разработать автоматизированный сервис для интеллектуальной обработки новостей в СМИ и сообщений в соцсетях. В основе разрабатываемого сервиса использовались модели машинного обучения (ML модели / Machine Learning модели) с использованием методов обработки естественного языка (NLP / Natural Language Processing):
- Кластеризация новостей СМИ и сообщений соц. сетей
- Оценка тональности сообщений
- Определение тематик сообщений
Технический стек для разработки ML моделей - Python Data Science Stack (Python, PyTorch).
Продуктивизация моделей осуществлялась в виде REST API сервиса.
Также был разработан отдельный модуль для обучения / дообучения / переобучения моделей на языке Python.
Также был разработан отдельный модуль для обучения / дообучения / переобучения моделей на языке Python.
Длительность проекта
Общая длительность проекта: 5 месяцев
- Обследование и проектирование — 3-4 недели
- Разработка функционала решения — 3 месяца
- Внедрение и тестирование — 1 месяц
- Поддержка
Общая длительность проекта: 5 месяцев
- Обследование и проектирование — 3-4 недели
- Разработка функционала решения — 3 месяца
- Внедрение и тестирование — 1 месяц
- Поддержка
Команда
- 1 Project Manager
- Data Science (DS) team:
— 1 DS Lead / NLP Lead
— 2 опытных в области NLP Data Scientist
- Разработка:
— Back-end Developer
- Документация:
— Бизнес-аналитик / технический писатель
- 1 Project Manager
- Data Science (DS) team:
— 2 опытных в области NLP Data Scientist
- Разработка:
- Документация:
Стоимость реализации проекта
Общая стоимость проекта составила ~ 100k USD
Общая стоимость проекта составила ~ 100k USD
Решение
Тональность
- Техническое решение
Техническое решение включает разработку высоконадежного сервиса для анализа тональности текстов из различных источников, включая СМИ и социальные медиа. Мы реализовали это через Docker-контейнер, содержащий специализированную модель машинного обучения на базе Python и Pytorch. Контейнер развернут в облачной инфраструктуре Яндекса, обеспечивая гибкость и масштабируемость. Сервис обрабатывает входящие REST API POST запросы, анализирует тексты на наличие сущностей и возвращает точные и быстрые результаты, классифицируя тональность текстов как положительную, нейтральную или отрицательную.
- Сравнение предобученных моделей
- Техническое решение
Техническое решение включает разработку высоконадежного сервиса для анализа тональности текстов из различных источников, включая СМИ и социальные медиа. Мы реализовали это через Docker-контейнер, содержащий специализированную модель машинного обучения на базе Python и Pytorch. Контейнер развернут в облачной инфраструктуре Яндекса, обеспечивая гибкость и масштабируемость. Сервис обрабатывает входящие REST API POST запросы, анализирует тексты на наличие сущностей и возвращает точные и быстрые результаты, классифицируя тональность текстов как положительную, нейтральную или отрицательную.
- Сравнение предобученных моделей
Инфоповоды
- Техническое решение
Meccano предлагает инновационный сервис для автоматического выявления информационных потоков из СМИ и социальных медиа. Решение реализовано в формате докер-контейнера, содержащего модель машинного обучения для точной кластеризации текстов. Контейнер развернут в облачной инфраструктуре Яндекса на выделенной виртуальной машине, обеспечивая высокую степень безопасности и надежности данных. В комплекс входит промежуточная база данных, управляемая командой разработчиков Meccano, а также асинхронная схема обработки данных через REST API для эффективного взаимодействия с внешними системами, включая передачу аналитических результатов информационных потоков.- Описание экспериментов (подробнее здесь)
- Техническое решение
- Описание экспериментов (подробнее здесь)
Теги
Техническое решение- Meccano предлагает передовой сервис для автоматического тегирования текстов из СМИ и социальных медиа.
- Решение реализовано в виде докер-контейнера с специализированной моделью машинного обучения.
- Контейнер размещен и запущен в облачной инфраструктуре Яндекса, обеспечивая высокую степень надежности и безопасности данных.
- Сервис поддерживает синхронную обработку данных через REST API.
- Модель обладает высокой производительностью, обрабатывая до 3 запросов в секунду на тексты длиной около 3000 символов.
- Для работы модели требуется не более 12 ГБ видеопамяти и 12 ГБ оперативной памяти.
- Проект включает модель машинного обучения для тегирования текстов, сервер сообщений для приема и отправки данных, а также модули предобработки и постобработки данных.
- Решение поддерживает различные домены СМИ и социальных медиа, обеспечивая гибкость и точность в выдаче результатов.
- Meccano предлагает передовой сервис для автоматического тегирования текстов из СМИ и социальных медиа.
- Решение реализовано в виде докер-контейнера с специализированной моделью машинного обучения.
- Контейнер размещен и запущен в облачной инфраструктуре Яндекса, обеспечивая высокую степень надежности и безопасности данных.
- Сервис поддерживает синхронную обработку данных через REST API.
- Модель обладает высокой производительностью, обрабатывая до 3 запросов в секунду на тексты длиной около 3000 символов.
- Для работы модели требуется не более 12 ГБ видеопамяти и 12 ГБ оперативной памяти.
- Проект включает модель машинного обучения для тегирования текстов, сервер сообщений для приема и отправки данных, а также модули предобработки и постобработки данных.
- Решение поддерживает различные домены СМИ и социальных медиа, обеспечивая гибкость и точность в выдаче результатов.
Результат проекта
- На стороне Заказчика (на серверном оборудовании либо на облачных ресурсах) развернут веб-сервис, в котором продуктивизированы три ML модели для обработки текстовых данных.
- Разработан модуль обучения моделей в виде скрипта на Python.
- Разработана базовая документация с описанием полученных моделей, архитектуры сервиса и API.
- Точность распознавания тематик — 80+%, определения тональности — 92+%
Политика, религия, экономика, финансы
Бизнес, общество
Бизнес эффект
- На стороне Заказчика (на серверном оборудовании либо на облачных ресурсах) развернут веб-сервис, в котором продуктивизированы три ML модели для обработки текстовых данных.
- Разработан модуль обучения моделей в виде скрипта на Python.
- Разработана базовая документация с описанием полученных моделей, архитектуры сервиса и API.
- Точность распознавания тематик — 80+%, определения тональности — 92+%
Следующие шаги
План на второй этап
На этапе 1.1 проекта предусмотрено дообучение и улучшение моделей анализа тональности и тэгирования на основе обратной связи после тестирования и завершения сбора данных. Эти работы планируется провести параллельно в течение одного месяца.На этапе 2, основное внимание будет уделено анализу трендов и управлению репутацией компании. В рамках анализа трендов планируется мониторинг и реакция на активность в медиаполе, что займёт два месяца. В работе с репутацией будут использованы методы извлечения ключевых слов из отзывов, автоматической суммаризации обзоров и анализа тональности, также с двумесячным сроком реализации.
План на второй этап
На этапе 1.1 проекта предусмотрено дообучение и улучшение моделей анализа тональности и тэгирования на основе обратной связи после тестирования и завершения сбора данных. Эти работы планируется провести параллельно в течение одного месяца.
На этапе 2, основное внимание будет уделено анализу трендов и управлению репутацией компании. В рамках анализа трендов планируется мониторинг и реакция на активность в медиаполе, что займёт два месяца. В работе с репутацией будут использованы методы извлечения ключевых слов из отзывов, автоматической суммаризации обзоров и анализа тональности, также с двумесячным сроком реализации.