Как только появилась самая большая и известная модель ChatGPT, её тут же протестировали на задачах медицины — поддержке в постановке диагнозов и принятия клинических решений, анализа медицинской литературы и взаимодействии с пациентами. В этом материале о том, почему будущее генеративного ИИ в медицине — за более компактными моделями и какие компании уже превращают это будущее в настоящее.
По сути большая языковая модель (Large language Model, LLM) — это тип модели машинного обучения, способный «понимать» естественный человеческий язык посредством глубоких нейронных сетей и генерировать человекопонятный текст.
В целом основная функция под капотом LLM — предсказывание (угадывание, прогнозирование) наиболее вероятного следующего слова в предложении. Такой же процесс реализует Т9 в наших смартфонах, когда набирая текст, мы получаем подсказки на клавиатуре.
Важнейшее условие работы любой модели — обучение. Его суть в «переваривании» огромного количества текстовых данных. По тому, как модели обучены, их можно разделить на следующие типы:
Как только появилась самая большая и известная модель ChatGPT, её тут же протестировали на задачах из области медицины. Вот лишь несколько примеров:
→ ChatGPT протестировали на 100+ вопросах о заболеваниях сетчатки. Результаты показали, что ChatGPT даёт точные ответы на общие вопросы, но хуже справляется с вопросами о сценариях лечения.
→ ChatGPT продемонстрировал точность, схожую с точностью живого эксперта, в ответах на 85 вопросов по генетике/геномике.
→ ChatGPT был протестирован на 100 вопросах открытого типа по патологии. Модель набрала около 80 % правильных ответов.
→ ChatGPT прошел китайский национальный экзамен по медицинскому лицензированию, но его результаты оказались значительно ниже проходного уровня.
Эксперименты подробно описаны в массе источников:
Интерес понятен. В сфере нехватка специалистов, проблема с доступом к помощи в регионах, сложности, связанные с уровнем подготовки врачей, их загруженностью бумажной работой, и ещё тонна вызовов. Идея делегировать часть задач искусственному интеллекту висит в воздухе.
Вот ключевые участки работы медиков, где можно применить LLM:
1. Расшифровка записей. Суть в том, чтобы автоматизировать преобразование устной речи в письменные заметки.
2. Анализ электронных медицинских записей. Модели можно доверить документацию классов EHR (Electronic health record), EMR (Electronic medical record) и EPR (electronic patient record), чтобы она помогала выявлять в них закономерности и улучшать уход за больным.
3. Поддержка в постановке диагнозов и принятии решений. Модель лучше любого человека способна обобщить сложную медицинскую информацию, а также помочь специалисту поставить диагноз и принять обоснованное решение по сценарию лечения.
4. Помощь в обучении и исследованиях. Модель может изучать огромное количество медицинских исследований и предоставлять специалисту выжимку из них. И в целом условный MedGPT — удобный медицинский справочник.
5. Коммуникации с пациентами. Интеллектуальные чат-боты могут не только рассказать про услуги, напомнить о записи к врачу, но и ответить на вопросы, связанные с самочувствием, подобрать нужные анализы, связать с врачом, успокоить и поддержать.
6. Прогнозирование. Идея в том, что опираясь на данные конкретного пациента и большой массив фоновых знаний, большая языковая модель может с высокой точностью прогнозировать возможное течение болезни и потенциальные риски. А это поможет врачам — и самому пациенту — принять своевременные меры.
7. Разработка планов лечения. На основе данных, упомянутых в предыдущем пункте, модель может разработать и индивидуальный план лечения — или, как минимум, помочь в этом врачу.
Как и любое другое новое техническое решение, LLM вызывает вопросы. Совершенных инструментов нет, а большое пространство для развития — это нормально, когда с технологией активно работают всего несколько лет.
Точность, достоверность, надёжность
Большие языковые модели удивляют широтой познаний — и всё же могут неверно оценивать контекст запроса и ошибаться. Это тревожит сообщество, поскольку ошибки в вопросах, связанных со здоровьем, стоят пациенту дорого.
Обобщение вместо специализации
Существует огромный спектр врачебных специализаций, и кажется, что это количество только растёт. Каждая — специальная область знаний с множеством нюансов, особенностей. LLM, даже обученная на медицинских, но общих данных, может не обладать детальными знаниями в каждой области.
Предвзятость и другие этические аспекты
Как мы уже знаем, LLM учатся на живом материале, созданном людьми. Вместе со знаниями и опытом они впитывают предрассудки, цинизм и другие не самые симпатичные особенности человеческого мышления.
Ключевой аспект работы языковых моделей — обучение. Интуитивно понятно, что для того, чтобы модель качественно обрабатывала запросы связанные с медициной и здоровьем, её нужно обучать (или дообучать) на медицинском материале. Модель, обученная на рандомных текстах в интернете, явно справится с этим хуже, а вероятность ошибки достаточно высока.
Закономерно, что появились модели, прицельно обученные на медицинских данных. В среде стали использовать термины large medicine model и large health model.
Применение больших языковых моделей в здравоохранении уходит корнями в 1960-е годы. Первую заметную попытку использовать NLP (обработку естественного языка) в контексте здравоохранения можно отнести к разработке программы ELIZA в Массачусетском технологическом институте, том самом легендарном MIT. ELIZA стала чат-ботом, когда ещё не существовало слова «чат-бот», и предназначалась для имитации разговора. Эти эксперименты заложили основу для применения НЛП в различных областях, включая здравоохранение.
С 60-х прошло много лет. По меркам науки — целая вечность. Какие компании и продукты сегодня драйвят внедрение искусственного интеллекта в медицине и фармакологии?
GenHealth.ai — стартап, основанный в 2023 году, базируется в штате Вирджиния, США. Вот какие продукты предлагают GenHealth:
«Большинство важных решений в сфере здравоохранения скоро будут поддерживаться ИИ. Мы стремимся сделать ИИ максимально интеллектуальным, безопасным и доступным. Мы надеемся, что наш ИИ в страховых компаниях, поставщиках медицинских услуг, фармацевтических компаниях, разработчиках приложений и в других отраслях отрасли улучшит качество, снизит затраты и поможет людям жить дольше и здоровее. Генеративный ИИ обладает невиданным потенциалом. Мы стремимся привнести этот потенциал в решения в области здравоохранения, которые влияют на повседневную жизнь миллиардов людей».
Med-PaLM — специальная языковая модель для медицинских нужд от Google Research. Последняя версия, Med-PaLM 2, была представлена в марте 2023 года среди прочего сдала профессиональный медицинский экзамен United States Medical Licensing Examination (USMLE) с результатом более чем в 85 %.
Ключевые особенности Med-PaLM:
→ Мультимодальная функциональность. Модель предназначена для обработки различных типов биомедицинских данных — клинические записи, медицинские визуальные данные и геном. Такой подход позволяет решать широкий спектр медицинских задач.
→ Обучение и оценка. Модель построена на основе передовых предварительно обученных моделей, включая Pathways (PaLM) и адаптированную под задачи компьютерного зрения Vision Transformer (ViT). Med-PaLM прошла оценку с использованием эталонного отраслевого теста MultiMedQA.
→ В значительном числе случаев радиологи предпочли радиологические отчёты, подготовленные Med-PaLM, а не рентгенологами.
Среди прочих исследований PaLM подвергался оценке на безопасность ответов в сравнении с ответами живых медицинских сотрудников. В результате большая доля ответов была признаны абсолютно безопасными. Впрочем, мы не знаем точно, что это значит. Теоретически можно было обучить модель давать ответы настолько же безопасные, насколько и бесполезные — например, принимать терапевтические дозы витамина C.
Google продолжает разработку модели. В будущем появится мультимодальная версия Med-PaLM M, способная работать не только с текстом, но и данными другой природы. Сейчас модель тестируют избранные клиенты Google Cloud.
Это модель, разработанная Microsoft и обученная на миллионах статей по биомедицинским исследованиям. Функционал без сюрпризов: ответы на вопросы, извлечение данных и генерация профильных текстов.
Интересно, что по шкале PubMedQA модель BioGPT достигла рекордной точности ответов в 81 %, впервые обогнав «человеческий» показатель в 78 %. Ни одна другая модель не могла достичь таких показателей, а предыдущий рекордсмен, модель BioBERT, продемонстрировал 68 %.
Потенциальные кейсы применения включают разработку лекарств, где они могут генерировать описания терапевтических классов или конкретных методов лечения.
Ограничения модели остаются теми же. Как и другие модели искусственного интеллекта, BioGPT может галлюцинировать.
Кроме того, вместе с полезными знаниями модель поглощает деструктивные паттерны человеческого мышления, присутствующие в медицинских исследованиях — например, предрассудки и когнитивные искажения.
John Snow Labs специализируются на разработке решений в области искусственного интеллекта и обработки естественного языка (NLP) именно для здравоохранения и смежных областей. Основанная в 2015 году, компания быстро зарекомендовала себя как лидер в области AI-технологий, предлагая высококачественные модели, данные и инструменты, которые помогают упростить внедрение AI в клиническую практику и работу фармкомпаний.
Продукты John Snow Labs:
1. Большие языковые модели для медицины. По упомянутой выше шкале PubMedQA одна из моделей, разработанных компанией, достигла показателя точности ответов в 78,4 %, побив таким образом GPT 4.
2. Spark NLP. Это библиотека обработки естественного языка является одной из самых популярных в корпоративном сегменте и поддерживает 250+ языков. Она включает более 10 000 предобученных моделей для распознавания сущностей, извлечения информации, анализа эмоций и других задач.
3. Собственная лаборатория генеративного искусственного интеллекта, предоставляющая клиентам специализированные инструменты для работы с медицинскими большими языковыми моделями.
4. Visual NLP. Инструменты для обработки изображений и форм, которые помогают в задачах классификации и извлечения данных из визуальных типов файлов.
5. Медицинский чат-бот, который отвечает, объясняет, даёт релевантные ссылки, ежедневно обновляет медицинские знания и позволяет добавлять собственные базы знаний.
К числу клиентов John Snow Labs относятся крупные медицинские и фармацевтические компании — например, Johnson & Johnson, Roche и Merck. Компания и её продукты имеют внушительный список наград.
В статье Института Человекоцентричного Искусственного Интеллекта (HAI, Institute for Human-Centered Artificial Intelligence, входит в состав Стэнфордского университета) звучат основные опасения относительно имплементации инструментов на базе ИИ в медицинскую практику.
Хотя LLM демонстрируют многообещающие результаты в поддержке принятия клинических решений, коммуникациях с пациентами и анализе медицинской литературы, авторы заключают, что необходим более системный подход к валидации результатов.
Эффективность моделей часто оценивается по узким критериям, которые могут не отражать реальные сценарии в клинической практике. Проблемы, встающие перед сообществом очевидны: «шумные» и неполные данные, конфиденциальность пациентов, этические вопросы…
Отдельная область внимания сообщества — прозрачность процессов, происходящих «под капотом» и приводящего к тому или иному результату. Все существующие модели опираются на глубокое обучение и искусственные нейронные сети, что приводит к эффекту «чёрного ящика».
Эту точку зрения разделяют исследователи CSIRO — национального научного агентства Австралии, занимающегося прикладными и фундаментальными исследованиями в различных областях. Большие языковые модели набирают популярность в сфере здравоохранения, но по их мнению считать их «серебряной пулей» преждевременно. LLM полагаются на высококачественные структурированные данные — а они доступны далеко не всегда. Большинство медицинских данных — заметки врача, рецепты, резюме выписки — неструктурированные.
Было бы ошибкой думать, что нам не нужны структурированные данные, потому что LLM могут решить этот вопрос за нас. По словам Дерека Айрленда, старшего инженера-программиста исследовательского центра AEHRC в составе CSIRO, «может быть, с безграничными вычислительными мощностями это было бы возможно, но у нас их нет».Кроме того, по словам Дэвида, LLM не имеют способностей к рассуждению, поэтому их нельзя использовать для всех задач в здравоохранении. Но нужно отдать им должное, они очень хороши в распознавании паттернов в речи и последующей генерации текста на основе этих паттернов.
Сегодня сообщество сходится во мнении, что для разработки стандартов оценки и руководств по внедрению программ LLM в здравоохранении нужно сотрудничество между исследователями искусственного интеллекта, клиницистами и регулирующими органами. И разумеется, дальнейшие активные исследования в этой области.