Диагностика на скорости света — буквально

Кого мы ищем

ML Engineer

Описание задачи

По SERS-спектру сыворотки крови пациента предсказать 8 численных биохимических параметров.

Данные: 1D спектры, 100 пациентов (по 100 спектров). Спектр фонового шума подложки, детектора. Физические референсные значения.

Метрики: MAE, RMSE, хотим достичь R² ≥ 0.85 для каждого биохимическогопараметра

Формат

Удаленно / Гибрид

Занятость

Частичная

Локация

Санкт-Петербург

Оплата труда

Имеется 😊

Компенсация

Подписки на инструменты, вычислительные ресурсы

Опыт работы с 1D-сигналами (спектры/timeseries) и регрессией (multi-output)
Уверенное владение Python (NumPy/Pandas/Scikit-learn), опыт работы с PyTorch (обучение и отладка моделей)
Умение организовать корректную валидацию: разбиение train/test, метрики качества (MAE, RMSE, R²) для каждого биохимического показателя
Навыки чтения и анализа научных статей, умение находить и адаптировать подходящие архитектуры и приёмы из смежных задач
Умение формулировать ML-гипотезы и план экспериментов

Соавторство в публикациях и участие в конференциях
Доступ к лаборатории: можно участвовать в экспериментах и разбираться, как получаются спектры на практике
Оплата труда
Рост и обучение: оплатим профильные курсы/материалы под задачи проекта

Присоединиться к проекту

От спектра к анализам: SERS и машинное обучение

Биохимический анализ крови — одно из базовых исследований, позволяющее оценить общее состояние здоровья. Ежегодно более 30 миллионов человек в России сдают биохимический анализ крови, а общий объём лабораторных исследований исчисляется сотнями миллионов. На практике это означает одно: спрос растёт быстрее, чем лаборатории успевают наращивать мощность без потери качества и скорости.

Неэффективность масштабирования текущих методов

Для определения базовых биохимических показателей используют набор разных подходов: УФ-кинетические тесты, метод Яффе, колориметрические и ферментативные методики, электрофорез и другие.

Традиционные методы биохимического анализа изначально создавались под умеренные объёмы лабораторных исследований. Но сегодня нагрузка уже другая: в 2024 году в России выполнено около 417 млн лабораторных исследований. При этом ожидается, что к 2030 году рынок будет расти со среднегодовым темпом 8,6–10,8%, что означает дальнейшее увеличение спроса на анализы.

Лабораторные исследования в России в 2020-2030 гг (млн)

При росте числа анализов процессы в лаборатории масштабируются нелинейно: увеличиваются время обработки и логистики проб, расход реактивов, число повторов из-за погрешностей, нагрузка на персонал и оборудование.

Ситуацию усугубляет старение парка: по итогам 2024 года 24,8% медоборудования эксплуатируется более 10 лет. При отсутствии существенного обновления оборудования к 2030 году доля техники ">10 лет" может вырасти примерно до ~56%; оценка дана по методологии износа медицинского оборудования.

В результате возникает дефицит пропускной способности. В иллюстративном расчёте (если в 2024 лаборатории были загружены примерно на ~80%) к 2030 “задержка” может выражаться в порядка 200–290 млн исследований в год, которые либо уйдут во внешние мощности, либо будут накапливаться в очереди и растягивать сроки выполнения.

Спрос vs пропускная способность

Спрос, млн

Пропускная способность, млн

Задержка, млн

Для устойчивого развития биохимической диагностики необходим единый универсальный метод, который сможет определять все ключевые параметры всего за несколько минут.

Чтобы приблизиться к такому универсальному подходу, нужен метод, который получает много химической информации за одно измерение, без отдельной реакции под каждый показатель. Один из наиболее перспективных путей — оптическая спектроскопия: она “считывает” состав образца напрямую по взаимодействию света с молекулами.

Как свет может считывать информацию о молекулах?

Здесь на сцену выходит рамановская спектроскопия — метод, который считывает информацию о молекулах по тому, как они рассеивают свет. Когда лазерный луч попадает на молекулу, возможны три типа рассеяния:

Чаще всего происходит Рэлеевское (ν₀), при котором частота не меняется — свет возвращается без изменений. Реже наблюдается Стоксовое (ν₀ - ν), при котором молекула, наоборот, забирает часть энергии, и отражённый свет становится менее энергичным (его частота уменьшается).

Еще более редким является Анти-Стоксовое рассеяние (ν₀ + ν), при котором молекула, наоборот, отдает часть энергии, и отражённый свет становится более энергичным (частота увеличивается).

На практике чаще всего используют стоксовую ветвь. Величина сдвига — Raman shift (Δν) — определяется колебательными модами и структурой молекулы. Именно этот “набор смещений” формирует спектральный отпечаток, по которому можно различать вещества.

Рассеяние света при лазерном возбуждении с длиной волны 488 нм.
Самая яркая линия — рэлеевская; слева — стоксовые, справа — антистоксовые линии, но их интенсивность очень слабая.

Проблема в том, что рамановский сигнал очень слабый: на фоне рэлеевского рассеяния и шумов он теряется, а для сложных биологических сред становится ещё труднее извлекать информативные признаки.

Горячие точки: где рождается усиление SERS

Чтобы сделать рамановскую спектроскопию практичной для малых концентраций и сложных образцов, используют SERS — поверхностно-усиленное рамановское рассеяние. В основе котрого используется эффект плазмонного усиления.

Суть в том, что рядом с металлическими наноструктурами (например, серебром или золотом) под действием света возбуждаются плазмонные колебания электронов. Это приводит к резкому усилению локального электромагнитного поля (E) вблизи поверхности.

Локализованный поверхностный плазмонный резонанс

E

10

0

-10

Зоны максимальной концентрации поля называют горячими точками. Если молекула оказывается в такой области, её рамановский сигнал возрастает на порядки — усиление может достигать 10⁶–10⁹ раз. Благодаря этому SERS превращает “едва заметный” рамановский отклик в измеряемый сигнал и позволяет работать с реальными биообразцами.

Учим машину читать спектры

«Энергия, фотоны, наночастицы — всё это замечательно, — сказал бы внешний наблюдатель. — Но как из этого получить полезную информацию, и причём тут ИИ?»

Давайте разбираться. Вспомним про Raman shift (Δν): он определяется колебательными модами и молекулярной структурой. Молекула — это не просто набор атомов, а “архитектура” связей, у которой есть своя динамика: разные группы атомов колеблются по-разному и на своих частотах

Если представить возможные колебания (например, для аминокислот), получится набор характерных “паттернов”:

У каждого типа связи и функциональной группы своя уникальная форму колебаний, а значит и своя уникальная частота (ν). К примеру, молекула, состоящая из соединений Serine и Threonine, будет иметь спектр, отличный от молекулы, состоящей из соединений Alanine и Valine. Аналогию можно провести с музыкой - мелодию гитары и фортепиано Вы легко отличитите от мелодии скрипки и саксофона.

Если рассматривать спектры простых веществ (например, Rhodamine 6G и Methyelene blue), отличия часто заметны даже визуально: разные пики, разные относительные интенсивности.

Но сыворотка или плазма крови — это смесь тысяч компонентов: Протеом крови насчитывает порядка 13000 уникальных белков, а метаболитов около 4500. Суммарный спектр получается сложным: пики перекрываются, часть сигналов маскируется фоном, а различия между образцами становятся тонкими и многомерными.

Именно поэтому “читать” такие спектры вручную — практически невозможно. Зато эту задачу хорошо решают математические методы, где модель учится находить закономерности в данных и связывать спектр с клиническими параметрами.

Мы используем сверточные нейронные сети (CNN) для анализа одномерных спектров: они умеют выделять устойчивые признаки и строить предсказание нужных показателей. По сути, это тот же принцип, что и в компьютерном зрении, только вместо изображения — спектральная “кривая”, а вместо объектов — химические и биохимические паттерны.

Когда модель обучена на парных данных “спектр → результат стандартного анализа”, она может за считанные секунды выдавать прогноз по целевым параметрам для нового образца. В связке SERS + ML это выглядит как переход от множества разрозненных реакций к одному измерению, которое даёт многопараметрический профиль.

Сегодня биохимия — фундамент клинической диагностики, но её всё сложнее масштабировать из-за стоимости, логистики и ограниченной пропускной способности лабораторий. SERS быстро считывает молекулярный “отпечаток” образца, а машинное обучение переводит его в прогноз биохимических показателей.

Вместе это даёт подход “одно измерение — много параметров”: быстрее, дешевле и проще в масштабировании. Именно над этим мы и работаем — превращаем спектр в результат анализа за считанные секунды.

Анализ крови за один лазерный щелчок 🫰

ML Engineer

Описание задачи

Кто мы

Лаборатория

Партнерство

От спектра к анализам: SERS и машинное обучение

Неэффективность масштабирования текущих методов

Лабораторные исследования в России в 2020-2030 гг (млн)

Спрос vs пропускная способность

Как свет может считывать информацию о молекулах?

Горячие точки: где рождается усиление SERS

Учим машину читать спектры