Искусственный интеллект научился анализировать генетический код. Ученые из Принстонского университета во главе с экспертом по машинному обучению Мэнди Ванг используют языковые модели для оптимизации частичных последовательностей генома.
В своей последней статье, опубликованной в журнале Nature Machine Intelligence, они рассказывают, как их модель использовала свои возможности семантического представления для создания более эффективной мРНК-вакцины, например, для защиты от COVID-19.
МРНК преобразует информацию в белки в конечном этапе, называемом трансляцией. Однако мРНК интересна тем, что только часть ее содержит код для белка. Остальное не транслируется, но контролирует важные аспекты процесса трансляции. Ученые сконцентрировались на не транслируемой области, чтобы оптимизировать эффективность и улучшить вакцины. Обученная на малом разнообразии видов, модель создала сотни новых оптимизированных последовательностей и подтвердила их результаты через лабораторные эксперименты.
Это первая языковая модель, сфокусированная на не транслируемой области мРНК, и она показала повышение общей эффективности, а также способность предсказывать производительность последовательности при различных связанных задачах. Успех модели, по словам Ванг, также указывает на новые возможности в понимании генной регуляции, что важно для борьбы с заболеваниями и расстройствами.