Language-based software’s accurate predictions translate to benefits for chemists — ABC Chemicals

Современный дизайн для обработки компьютерного языка приводит к улучшенным моделям для предсказания химии

Language-based software’s accurate predictions translate to benefits for chemists - ABC Chemicals

Источник: Freepik (карта)

Программа для прогнозирования результатов реакции и ретросинтетических шагов была разработана с использованием передового подхода к переводу языков. Программное обеспечение, названное «Молекулярный трансформер», использует нейронную сеть нового типа, которую легче обучать и которая является более точной, чем та, которая использовала более ранние основанные на переводе подходы к химии.

«Размышления о химии с точки зрения языка были в течение некоторого времени», — говорит Альфа Ли из Кембриджского университета, Великобритания, который возглавлял исследование. Молекулы могут быть однозначно представлены в тексте, например, с использованием терминологии Iupac или строк Smiles. Это привело к созданию компьютерных моделей, которые рассматривают преобразование реагентов в продукты как перевод между их представлениями Smiles, опираясь на достижения в обработке компьютерного естественного языка. «Тот факт, что в химии есть базовый язык, делает эти методологии очень привлекательными и эффективными», — говорит Теодоро Лайно, исследователь проекта в исследовательской лаборатории IBM в Цюрихе в Швейцарии. «Молекулярный трансформатор в основном просто изучает корреляцию между реагентом, реагентом и продуктом, точно так же, как машинный перевод, и это очень гибкое представление о химии позволяет машине на самом деле учиться намного больше из данных», — объясняет Ли.

Molecular Transformer построен на основе нейронной сети с трансформаторной архитектурой, новой конструкции, опубликованной исследователями Google в 2017 году, которая сразу же завоевала популярность в области машинного перевода. Внутренняя структура предыдущих нейронных сетей означала, что хорошо разделенные части ввода имели относительно слабое влияние на значение друг друга, которое не отражает свойства человеческого языка или молекул. «Когда вы сжимаете молекулу, которая живет в 3D, в одномерную цепочку, атомы, находящиеся далеко друг от друга на этой цепочке, могут фактически находиться близко друг к другу в 3D», — говорит Ли. «Это сразу же заставило нас задуматься о механизмах или архитектурах в машинном обучении, которые позволяют нам фиксировать эти очень дальние взаимодействия и корреляции». Нейронные сети, основанные на архитектуре преобразователя, интенсивно используют механизм, называемый вниманием, который позволяет им узнать, какие части ввода относятся к каждой части вывода независимо от их положения. Это уменьшает объем необходимого обучения и повышает точность получаемых языковых моделей.

Language-based software’s accurate predictions translate to benefits for chemists - ABC Chemicals

Результаты исследования доказывают, что эти преимущества также применимы к химическим реакциям. В тестах исследователей с данными, опубликованными в патентах США, Molecular Transformer превзошел другие языковые подходы, предсказывая правильный результат реакции в течение 90% времени.1 Модель также была обучена прогнозированию этапов ретросинтеза и правильно обнаружила опубликованное разъединение в течение 43% времени.2 В качестве демонстрации гибкости модели была обучена версия с данными из лабораторных книг от сотрудников Pfizer. Программа правильно предсказала исходы реакции 97% времени и ожидаемый шаг ретросинтеза 91% времени, хотя и на более сфокусированном наборе реакций. «Было доказано, что внимание уделяется значительным улучшениям в языковых моделях», — отмечает исследователь машинного обучения и органической химии Габриэль Дос Пассос Гомес из Университета Торонто, Канада. В результате «их эффективность не стала неожиданностью», но он отмечает, что исследователи утверждают, что модель, похоже, научилась предсказывать стереохимию. «Если это правда, это очень хорошее достижение».

Робот-компаньон по химии

Лайно призывает к осторожности при интерпретации контрольных цифр, особенно в отношении ретросинтеза и коммерческих данных. (Laino не участвовал в этих аспектах исследования.) Более жесткие модели прогнозирования могут работать лучше в целом, и недавно разработанные модели трансформаторов из других групп не были включены в сравнения исследователей. Также сложно судить об успешности прогнозов ретросинтеза. «Иногда модель предсказывает неправильный анион в реагентах, но все правильно, и, кроме того, с точки зрения химика, общая реакция в порядке», — отмечает Павел Карпов, который также исследует модели трансформатора для ретросинтеза в Центре Гельмгольца Мюнхен, Германия. Лайно говорит, что реальным доказательством этих моделей будет их включение в общие стратегии и эффективное связывание ретросинтетических этапов, что в настоящее время пользователи Molecular Transformer должны делать вручную. «Чтобы технология была разрушительной, она должна быть легко применимой и легко доступной конечным пользователям, то есть химикам-органикам».

Размышления о химии с точки зрения языка были вокруг в течение некоторого времени

Исследователи, которые говорили с Мир химии скажем, что подобные инструменты будут увеличивать, а не заменять ученых-людей. «Мне слишком рано говорить о том, окажет ли это серьезное влияние на промышленный масштаб, но я, безусловно, вижу, как это и IBM RXN регулярно используются в лаборатории», — говорит Гомес, добавляя, что «как Студент бакалавриата, я бы хотел иметь компаньона-робота, который мог бы проверить, правильна ли моя реакция или, по крайней мере, имеет ли смысл ». «Даже хорошо образованный и опытный химик не может знать каждую реакцию, которая произошла в мире», — отмечает Карпов. «Машина может автоматически проанализировать ее, сохранить и подготовить к использованию в будущем. Поэтому, когда приходит новый запрос на синтез со сходными функциональными группами и их расположением, модель может запомнить этот случай и проследить конкретный эксперимент ».

Ли рассматривает Молекулярный Трансформатор как своего рода «GPS для химиков», который может быстро проверить идеи. «Он может сказать вам, является ли реакция ходом или нет, и он может сказать вам, для какой конкретной молекулы-мишени вы хотите получить доступ, каков наилучший способ туда попасть». «Многие перспективные молекулы, которые никогда не были созданы ранее, могут быть предложены с помощью генеративных моделей, и все же создание этих молекул все еще может быть проблемой; «Молекулярный трансформер» стремится устранить этот большой пробел в литературе ».

Ли надеется расширить «Молекулярный трансформер», чтобы он учитывал условия реакции, для чего уникально подходят языковые подходы. «Это очень разносторонняя структура, потому что это последовательность из модели последовательности, и много химической информации может быть сведено в этот формат», — говорит он. «Это означает, что мы можем переобучить Molecular Transformer, чтобы выполнять эти разные задачи практически без особых хлопот». Молекулярный Трансформер был сделан доступным как программное обеспечение с открытым исходным кодом; его модель для прогнозирования реакции на будущее в настоящее время использует бесплатное веб-приложение IBM RXN for Chemistry.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *