Низкое качество данных препятствует использованию искусственного интеллекта при разработке лекарств. Такой вывод делается в отчете, опубликованном на сайте правительства США. В докладе отмечается, что при использовании основополагающего принципа генетической предрасположенности к заболеванию «возможность использования инструментов ИИ скоро станет необходимой для оказания помощи в развивающейся области точной медицины. Кроме того, способность получать информацию из огромного количества источников, ежедневно генерируемую мобильными приложениями и цифровыми датчиками, потребует возможности одновременной обработки данных из нескольких источников». Однако, согласно документу, большая часть данных, используемых при разработке лекарств, не может закладываться в алгоритмы машинного обучения из-за такого явления, как «мусор на входе — мусор на выходе».
Искажения данных могут возникать вследствие таких факторов, как нерепрезентативность определенных групп населения, отсутствие информации по стоимости и льготам. Машинному обучению, кроме того, мешает и нерешенная проблема в отношении конфиденциальности информации, усугубляющаяся на всех этапах получения, обработки и хранения данных пациентов. Фармацевтические компании также жалуются на сумбур в отношении правил, препятствующих инвестициям в машинное обучение.
Помимо анализа текущей ситуации с внедрением искусственного интеллекта в разработку лекарств, доклад содержит ряд рекомендаций, которые необходимо выполнить для преодоления перечисленных проблем. В первую очередь, должны быть предусмотрены механизмы и стимулы для обмена высококачественными данными, хранящимися в государственных или частных организациях. Для предотвращения несанкционированного обмена или использования личных данных все положения должны быть закреплены на законодательном уровне. Кроме того, обработка различных наборов данных ИИ возможна лишь при их стандартизации и создании понятных и прозрачных для конечных пользователей алгоритмов.