Итого у разработчиков как минимум 3 серьёзные задачи: 1. Источник данных 2. Достоверность данных 3. Централизация и применимость
Да, все верно.
Но данные в чистом виде никто и никогда не предоставит, так как это закон о персональных данных (я говорю о России). Да и в США был конфликт по этому поводу, по этому там с этим тоже сложно. Данные может предоставить мед.учреждение(сомневаюсь правда, скорее всего в первую очередь необходимо обращаться в министерство здравоохранения), но опять же - кто будет заниматься их обезличиванием и разметкой? Сотрудники мед.учреждения? Они не имеют понятия как это делать правильно т.е так, чтобы это не повлияло на результаты обучения сети.
Разметка данных достаточно сложное занятие и не все данные разрешено предоставлять, а это уже вызывает определенные сложности при обучении нейронной сети. Это я считаю основная проблема, которую необходимо решить в первую очередь.
Был конкурс от Mail Ru, где мы тренировали сетку и она предсказывала вероятность ССЗ(сердечно-сосудистое заболевание), так вот, тех данных которые предоставили не хватало и приходилось генерировать из имеющихся дополнительные. И даже там поделили данные на train\test не правильно, что повлияло на финальные результаты. Это я к тому, что подготовка данных это очень сложная процедура и выполнив ее не правильно, хороших результатов не добиться. Если интересно посмотреть какие данные были предоставлены, то их можно скачать с сайта конкурса там же и ознакомиться с задачей, которая была поставлена. Сайт - mlbootcamp точка ру, задача - Предсказание ССЗ.
Да и на кегле были задачи по диагностике рака и не только, по этому зная где можно взять данные для старта, т.е проверки и настройки проекта при разработке - найти их можно.
Ребята взялись за очень сложный проект, и я не особо верю, что они реализуют все то, что описано в WP. Хотя реализовать можно и за месяц\два, но не все те функции. Собрать кластер для гетерогенных вычислений тоже дело не из простых(опять же говорю это потому как имею с этим дело), по хорошему им нужна параллельная виртуальная машина(PVM), а не голый MPI.
Это идея и я уверен, что не был даже сделан MVP для проверки своей идеи и выявления тех трудностей при разработке, с которыми придется столкнуться.