В этом сообщении немного расскажу об одном мероприятии, которое я недавно посетил.
23-24 апреля в актовом зале первого корпуса Национального авиационного университета в Киеве состоялся двухдневный семинар "Introduction to Data Science, Business Analytics and Artificial Intelligence".
Вел курс Александр Романко, Ph.D., старщий научный сотрудник Risk Analytics и Business Analytics в IBM Canada. Он же профессор (по совместительству) в Университете Торонто, Канада.
День 1
Первый день, в основном, был посвящен определению понятий "Data science", интересным фактам этой науки, основам статистики и скрытой рекламе IBM и нового курса "Computer science" от Украинского католического университета.Если говорить о статистике, то в общих чертах расматривались такие термины как среднее, медиана, стандартное отклонение и квантили.
На самом деле, рекламы не было, обсуждали возможности IBM Watson и немного вспомнили SPSS. Для меня было новостью, то, что IBM полностью "ушел" в анализ данных.
Также, я не знал, что алгоритм Google PageRank назван именем Ларри Пейджа, а аналитики из Google предсказывают эпидемии гриппа в США раньше, чем министерство здравоохранения.
В общем, из вступления стало понятно, что аналитика может сэкономить до 20% бюджета. Кроме того, анализ данных помогает предсказать финансовые кризисы, обвалы рынков и прочие события типа "чёрный лебедь".
Самые удачные фразы Александра за первый день:
- "Чтобы сделать шаг вперед, нужно получить пинка под зад".
- "In the middle of nowhere".
- IBM Bluemix – облачная архитектура для анализа данных.
- Big Data University - проект IBM для онлайн обучения Data science.
- The Analytics Edge - курс на edX от Массачусетского технологического института.
- "Python for Data Analysis" - книга о применении Python для анализа данных.
- "Mining the Social Web" - книга о том как использовать социальные сети для различных целей.
День 2
Второй день был более практически-ориентированным.Александр показал примеры использования Python и базовой статистики для решения реальных задач. Еще немного времени потратили на понимание алгоритма "k-means".
Первый пример: какой доход мы получим за год и за 30 лет если инвестируем $1000 в S&P 500. Сначала определили какая доходность этого инструмента за предыдущие года, то есть среднее доходности и стандартное отклонение. Ну и на основании этого можно сказать какая вероятность получить тот или иной доход.
Второй пример был похож с первым только мы инвестировали $500 в облигации, а $500 в S&P 500.
Третий пример был посвящен вопросам оптимизации и экологии. Вопрос состоял в том, как уменьшить вебросы углекислого газа автотранспортом, который заехал в кафе быстрого питания. Всех подробностей не помню, но задачу решили с помощью имитационного моделирования Монте-Карло (ссылка на Вики).
На четвертый и пятый примеры осталось мало времени и вкратце определили как вовремя заменить изношенные детали ветроэлектростанции и вопросу дизайна дорог.
Ссылки на интересные ресурсы:
- Kaggle Inc - сайт для соревнований в области анализа данных.
- 23andMe — биотехнологическая компания, анализирует предрасположенности к заболеваниям на основании анализа ДНК.
Ну а в конце второго дня всем давали вот такие сертификаты.
P.S. Интересная история произошла во время получения сертификата. Их вручали в алфавитном порядке фамилий. Я подошел к помощнику организатора и попросил выдать мне сертификат раньше, т.к. спешил на поезд. А этот человек начал перебирать сертификаты один за другим в большой стопке. К счастью для меня, подошла организатор и реализовала более быстрый бинарный поиск отсортированного массива. Вот так знание алгоритмов помогает в жизни :)