Как начать изучение Data Science? Что и где читать? Какие есть подводные камни, советы и уловки? Статья в помощь для Junior Data Scientist.
Область Data Science очень обширна, ее довольно сложно изучить всю сразу. Нужно определиться с направлением, выбрать его и "штудировать".
Junior Data Scientist и профессионал часто почти не отличаются в разговорах о Data Science. Иногда новичок выглядит даже эффектнее за счет умелого оперирования терминами и понятиями. Основное отличие между новичком и профессионалом – опыт, внимание к деталям и использование различных хитрых алгоритмов.
Опыт в сфере Data Science приходит не в процессе чтения обучающих материалов, а во время выполнения сложных проектов по анализу данных. Junior Data Scientist обязан понимать используемые методы и алгоритмы, а также должен уметь реализовать программный прототип, который работает с реальными данными.
Курсы и тренинги
Хороший способ потренировать свои навыки и набраться опыта – принять участие в соревнованиях. Задания для этих испытаний предлагают известные мировые компании, занимающиеся анализом данных, прогнозной аналитикой и распознаванием образов.
Посещайте различные встречи в вашем городе или поблизости – они хорошо помогают узнать много нового, завести полезные контакты и быть в тренде.
Может кому-то по душе конференции? Одна и другая предоставят хороший академический опыт и поспособствуют развитию английского языка.
Уделяйте больше внимания практической части обучения, а не теории, т. к. последняя быстро забудется. Пробуйте решать задачи, выполнять упражнения из различных курсов, лекций и книг по медицине, технике и маркетингу, чтобы быть максимально универсальным и разносторонне развитым.
Когда вы достигнете поставленной цели, не останавливайтесь, идите дальше и изучайте новый материал, ведь мир Data Science меняется быстро, и нужно быть всегда на гребне волны.
Обязательны для изучения математика, интегральные исчисления и все, что находится рядом, потому как в работе с нейронными сетями и AI часто придется использовать хитроумные формулы. Нужны дополнительные знания – воспользуйтесь курсами.
Программные инструменты
В качестве программных инструментов можно использовать R или Python. В языке R есть масса доступных аналитических пакетов, которые можно подключить к анализу, используя R-Studio. Python имеет преимущества в реализации продуктов и удобстве интеграции их в существующие проекты. Распространенная связка ПО – Anaconda + Jupyter Notebook + Amazon AWS.
Из языков общего назначения можно выбрать C++, C# или Java для внедрения модели в готовый продукт.
Команда и коллектив
Найдите себе единомышленников: может, ваш давний друг интересуется этой темой. Вместе и сообща вы добьетесь нужного результата, поскольку командная работа дисциплинирует.
Также немаловажной ступенью развития Junior Data Scientist является толковый коллектив и руководитель.
Если коллеги способствуют вашему росту, дают качественные советы и комментарии, а руководитель направляет в правильное русло – это и есть основной залог успеха.
Как начать
Все направления Data Science можно условно разделить на два русла: разработка/исследование и реализация. От того, какое направление вы выберете, зависит стек необходимых технологических и личностных навыков. В разработке понадобится глубокое понимание процессов работы моделей, а опыт оптимизации и знакомство с матчастью будет огромным плюсом. В реализации же нужно уметь хорошо общаться с людьми, знать все о бизнес-процессах, знать, что такое Big Data и production-компоненты.
Идеальным и правильным вариантом будет устроиться в крупную компанию, которая занимается AI, т. к. вы будете работать над реальными задачами в “боевой” обстановке, получать бесценный опыт и навыки, а также приятный бонус в виде зарплаты.
Если вы студент, можно перейти на последнем курсе в университет, в котором преподается AI или Data Science. Если получится – воспользуйтесь программой обмена студентами.
На что обратить внимание
Как говорилось ранее, Data Science – обширная сфера, имеющая массу ответвлений. Приведем основные направления и вопросы, которые придется решать.
- Работа с текстом, изображениями и звуком – изучайте Natural Language Processing, Digital Signal Processing и Computer Vision.
- Обучение компьютера, написание игровых ботов и роботов – углубляйтесь в Reinforcement Learning.
- Для нейронных сетей вам понадобятся такие фреймворки, как TensorFlow, PyTorch или Caffe.
- Если вы интересуетесь Big Data, то Spark, MlLib и GraphX вам в помощь.
Комментарии