1. Feature Engineering and Selection
Авторы: Max Kuhn, Kjell Johnson.
Язык: английский.
Процесс разработки прогнозных моделей включает множество этапов. Большинство ресурсов сосредоточены на алгоритмах моделирования, но игнорируют другие важные аспекты процесса, вроде конструирования и отбора признаков. В этой книге подробно описываются методы поиска наилучших признаков для обучения и повышения производительности моделей машинного обучения.
2. Python Data Analysis: Perform Data Collection, Data Processing, Wrangling, Visualization, and Model Building Using Python

Авторы: Armando Fandango, Avinash Navlani, Ivan Idris.
Язык: английский.
Третье издание практического руководства по изучению конвейеров анализа данных с использованием алгоритмов и методов машинного обучения. С его помощью вы научитесь использовать Python с библиотеками Numpy и Pandas, а также создавать интерактивные визуализации с Matplotlib, Seaborn и Bokeh. Авторы показывают, как извлекать, обрабатывать и хранить данные в широком диапазоне форматов, а также рассказывают о предварительной обработке данных и разработке функций с помощью Pandas и scikit-learn.
Пособие предназначено для аналитиков данных, бизнес-аналитиков, статистиков и специалистов по обработке данных, желающих освоить Python. Студенты и преподаватели также найдут эту книгу полезной.
3. Cleaning Data for Effective Data Science. Doing the other 80% of the work with Python, R, and command-line tools

Автор: David Mertz.
Язык: английский.
В легкомысленном и увлекательном исследовании различных инструментов, методов и наборов данных, реальных и вымышленных, ветеран Python Дэвид Мерц обучит вас всем тонкостям подготовки к анализу. В этой книге собраны основные методы очистки данных. С ее помощью вы изучите общие проблемы с грязными данными и пути разработки гибких решений для их трансформации. Вы научитесь работать с такими форматами, как JSON, CSV, SQL и NoSQL, PDF, двоичными структурами данных, а также с инструментами, вроде Pandas, SciPy, scikit-learn, Tidyverse и Bash.
Книга предназначена для разработчиков программного обеспечения, начинающих и опытных специалистов по обработке данных, преподавателей и студентов.
4. Good Code, Bad Code

Автор: Tom Long.
Язык: английский.
Разработка программного обеспечения – командный вид спорта. Для успешной игры ваш код должен быть надежным и простым для понимания и поддержки. Независимо от того, работаете ли вы в компании, участвуете в проекте с открытым исходным кодом или запускаете стартап, вам необходимо знать разницу между хорошим и плохим кодом. В этом пособие собраны практические методы написания чистого кода от инженера-программиста Google Тома Лонга. Вы узнаете как писать код, который можно легко использовать повторно и быстро адаптировать к новым требованиям. Автор научит вас писать функции, которые читаются как хорошо структурированные предложения; расскажет, как выявить проблемный код и улучшить производительность команды.
Книга предназначена для начинающих программистов, знакомых с объектно-ориентированными языками, вроде Java или C#.
5. Learning MySQL, 2nd Edition

Авторы: Ben Forta
Язык: английский.
MySQL – популярная система управления базами данных, применяемая от крупных интернет-компаний до корпоративных БД и простых пользовательских приложений. Книга научит вас эффективно работать с последней версией MySQL через 30 практических уроков.
Вы освоите: извлечение и сортировку данных, фильтрацию с помощью сравнений и регулярных выражений, полнотекстовый поиск, объединение реляционных данных. Научитесь создавать и изменять таблицы, выполнять операции вставки, обновления и удаления. Изучите хранимые процедуры, триггеры, представления и курсоры. Получите навыки управления транзакциями, создания учетных записей и настройки безопасности через контроль доступа.
6. Statistical Tableau, Ethan Lang

Автор: Ethan Lang.
Язык: английский.
В современном мире, где данные играют ключевую роль, понимание статистических моделей необходимо для эффективного анализа и принятия решений. Эта книга даёт фундаментальные знания для работы со статистическими моделями в Tableau независимо от вашего опыта.
Вы научитесь уверенно объяснять применяемые модели, что поможет внедрить ваши аналитические решения в организации. В эпоху ИИ умение использовать статистические модели стало необходимостью, а не опцией.
Книга поможет освоить основы статистического моделирования в Tableau, методы подтверждения статистической значимости анализа и расчёта доверительных интервалов. Вы изучите лучшие практики интеграции статистики в визуализации данных, а также подключение внешних аналитических ресурсов через R и Python.
Для аналитиков, энтузиастов данных и бизнес-профессионалов эта книга станет проводником в мир продвинутой аналитики данных.
7. Natural Language Processing Recipes: Unlocking Text Data with Machine Learning and Deep Learning Using Python

Авторы: Akshay Kulkarni, Adarsha Shivananda.
Язык: английский.
Эта книга предназначена для специалистов по обработке данных, которые хотят обновить и изучить различные концепции обработки естественного языка (НЛП) с помощью упражнений по кодированию. Из нее вы узнаете, как эффективно использовать широкий спектр пакетов обработки естественного языка (NLP) для классификации текста, идентификации частей речи, использования тематического моделирования, обобщения текста, анализа настроений, поиска информации и многих других приложений NLP.
Книга начинается с глав, посвященных сбору текстовых данных из различных источников и их очистке. Затем вы исследуете семантический и синтаксический анализ текста, а также комплексные решения NLP, которые включают нормализацию текста, синтаксический анализ, обобщение текста, word2vec и seq2seq. В заключительных главах рассказывается о передовых промышленных приложениях НЛП с внедрением решений и использованием возможностей методов глубокого обучения.
Прочитав эту книгу, вы получите четкое представление о проблемах, с которыми сталкиваются различные отрасли промышленности, и поработаете над множеством примеров внедрения НЛП в реальном мире.
8. Graph Data Science with Python and Neo4j

Автор: Timothy Eastridge.
Язык: английский.
Книга "Graph Data Science with Python and Neo4j" — комплексное руководство по использованию графовых данных. Она объединяет возможности Python с технологией графовой базы данных Neo4j. Вы изучите как фундаментальные концепции, так и продвинутые аналитические методы и техники машинного обучения для работы с взаимосвязанными данными.
Основной акцент книги делается на практическом применении. Вы освоите интеграцию с крупными языковыми моделями (LLM) вроде ChatGPT для создания совершенных рекомендательных систем. Книга предлагает понятный подход к освоению науки о графовых данных с детальными объяснениями, реальными примерами и GitHub-репозиторием с кодом.
В содержание входят: введение в графовую науку о данных, начало работы с Python и Neo4j, импорт данных в Neo4j, язык запросов Cypher, визуализация графовых сетей. Вы также изучите обогащение данных Neo4j с помощью ChatGPT, векторные индексы и RAG, графовые алгоритмы, создание рекомендательных систем с использованием эмбеддингов и обнаружение мошенничества.
9. Practical Machine Learning for Computer Vision

Авторы: Valliappa Lakshmanan, Martin Görner, Ryan Gillard
Язык: английский.
В этой практическом пособии показано, как использовать модели машинного обучения для извлечения информации из изображений. Книга предназначена для инженеров машинного обучения и специалистов по обработке данных, которые хотят научиться решать различные проблемы с изображениями, включая классификацию, обнаружение объектов, автокодеры, генерацию изображений, подсчет и субтитры с помощью проверенных методов ML.
Эта книга представляет собой введение в комплексное глубокое обучение: создание набора данных, предварительная обработка данных, проектирование моделей, обучение моделям, оценка, развертывание и интерпретируемость.
Инженеры Google Валлиаппа Лакшманан, Мартин Гернер и Райан Гиллард покажут вам, как разрабатывать модели ML для компьютерного зрения и внедрять их в производство.
10. Becoming a Data Head: How to Think, Speak, and Understand Data Science, Statistics, and Machine Learning

Авторы: Alex J. Gutman, Jordan Goldmeier.
Язык: английский.
В этой книге известные Data Scientists, Алекс Гутман и Джордан Голдмайер, приоткрывают завесу над наукой о данных и предоставляют вам язык и инструменты, чтобы говорить и критически думать о данных. Авторы научат читателей задавать правильные вопросы о статистике и результатах, с которыми вы сталкиваетесь на рабочем месте, понимать, что на самом деле происходит с машинным обучением, текстовой аналитикой, глубоким обучением и искусственным интеллектом, а также избегать распространенных ошибок при работе с данными и их интерпретации.
Книга предназначена для тех, кто хочет начать работать с данными и руководить их анализом, начиная от личностей, с которыми придется работать, и заканчивая математикой, лежащей в основе алгоритмов.
Если вы не обнаружили в нашем обзоре одну из своих любимых книг, порекомендуйте ее в комментариях.