Взгляд на курс Advanced Machine Learning в M.S. в программе Data Science

Познакомьтесь с профессором Коди Кэрроллом и откройте для себя передовые технологии машинного обучения.

Профессор Коди Кэрролл

Познакомьтесь с профессором Коди Кэрроллом, одним из новых сотрудников USF M.S. на факультете программы Data Science (MSDS). Коди преподавал три разных курса для группы MSDS Cohort 11, в том числе Общение в науке о данных, Лаборатория машинного обучения и Расширенное машинное обучение. Будучи выпускником Калифорнийского университета в Дэвисе со степенью доктора философии и магистра статистики, он проводил методологические исследования в различных областях, включая неврологию, альпинизм, эпидемиологию и ветеринарную медицину. Кроме того, Коди имеет опыт преподавания в качестве преподавателя ESL в Хиого, Япония, что помогло сформировать его стиль преподавания и сделало его одним из любимых преподавателей программы.

Профессор Коди провел три занятия, сложность каждого из которых постепенно увеличивалась в зависимости от содержания курса. Коммуникация для науки о данных — это увлекательный курс по развитию социальных навыков, который улучшает личный веб-сайт, страницы LinkedIn, проверки резюме и навыки общения в рабочих местах. Лаборатория машинного обучения — это курс, совместимый с курсом «Введение в машинное обучение», где мы изучаем комплексные концепции на основе курса «Введение в машинное обучение» и работаем над различными проектами и упражнениями. Курс «Расширенное машинное обучение» — это более сложный курс, на котором мы получаем понимание и манипулируем более сложными алгоритмами.

Помимо академического и умного человека, профессор Коди веселый, предприимчивый и доступный человек. Он также является профессиональным ди-джеем, который играет в разных местах, от виноделен до клубов и вечеринок, а его музыкальный стиль представляет собой смесь трайбл-хауса, мелодичного техно, фанка и диско. Он даже создает плейлисты Spotify для каждого задания, чтобы помочь учащимся сохранять мотивацию при выполнении заданий. Дружелюбный характер профессора Коди в сочетании с его разнообразными интересами сделал его популярным преподавателем среди студентов.

Профессор Коди не только отличный учитель, но и доброе сердце, и глубоко заботится о своих учениках. Он делает все возможное, чтобы подготовить учебные пособия, практические тесты и рабочие часы для студентов, уделяя особое внимание тем, кто нуждается в дополнительной помощи. Еще один интересный факт о нем заключается в том, что он усыновил кроликов и кошек. Одна из его кошек, Рыжая, была найдена в убежище от урагана в Техасе после того, как прошел сильный шторм. Днём Рыжий кот гуляет на улице, а всякий раз, когда Коди зовёт его, становится домашним котом. Рыжий невероятно очарователен, как вы можете видеть на картинке.

Расширенный курс машинного обучения

Курс Расширенное машинное обучение — очень востребованный и сложный предмет в рамках программы Data Science. Если вы начинающий студент, которому интересно, чего ожидать, вот подробная информация о структуре, содержании и преимуществах.

Курс длится более 9 недель, с встречами два раза в неделю и компактным учебным планом, наполненным техническими концепциями и проектами. Вы углубитесь в различные темы, такие как:

Уменьшение размеров с помощью SVD и PCA
Алгоритмы рекомендаций, такие как совместная фильтрация и матричная факторизация
Повышение с помощью Adaboost и повышение градиента
Нейронные сети с PyTorch
Приложения для нейронной сети

Возьмем первую тему, SVD и PCA, в качестве примера структуры класса. Мы начнем с изучения определения и интуитивного понимания этих методов, их применения в машинном обучении и в реальных сценариях. Затем инструктор погрузится в статистические и математические доказательства для алгоритмов, например, процесс того, как SVD и PCA достигают уменьшения размерности. Наконец, мы будем работать над практическим примером, таким как использование SVD для системы рекомендаций, чтобы уменьшить размерность функции. После того, как у нас будет хорошее понимание, мы реализуем этот процесс на Python для решения.

Знания, полученные в этом курсе, применимы непосредственно к реальным ситуациям. Сначала преподается с объяснением высокого уровня, затем с глубоким математическим пониманием и доказательствами. Это сочетание понимания обеих сторон готовит студентов к успеху в технических интервью и применяет эту концепцию к работе в качестве профессионалов. Глубокое обучение сегодня является важнейшим компонентом индустрии Data Science, как и ChatGPT. PyTorch — основной пакет для реализации нейронных сетей в Python. Поэтому учебная программа соответствующим образом изменена с введением PyTorch и его приложений. Учебная программа ежегодно обновляется, чтобы отразить наиболее актуальные и важные темы, гарантируя, что учащиеся получат самые современные знания.

Проект конкурса данных

В курсе Расширенное машинное обучение профессор Коди предлагает учащимся интересный и увлекательный финальный проект — проект конкурса данных, опубликованный на Kaggle. Проект включает в себя работу с набором данных, содержащим замаскированную информацию и ограниченное знание предметной области. На протяжении 9-недельного курса студенты объединяются в команды по два человека и имеют три контрольных точки для загрузки своих прогнозов в Kaggle и ранжирования в зависимости от их точности на тестовом наборе. С каждой контрольной точкой требуемая точность возрастает, и учащимся предлагается улучшать и разрабатывать более совершенные модели, используя свои идеи, навыки и методы реализации.

Проект Data Competition — это отличная симуляция реальных процессов решения проблем в науке о данных. Это требует, чтобы студенты работали с ограниченной информацией и тестировали различные модели и методы, чтобы постепенно повышать свою производительность, подобно тому, как специалисты по данным решают реальные проблемы. Данные монитора пациента, использованные в проекте, были собраны в реальной больнице и содержат анонимизированные числовые и категориальные столбцы вместе с информацией о временных метках. Целью проекта было предсказать две целевые переменные, Y_1 и Y_2. Хотя зависимые переменные изначально не раскрывались, профессор Коди сообщил, что после завершения проекта Y_1 представляет артериальное давление, а Y_2 — частоту сердечных сокращений.

Проект Data Competition Project позволил учащимся продемонстрировать свой мыслительный процесс и способность эффективно работать в команде. В презентациях команд-победителей были освещены их стратегии, методы и модели, используемые для достижения высокой точности на тестовом наборе. Проект продемонстрировал применимость навыков и знаний, полученных в ходе курса, в реальных сценариях. Вот фото всех 6 команд-победителей. Поздравляем!

Теперь давайте погрузимся в презентации некоторых команд-победителей и посмотрим, как они решают эту проблему.

Гуру Гопалакришнан и Энсун Парк (#TODO)

Выигрышный подход Гуру Гопалакришнана и Энсун Парк к этому проекту включал несколько ключевых шагов. Они начали с исследовательского анализа данных (EDA), разработки признаков и Y-преобразования. Для модели они попробовали линейную регрессию (LR), регрессию опорных векторов (SVR) и линейную SVR. На первой контрольной точке они обнаружили, что совокупный LR означает, что данные содержат много шума. Затем они использовали средние последние пять функций num 0–2 и t0–4 и отбросили категорию 0–4 на основе p-значений OLS, в результате чего всего было 92 функции для lasso и восемь функций для enet и DLR. Они использовали пятикратную перекрестную проверку и достигли точности 3,4148. На втором контрольно-пропускном пункте они использовали SVR и узнали, что важно выбрать правильную модель, а EDA имеет решающее значение. Они также провели исследование знаний о предметной области и обнаружили, что у Google есть список информации, а ChatGPT дает уникальный результат. Они пришли к выводу, что соревнование данных — дело непростое, и подчеркнули важность разделения деталей. Наконец, они подчеркнули важность временных данных, которые более важны из-за шума и вариаций.

Мэтью Уиллер и Варун Хэнде (Каратели)

В этом проекте Мэтт Уиллер и Варун Хэнде, также известные как Каратели, работали над некоторыми интересными методами разработки функций. Они начали с анализа временной функции и обнаружили, что T_1 имеет асимметрию вправо, а T_5 имеет нормальное распределение. Затем они извлекли временные данные в отдельный фрейм данных и реструктурировали его так, чтобы каждое значение признака стало отдельным столбцом. Фрейм данных затем был уменьшен с помощью PCA до более низкого измерения с двумя вложениями, содержащими большую часть информации. Они также разработали числовые характеристики с помощью группировки фрагментов и горячего кодирования. Окончательный набор данных был построен с помощью агрегации по группам и объединенного времени PCA. Они разделили набор данных 80:20 и протестировали различные модели, такие как линейная регрессия, L2, регрессия Хубера, XGBoost и случайный лес. Они пришли к выводу, что изучение истории и набора данных даже без знания предметной области и сотрудничество с другими людьми для разработки функций имеют решающее значение для успеха в машинном обучении. Окончательная модель достигла ошибки 3,77464 после настройки гиперпараметров.

Ити Сони и Мадхав Поннудурай (LifeGaveUsLemons):

Ити и Мадхав, также известные как LifeGaveUsLemons, сосредоточились на изучении и анализе данных, чтобы получить представление и улучшить модель машинного обучения. Команда провела исследовательский анализ данных (EDA) для выявления нулевых значений, распределений, корреляций и выбросов. Они также рассмотрели важность признаков, используя важность случайной перестановки леса. Они разработали функции и преобразовали их с помощью масштабирования, кодирования, поворота и косинусного преобразования. Команда использовала PCA для уменьшения количества функций и протестировала различные модели, такие как линейная регрессия, случайный лес, регрессия опорных векторов (SVR) и регрессия Хубера. Они также изучили различные подходы к обработке выбросов и провели настройку гиперпараметров. Окончательная модель достигла MAE 3,77027 в частном порядке и 3,8591 в публичном. Команда пришла к выводу, что разработка функций имеет решающее значение для улучшения моделей машинного обучения, а использование как внутриклассных, так и внеклассных моделей может помочь в более качественном выборе модели. Кроме того, они отметили важность работы с выбросами в данных о здоровье.

Суровый Прахарадж и Ченкси Ли (XGBoostDonkey)

В этом проекте Харш и Ченкси, также известные как XGBoostDonkey, сосредоточились на понимании данных и их предварительной обработке для создания лучших моделей. Они обработали избыточную информацию, удалив средние и медианные значения. Затем команда провела исчерпывающее моделирование и протестировала различные подходы к обработке выбросов. Они достигли MAE 4,326, используя линейную регрессию с удалением выбросов при стандартном отклонении 2,5, 3,675, используя SVR с линейным ядром и удалением выбросов, и 3,65, используя SVR с добавлением последних задержек. Они пришли к выводу, что разработка функций важна, и подчеркнули важность документирования моделей. Они также отметили, что в некоторых случаях более простые модели могут быть лучше.

Выводы

В целом, курс «Расширенное машинное обучение» предлагает учащимся прекрасную возможность глубже понять темы расширенного машинного обучения и их практическое применение. Проект Data Competition предлагает увлекательный и интерактивный опыт, который имитирует реальные процессы решения проблем в науке о данных. Благодаря постоянно обновляемому учебному плану и практическому практическому опыту студенты хорошо подготовлены к тому, чтобы преуспеть в своей карьере специалистов по данным.

Если вам интересно узнать больше о магистратуре по науке о данных в Университете Сан-Франциско, не стесняйтесь заходить на наш веб-сайт!