Публикации по теме 'statistical-analysis'


Точность и полнота: Руководство для рыбака по метрикам классификации
Точность и полнота — две важные метрики, используемые для оценки производительности моделей классификации, особенно когда распределение классов несбалансировано. Давайте разберем их с помощью простой аналогии и примера. Аналогия: Представьте, что вы рыбак и ловите рыбу сетью в пруду. Рыба в пруду представляет собой истинное срабатывание (то, что вы хотите поймать), тогда как любые другие объекты, такие как сорняки, палки или мусор, представляют собой ложное срабатывание (то, что вы не..

Понимание степеней свободы в статистике: руководство для начинающих
Введение Статистика — это область исследования, которая занимается сбором, анализом, интерпретацией, представлением и организацией данных. Одним из важных понятий в статистике является понятие степеней свободы. Степени свободы относятся к количеству независимых фрагментов информации, которые доступны для оценки параметра или статистики. В этом блоге мы обсудим, что такое степени свободы, как они используются в статистике, и приведем примеры из реальной жизни, которые помогут..

Проверка гипотезы
Проверка гипотезы Это будет охватывать темы, связанные с проверкой гипотез, включая проверку гипотез, ошибки типа 1 и типа 2 и P-значение. Проверка гипотез очень важна в задачах классификации машинного обучения. Начнем с обсуждения Что такое гипотеза? Гипотеза – это обоснованное предположение о чем-то в окружающем вас мире. Это может быть что угодно, например фильм, который, по вашему мнению, станет хитом, или лучшим способом проведения экзаменов будет онлайн и т. д. На..

«Освоение кластеризации K-средних: советы, хитрости и подводные камни для повышения производительности и точности»
Введение: Кластеризация — это фундаментальный метод анализа данных, который включает группировку точек данных в аналогичные кластеры или группы на основе определенных характеристик или признаков. Кластеризация помогает выявить шаблоны, взаимосвязи и структуры в данных, которые могут быть не очевидны сразу. Кластеризация K-средних является одним из наиболее широко используемых алгоритмов кластеризации. Итеративный алгоритм разбивает набор данных на K кластеров, где K — определяемый..

Статистический анализ Python: руководство по выявлению и обработке выбросов
Добро пожаловать в этот учебник по обнаружению, построению графиков и обработке выбросов с помощью Python. В этом уроке мы начнем с обсуждения того, что такое выбросы и почему они важны. Затем мы рассмотрим методы обнаружения выбросов, включая графический метод и статистические тесты. Как только мы определили выбросы в наших данных, мы изучим различные подходы к их обработке, такие как их удаление или замена. На протяжении всего руководства мы будем использовать практические примеры и..

Новый способ анализа BOW и разработки признаков — Часть 2
Используйте статистические методы, чтобы выбрать правильные функции для вашей модели. Это вторая часть серии из двух частей. Вам следует сначала прочитать первую часть . Мы говорим о способе сравнения наборов слов по категориям без построения моделей машинного обучения и разработки признаков. Итак, пока мы рассмотрели: Рассматривать частоту слов по категориям как отдельные распределения Примените U-критерий Манна-Уитни — непараметрический тест распределения каждого слова,..

Прогнозирование продолжительности жизни с использованием алгоритмов машинного обучения
Часть I Сбор данных Как использование алгоритма машинного обучения для прогнозирования продолжительности жизни может помочь в принятии решений в области социальных инвестиций Работая в неправительственной организации, занимающейся качеством жизни пожилых , я всегда сталкиваюсь с инициативами, направленными на повышение ожиданий и повышение качества жизни граждан. Ожидаемая продолжительность жизни - один из наиболее важных факторов при принятии решения о завершении жизненного..