Гид: алгоритмы машинного обучения и их типы
Каковы типы алгоритмов машинного обучения и когда их использовать
Автор: Катрина Уэйкфилд (Katrina Wakefield), маркетинг, SAS Великобритания
Термины «Машинное обучение» и «Искусственный интеллект» часто путают между собой. На самом деле, машинное обучение входит в область искусственного интеллекта. Ещё машинное обучение порой путают с прогнозной аналитикой (или предсказательным моделированием). И опять, машинное обучение может использоваться для предсказательного моделирования, но это всего лишь один из видов предиктивной аналитики, и его применение шире, чем предсказательное моделирование.
Термин «машинное обучение» ввел американский компьютерный ученый Артур Самуэль в 1959 году как «способность компьютера учиться, не будучи явным образом запрограммированным».
В своём самом простом виде машинное обучение использует запрограммированные алгоритмы, которые получают и анализируют входные данные, а затем прогнозируют выходные значения из допустимого диапазона. По мере поступления новых данных эти алгоритмы обучаются и оптимизируют свою деятельность, повышая производительность и со временем развивая «интеллект».
Существуют 4 типа алгоритмов машинного обучения: обучение с учителем, обучение с частичным привлечением учителя, обучение без учителя и обучение с подкреплением
Какой алгоритм машинного обучения следует использовать?
Эта памятка поможет из множества алгоритмов машинного обучения выбрать подходящий для ваших конкретных задач алгоритм, а статья в целом продемонстрирует, как пошагово пользоваться памяткой.
Обучение с учителем
При обучении с учителем машина обучается на примерах. Оператор обеспечивает алгоритм машинного обучения набором известных данных, который содержит необходимые входные и выходные значения. Алгоритм должен установить, как получаются по данным входам данные выходы. Сам оператор знает решение поставленной задачи; алгоритм выявляет закономерности в данных, учится на основе наблюдений и делает прогнозы. Эти прогнозы затем корректируются оператором. Процесс продолжается до тех пор, пока алгоритм не достигнет высокого уровня точности/производительности.
К категории обучения с учителем относятся классификация, регрессия и прогнозирование.
- Классификация: В задачах классификации программа машинного обучения должна сделать заключение на основе наблюдённых значений и определить, к какой категории относятся новые наблюдения. Например, при сортировке электронной почты на спам и полезные сообщения программа просматривает накопленные в прошлом данные и согласно им сортирует новые электронные письма.
- Регрессия: В задачах регрессии программа машинного обучения должна оценить – и понять – взаимосвязи между переменными. Предмет регрессионного анализа – одна зависимая переменная и набор других изменяющихся переменных. Это делает анализ особенно полезным для прогнозирования и предсказаний.
- Прогнозирование: Это процесс построения предсказаний о будущем на основе данных из прошлого и настоящего, который обычно используется при анализе трендов.
Обучение с частичным привлечением учителя
Обучение с частичным привлечением учителя похоже на обучение с учителем, однако использует как размеченные, так и неразмеченные данные. Размеченные данные – это, по сути, наборы единиц информации с приписанными им метками (тегами). В неразмеченных данных таких меток нет. Комбинируя методы обучения, алгоритмы могут обучаться размечать неразмеченные данные.
Обучение без учителя
В этом случае алгоритм машинного обучения изучает данные с целью выявления закономерностей (паттернов). Не существует справочника с ответами или оператора, который мог бы обучить машину. Напротив, программа сама определяет корреляции и связи на основе анализа доступных данных. При обучении без учителя алгоритму машинного обучения позволено самостоятельно интерпретировать большие наборы данных и делать на их основе выводы. Алгоритм пытается каким-либо образом упорядочить данные и описать их структуру. Это может выглядеть как группировка данных в кластеры или это такое упорядочивание данных, при котором они начинают выглядеть систематизировано.
По мере поступления данных для анализа растёт способность алгоритма принимать решения на основе этих данных, а также точность этих решений.
Методы обучения без учителя включают в себя:
- Кластеризация: Кластеризация предполагает группирование наборов похожих данных (на основе определенных критериев). Это полезно для сегментации данных на несколько групп и проведении анализа на основе каждого набора данных по отдельности для поиска закономерностей.
- Понижение размерности: Понижение размерности уменьшает количество используемых переменных и отделяет точную искомую информацию.
Обучение с подкреплением
Фокус обучения с подкреплением делается на регламентированные процессы обучения, при которых алгоритм машинного обучения снабжен набором действий, параметров и конечных значений. Определив правила, алгоритм машинного обучения пытается изучить различные варианты и возможности, отслеживая и оценивая каждый раз результат, чтобы определить, какой из вариантов является оптимальным. Подкрепляемое обучение – это метод проб и ошибок для машины. Она учится на прошлом опыте и меняет свой подход, реагируя на новую ситуацию, пытаясь достичь наилучшего возможного результата.
Машинное обучение использует запрограммированные алгоритмы, которые получают и анализируют входные данные, а затем прогнозируют выходные значения из допустимого диапазоне. По мере поступления новых данных эти алгоритмы обучаются и оптимизируют свою деятельность, повышая производительность и со временем развивая «интеллект».
Как решить, какие алгоритмы машинного обучения использовать?
Выбор правильного алгоритма машинного обучения зависит от нескольких факторов, включая размер данных, их качество и разнообразие, а также понимание, какие ответы на основе этих данных нужны бизнесу. Также внимание нужно уделять точности, времени на обучение, параметрам, данным и многому другому. Поэтому выбор правильного алгоритма – это сочетание бизнес-потребностей, спецификаций, экспериментальной работы и учёта доступного времени.
Даже самые опытные специалисты по анализу данных не смогут сказать вам, какой алгоритм будет работать лучше, не поэкспериментировав с различными их видами. Несмотря на это, мы составили памятку по алгоритмам машинного обучения, которая поможет найти алгоритм, подходящий для ваших конкретных задач.
Каковы самые популярные алгоритмы машинного обучения?
Прокручивая слайды вправо, вы сможете узнать о наиболее часто используемых алгоритмах машинного обучения. Этот список не является исчерпывающим, но он включает в себя алгоритмы, к которым специалисты по анализу данных чаще всего прибегают при решении бизнес-задач.
Нужно помнить, что многие из этих методов комбинируются и используются совместно, и часто приходится экспериментировать, пробуя разные алгоритмы и сравнивая результаты.
Очевидно, есть много моментов, которые нужно учитывать при выборе правильных алгоритмов машинного обучения для аналитики в вашей фирме. Однако не нужно быть специалистом по анализу данных или специалистом-статистиком, чтобы использовать эти модели. Продукты и решения SAS используют полный набор алгоритмов машинного обучения, помогая вам разработать процесс, который может непрерывно приносить пользу вашим данным.
-
Наивный байесовский классификатор
(Обучение с учителем – Классификация)Наивный байесовский классификатор опирается на теорему Байеса и классифицирует каждое значение независимо от любого другого значения. Это позволяет предсказывать класс/категорию на основе заданного набора признаков, используя вероятности.
Несмотря на свою простоту, классификатор работает на удивление хорошо и часто используется из-за того, что превосходит более сложные методы классификации.
-
Алгоритм k-means (k-средних)
(Обучение без учителя – Кластеризация)Метод k-средних – это тип обучения без учителя, который используется для классификации неразмеченных данных, то есть данных, не разбитых на определенные категории или группы. Алгоритм работает путем поиска групп в рамках данных, причём число групп представлено переменной K. Затем он итеративно приписывает каждую точку данных к одной из K-групп, основываясь на её известных характеристиках.
-
Метод опорных векторов
Обучение с учителем – Классификация)Метод опорных векторов – это набор алгоритмов обучения с учителем, которые анализируют данные, используемые для классификации и регрессионного анализа. По существу, они сортируют данные по категориям. Это достигается предоставлением набора обучающих примеров, каждый из которых помечен как принадлежащий к одной из двух категорий. Затем алгоритм строит модель, относящую новые значения к той или иной категории.
-
Линейная регрессия
(Обучение с учителем – Регрессия)Линейная регрессия – самая базовая разновидность регрессии. Простая линейная регрессия позволяет понять взаимосвязь между двумя непрерывными переменными.
-
Логистическая регрессия
(Обучение с учителем – Классификация)Задача логистической регрессии – оценка вероятности возникновения события на основе доступных данных из прошлого. Это покрывает случай бинарной зависимой переменной, то есть такой, которая принимает только два значения – 0 и 1.
-
Искусственная нейронная сеть
(Обучение с подкреплением)Искусственная нейронная сеть (ИНС) – это большое количество взаимосвязанных исполняющих элементов, совместно работающих над решением конкретных задач. ИНС были вдохновлены биологическими системами (например, мозг) и тем, как такие системы обрабатывают информацию.
ИНС также обучаются на примерах и по мере накопления опыта. Они чрезвычайно полезны при моделировании нелинейных зависимостей в многомерных данных или в тех случаях, когда взаимосвязь между входными переменными трудно поддаётся анализу.
-
Дерево решений
(Обучение с учителем – Классификация/Регрессия)Дерево решений – это древовидная структура наподобие блок-схемы, которая использует метод ветвления, иллюстрируя каждый возможный результат принятия решения. Каждый узел дерева соответствует одной проверке условия по определенной переменной, а каждая ветвь является результатом этой проверки.
-
Случайный лес
(Обучение с учителем – Классификация/Регрессия)Случайный лес – это групповой метод обучения, объединяющий множество алгоритмов и дающий лучшие результаты в классификации, регрессии и других задачах. Слабые по отдельности классификаторы дают отличный результат, если их применять в комбинации. Алгоритм начинает работу с дерева решений (древовидный граф, моделирующий принятие решений), и входное значение помещается в корень дерева. Затем он продвигается вниз по дереву, а данные разбиваются на все меньшие и меньшие подмножества на основе конкретных значений переменных.
-
Метод k-ближайших соседей
(Обучение с учителем)Алгоритм k-ближайших соседей оценивает, насколько велики шансы, что точка данных относится к той или иной группе. По существу, он просматривает точки данных вокруг одной выбранной точки и решает, к какой группе эта точка в реальности относится. Например, если точка расположена на сетке, а алгоритм пытается определить, к какой группе она относится (например, группа A или группа B), то он просмотрит точки рядом с данной и определит, к какой группе относится большинство этих точек.
Рекомендуем прочитать
- Ситуационная осведомленность определяет нашу реакциюМногие обстоятельства требуют ситуационной осведомленности, то есть осознания того, что происходит вокруг. Пандемия COVID-19 усилила эту потребность, поскольку лидеры во всех отраслях использовали аналитику и визуализацию, чтобы получать ситуационную осведомленность в реальном времени и быстро реагировать на важные решения.
- Страховой Дом ВСК: «Страховым компаниям сегодня жизненно важны IT-инновации»Какие технологии позволяют страховщику максимально учитывать характеристики автовладельца и транспортного средства и более объективно оценивать принимаемые риски, рассказал вице-президент Страхового Дома ВСК Василий Бусаров.
- Платформа клиентских данных: что это такое и почему это важно Недавний рост популярности CDP привел к значительной путанице на рынке. Вот все, что вам нужно знать о том, как работает CDP, о проблемах, которые следует учитывать, и о том, как выйти за рамки CDP с помощью бесшовной интеграции.