Машинное обучение

Машиноведение (ML) — это область искусственного интеллекта, которая использует статистические методы, чтобы дать компьютерным системам возможность «учиться» (например, постепенно улучшать производительность по конкретной задаче) из данных, не будучи явно запрограммированной.

В 1959 году Артур Сэмюэль начал обучение в машинах с именем. Машинное обучение исследует изучение и построение алгоритмов, которые могут учиться и делать прогнозы на данных — такие алгоритмы преодолевают следующие строго статические программные инструкции, делая прогнозы или решения, управляемые данными, путем построения модели из выборочных входов. Машинное обучение используется в ряде вычислительных задач, где проектирование и программирование явных алгоритмов с хорошей производительностью является трудным или неосуществимым; Примеры приложений включают фильтрацию электронной почты, обнаружение сетевых злоумышленников и компьютерное зрение.

Машинное обучение тесно связано с (и часто совпадением) с вычислительной статистикой, которая также фокусируется на прогнозировании с использованием компьютеров. Он имеет прочные связи с математической оптимизацией, которая предоставляет методы, теории и области приложений в поле. Машинное обучение иногда сочетается с интеллектуальным анализом данных, в котором последнее подполе больше фокусируется на анализе разведочных данных и известно как неконтролируемое обучение.

В области аналитики данных машинное обучение — это метод, используемый для разработки сложных моделей и алгоритмов, которые поддаются прогнозированию; в коммерческом использовании это называется прогностической аналитикой. Эти аналитические модели позволяют исследователям, ученым-дантистам, инженерам и аналитикам «создавать надежные, повторяемые решения и результаты» и раскрывать «скрытые идеи» посредством изучения исторических отношений и тенденций в данных.

обзор
Том М. Митчелл представил широко цитированное, более формальное определение алгоритмов, изучаемых в области машинного обучения: «Говорят, что компьютерная программа учится на опыте E по отношению к некоторому классу задач T и показателю производительности P, если его производительность при выполнении задач в Т, измеренное Р, улучшается с опытом Е. » Это определение задач, в которых рассматривается машинное обучение, дает принципиально оперативное определение, а не определение поля в когнитивных терминах. Это следует за предложением Алана Тьюринга в его статье «Вычислительная техника и разведка», в которой вопрос «Могут ли машины думать?»заменяется вопросом: «Могут ли машины делать то, что мы (как мыслящие сущности) можем делать?». В предложении Тьюринга раскрываются различные характеристики, которыми может обладать мыслящая машина, и различные последствия для ее построения.

Задачи машинного обучения

Задачи машинного обучения обычно подразделяются на несколько широких категорий:

Контролируемое обучение: компьютер представлен примерными входными данными и их желаемыми результатами, заданными «учителем», и цель состоит в том, чтобы изучить общее правило, которое отображает входные данные для выходов. В качестве особых случаев входной сигнал может быть только частично доступен или ограничен специальной обратной связью.
Полу-контролируемое обучение: компьютеру предоставляется только неполный обучающий сигнал: тренировочный набор с некоторыми (часто многими) целевыми выходами отсутствует.
Активное обучение: компьютер может получать только учебные ярлыки для ограниченного набора экземпляров (на основе бюджета), а также должен оптимизировать свой выбор объектов для получения меток. При использовании в интерактивном режиме они могут быть представлены пользователю для маркировки.
Неконтролируемое обучение: никакие метки не даются алгоритму обучения, оставляя его самостоятельно, чтобы найти структуру во входе. Неконтролируемое обучение может быть самоцелью (обнаружение скрытых шаблонов в данных) или средством достижения цели (обучения объектам).
Усиление обучения: данные (в виде вознаграждений и наказаний) даются только как обратная связь с действиями программы в динамической среде, например, вождение транспортного средства или игра в игру против противника.

Приложения для машинного обучения
Другая классификация задач машинного обучения возникает при рассмотрении желаемого результата машинной системы:
В классификации входные данные делятся на два или более классов, и учащийся должен создать модель, которая назначает невидимые входные данные для одной или нескольких (классификации с несколькими метками) этих классов. Обычно это рассматривается под наблюдением. Фильтрация спама является примером классификации, в которой вводятся сообщения электронной почты (или другие), а классы — это «спам» и «не спам».
В регрессии, также контролируемой проблеме, выходы являются непрерывными, а не дискретными.
В кластеризации набор входных данных следует разделить на группы. В отличие от классификации, группы не известны заранее, что делает эту задачу обычно неконтролируемой.
Оценка плотности находит распределение ресурсов в некотором пространстве.
Уменьшение размерности упрощает ввод данных путем их сопоставления с более низким пространством. Моделирование темы — это связанная с этим проблема, когда программе предоставляется список документов на человеческом языке, и ей поручено выяснить, какие документы охватывают похожие темы.

Среди других категорий проблем машинного обучения обучение обучению учит своей собственной индуктивной уклоне, основанной на предыдущем опыте. Обучение в области развития, разработанное для обучения роботов, генерирует свои собственные последовательности (также называемые учебными программами) учебных ситуаций, чтобы кумулятивно приобретать репертуар новых навыков посредством автономного самоанализа и социального взаимодействия с учителями-человеками и использования таких механизмов, как активное обучение, созревание, синергии и подражание.

История и отношения с другими областями
Артур Самуэль, американский пионер в области компьютерных игр и искусственного интеллекта, в 1959 году придумал термин «машинное обучение» в IBM. Как научная работа, машинное обучение росло из стремления к искусственному интеллекту. Уже в первые дни ИИ в качестве академической дисциплины некоторые исследователи были заинтересованы в том, чтобы машины учились на данных. Они пытались подойти к проблеме с помощью различных символических методов, а также то, что тогда называлось «нейронными сетями»; это были главным образом персептроны и другие модели, которые позже были признаны заново в обобщенных линейных моделях статистики. Были также использованы вероятностные рассуждения, особенно в автоматизированной медицинской диагностике.

Однако все большее внимание на логическом, основанном на знаниях подходе вызвало разрыв между ИИ и машинным обучением. Вероятностные системы страдают от теоретических и практических проблем сбора и представления данных. К 1980 году экспертные системы стали доминировать в ИИ, и статистика была не в порядке. Работа над символическим / основанным на знаниях обучением продолжалась в рамках ИИ, что приводило к индуктивному логическому программированию, но более статистическая линия исследований в настоящее время выходит за рамки собственно ИИ, в распознавании образов и поиске информации. Исследования нейронных сетей были отвергнуты ИИ и информатикой примерно в то же время. Эта линия также продолжалась за пределами поля AI / CS, как «связность», исследователями из других дисциплин, включая Хопфилда, Румельхарта и Хинтона. Их главный успех был достигнут в середине 1980-х годов с переосмыслением обратного распространения.

Машинное обучение, реорганизованное как отдельное поле, начало процветать в 1990-х годах.Поле изменило свою цель — добиться искусственного интеллекта для решения разрешимых проблем практического характера. Он сместил фокус от символических подходов, которые он унаследовал от ИИ, и от методов и моделей, заимствованных из статистики и теории вероятностей. Это также способствовало увеличению доступности оцифрованной информации и возможности ее распространения через Интернет.

Машинное обучение и интеллектуальный анализ данных часто используют одни и те же методы и значительно перекрываются, но в то время как машинное обучение фокусируется на предсказании, основанное на известных свойствах, полученных из данных обучения, интеллектуальный анализ данных фокусируется на обнаружении (ранее) неизвестных свойств в данных (это этап анализа открытия знаний в базах данных). Для интеллектуального анализа данных используются многие методы машинного обучения, но с разными целями; с другой стороны, машинное обучение также использует методы интеллектуального анализа данных как «неконтролируемое обучение» или как шаг предварительной обработки для повышения точности обучения. Большая часть путаницы между этими двумя исследовательскими сообществами (которые часто имеют отдельные конференции и отдельные журналы, ECML PKDD, являющееся основным исключением) исходит из основных предположений, с которыми они работают: в компьютерном обучении эффективность обычно оценивается в отношении способности воспроизводить известные знания, а при открытии знаний и интеллектуальном анализе данных (KDD) ключевой задачей является обнаружение ранее неизвестных знаний.Оцененный в отношении известных знаний, неосведомленный (неконтролируемый) метод будет легко превосходить другие контролируемые методы, в то время как в типичной задаче KDD контролируемые методы не могут использоваться из-за недоступности данных обучения.

У машинного обучения также есть тесная связь с оптимизацией: многие проблемы обучения сформулированы как минимизация функции потерь на обучающем наборе примеров. Функции потерь выражают несоответствие между предсказаниями обучаемой модели и фактическими экземплярами проблемы (например, в классификации, нужно назначить метку экземплярам, ​​а модели обучаются правильно предсказать заранее назначенные метки набора Примеры).Разница между двумя полями возникает из цели обобщения: в то время как алгоритмы оптимизации могут минимизировать потери на обучающем наборе, машинное обучение связано с минимизацией потерь на невидимых образцах.

Отношение к статистике
Машиноведение и статистика тесно связаны между собой. По словам Майкла Иордана, идеи машинного обучения, от методологических принципов до теоретических инструментов, имели долгую предысторию в статистике. Он также предложил термин «наука о данных» в качестве заполнителя для вызова общего поля.

Лео Брейман выделил две парадигмы статистического моделирования: модель данных и алгоритмическую модель, где «алгоритмическая модель» означает более или менее алгоритмы машинного обучения, такие как случайный лес.

Некоторые статистики применяют методы машинного обучения, что приводит к объединенной области, которую они называют статистическим обучением.

теория
Основная цель ученика — обобщить его опыт. Обобщением в этом контексте является способность учебного компьютера точно выполнять новые, невидимые примеры / задачи после того, как они испытали набор данных обучения. Примеры обучения взяты из некоторого общеизвестного распределения вероятностей (считающегося представителем пространства вхождений), и учащийся должен построить общую модель об этом пространстве, которая позволяет ему производить достаточно точные предсказания в новых случаях.

Вычислительный анализ алгоритмов машинного обучения и их эффективность — это отрасль теоретической информатики, известная как теория вычислительного обучения. Поскольку наборы обучения являются конечными, а будущее неопределенным, теория обучения обычно не дает гарантий выполнения алгоритмов. Вместо этого вероятные оценки производительности довольно распространены. Декомпозиция смещения-дисперсии является одним из способов количественной оценки ошибки обобщения.

Для достижения максимальной производительности в контексте обобщения сложность гипотезы должна соответствовать сложности функции, лежащей в основе данных. Если гипотеза менее сложна, чем функция, то модель поддаётся данным. Если сложность модели увеличивается в ответ, тогда ошибка обучения уменьшается. Но если гипотеза слишком сложна, то модель подвержена переопределению, а обобщение будет хуже.

В дополнение к ограничениям производительности теоретики вычислительного обучения изучают временную сложность и осуществимость обучения. В теории вычислительного обучения вычисление считается выполнимым, если это можно сделать в полиномиальное время. Есть два вида результатов временной сложности. Положительные результаты показывают, что определенный класс функций может быть изучен за полиномиальное время.Отрицательные результаты показывают, что некоторые классы не могут быть изучены за полиномиальное время.

подходы

Изучение дерева решений
Дерево принятия решений использует дерево решений как предсказательную модель, которая отображает наблюдения относительно позиции на выводы о целевом значении предмета.

Обучение правилам ассоциации
Обучение правилам ассоциации — это метод обнаружения интересных связей между переменными в больших базах данных.

Искусственные нейронные сети
Алгоритм обучения искусственной нейронной сети (ANN), обычно называемый «нейронной сетью» (NN), является алгоритмом обучения, который смутно вдохновлен биологическими нейронными сетями. Вычисления структурированы в терминах взаимосвязанной группы искусственных нейронов, обрабатывая информацию с использованием подхода-подключителя к вычислению. Современные нейронные сети представляют собой нелинейные инструменты моделирования статистических данных. Они обычно используются для моделирования сложных отношений между входами и выходами, для поиска шаблонов в данных или для сбора статистической структуры в неизвестном совместном распределении вероятностей между наблюдаемыми переменными.

Глубокое обучение
Падение цен на оборудование и разработка графических процессоров для личного использования за последние несколько лет способствовали разработке концепции глубокого обучения, которая состоит из нескольких скрытых слоев в искусственной нейронной сети. Этот подход пытается моделировать, как человеческий мозг обрабатывает свет и звук во взгляде и слухе. Некоторыми успешными приложениями глубокого обучения являются компьютерное зрение и распознавание речи.

Индуктивное логическое программирование
Индуктивное логическое программирование (ILP) — это подход к обучению правилам с использованием логического программирования в качестве единого представления для входных примеров, знаний фона и гипотез. Учитывая кодирование известных фоновых знаний и набор примеров, представленных в виде логической базы данных фактов, система ILP выведет гипотезную логическую программу, которая влечет за собой все положительные и отрицательные примеры. Индуктивное программирование является связанной областью, которая рассматривает любые языки программирования для представления гипотез (а не только логического программирования), таких как функциональные программы.

Поддерживающие векторные машины
Поддержка векторных машин (SVM) — это набор связанных методов контроля, используемых для классификации и регрессии. Учитывая набор примеров обучения, каждый из которых отмечен как принадлежащий к одной из двух категорий, алгоритм обучения SVM создает модель, которая предсказывает, попадает ли новый пример в одну категорию или другую.

Кластеризация
Кластерный анализ представляет собой набор наборов наблюдений в подмножества (так называемые кластеры), так что наблюдения в пределах одного и того же кластера схожи в соответствии с некоторыми предрасположенными критериями или критериями, в то время как наблюдения, проведенные из разных кластеров, неодинаковы. Различные методы кластеризации делают разные предположения о структуре данных, часто определяемые некоторой метрикой подобия и оцениваемые, например, внутренней компактностью (сходство между членами одного и того же кластера) и разделение между различными кластерами.Другие методы основаны на предполагаемой плотности и связности графиков. Кластеризация — это метод неконтролируемого обучения и общий метод анализа статистических данных.

Байесовские сети
Байесовская сеть, сеть убеждений или ориентированная ациклическая графическая модель — это вероятностная графическая модель, представляющая набор случайных величин и их условных независимых величин посредством направленного ациклического графа (DAG).Например, байесовская сеть может представлять вероятностные отношения между заболеваниями и симптомами. При наличии симптомов сеть может использоваться для вычисления вероятностей наличия различных заболеваний. Существуют эффективные алгоритмы, которые выполняют вывод и обучение.

Обучение представлению
Несколько алгоритмов обучения, в основном неконтролируемые алгоритмы обучения, направлены на то, чтобы лучше понять представления, предоставленные во время обучения.Классические примеры включают анализ основных компонентов и кластерный анализ.Алгоритмы обучения представлению часто пытаются сохранить информацию на своем входе, но преобразуют ее таким образом, чтобы она была полезной, часто как шаг предварительной обработки перед выполнением классификации или предсказаний, позволяя восстанавливать входы, поступающие от неизвестного источника, генерирующего распределение, в то время как не будучи обязательно верными для конфигураций, которые неправдоподобны при этом распределении.

Алгоритмы обучения в коллекторе пытаются сделать это при ограничении, что изученное представление является малоразмерным. Алгоритмы разреженного кодирования пытаются сделать это при ограничении, что ученое представление разреженное (имеет много нулей).Многолинейные алгоритмы обучения подпространства направлены на изучение низкоразмерных представлений непосредственно из тензорных представлений для многомерных данных без их преобразования в (высокомерные) векторы. Алгоритмы глубокого обучения обнаруживают несколько уровней представления или иерархию функций с более абстрактными функциями более высокого уровня, определенными в терминах (или генерирующих) функций нижнего уровня. Утверждалось, что интеллектуальная машина — это та, которая изучает представление, которое расцепляет основные факторы вариации, которые объясняют наблюдаемые данные.

Сходство и метрическое обучение
В этой задаче обучающему устройству даются пары примеров, которые считаются схожими, и пары менее похожих объектов. Затем ему необходимо изучить функцию подобия (или метрическую функцию расстояния), которая может предсказать, будут ли схожие объекты. Он иногда используется в системах рекомендаций.

Изучение редких словарей
В этом методе базовая единица представляется как линейная комбинация базисных функций, и коэффициенты считаются разреженными. Пусть x — d-мерная datum, D — ad по n матрице, где каждый столбец D представляет собой базисную функцию. r — коэффициент, представляющий x, используя D. Математически, разреженное использование словаря означает решение  где r является редким. Вообще говоря, n считается большим, чем d, чтобы позволить свободу для разреженного представления.

Изучение словаря вместе с разреженными представлениями сильно NP-сложно и также сложно решить примерно. Популярным эвристическим методом для редкого изучения словарей является K-SVD.

В нескольких контекстах применялось редкое изучение словарей. В классификации проблема состоит в том, чтобы определить, к каким классам принадлежит ранее невидимая система.Предположим, что словарь для каждого класса уже построен. Затем новый класс привязан к классу таким образом, что он лучше всего представлен соответствующим словарем. Изучение разреженного словаря также применялось в изображении de-noising. Основная идея заключается в том, что чистый патч изображения может быть редко представлен графическим словарем, но шум не может.

Генетические алгоритмы
Генетический алгоритм (GA) — это эвристика поиска, которая имитирует процесс естественного отбора и использует такие методы, как мутация и кроссовер, чтобы генерировать новый генотип в надежде найти хорошие решения для данной проблемы. В компьютерном обучении генетические алгоритмы нашли применение в 1980-х и 1990-х годах. Напротив, методы машинного обучения использовались для улучшения характеристик генетических и эволюционных алгоритмов.

Основанное на правилах машинное обучение
Механическое обучение на основе правил является общим термином для любого метода машинного обучения, который идентифицирует, учит или развивает «правила» для хранения, управления или применения знаний. Определяющей характеристикой машинного учащегося, основанного на правилах, является идентификация и использование набора реляционных правил, которые в совокупности представляют знания, полученные системой. Это контрастирует с другими машинами, которые обычно идентифицируют уникальную модель, которая может быть универсально применена к любому экземпляру, чтобы сделать прогноз.Основанные на правилах подходы к компьютерному обучению включают системы классификаторов обучения, обучение правилам ассоциации и искусственные иммунные системы.

Системы классификаторов обучения
Системы классификаторов обучения (LCS) — это семейство алгоритмов машинного обучения на основе правил, которые объединяют компонент обнаружения (например, как правило, генетический алгоритм) с компонентом обучения (выполняющим либо контролируемое обучение, либо обучение подкреплением, либо неконтролируемое обучение). Они стремятся идентифицировать набор контекстно-зависимых правил, которые коллективно хранят и применяют знания кусочно, чтобы делать прогнозы.

Приложения
Приложения для машинного обучения включают:

сельское хозяйство
Автоматическое доказательство теоремы
Адаптивные веб-сайты
Аффективные вычисления
Биоинформатика
Интерфейсы мозговой машины
хемоинформатика
Классификация последовательностей ДНК
Вычислительная анатомия
Компьютерные сети
телекоммуникация
Компьютерное зрение, включая распознавание объектов
Обнаружение мошенничества с кредитными картами
Общий игровой процесс
Поиск информации
Обнаружение интернет-мошенничества
Вычислительная лингвистика
маркетинг
Управление машинным обучением
Восприятие машины
Автоматизированная медицинская диагностика
Вычислительная экономика
страхование
Обработка естественного языка
Изучение естественного языка
Оптимизация и метаэвристика
Он-лайн реклама
Рекомендуемые системы
Локомотив робота
Поисковые системы
Анализ настроений (или интеллектуальная оценка)
Последовательная добыча
Разработка программного обеспечения
Распознавание речи и рукописного ввода
Анализ финансового рынка
Мониторинг структурного здоровья
Синтаксическое распознавание образов
Прогнозирование временных рядов
Аналитика поведения пользователей
Машинный перевод

В 2006 году онлайн-кинокомпания Netflix провела первый конкурс «Netflix Prize», чтобы найти программу для лучшего прогнозирования пользовательских предпочтений и повышения точности по существующему алгоритму рекомендации фильма «Кино», по крайней мере на 10%. Совместная команда из исследователей из AT & amp; T Labs-Research в сотрудничестве с командами Big Chaos и Pragmatic Theory построила ансамблевую модель, чтобы выиграть Гран-при в 2009 году за 1 миллион долларов. Вскоре после присуждения премии Netflix понял, что рейтинги зрителей не являются лучшими показателями их шаблонов просмотра («все это рекомендация»), и они соответственно изменили свой механизм рекомендаций.

В 2010 году The Wall Street Journal написал о фирме Rebellion Research и их использовании Machine Learning для прогнозирования финансового кризиса.

В 2012 году один из основателей Sun Microsystems Винод Хосла предсказал, что 80% рабочих мест врачей будут потеряны в течение следующих двух десятилетий для автоматического диагностического программного обеспечения для машинного обучения.

В 2014 году сообщалось, что в истории искусств был применен алгоритм машинного обучения для изучения картин изобразительного искусства и что он, возможно, выявил ранее непризнанные влияния между художниками.

Ограничения
Хотя машинное обучение было преобразовательным в некоторых областях, эффективное машинное обучение затруднено, потому что нахождение шаблонов затруднено и часто недостаточно данных для обучения; в результате многие программы машинного обучения часто не могут обеспечить ожидаемое значение. Причины этого многочисленны: отсутствие (подходящих) данных, отсутствие доступа к данным, предвзятость данных, проблемы конфиденциальности, плохо выбранные задачи и алгоритмы, неправильные инструменты и люди, нехватка ресурсов и проблемы с оценкой.

В 2018 году самоходный автомобиль от Убер не смог обнаружить пешехода, который погиб в результате аварии. Попытки использовать машинное обучение в здравоохранении с помощью системы IBM Watson не смогли обеспечить даже после многих лет и миллиардов инвестиций.

предвзятость
В частности, в подходах машинного обучения могут возникать различные искажения данных.Система машинного обучения, подготовленная только для ваших текущих клиентов, может быть не в состоянии прогнозировать потребности новых групп клиентов, которые не представлены в данных обучения. Обучаясь искусственным данным, машинное обучение, вероятно, поднимет те же конституционные и бессознательные предубеждения, которые уже присутствуют в обществе. Показано, что языковые модели, полученные из данных, содержат человеческие искажения. Было установлено, что системы машинного обучения, используемые для оценки криминального риска, предвзяты против чернокожих людей. В 2015 году фотографии Google часто отмечали черных людей как горилл, а в 2018 году это все еще не было хорошо разрешено, но Google, по сообщениям, все еще использовал обходной путь для удаления всех горилл из данных обучения и, следовательно, не смог распознать настоящих горилл в все. Аналогичные проблемы с распознаванием небелых людей были обнаружены во многих других системах. В 2016 году Microsoft проверила чатбот, который узнал из Twitter, и быстро подобрал расистский и сексистский язык. Из-за таких проблем эффективное использование машинного обучения может занять больше времени, чтобы быть принятым в других областях.

Модельные оценки
Модели обучения машинам классификации могут быть подтверждены методами оценки точности, такими как метод Holdout, который разбивает данные в наборе для обучения и тестирования (обычно 2/3 учебного набора и 1/3 набора тестовых наборов) и оценивает эффективность учебной модели на тестовый набор. Для сравнения, метод N-fold-cross-validation случайным образом разбивает данные в k подмножествах, где k-1 экземпляров данных используются для обучения модели, а k-й экземпляр используется для проверки прогностической способности учебной модели. В дополнение к методам удержания и перекрестной проверки для оценки точности модели можно использовать бутстрап, в котором образцы n экземпляров с заменой из набора данных.

В дополнение к общей точности исследователи часто сообщают о чувствительности и специфичности, что означает True Positive Rate (TPR) и True Negative Rate (TNR) соответственно. Аналогично, исследователи иногда сообщают о False Positive Rate (FPR), а также о False Negative Rate (FNR). Тем не менее, эти ставки являются коэффициентами, которые не могут выявить их числители и знаменатели. Общая эксплуатационная характеристика (TOC) — эффективный метод выражения диагностической способности модели.TOC показывает числители и знаменатели ранее упомянутых скоростей, таким образом, TOC предоставляет больше информации, чем обычно используемая эксплуатационная характеристика приемника (ROC) и связанная с ROC область под кривой (AUC).

Этика
Машиноведение ставит множество этических вопросов. Системы, которые обучаются на наборах данных, собранных с предубеждениями, могут проявлять эти предубеждения при использовании (алгоритмическое смещение), таким образом оцифровывая культурные предрассудки. Например, использование данных о найме на работу у фирмы с политикой найма на расистскую политику может привести к тому, что система машинного обучения дублирует предвзятость, забив кандидатов на работу против сходства с предыдущими успешными кандидатами. Таким образом, ответственный сбор данных и документация алгоритмических правил, используемых системой, является важной частью машинного обучения.

Поскольку язык содержит предубеждения, машины, обученные языковым корпорациям, обязательно будут также изучать предвзятость.

Другие формы этических проблем, не связанные с личными предвзятостями, больше видны в здравоохранении. Среди профессионалов здравоохранения есть опасения, что эти системы могут не быть спроектированы в интересах общественности, а в качестве машин, генерирующих доход. Это особенно справедливо в Соединенных Штатах, где существует постоянная этическая дилемма улучшения здравоохранения, но также и увеличение прибыли.Например, алгоритмы могут быть спроектированы таким образом, чтобы предоставить пациентам ненужные тесты или лекарства, в которых владельцы собственности этого алгоритма владеют ставками. Существует огромный потенциал для машинного обучения в здравоохранении, чтобы предоставить профессионалам отличный инструмент для диагностики, лечения и даже планирования пути восстановления для пациентов, но этого не произойдет до тех пор, пока не будут затронуты личные предубеждения, упомянутые ранее, и эти «жадные» предвзятости рассматриваются.

Программного обеспечения
Программные комплекты, содержащие различные алгоритмы машинного обучения, включают следующее:

Бесплатное программное обеспечение с открытым исходным кодом
CNTK
Deeplearning4j
ELKI
H2O
погонщик слонов
колотушка
mlpack
MXNet
OpenNN
оранжевый
scikit учиться
Shogun
Spark MLlib
TensorFlow
Факел / PyTorch
Weka / MOA
Yooreeka

Проприетарное программное обеспечение со свободными версиями с открытым исходным кодом
KNIME
RapidMiner

Проприетарное программное обеспечение
Amazon Machine Learning
Ангосские знанияSTUDIO
Ayasdi
Опыт IBM Data Science
Google Prediction API
IBM SPSS Modeler
KXEN Modeler
LIONsolver
Mathematica
MATLAB
питон
Microsoft Azure Machine Learning
Нейронный конструктор
NeuroSolutions
Oracle Data Mining
Платформа облачных вычислений Oracle AI
RCASE
SAS Enterprise Miner
SequenceL
Splunk
STATISTICA Data Miner