기계 학습

기계 학습 (ML)은 통계적 기법을 사용하여 명시 적으로 프로그래밍하지 않고 컴퓨터 시스템에 데이터로부터 “학습”(예 : 특정 작업의 성능을 점진적으로 향상)하는 기능을 제공하는 인공 지능 분야입니다.

유명한 기계 학습은 1959 년에 Arthur Samuel에 의해 만들어졌습니다. 기계 학습은 데이터를 통해 학습하고 예측할 수있는 알고리즘의 연구 및 구축을 탐구합니다. 이러한 알고리즘은 샘플 입력으로 모델을 구축하여 데이터 기반 예측 또는 의사 결정을 수행하여 엄격하게 정적 인 프로그램 지침을 극복합니다. 기계 학습은 성능이 우수한 명시 적 알고리즘을 설계하고 프로그래밍하는 것이 어렵거나 불가능한 다양한 컴퓨팅 작업에 사용됩니다. 예를 들어 이메일 필터링, 네트워크 침입자 탐지 및 컴퓨터 비전이 있습니다.

기계 학습은 전산 통계와 밀접한 관련이 있으며 (종종 컴퓨터와 겹치는) 컴퓨터의 사용을 통한 예측 작성에 중점을 둡니다. 그것은 방법, 이론 및 응용 분야를 현장에 전달하는 수학적 최적화와 밀접한 관련이 있습니다. 후자의 하위 필드는 탐색 데이터 분석에 더 중점을두고 있으며 감독되지 않은 학습으로 알려진 데이터 마이닝과 기계 학습이 때때로 결합됩니다.

데이터 분석 분야에서 기계 학습은 예측에 도움이되는 복잡한 모델과 알고리즘을 고안하는 데 사용되는 방법입니다. 상업적 용도로 이것은 예측 분석 (predictive analytics)으로 알려져 있습니다. 이러한 분석 모델을 통해 연구원, 데이터 과학자, 엔지니어 및 분석가는 “신뢰성 있고 반복 가능한 의사 결정 및 결과”를 만들어 내고 역사적인 관계 및 데이터 추세를 통해 “숨겨진 통찰력”을 발견 할 수 있습니다.

개요
Tom M. Mitchell은 컴퓨터 학습 분야에서 연구 된 알고리즘에 대해 더 넓게 인용되고보다 공식적인 정의를 제시했다. “컴퓨터 프로그램은 작업 클래스에서 성능이 P 일 경우 어떤 종류의 작업 T 및 성능 측정 P와 관련하여 경험 E로부터 배운다고합니다 T로, P로 측정, 경험 E 향상시킵니다. ” 기계 학습이 관련된 작업의 이러한 정의는인지 영역에서 필드를 정의하는 것이 아니라 근본적으로 작동하는 정의를 제공합니다. 이것은 앨런 튜링 (Alan Turing)의 “컴퓨팅 기계 및 인텔리전스 (Computing Machinery and Intelligence)”논문에서 “기계가 생각할 수 있는가?”라는 제안을 따른 것입니다. “기계가 우리가 (생각 엔티티로서) 수행 할 수 있는가?”라는 질문으로 대체됩니다. 튜링 (Turing)의 제안에서 사고 기계가 가질 수있는 다양한 특성과 시스템을 구성 할 때의 다양한 영향이 드러납니다.

기계 학습 과제

기계 학습 작업은 일반적으로 다음과 같은 광범위한 범주로 분류됩니다.

감독 학습 (Supervised Learning) : 컴퓨터는 “교사”에 의해 주어진 예제 입력과 원하는 출력을 제공받으며 목표는 입력을 출력에 매핑하는 일반적인 규칙을 학습하는 것입니다. 특별한 경우로서, 입력 신호는 부분적으로 만 이용 가능하거나 특별한 피드백으로 제한 될 수 있습니다.
반 감독 학습 : 컴퓨터에는 불완전한 교육 신호 만 제공됩니다. 일부는 (종종 많은) 대상 출력이 누락 된 교육 세트입니다.
능동 학습 : 컴퓨터는 예산에 따라 제한된 인스턴스 집합에 대해서만 교육 레이블을 얻을 수 있으며 레이블을 얻기 위해 개체 선택을 최적화해야합니다. 대화 형으로 사용되는 경우 라벨링을 위해 사용자에게 표시 할 수 있습니다.
무 감독 학습 (Unsupervised learning) : 학습 알고리즘에 레이블이 주어지지 않으며 입력 자체에서 구조를 찾을 수 있습니다. 감독되지 않은 학습은 그 자체로 목표 (데이터에서 숨겨진 패턴을 발견) 또는 끝을 향한 수단 (피쳐 학습) 일 수 있습니다.
강화 학습 : 데이터 (보상 및 처벌의 형태로)는 차량 운전이나 상대방과의 경기 같은 동적 인 환경에서 프로그램의 행동에 대한 피드백으로 만 제공됩니다.

기계 학습 어플리케이션
기계 학습 과제의 또 다른 범주는 기계 학습 시스템의 원하는 출력을 고려할 때 발생합니다.
분류에서 입력은 둘 이상의 클래스로 나뉘며, 학습자는 보이지 않는 입력을 이러한 클래스의 하나 이상의 (다중 레이블 분류)에 할당하는 모델을 생성해야합니다. 이것은 일반적으로 감독 방식으로 다루어집니다. 스팸 필터링은 분류의 한 예이며, 입력은 전자 메일 (또는 기타) 메시지이며 클래스는 “스팸”및 “스팸 아님”입니다.
회귀 분석에서 또한 감독 된 문제는 출력이 불연속 적이 지 않고 연속적이다.
클러스터링에서는 일련의 입력을 그룹으로 나눌 수 있습니다. 분류와 달리 그룹은 미리 알지 못하므로 대개 감독되지 않은 작업이됩니다.
밀도 추정은 일부 공간에서 입력 분포를 찾습니다.
차원 성 감소는 하위 차원 공간에 매핑하여 입력을 단순화합니다. 주제 모델링은 관련 문제로서, 프로그램에 인간 언어 문서 목록이 제공되며 비슷한 주제를 다루는 문서를 찾아야합니다.

기계 학습 문제의 다른 범주 중에서 배우는 법을 배우는 것은 이전의 경험을 바탕으로 유도 성향을 학습합니다. 로봇 학습을 위해 정교화 된 발달 학습은 자율적 인 자기 탐구와 인간 교사와의 사회적 상호 작용 및 능동 학습, 성숙, 운동과 같은 안내 메커니즘을 사용하여 새로운 기술의 레퍼토리를 누적 적으로 습득하기위한 학습 상황의 자체 시퀀스 (커리큘럼이라고도 함)를 생성합니다 시너지 효과 및 모방.

역사와 다른 분야와의 관계
컴퓨터 게임 및 인공 지능 분야의 미국 개척자 인 Arthur Samuel은 1959 년 IBM에서 “기계 학습”이라는 용어를 사용했습니다. 과학적인 노력으로 기계 학습은 인공 지능 탐구에서 비롯되었습니다. AI의 초기 학문 분야 인 이미 일부 연구원은 기계가 데이터로부터 학습하도록하는 데 관심이있었습니다. 그들은 다양한 상징적 인 방법뿐만 아니라 “신경 네트워크”라고 불리는 것으로서 문제에 접근하려고 시도했다. 이것들은 대부분 통계학의 일반화 된 선형 모델의 재 작성으로 발견 된 대부분의 퍼셉트론 및 다른 모델들이었다. 확률 론적 추론은 특히 자동화 된 의료 진단에 사용되었습니다.

그러나 논리적이고 지식 기반 접근법에 대한 강조가 증가함에 따라 인공 지능과 기계 학습 간의 균열이 발생했습니다. 확률 론적 시스템은 데이터 획득과 표현의 이론적, 실제적 문제로 어려움을 겪었다. 1980 년까지 전문가 시스템이 AI를 지배하게되었고 통계는 부적절했습니다. AI 내에서 상징적 / 지식 기반 학습에 대한 작업이 계속되었으므로 귀납적 논리 프로그래밍으로 이어졌지만 더 많은 통계적 연구가 패턴 인식 및 정보 검색에서 AI 고유 영역 밖에있었습니다. 신경망 연구는 AI와 컴퓨터 과학에 의해 동시에 포기되었습니다. 이 라인은 또한 Hopfield, Rumelhart 및 Hinton을 포함한 다른 분야의 연구자들에 의해 AI / CS 필드 외부에서 “연결주의”로서 계속되었습니다. 그들의 주요 성공은 1980 년대 중반에 백 프로 퍼 게이션 (backpropagation)을 재조명했다.

별도의 분야로 개편 된 기계 학습은 1990 년대에 번성하기 시작했습니다. 이 분야는 인공 지능을 달성하는 것에서 실제적인 문제를 해결할 수있는 목표로 바뀌었다. 그것은 AI에서 상속받은 상징적 인 접근법과 통계와 확률 이론에서 빌린 방법과 모델로 초점을 옮겼습니다. 또한 디지털화 된 정보의 가용성이 증가하고 인터넷을 통해 배포 할 수있는 이점이있었습니다.

기계 학습 및 데이터 마이닝은 종종 동일한 방법을 사용하고 중복되는 경우가 많지만 기계 학습이 예측에 초점을 맞추는 반면 훈련 데이터에서 알려진 속성을 기반으로 데이터 마이닝은 데이터의 알 수없는 속성 발견에 초점을 맞 춥니 다. 데이터베이스에서 지식 발견의 분석 단계). 데이터 마이닝은 여러 가지 기계 학습 방법을 사용하지만 목표는 다릅니다. 반면에 기계 학습은 데이터 마이닝 방법을 “감독되지 않은 학습”으로 사용하거나 사전 처리 단계로 사용하여 학습자의 정확성을 향상시킵니다. 이 두 연구 커뮤니티 (종종 별도의 컨퍼런스와 별도의 저널이있는 ECML PKDD가 주요 예외 임) 간의 혼란의 상당 부분은 기계 학습에서 성능에 대해 일반적으로 평가됩니다. 지식 발견 및 데이터 마이닝 (KDD)에서 중요한 작업은 이전에는 알려지지 않은 지식의 발견입니다. 알려진 지식과 관련하여 평가되지 않은 (감독되지 않은) 방법은 다른 감독 방법으로 쉽게 수행되지만 KDD 작업에서는 교육 데이터를 사용할 수 없기 때문에 감독 방법을 사용할 수 없습니다.

기계 학습은 또한 최적화와 긴밀한 관계를 맺고 있습니다. 많은 학습 문제는 훈련 세트에서 손실 기능의 최소화로 공식화됩니다. 손실 함수는 훈련중인 모델의 예측과 실제 문제 인스턴스 간의 불일치를 표현합니다 (예를 들어, 분류에서 인스턴스에 레이블을 지정하려는 경우, 모델이 사전 할당 된 레이블을 정확하게 예측하도록 훈련 된 경우). 예). 두 필드의 차이는 일반화의 목표에서 비롯됩니다. 최적화 알고리즘은 교육 세트의 손실을 최소화 할 수 있지만 기계 학습은 보이지 않는 샘플의 손실을 최소화하는 것과 관련이 있습니다.

통계와의 관계
기계 학습 및 통계는 밀접한 관련 분야입니다. Michael I. Jordan에 따르면 방법 론적 원리에서 이론적 도구에 이르기까지 기계 학습에 대한 아이디어는 통계에서 오랜 역사를 가지고 있습니다. 또한 그는 데이터 과학이라는 용어를 전체 분야를 호출하는 자리 표시 자라고 제안했습니다.

Leo Breiman은 데이터 모델 및 알고리즘 모델이라는 두 가지 통계 모델링 패러다임을 구분했습니다. 여기서 “알고리즘 모델”은 무작위 포리스트와 같은 기계 학습 알고리즘을 의미합니다.

일부 통계 학자들은 기계 학습의 방법을 채택하여 통계 학습이라는 결합 된 영역으로 이끌었습니다.

이론
학습자의 핵심 목표는 경험을 바탕으로 일반화하는 것입니다. 이러한 맥락에서 일반화 란 학습 데이터 세트를 경험 한 후에 새로운 보이지 않는 예제 / 작업에 대해 학습 기계가 정확하게 수행 할 수있는 능력을 말합니다. 훈련 예는 일반적으로 알려지지 않은 확률 분포 (발생 공간의 대표로 간주)에서 비롯되며 학습자는 새로운 공간에서 충분히 정확한 예측을 생성 할 수 있도록이 공간에 대한 일반적인 모델을 구축해야합니다.

기계 학습 알고리즘의 계산 분석과 그 성능은 전산 학습 이론으로 알려진 이론 컴퓨터 과학의 한 분야입니다. 훈련 세트가 유한하고 미래가 불확실하기 때문에 학습 이론은 보통 알고리즘의 성능을 보증하지 않습니다. 대신, 성능에 대한 확률적인 경계가 아주 일반적입니다. 바이어스 – 분산 분해는 일반화 오차를 정량화하는 하나의 방법이다.

일반화의 맥락에서 최고의 성능을 위해서는 가설의 복잡성이 데이터의 근본적인 기능의 복잡성과 일치해야합니다. 가설이 함수보다 덜 복잡하면 모델에 데이터가 적합하지 않습니다. 응답으로 모델의 복잡성이 증가하면 학습 오류가 감소합니다. 그러나 가설이 너무 복잡하다면, 모델은 과핑 (overfitting)의 대상이되며 일반화는 더욱 어려워 질 것이다.

성능 경계 외에도 계산 학습 이론가는 학습의 시간 복잡성과 실행 가능성을 연구합니다. 계산 학습 이론에서, 계산은 다항식 시간에 수행 될 수 있다면 실행 가능하다고 간주됩니다. 시간 복잡성 결과에는 두 가지 종류가 있습니다. 긍정적 결과는 특정 클래스의 함수가 다항식 시간에서 학습 될 수 있음을 보여줍니다. 부정적 결과는 특정 클래스가 다항식 시간에서 학습 될 수 없음을 보여줍니다.

구혼

의사 결정 트리 학습
의사 결정 트리 학습은 의사 결정 트리를 예측 모델로 사용하여 항목에 대한 관찰을 항목의 목표 값에 대한 결론으로 ​​매핑합니다.

연관 규칙 학습
연관 규칙 학습은 대규모 데이터베이스에서 변수 간의 흥미로운 관계를 발견하는 방법입니다.

인공 신경 네트워크
일반적으로 “신경망”(NN)이라고 불리는 인공 신경망 (ANN) 학습 알고리즘은 생물학적 신경 네트워크에 의해 막연하게 영감을받는 학습 알고리즘입니다. 계산은 인공 뉴런의 상호 연결된 그룹의 관점에서 구조화되어 있으며 연결 주의적 접근법을 사용하여 정보를 처리합니다. 현대 신경망은 비선형 통계 데이터 모델링 도구입니다. 일반적으로 입력과 출력 간의 복잡한 관계를 모델링하거나, 데이터의 패턴을 찾거나, 관찰 된 변수 간의 미지의 공동 확률 분포로 통계 구조를 캡처하는 데 사용됩니다.

깊은 학습
하드웨어 가격의 하락과 지난 몇 년 동안의 개인용 GPU 개발은 인공 신경망에서 여러 숨겨진 레이어로 구성된 심층 학습이라는 개념을 개발하는 데 기여했습니다. 이 접근법은 인간의 두뇌가 빛과 소리를 시각과 청각으로 처리하는 방식을 모델링하려고합니다. 깊은 학습의 성공적인 응용 프로그램 중 일부는 컴퓨터 비전과 음성 인식입니다.

귀납적 논리 프로그래밍
귀납적 논리 프로그래밍 (ILP)은 논리 프로그래밍을 사용하여 입력 예제, 배경 지식 및 가설을 균일하게 표현하는 규칙 학습 방법입니다. 알려진 배경 지식의 인코딩과 사실의 논리적 데이터베이스로 표현 된 일련의 예제가 제공되면 ILP 시스템은 모든 긍정적 인 예와 부정적인 사례가없는 가설 논리 프로그램을 도출합니다. 귀납적 프로그래밍은 기능 프로그램과 같은 가설 (논리 프로그래밍뿐만 아니라)을 나타 내기위한 프로그래밍 언어를 고려하는 관련 분야입니다.

지원 벡터 머신
SVM (Support Vector Machine)은 분류 및 회귀에 사용되는 관련 감독 학습 방법 모음입니다. SVM 교육 알고리즘은 두 가지 범주 중 하나에 속하는 것으로 표시된 일련의 학습 사례가 주어지면 새 예제가 한 범주에 속하는지 아니면 다른 범주에 속하는지 예측하는 모델을 작성합니다.

클러스터링
클러스터 분석은 동일한 클러스터 내의 관측치가 미리 지정된 기준에 따라 유사하도록 여러 클러스터에서 가져온 관측치가 서로 다른 반면 관측 세트를 하위 집합 (클러스터라고 함)에 할당함으로써 수행됩니다. 서로 다른 클러스터링 기술은 데이터 구조에 대해 서로 다른 가정을하며, 흔히 일부 유사성 척도에 의해 정의되고 내부 compactness (동일한 클러스터 구성원 간의 유사성) 및 여러 클러스터 간의 분리로 평가됩니다. 다른 방법은 예상 밀도 및 그래프 연결을 기반으로합니다. 클러스터링은 자율 학습의 한 방법이며 통계 데이터 분석을위한 공통 기술입니다.

베이지안 네트워크
베이지안 네트워크, 신념 네트워크 또는 지시 된 비순환 그래픽 모델은 확률 변수 세트와 지시 비순환 그래프 (DAG)를 통한 조건부 독립성을 나타내는 확률 적 그래픽 모델입니다. 예를 들어, 베이지안 네트워크는 질병과 증상 사이의 확률 적 관계를 나타낼 수 있습니다. 증상을 감안할 때, 네트워크는 다양한 질병의 존재 확률을 계산하는 데 사용될 수 있습니다. 추론과 학습을 수행하는 효율적인 알고리즘이 존재합니다.

대표 학습
주로 학습되지 않은 학습 알고리즘 인 여러 학습 알고리즘은 교육 중에 제공되는 입력을보다 잘 표현할 수 있도록 도와줍니다. 전형적인 예에는 주성분 분석과 클러스터 분석이 포함됩니다. 표현 학습 알고리즘은 종종 정보를 입력에 보존하려고하지만 분류 또는 예측을 수행하기 전에 사전 처리 단계로 유용하게 만드는 방식으로 변환하여 알 수없는 데이터 생성 분포에서 오는 입력을 재구성 할 수있게하는 동시에 그 배포판에서 믿을 수없는 구성에 대해서는 반드시 충실하지 않아야합니다.

매니 폴드 학습 알고리즘은 학습 된 표현이 저 차원이라는 제약 하에서 그렇게하려고 시도한다. 스파 스 코딩 알고리즘은 학습 된 표현이 희박하다는 (많은 0을 가짐) 제약 하에서 그렇게하려고 시도한다. 다중 선형 부분 공간 학습 알고리즘은 다차원 데이터를 (고차원) 벡터로 재구성하지 않고도 텐서 표현에서 직접 저 차원 표현을 학습하는 것을 목표로합니다. 심층 학습 알고리즘은 하위 수준 기능의 관점에서 정의 된 상위 수준의보다 추상적 인 기능으로 여러 수준의 표현 또는 기능 계층을 검색합니다. 지능형 기계는 관측 된 데이터를 설명하는 변이의 근본적인 요소를 풀어주는 표현을 배우는 기계라고 주장 해 왔습니다.

유사성 및 미터법 학습
이 문제에서 학습 기계는 유사한 것으로 간주되는 쌍의 예제와 덜 유사한 개체 쌍을 제공합니다. 그런 다음 새 오브젝트가 유사한지를 예측할 수있는 유사 기능 (또는 거리 메트릭 기능)을 학습해야합니다. 때로는 권장 시스템에서 사용됩니다.

희소 사전 학습
이 방법에서, 데이텀은 기저 함수의 선형 조합으로 표현되며 계수는 희박한 것으로 가정합니다. x를 d 차원 데이터로하고, D는 d × n 행렬로한다. 여기서 D의 각 열은 기본 함수를 나타낸다. r은 D를 사용하여 x를 나타내는 계수입니다. 수학적으로, 희소 사전 학습은 여기서 r은 희소합니다. 일반적으로, n은 희박한 표현의 자유를 허용하기 위해 d보다 큰 것으로 가정한다.

희소 표현과 함께 사전을 배우는 것은 강력하게 NP 어렵고 대략 풀기가 어렵습니다. 스파 스 사전 학습을위한 경험적 방법은 K-SVD입니다.

스파 스 사전 학습은 여러 상황에서 적용되었습니다. 분류에서, 문제는 이전에 보이지 않는 데이텀이 속한 클래스를 결정하는 것입니다. 각 클래스에 대한 사전이 이미 작성되었다고 가정하십시오. 그런 다음 새로운 데이텀이 클래스와 연관되어 해당 사전에서 드문 드문 드문 방식으로 표현됩니다. 희소 사전 학습은 이미지 노이즈 제거에도 적용되었습니다. 핵심 아이디어는 깨끗한 이미지 패치가 이미지 사전에 의해 희박하게 표현 될 수 있지만 잡음은 표현할 수 없다는 것입니다.

유전 알고리즘
유전자 알고리즘 (GA)은 자연 선택 과정을 모방 한 검색 추론이며 주어진 문제에 대한 좋은 해결책을 찾기 위해 새로운 유전자형을 생성하기 위해 돌연변이 및 교차와 같은 방법을 사용합니다. 기계 학습에서 유전 알고리즘은 1980 년대와 1990 년대에 사용되었습니다. 반대로 기계 학습 기술은 유전 알고리즘과 진화 알고리즘의 성능을 향상시키는 데 사용되었습니다.

규칙 기반 기계 학습
규칙 기반 기계 학습은 지식을 저장, 조작 또는 적용하기위한 “규칙”을 식별, 학습 또는 발전시키는 모든 기계 학습 방법의 일반적인 용어입니다. 규칙 기반 기계 학습자의 특징을 정의하는 것은 시스템에서 수집 한 지식을 집합 적으로 나타내는 관계형 규칙 세트를 식별하고 활용하는 것입니다. 이것은 예측을하기 위해 모든 인스턴스에 보편적으로 적용될 수있는 단일 모델을 일반적으로 식별하는 다른 기계 학습자와는 대조적입니다. 규칙 기반 기계 학습 접근법에는 학습 분류 시스템, 연관 규칙 학습 및 인공 면역 시스템이 포함됩니다.

학습 분류 시스템
학습 분류 시스템 (LCS)은 탐색 구성 요소 (예 : 일반적으로 유전자 알고리즘)를 학습 구성 요소 (감독 학습, 강화 학습 또는 감독되지 않은 학습 수행)과 결합하는 규칙 기반 기계 학습 알고리즘 제품군입니다. 그들은 예측을하기 위해 일률적으로 지식을 집합 적으로 저장하고 적용하는 상황 별 규칙 집합을 식별하려고합니다.

응용 프로그램
기계 학습을위한 응용 프로그램은 다음과 같습니다.

농업
자동 정리 증명
적응 형 웹 사이트
감성적 인 컴퓨팅
생물 정보학
두뇌 기계 인터페이스
Cheminformatics
DNA 염기 서열 분류
전산 해부학
컴퓨터 네트워크
통신
물체 인식을 포함한 컴퓨터 비전
신용 카드 사기 탐지
일반적인 게임
정보 검색
인터넷 사기 탐지
전산 언어학
마케팅
기계 학습 제어
기계 인식
자동 의료 진단
전산 경제학
보험
자연 언어 처리
자연 언어 이해
최적화 및 메타 휴학
온라인 광고
추천 시스템
로봇 운동
검색 엔진
감정 분석 (또는 견해 마이닝)
시퀀스 마이닝
소프트웨어 공학
말하기 및 필체 인식
금융 시장 분석
구조 건강 모니터링
구문 패턴 인식
시계열 예측
사용자 행동 분석
기계 번역

2006 년 온라인 영화 회사 인 Netflix는 사용자 선호도를보다 잘 예측하고 기존 Cinematch 영화 추천 알고리즘의 정확성을 10 % 이상 향상시키는 프로그램을 찾기 위해 최초의 “Netflix Prize”경쟁을 개최했습니다. Big Chaos 및 Pragmatic Theory 팀과 공동으로 AT & amp; T Labs-Research의 연구원들로 구성된 공동 팀은 2009 년 1 백만 달러의 대상에서 앙상블 모델을 구축했습니다. 상을 수상한 직후 Netflix는 시청자의 시청 등급이 시청 패턴의 가장 좋은 지표가 아니며 ( “모든 것이 권장 사항입니다”) 시청자의 추천 엔진을 적절하게 변경했습니다.

2010 년 Wall Street Journal은 금융 위기를 예측하기 위해 회사 Rebellion Research와 기계 학습을 사용한 사례에 대해 썼습니다.

2012 년, Sun Microsystems Vinod Khosla의 공동 창립자는 향후 20 년 동안 의료 의사 진단 업무를 자동화하는 기계 진단 소프트웨어에 80 %의 의료 의사 일자리가 손실 될 것이라고 예측했습니다.

2014 년에, 기계 학습 알고리즘이 미술사에 적용되어 미술 회화를 연구했으며, 이전에는 예술가들 사이에 인식되지 않은 영향을 밝혀 냈다고보고되었습니다.

제한 사항
일부 분야에서는 기계 학습이 변형 적이기는하지만 효과적인 기계 학습은 패턴 찾기가 어려우며 충분한 교육 자료가 부족하기 때문에 어렵습니다. 결과적으로 많은 기계 학습 프로그램이 종종 예상 값을 제공하지 못합니다. 그 이유는 (적합한) 데이터 부족, 데이터 액세스 부족, 데이터 편향, 개인 정보 보호 문제, 잘못 선택된 작업 및 알고리즘, 잘못된 도구와 사람, 자원 부족 및 평가 문제입니다.

2018 년 Uber의자가 운전 차량이 사고로 사망 한 보행자를 감지하지 못했습니다. IBM Watson 시스템을 사용하여 의료 학습에서 기계 학습을 사용하려는 시도는 수년 및 수십억 번의 투자를 수행 한 후에도 실패했습니다.

바이어스
특히 기계 학습 접근법은 다양한 데이터 편향으로 어려움을 겪을 수 있습니다. 현재 고객에 대해서만 교육 된 기계 학습 시스템은 교육 데이터에 표시되지 않은 새 고객 그룹의 요구를 예측하지 못할 수도 있습니다. 사람이 만든 데이터에 대해 교육을 받으면 기계 학습은 이미 사회에 존재하는 것과 동일한 헌법 적 및 무의식적 편향을 선택하게 될 것입니다. 데이터로부터 학습 된 언어 모델은 인간과 같은 편향을 포함하는 것으로 나타났습니다. 형사 위험 평가에 사용되는 기계 학습 시스템은 흑인에 대해 편파적 인 것으로 밝혀졌습니다. 2015 년에 Google 사진은 종종 흑인을 고릴라로 표시하고 2018 년에는 여전히 잘 해결되지 않았지만 Google은 여전히 ​​훈련 데이터에서 모든 고릴라를 제거하기 위해 해결 방법을 사용하고 있었기 때문에 실제 고릴라를 인식 할 수 없었습니다 모든. 백인이 아닌 사람들을 인식하는 것과 유사한 문제가 다른 많은 시스템에서 발견되었습니다. 2016 년 Microsoft는 Twitter에서 배운 채팅 봇을 테스트 한 결과 인종 차별적이며 성 차별적 인 언어를 신속하게 포착했습니다. 이러한 과제 때문에 기계 학습의 효과적인 사용은 다른 영역에서 채택하는 데 오래 걸릴 수 있습니다.

모델 평가
분류 기계 학습 모델은 교육 및 테스트 세트 (일반적으로 2/3 교육 세트 및 1/3 테스트 세트 지정)의 데이터를 분리하고 교육 모델의 성능을 평가하는 Holdout 메소드와 같은 정확도 추정 기술로 검증 할 수 있습니다. 테스트 세트. 이와 대조적으로 N 배 교차 유효성 검사 방법은 k 번째 인스턴스가 모델을 학습하는 데 사용되는 반면 데이터의 k-1 인스턴스는 교육 모델의 예측 능력을 테스트하는 데 사용되는 k 개의 하위 집합에서 데이터를 임의로 분할합니다. 홀드 아웃 및 교차 검증 방법 외에도 데이터 세트에서 대체 된 인스턴스를 샘플링하는 부트 스트랩을 사용하여 모델 정확성을 평가할 수 있습니다.

전체적인 정확성 외에도 조사자는 민감도와 특이성을 각각 True Positive Rate (TPR)과 True Negative Rate (TNR)로 자주보고합니다. 유사하게, 조사자들은 False Positive Rate (FPR)과 False Negative Rate (FNR)을보고하기도합니다. 그러나 이러한 비율은 분자와 분모를 표시하지 못하는 비율입니다. Total Operating Characteristic (TOC)은 모델의 진단 능력을 표현하는 효과적인 방법입니다. TOC는 앞서 언급 한 비율의 분자와 분모를 표시하므로 TOC는 일반적으로 사용되는 ROC (Receiver Operating Characteristic) 및 ROC와 연관된 AUC (Under Area of ​​the Curve)보다 많은 정보를 제공합니다.

윤리학
기계 학습은 많은 윤리적 질문을 제기합니다. 편향으로 수집 된 데이터 세트에 대해 교육을받은 시스템은 사용시 이러한 편향을 나타낼 수 있으므로 (알고리즘 편향) 문화적 편견을 디지털화합니다. 예를 들어, 인종 차별적 인 고용 정책을 가진 회사의 고용 채용 데이터를 사용하면 이전의 성공적인 지원자와의 유사성에 대해 구직 신청자를 채점하여 편향을 복제하는 기계 학습 시스템으로 이어질 수 있습니다. 따라서 시스템에서 사용되는 알고리즘 규칙에 대한 데이터 및 문서의 책임있는 수집은 기계 학습의 중요한 부분입니다.

언어에는 편견이 있기 때문에 언어 코로나에 대해 훈련 된 기계는 필연적으로 편견을 배우게됩니다.

개인적인 편견과 관계없는 윤리적 인 도전의 다른 형태는 건강 관리에서 더 많이 보입니다. 건강 관리 전문가들 사이에는 이러한 시스템이 대중의 이익을 위해 설계되지 않았지만 수입 생성 기계로 설계 될 수 있다는 우려가 있습니다. 특히 건강 관리 개선에 대한 끊임없는 윤리적 딜레마가있는 미국에서 특히 그렇습니다. 예를 들어, 알고리즘은 알고리즘의 독점권 소유자가 지분을 보유하고있는 불필요한 테스트 나 약물을 환자에게 제공하도록 설계 될 수 있습니다. 의료 전문가는 진단, 치료 및 계획을위한 훌륭한 도구를 제공하기 위해 의료 학습에서 거대한 잠재력을 가지고 있습니다 환자에 대한 회복 경로이지만 이전에 언급 한 개인적인 편견과 이러한 “탐욕적인”편견이 다루어 질 때까지는 일어나지 않을 것이다.

소프트웨어
다양한 기계 학습 알고리즘이 포함 된 소프트웨어 제품군에는 다음이 포함됩니다.

무료 및 오픈 소스 소프트웨어
CNTK
Deeplearning4j
일키

코끼리 부리는 사람
망치
mlpack
MXNet
OpenNN
주황색
scikit-learn
쇼군
Spark MLlib
TensorFlow
토치 / PyTorch
Weka / MOA
예 레카

무료 및 오픈 소스 에디션이있는 독점 소프트웨어
KNIME
RapidMiner

독점 소프트웨어
Amazon Machine Learning
Angoss KnowledgeSTUDIO
아야 디스
IBM 데이터 과학 경험
Google Prediction API
IBM SPSS Modeler
KXEN 모델러
LIONsolver
Mathematica
MATLAB
파이썬
Microsoft Azure 기계 학습
신경 디자이너
NeuroSolutions
Oracle 데이터 마이닝
Oracle AI Platform 클라우드 서비스
RCASE
SAS Enterprise Miner
SequenceL
스플 렁크
STATISTICA 데이터 마이너