r svm 예제

위의 예에서는 공간을 더 높은 차원으로 영리하게 매핑하여 비선형 데이터를 분류하는 방법을 찾았습니다. 그러나 이 변환을 계산하면 계산 비용이 많이 들 수 있습니다. 데이터 집합의 모든 벡터에 대해 이 작업을 수행하는 것은 많은 작업이 될 수 있으므로 더 저렴한 솔루션을 찾을 수 있다면 좋을 것입니다. 첫째, 데이터가 있는 웹 페이지인 이 URL에서 직접 다운로드하여 교과서에서 해당 예제에 대한 데이터를 가져옵니다. 데이터가 혼합되고 시뮬레이션됩니다. 그런 다음 열 이름을 검사할 수 있습니다. 현재 교육 데이터는 x 및 y입니다. 이전 예제에 대해 이미 생성된 경우 x 및 y입니다. 따라서이 새 데이터를 첨부 할 수 있도록 제거해 보겠습니다. 실제 상황은 훨씬 더 복잡하며 소프트 마진 분류기를 사용하여 처리 할 수 없습니다. 예를 들어 그림 5와 같이 동일한 클래스에 속하는 점 군집을 광범위하게 분리할 수 있습니다. 여러(및 비선형) 경계를 사용해야 하는 이러한 상황은 커널 트릭이라는 영리한 접근 방식을 사용하여 처리될 수 있습니다. 지원 벡터 머신(SVM)은 분리 하이퍼플레인에 의해 공식적으로 정의된 차별적 분류자입니다.

즉, 레이블이 지정된 학습 데이터(감독 학습)가 주어지면 알고리즘은 새로운 예제를 분류하는 최적의 하이퍼플레인을 출력합니다. 이제 위의 예는 명확 하 게 이후 쉽게, 데이터는 선형 분리-우리는 빨간색과 파란색을 분리 하는 직선을 그릴 수 있습니다. 슬프게도, 일반적으로 일이 그렇게 간단하지 않습니다. 이 경우 살펴보기: 대부분의 기계 학습 알고리즘은 일종의 오류 측정값을 최소화하는 것을 포함합니다(이 측정값은 대물 함수 또는 손실 함수라고도 함). 예를 들어 선형 회귀 문제의 오차 측정값은 유명한 평균 제곱 오차(예: 예측값과 실제 값 간의 제곱 차이의 평균 합계)입니다. 평균 제곱 오차와 마찬가지로 대부분의 객관적인 함수는 학습 데이터 집합의 모든 지점에 따라 달라집니다. 이 게시물에서는 서로 다른 분류가 있는 데이터 포인트 간의 최적의 분리 경계를 찾는 데 중점을 두는 지원 벡터 컴퓨터(SVM) 접근 방식을 설명합니다. 다음 섹션에서 이것이 무엇을 의미하는지 에 대해 자세히 설명하겠습니다. SVM은 강력한 기술이며 배포를 알 수 없는 데이터(데이터의 비규칙성이라고도 함)에 특히 유용합니다. 여기서 고려된 예제는 두 개의 기능으로만 구성되므로 여기에 있는 R에 의해 장착된 SVM을 선형 SVM이라고도 합니다. SVM은 다양한 종류의 데이터를 처리하기 위한 커널로 구동되며 모델 튜닝 중에 커널도 설정할 수 있습니다.

이러한 예로는 가우시안 및 방사형이 있습니다. 따라서 SVM은 비선형 데이터에도 사용할 수 있으며 기능 양식에 대한 가정이 필요하지 않습니다. 가능한 최대 여백으로 데이터를 분리하기 때문에 모델은 매우 견고해지고 시끄러운 테스트 데이터 또는 편향된 열차 데이터와 같은 부조화를 처리할 수 있습니다. 또한 시각화를 통해 SVM에서 생성된 결과를 해석할 수도 있습니다. SVM의 일반적인 단점은 튜닝과 관련이 있습니다. 학습 데이터에 대한 예측의 정확도 수준은 데이터에 정의되어야 합니다. 이 예제는 사용자 지정 생성된 데이터이기 때문에 오류를 줄임으로써 모델 정확도를 최대한 높이려고 노력했습니다. 그러나 모델을 학습하고 테스트 데이터를 지속적으로 예측해야 하는 비즈니스 상황에서SVM은 과적합의 함정에 빠질 수 있습니다. SVM을 신중하게 모델링해야 하는 이유입니다. 예제에서 와 같이 SVM 기술은 회귀 기술과 밀접한 관련이 있습니다.

선형 데이터의 경우 SVM과 선형 회귀를 비교할 수 있으며 비선형 SVM은 로지스틱 회귀와 비교할 수 있습니다.

This entry was posted by in Uncategorized.