연구원들이 검증 세트에 대한 테스트 대신 10 겹 교차 검증을 사용하는 이유는 무엇입니까?
On 11월 30, 2020 by admin감정 분류 및 관련 주제에 대한 많은 연구 논문을 읽었습니다.
대부분은 분류자를 훈련하고 테스트하기 위해 10 겹 교차 검증을 사용합니다. 즉, 별도의 테스트 / 검증이 수행되지 않습니다. 왜 그런 겁니까?
이 접근 방식의 장점 / 단점은 특히 연구를 수행하는 사람들에게 무엇입니까?
댓글
- 확실하지 않습니까? 별도의 테스트를 했습니까?
- +1. 나는 똑같은 것을 알아 차렸다. 여러 번 10 겹 교차 검증이보고되는 최종 결과입니다.
답변
이것은 CV가 중첩 된 인 경우 문제가 발생합니다. 즉, CV를 사용하는지 여부에 관계없이 모든 최적화, 기능 선택 및 모델 선택이 하나의 큰 이력서에 싸여 있습니다.
추가 검증 세트가있는 것과 비교하면 어떻습니까? 유효성 검사 세트는 일반적으로 전체 데이터에서 다소 무작위로 선택된 부분이지만 CV를 한 번 반복하는 것과 같습니다. 이를 위해 실제로는 운 좋게 / 불운하게 선택되거나 체리 선택 검증 세트에 의해 쉽게 편향 될 수 있기 때문에 실제로 더 나쁜 방법입니다.
이에 대한 유일한 예외는 시계열 및 기타입니다. 객체 순서가 중요한 데이터; 하지만 어느 쪽이든 특별한 대우가 필요합니다.
답변
주된 이유는 k- 폴드 교차 검증 추정기가 사용 가능한 데이터의 양이 제한적일 경우 매우 중요 할 수있는 단일 홀드 아웃 세트 추정기보다 분산이 낮습니다. 데이터의 90 %가 학습에 사용되고 10 %가 테스트에 사용되는 단일 홀드 아웃 세트가있는 경우 테스트 세트가 매우 작기 때문에 데이터의 다른 샘플에 대한 성능 추정치에 많은 변동이있을 것입니다. 또는 데이터의 다른 파티션에 대해 학습 및 테스트 세트를 형성합니다. k- 폴드 유효성 검사는 k 개의 서로 다른 파티션에 대해 평균을 냄으로써이 분산을 줄이므로 성능 추정은 데이터 파티셔닝에 덜 민감합니다. 반복 된 k- 겹 교차 검증을 통해 더 나아갈 수 있습니다. 여기서 교차 검증은 데이터의 서로 다른 분할을 사용하여 k 개의 하위 집합을 형성 한 다음 그에 대한 평균을 취합니다.
그러나 모델 피팅 절차의 모든 단계 (모델 선택, 기능 선택 등)는 교차 검증 절차의 각 단계에서 독립적으로 수행되어야합니다. 그렇지 않으면 결과 성능 추정치가 낙관적으로 편향됩니다.
답변
[댓글을 고려하여 편집 됨]
CV 결과를 사용하여 선택하면 문제가있는 것 같습니다. 여러 모델.
CV를 사용하면 전체 데이터 세트를 사용하여 하나의 모델 / 방법을 훈련하고 테스트 할 수 있으며, 일반화 할 정도에 대한 합리적인 아이디어를 얻을 수 있습니다. 그러나 “여러 모델을 비교하는 경우, 모델 비교는 CV가 제공하는 추가 수준의 기차 테스트 격리를 사용하므로 최종 결과가 선택한 모델의 정확도에 대한 합리적인 추정치가되지 않을 것입니다.” / p>
따라서 여러 모델을 만들고 CV를 기반으로 하나를 선택하면 찾은 내용에 대해 지나치게 낙관적 인 것 같습니다. 모델이 얼마나 잘 작동하는지 확인하려면 다른 검증 세트가 필요합니다. 승자가 일반화합니다.
댓글
- 감사합니다. 맞습니다.하지만 제 질문은 특히 연구 논문에 최종 검증이없는 이유에 대한 것이 었습니다. 적절한 이유는 무엇입니까? 아니면 CV가 제대로 작동하고 별도의 유효성 검사가 필요하지 않기 때문입니까? '
- 데이터 분할 방식은 매우 비효율적입니다. 훈련 세트와 테스트 세트가 모두 엄청날 때까지 예측 모델의 향후 성능 추정치에 대한 평균 제곱 오차는 부트 스트랩 또는 재치로 더 작습니다. h 리샘플링 절차가 $ Y $와 관련된 모든 모델링 단계에 액세스 할 수 있다고 가정하고 10 겹 교차 검증을 100 회 반복합니다. 측정 프로세스, 측량 도구 또는 데이터 의미와 관련된 기타 절차를 검증해야하는 경우 데이터 분할을 사용합니다. 데이터 분할은 국가별로 계측이 다를 때 유용합니다.
답변
-
제 경험상 주된 이유는 일반적으로 샘플이 충분하지 않기 때문입니다.
제 분야 (생물 / 의료 샘플 분류)에서는 테스트 세트가 별도로 보관되지만 종종 몇 가지 케이스로만 구성됩니다. 케이스 신뢰 구간은 일반적으로 너무 넓어서 사용할 수 없습니다. -
반복 / 반복 교차 검증 또는 부트 스트랩 외부 검증의 또 다른 이점은 “대리”모델은 동일하다고 가정하고 그렇지 않은 경우 모드가 불안정합니다.대리 모델 자체 또는 동일한 케이스에 대해 서로 다른 대리 모델의 예측을 비교하여 이러한 불안정성을 실제로 측정 할 수 있습니다 (몇 가지 학습 케이스 교환과 관련하여).
-
Esbensen의이 백서 & Geladi 는 교차 유효성 검사의 몇 가지 제한 사항에 대해 설명합니다.
주의 할 수 있습니다. 그 중 대부분이지만 리샘플링 유효성 검사로 해결할 수없는 한 가지 중요한 점은 mbq의 점과 관련된 드리프트입니다.유일한 예외 여기에는 객체 순서가 중요한 시계열 및 기타 데이터가 있습니다.
드리프트는 예를 들어 기기의 응답 / 진정한 보정이 시간이 지남에 따라 천천히 변한다는 것을 의미합니다. 따라서 알 수없는 케이스의 일반화 오류는 알 수없는 미래 케이스의 경우와 동일하지 않을 수 있습니다. 유효성 검사 중에 드리프트를 발견하면 “매일 / 매주 / … 교정 다시 실행”과 같은 지침에 도달하지만 학습 데이터보다 나중에 체계적으로 획득 한 테스트 세트가 필요합니다.
( “특별”분할을 수행 할 수 있습니다. 실험이 계획된 경우 계정 획득 시간이지만 일반적으로 드리프트 감지를 테스트하려는 시간만큼 많은 시간이 소요되지 않습니다.
답변
별도의 검증 세트를 사용하는 대신 교차 검증을 수행해야하는 이유는 무엇입니까?
Aurélien Géron이 그의 책 에서 이에 대해 이야기합니다.
검증 세트에서 너무 많은 학습 데이터를 “낭비”하는 것을 방지하기 위해 일반적인 기술은 교차 검증을 사용하는 것입니다.
다른 k 값 대신 교차 유효성 검사에 k = 10을 사용하는 것이 좋은 이유는 무엇입니까?
처음에는 그의 훌륭한 자습서 에 대해 Jason Brownlee, PhD 에게 감사드립니다. k- 폴드 크로스 밸리데이션에서. 그의 인용 책 중 하나를 인용했습니다.
Kuhn & Johnson 은 k 값 선택 em에 대해 이야기했습니다. > 책에서 .
k는 일반적으로 5 또는 10입니다. 그러나 공식적인 규칙은 없습니다. k가 커질수록 학습 세트와 리샘플링 하위 집합 간의 크기 차이가 작아집니다. 이 차이가 감소함에 따라 기술의 편향은 더 작아집니다 (즉, 편향은 k = 5보다 k = 10에서 더 작습니다 ). 이 맥락에서 편향은 성능의 예상 값과 실제 값의 차이입니다.
그러면 leave-one을 사용하지 않는 이유를 말할 수 있습니다. -out cross-validation (LOOCV) k 값이 최대이므로 바이어스가 가장 적습니다. 이 책에서 그들은 또한 우리가 LOOCV를 선호하는 대신 10 배 CV를 선호 할 수있는 이유에 대해 이야기했습니다.
실제적인 관점에서 볼 때 k 값이 클수록 더 많습니다. 계산적으로 부담 스럽습니다. 극단적으로 LOOCV는 데이터 포인트만큼 많은 모델 적합이 필요하고 각 모델 적합은 훈련 세트와 거의 동일한 크기의 하위 집합을 사용하기 때문에 계산 상 가장 부담이됩니다. Molinaro (2005) 는 leave-one-out 및 k = 10-fold cross-validation이 유사한 결과를 산출했으며 k = 10이 더 많다는 것을 나타냅니다. 계산 효율성 측면에서 매력적입니다. 또한 k의 작은 값 (예 : 2 또는 3)은 편향이 높지만 계산 효율성이 매우 높습니다.
감정 분류 및 관련 주제에 대한 연구 논문을 많이 읽었습니다. 대부분은 10 겹 교차 검증을 사용하여 분류기를 훈련하고 테스트합니다. 즉, 별도의 테스트 / 검증이 수행되지 않습니다. 그 이유는 무엇입니까?
여러 모델 중 하나를 선택하기 위해 교차 검증 (CV)을 사용하지 않는 경우 (또는 하이퍼 매개 변수 조정을위한 CV) , 별도의 테스트를 수행 할 필요가 없습니다. 그 이유는 별도의 테스트를 수행하는 목적이 여기 CV에서 수행되기 때문입니다 (각 반복에서 k 폴드 중 하나에 의해). 다른 SE 스레드는 이것에 대해 많이 이야기했습니다. 확인하실 수 있습니다.
마지막에 제가 작성한 내용이 명확하지 않은 경우 언제든지 저에게 물어보십시오.
답글 남기기