De ce cercetătorii folosesc validarea încrucișată de 10 ori în loc să testeze pe un set de validare?
On noiembrie 30, 2020 by adminAm citit o mulțime de lucrări de cercetare despre clasificarea sentimentelor și subiecte conexe.
Majoritatea utilizează validarea încrucișată de 10 ori pentru a antrena și testa clasificatorii. Asta înseamnă că nu se face testare / validare separată. De ce este asta?
Care sunt avantajele / dezavantajele acestei abordări, în special pentru cei care fac cercetări?
Comentarii
- Sigur nu s-au făcut teste separate?
- +1. Am observat același lucru. De multe ori, validarea încrucișată de 10 ori este rezultatul final raportat.
Răspuns
Acesta nu este un problemă dacă CV-ul este imbricat , adică toate optimizările, selecțiile de caracteristici și selecțiile de model, indiferent dacă folosesc CV-ul sau nu, sunt înfășurat într-un CV mare.
Cum se compară acest lucru cu un set de validare suplimentar? Deși setul de validare este de obicei doar o parte selectată mai mult sau mai puțin aleatoriu a întregii date, este pur și simplu un echivalent al unei iterații a CV-ului. În acest scop, este de fapt o metodă mai proastă, deoarece poate fi ușor influențată de un set de validare (din fericire) selectat din fericire / din nefericire sau de cireșe.
Singura excepție de la aceasta sunt seriile cronologice și altele date în care contează ordinea obiectului; dar necesită un tratament special în ambele sensuri.
Răspuns
Motivul principal este că estimatorul de validare încrucișată k-fold are un varianță mai mică decât un singur estimator stabilit, care poate fi foarte important dacă cantitatea de date disponibilă este limitată. Dacă aveți un singur set de rezistență, unde 90% din date sunt utilizate pentru antrenament și 10% utilizate pentru testare, setul de testare este foarte mic, deci va exista o mulțime de variații în estimarea performanței pentru diferite eșantioane de date, sau pentru diferite partiții ale datelor pentru a forma seturi de formare și testare. Validarea k-fold reduce această varianță prin calcularea unei medii peste k diferite partiții, astfel încât estimarea performanței este mai puțin sensibilă la partiționarea datelor. Puteți merge chiar mai departe prin validarea încrucișată repetată de K, în care validarea încrucișată se realizează folosind diferite partiționări ale datelor pentru a forma k subseturi, apoi luând media peste aceasta.
Rețineți totuși că toți pașii procedurii de adaptare a modelului (selectarea modelului, selectarea caracteristicilor etc.) trebuie să fie realizați independent în fiecare pliație a procedurii de validare încrucișată, sau estimarea de performanță rezultată va fi influențată optimist.
Răspuns
[EDITAT în lumina comentariului]
Cred că există o problemă dacă folosiți rezultatele CV-ului pentru a selecta dintre modele multiple.
CV vă permite să utilizați întregul set de date pentru a antrena și testa un model / metodă, în timp ce puteți avea o idee rezonabilă despre cât de bine se va generaliza. Dar dacă comparați mai multe modele, instinctul meu este că comparația modelului folosește nivelul suplimentar de izolare a testelor de tren pe care vi-l oferă CV-ul, astfel încât rezultatul final nu va fi o estimare rezonabilă a preciziei modelului ales.
Deci, aș presupune că, dacă creați mai multe modele și alegeți unul pe baza CV-ului său, veți fi prea optimist cu privire la ceea ce ați găsit. Un alt set de validare ar fi necesar pentru a vedea cât de bine câștigătorul se generalizează.
Comentarii
- Mulțumesc. Așa este. Dar întrebarea mea a fost în special despre motivul pentru care lucrările de cercetare nu au o validare finală? Există o motiv adecvat? Este vorba de mai puține date sau pentru că CV-ul funcționează bine și nu este necesară o validare separată ‘?
- Abordarea divizării datelor este extrem de mare ineficiente. Până când seturile de antrenament și test sunt enorme, eroarea pătrată medie pentru o estimare a performanței viitoare probabile pentru un model predictiv este mai mică cu bootstrapping sau inteligență h 100 de repetări de 10 ori de validare încrucișată, presupunând că procedurile de eșantionare au avut acces la toate etapele de modelare care implicau $ Y $. Utilizați împărțirea datelor atunci când trebuie, de asemenea, să validați procesul de măsurare, instrumentul de inspecție sau alte proceduri legate de semnificația datelor. O bună utilizare a împărțirii datelor este atunci când instrumentele variază în funcție de țară.
Răspuns
-
Din experiența mea, principalul motiv este de obicei faptul că nu aveți suficiente probe.
În domeniul meu (clasificarea probelor biologice / medicale), uneori un set de teste este ținut separat, dar de multe ori cuprinde doar câteva cazuri. intervalele de încredere ale acestui caz sunt de obicei prea largi pentru a nu fi de nici un folos. -
Un alt avantaj al validării încrucișate repetate / iterate sau al validării în afara bootstrap-ului este că construiți o grămadă de modele „surogat”. Se presupune că acestea sunt egale. Dacă nu sunt, modurile sunt instabile.Puteți măsura de fapt această instabilitate (în ceea ce privește schimbul de câteva cazuri de antrenament) comparând fie modelele surogat în sine, fie predicțiile pe care le fac diferite modele surogate pentru același caz.
-
Acest referat de Esbensen & Geladi oferă o discuție plăcută despre unele limitări ale validării încrucișate.
Puteți avea grijă dintre cele mai multe dintre ele, dar un punct important care nu poate fi abordat prin validarea resamplării este deriva, care este legată de punctul mbq:Singura excepție la aceasta sunt serii temporale și alte date în care ordinea obiectului contează
Deriva înseamnă că, de exemplu, răspunsul unui instrument / calibrarea adevărată se schimbă încet în timp. Așadar, eroarea de generalizare pentru cazurile necunoscute ar putea să nu fie aceeași cu pentru cazurile viitoare necunoscute. Ajungi la instrucțiuni precum „reface calibrarea zilnic / săptămânal / …” dacă găsești deriva în timpul validării, dar acest lucru necesită seturi de testare dobândite sistematic mai târziu decât datele de antrenament.
(Ai putea face divizări „speciale” care să ia în considerare timpul de achiziție a contului, dacă experimentul dvs. este planificat în mod corespunzător, dar de obicei acest lucru nu va acoperi atât de mult timp pe cât ați dori să îl testați pentru detectarea derivării)
Răspuns
De ce ar trebui să facem validarea încrucișată în loc să folosim un set de validare separat?
Aurélien Géron vorbește despre acest lucru în cartea sa
Pentru a evita „risipirea” prea multor date de antrenament în seturile de validare, o tehnică obișnuită este utilizarea validării încrucișate.
În loc de alte k valori, de ce am prefera să folosim k = 10 în validare încrucișată?
Pentru a răspunde este, la început, aș dori să îi mulțumesc Jason Brownlee, dr. pentru minunatul său tutorial la K-fold Validare încrucișată. Citez una dintre cărțile sale citate.
Kuhn & Johnson a vorbit despre alegerea valorii k în cartea lor .
Alegerea lui k este de obicei 5 sau 10, dar nu există o regulă formală. Pe măsură ce k devine mai mare, diferența de dimensiune între setul de antrenament și subseturile de eșantionare devine mai mică. Pe măsură ce această diferență scade, tendința tehnicii devine mai mică (adică tendința este mai mică pentru k = 10 decât k = 5 ). În acest context, părtinirea este diferența dintre valorile de performanță estimate și adevărate
Apoi, se poate spune că de ce nu folosim leave-one -de validare încrucișată (LOOCV), deoarece valoarea k este maximă acolo și, astfel, polarizarea va fi cea mai mică acolo. În acea carte, au vorbit și de ce putem prefera CV de 10 ori în loc să preferăm LOOCV.
Din punct de vedere practic, valorile mai mari ale lui k sunt mai multe împovărătoare din punct de vedere al calculului. În extrem, LOOCV impozitează cel mai mult din punct de vedere al calculului, deoarece necesită atât de multe potriviri de model cât puncte de date și fiecare potrivire de model folosește un subset care are aproape aceeași dimensiune a setului de antrenament. Molinaro (2005) a constatat că excluderea și k = 10 ori validarea încrucișată au dat rezultate similare, indicând că k = 10 este mai mult atractiv din perspectiva eficienței de calcul. De asemenea, valorile mici ale lui k, să zicem 2 sau 3, au o prejudecată mare, dar sunt foarte eficiente din punct de vedere al calculului.
Am citit o mulțime de lucrări de cercetare despre clasificarea sentimentelor și subiecte conexe. Majoritatea utilizează validarea încrucișată de 10 ori pentru a antrena și testa clasificatorii. Asta înseamnă că nu se face testare / validare separată. De ce este asta?
Dacă nu folosim validarea încrucișată (CV) pentru a selecta unul dintre modelele multiple (sau nu folosim CV pentru a regla hiper-parametrii) , nu este nevoie să facem test separat. Motivul este că scopul de a face test separat este realizat aici în CV (printr-unul din k pliurile din fiecare iterație). Diferite fire de SE au vorbit mult despre acest lucru. Puteți verifica.
La sfârșit, nu ezitați să mă întrebați, dacă ceva ce am scris nu vă este clar.
Lasă un răspuns