Miért használják a kutatók a tízszeres keresztellenőrzést ahelyett, hogy validálási halmazon tesztelnének?
On november 30, 2020 by adminNagyon sok kutatási cikket olvastam az érzelmek osztályozásáról és a kapcsolódó témákról.
Legtöbbjük tízszeres keresztellenőrzést alkalmaz az osztályozók képzésére és tesztelésére. Ez azt jelenti, hogy külön tesztelés / validálás nem történik. Miert van az?
Milyen előnyei / hátrányai vannak ennek a megközelítésnek, különösen azok számára, akik kutatást végeznek?
Megjegyzések
- Biztos, hogy nem külön tesztet végeztek?
- +1. Ugyanezt vettem észre. Sokszor a tízszeres keresztellenőrzés jelenti a végeredményt.
Válasz
Ez nem egy probléma, ha az önéletrajz beágyazott , vagyis minden optimalizálás, szolgáltatásválasztás és modellválasztás, függetlenül attól, hogy maguk is önéletrajzot használnak-e egy nagy önéletrajzba csomagolva.
Hogyan viszonyul ez egy extra érvényesítési állományhoz? Míg az ellenőrzési halmaz általában csak a teljes adatok többé-kevésbé véletlenszerűen kiválasztott része, egyszerűen a CV egy iterációjának felel meg. Ebből a célból valójában rosszabb módszer, mert könnyen (részükről remélhetőleg) szerencsésen / szerencsétlenül kiválasztott vagy cseresznye által kiválasztott érvényesítési készlet segítségével könnyen elfogulható.
Ez egyetlen kivétel az idősorok és egyéb adatok, ahol az objektum sorrendje számít; de mindkét esetben különleges bánásmódot igényelnek.
Válasz
A fő ok az, hogy a k-szeres keresztellenőrzés becslője alacsonyabb szórás, mint egyetlen kitartó készletbecslő, ami nagyon fontos lehet, ha a rendelkezésre álló adatok mennyisége korlátozott. Ha egyetlen kitartó készleted van, ahol az adatok 90% -át edzésre, 10% -át pedig tesztelésre használják, akkor a tesztkészlet nagyon kicsi, ezért a különböző adatminták teljesítménybecslésében nagyon sok eltérés lesz, vagy az adatok különböző partíciói számára képzési és tesztkészletek kialakításához. A k-szeres validálás csökkenti ezt a szórást k különböző partíciók átlagolásával, így a teljesítménybecslés kevésbé érzékeny az adatok particionálására. Még ennél is tovább léphet ismételt k-szeres keresztellenőrzéssel, ahol a keresztellenőrzést az adatok különböző particionálásával hajtjuk végre k részhalmazok létrehozására, majd az átlagot is átvesszük ezen felül.
Megjegyzés: a modellillesztési eljárás minden lépését (modellválasztás, jellemzőválasztás stb.) Egymástól függetlenül kell elvégezni a keresztellenőrzési eljárás egyes hajtásaiban, különben az eredményül kapott teljesítménybecslés optimistán elfogult lesz.
Válasz
[SZERKESZTETT a megjegyzés tükrében]
Úgy gondolom, hogy probléma van, ha önéletrajzi eredmények alapján választja ki több modell.
Az önéletrajz lehetővé teszi, hogy a teljes adatkészletet egy modell / módszer betanításához és teszteléséhez használja, miközben ésszerű képet kaphat arról, hogy milyen jól fog általánosítani. De ha több modellt hasonlít össze, az az ösztönöm, hogy a modell-összehasonlítás felhasználja a CV által biztosított vonat-teszt izolálás extra szintjét, így a végeredmény nem lesz ésszerű becslés a választott modell pontosságára.
Tehát azt hinném, hogy ha több modellt készít, és az önéletrajza alapján választ egyet, akkor túl optimista lesz a megtaláltakkal kapcsolatban. Egy másik ellenőrző készletre lenne szükség annak megtekintéséhez, hogy a győztes általánosít.
Hozzászólások
- Köszönöm. Ez igaz. De a kérdésem különösen arra vonatkozott, hogy miért nincsenek végleges hitelesítések az újrafelújításokról? Van-e megfelelő ok? Kevesebb adat áll rendelkezésre, vagy azért, mert az önéletrajz jól működik, és nincs szükség külön érvényesítésre ‘?
- Az adatfelosztás megközelítése nagyon erős Amíg mind az edzés, mind a tesztkészletek hatalmasak, addig a prediktív modell várható jövőbeli teljesítményének becsléséhez az átlagos négyzethiba kisebb, bootstrapeléssel vagy szellemességgel h 100 ismétlés 10-szeres keresztellenőrzéssel, feltételezve, hogy az újramintavételi eljárások hozzáférnek az összes modellezési lépéshez, amely $ Y $ -ot tartalmazott. Használjon adatfelosztást, ha a mérési folyamatot, a felmérési eszközt vagy az adatok jelentésével kapcsolatos egyéb eljárásokat is érvényesítenie kell. Az adatfelosztás akkor használható, ha az eszközök országonként változnak.
Válasz
-
Tapasztalataim szerint a fő ok általában az, hogy nincs elegendő minta.
Az én szakterületemen (biológiai / orvosi minták osztályozása) néha egy tesztkészletet külön tartanak, de gyakran csak néhány esetet tartalmaz. abban az esetben a konfidencia intervallumok általában túl tágak ahhoz, hogy bármilyen hasznát vehesse. -
Az ismételt / iterált keresztellenőrzés vagy a bootstrapon kívüli érvényesítés másik előnye, hogy egy csomó “helyettesítő” modellek. Ezeket feltételezzük, hogy egyenlőek. Ha nem, akkor a módok instabilak.Ezt az instabilitást (néhány képzési eset cseréje szempontjából) valóban mérheti úgy, hogy összehasonlítja magukat a helyettesítő modelleket, vagy az előrejelzéseket, amelyeket a különböző helyettesítő modellek ugyanarra az esetre adnak.
-
Ez az Esbensen & Geladi tanulmány szép vitát ad a keresztellenőrzés néhány korlátozásáról.
Vigyázhat a legtöbb közülük, de az egyik fontos pont, amelyet nem lehet újbóli mintavételi validálással megoldani, az a sodródás, amely összefügg az mbq pontjával:Az egyetlen kivétel ezekhez idősorok és egyéb adatok tartoznak, ahol az objektum sorrendje számít
A sodródás azt jelenti, hogy pl. a műszer válasza / valódi kalibrálása lassan változik az idő múlásával. Tehát az ismeretlen esetek általánosítási hibája nem ugyanaz, mint az ismeretlen jövőbeni eseteknél. Olyan utasításokhoz érkezik, mint a “napi kalibrálás újrakezdése / heti / …”, ha az érvényesítés során sodródást észlel, de ehhez a tesztadatoknál később szisztematikusan megszerzett tesztkészletekre van szükség. a fiók megszerzésének ideje, ha kísérletét megfelelő módon tervezzük, de általában ez nem fed le annyi időt, amennyit tesztelni szeretne a sodródás észlelésére)
Válasz
Miért kell keresztellenőrzést végezni külön érvényesítési készlet használata helyett?
Aurélien Géron erről beszél könyvében
Annak elkerülése érdekében, hogy a validációs készletek túl sok edzési adatot “pazaroljanak”, egy általános technika keresztellenőrzést alkalmaz.
Miért használhatnánk más k értékek helyett inkább a k = 10 értéket a keresztellenőrzésben?
A th megválaszolásához először is szeretnék köszönetet mondani PhD Jason Brown-nak remek oktatóanyagáért a k-szeres keresztellenőrzésről. Az egyik idézett könyvére hivatkozom.
Kuhn & Johnson beszélt a k értékének megválasztásáról könyvükben .
k választása általában 5 vagy 10, de nincs hivatalos szabály. Ahogy a k nagyobb lesz, az edzéskészlet és az újramintavételező részhalmazok közötti méretbeli különbség kisebb lesz. Amint ez a különbség csökken, a technika elfogultsága kisebb lesz (vagyis az elfogultság kisebb k = 10 esetén, mint k = 5 ). Ebben az összefüggésben az elfogultság a teljesítmény becsült és valós értéke közötti különbség.
Ezután azt mondhatjuk, hogy miért nem használjuk a -out cross-validation (LOOCV), mivel a k értéke ott maximális, és így az elfogultság a legkevesebb lesz. Ebben a könyvben arról is beszéltek, hogy miért választhatunk tízszeres CV-t a LOOCV helyett.
Gyakorlati szempontból a k nagyobb értékei számítási szempontból megterhelő. A szélsőségesen a LOOCV számítási szempontból a legtöbb adóztató, mert annyi modellillesztésre van szükség, mint adatpont, és mindegyik modellilletés egy olyan részhalmazot használ, amely közel azonos méretű a képzési halmaznál. Molinaro (2005) megállapította, hogy az elhagyás és a k = 10-szeres keresztellenőrzés hasonló eredményeket hozott, jelezve, hogy k = 10 több vonzó a számítási hatékonyság szempontjából. Ezenkívül a k kis értékeinek, mondjuk 2 vagy 3, nagy az elfogultsága, de nagyon számítási szempontból hatékony.
Nagyon sok kutatási cikket olvastam az érzelmek osztályozásáról és a kapcsolódó témákról. Legtöbbjük tízszeres keresztellenőrzést alkalmaz az osztályozók képzésére és tesztelésére. Ez azt jelenti, hogy külön tesztelés / validálás nem történik. Miért van az?
Ha nem használunk keresztellenőrzést (CV) a többféle modell egyikének kiválasztásához (vagy nem használunk CV a hiperparaméterek hangolásához) , nem kell külön tesztet végeznünk. Ennek oka az, hogy a külön teszt elvégzésének célja itt CV-ben valósul meg (az egyes iterációk k hajtásának egyikével). Különböző SE szálak sokat beszéltek erről. Ellenőrizheti.
A végén nyugodtan kérdezzen tőlem, ha valami nem világos számodra.
Vélemény, hozzászólás?