Miksi tutkijat käyttävät 10-kertaista ristivalidointia sen sijaan, että testaisivat validointijoukkoja?
On marraskuu 30, 2020 by adminOlen lukenut paljon tutkimuksia mielipiteiden luokittelusta ja siihen liittyvistä aiheista.
Suurin osa heistä käyttää 10-kertaista ristivalidointia luokittelijoiden kouluttamiseen ja testaamiseen. Tämä tarkoittaa, että erillistä testausta / validointia ei tehdä. Miksi niin?
Mitkä ovat tämän lähestymistavan edut / haitat, etenkin niille, jotka tekevät tutkimusta?
Kommentit
- Oletko varma, että et tehtiin erillinen testaus?
- +1. Olen huomannut saman. Monesti 10-kertainen ristivalidointi on lopullinen raportoitu tulos.
Vastaa
Tämä ei ole ongelma, jos CV on sisäkkäin , ts. kaikki optimoinnit, ominaisuuksien valinnat ja mallivalinnat ovat riippumatta siitä, käyttävätkö he itse CV: tä vai eivät. kääritty yhteen isoon ansioluetteloon.
Kuinka tämä vertaa ylimääräisen vahvistuksen asettamiseen? Vaikka vahvistusjoukko on yleensä vain enemmän tai vähemmän satunnaisesti valittu osa koko dataa, se on yksinkertaisesti yhtä CV: n iteraatiota vastaava. Tätä tarkoitusta varten se on itse asiassa huonompi menetelmä, koska (toivottavasti) onneksi / epäonnesta valitulla tai kirsikkavalinnaisella vahvistussarjalla voidaan helposti puolittaa se.
Ainoa poikkeus tähän ovat aikasarjat ja muut tiedot, jos objektitilauksella on merkitystä; mutta ne vaativat erityiskohtelua kumpaankin suuntaan.
Vastaus
Tärkein syy on se, että k-kertaisen ristivalidoinnin estimaattorilla on pienempi varianssi kuin yksittäinen pidätysjoukkoestimaattori, mikä voi olla erittäin tärkeää, jos käytettävissä olevan tiedon määrää on rajoitettu. Jos sinulla on yksi pidätysjoukko, jossa 90% tiedoista käytetään koulutukseen ja 10% testeihin, testisarja on hyvin pieni, joten suorituskykyestimaatissa on paljon vaihteluita eri näytteille, tai tietojen eri osioille koulutus- ja testisarjojen muodostamiseksi. k-kertainen vahvistus vähentää tätä varianssia keskiarvolla k eri osiota, joten suorituskykyestimaatti on vähemmän herkkä tietojen osioinnille. Voit mennä vielä pidemmälle toistamalla k-kertaisen ristivalidoinnin, jossa ristivalidointi suoritetaan käyttämällä datan eri osioita k-alijoukkojen muodostamiseksi ja ottamalla sitten myös keskiarvo sen yli.
Huomaa kuitenkin, että kaikki mallin sovitusprosessin vaiheet (mallin valinta, ominaisuuksien valinta jne.) On suoritettava erikseen ristikuvausprosessin jokaisessa kerroksessa, tai tulosarvio on optimistisesti puolueellinen.
vastaus
[MUOKATTU kommentin valossa]
Mielestäni on ongelma, jos valitset CV-tulosten avulla useita malleja.
CV: n avulla voit käyttää koko tietojoukkoa yhden mallin / menetelmän kouluttamiseen ja testaamiseen samalla, kun sinulla on kohtuullinen käsitys siitä, kuinka hyvin se yleistyy. Mutta jos verrataan useita malleja, vaistoni on, että mallivertailu käyttää CV: n sinulle antaman ylimääräisen junatestieristyksen tason, joten lopputulos ei ole kohtuullinen arvio valitun mallin tarkkuudesta. / p>
Joten luulisin, että jos luot useita malleja ja valitset yhden niiden ansioluettelon perusteella, olet liian optimistinen löytämiesi asioiden suhteen. Toinen vahvistusjoukko tarvitaan, jotta näet, kuinka hyvin voittaja yleistää.
Kommentit
- Kiitos. Juuri oikein. Mutta kysymykseni koski erityisesti sitä, miksi tutkimustyössä ei ole lopullista vahvistusta? Onko oikea syy? Onko tietoja vähentynyt vai johtuuko ansioluettelosta hyvä toiminta ja erillistä vahvistusta ei tarvita ’?
- Tietojen jakamisen lähestymistapa on erittäin Kunnes sekä harjoittelu- että testisarjat ovat valtavat, keskimääräinen neliövirhe ennustemallin todennäköisen tulevan suorituskyvyn estimaatille on pienempi, kun käynnistyshihna tai nokkeluus h 100 kertaa 10-kertaisen ristivalidoinnin toistoja olettaen, että uudelleen näytteenottomenettelyillä oli pääsy kaikkiin mallintamisvaiheisiin, joihin liittyi $ Y $. Käytä tietojen jakamista, kun sinun on myös validoitava mittausprosessi, mittauslaite tai muut tietojen merkitykseen liittyvät menettelyt. Tiedonjaon hyvä käyttötapa on, kun instrumentointi vaihtelee maittain.
Vastaa
-
Kokemukseni mukaan pääasiallinen syy on yleensä se, että sinulla ei ole tarpeeksi näytteitä.
Alallani (biologisten / lääketieteellisten näytteiden luokitus) joskus testisarja pidetään erillään, mutta usein se käsittää vain harvat tapaukset. että tapauksen luottamusvälit ovat yleensä liian leveitä, jotta niistä ei ole mitään hyötyä. -
Toinen etu toistuvasta / toistetusta ristivalidoinnista tai käynnistyksen ulkopuolisesta vahvistuksesta on, että rakennat joukon ”korvaavat” mallit. Näiden oletetaan olevan samat. Jos ne eivät ole, tilat ovat epävakaat.Voit itse mitata tämän epävakauden (suhteessa muutaman harjoittelutapauksen vaihtamiseen) vertaamalla joko itse korvaavia malleja tai ennusteita, joita eri korvaavat mallit tekevät samalle tapaukselle.
-
Tämä Esbensenin & Geladi artikkeli antaa mukavan keskustelun ristiinvahvistuksen rajoituksista.
Voit olla varovainen useimmista niistä, mutta yksi tärkeä seikka, jota ei voida ratkaista uudelleen näytteenottovahvistuksella, on drift, joka liittyy mbq: n pisteeseen:Ainoa poikkeus tähän kuuluvat aikasarjat ja muut tiedot, joissa objektijärjestyksellä on merkitystä.
Drift tarkoittaa, että esim. instrumentin vaste / todellinen kalibrointi muuttuu hitaasti ajan myötä. Joten tuntemattomien tapausten yleistysvirhe ei välttämättä ole sama kuin tuntemattomissa tulevissa tapauksissa. Tulet ohjeisiin, kuten ”tee kalibrointi uudelleen päivittäin / viikoittain / …”, jos huomaat ajautumisen validoinnin aikana, mutta tämä tarvitsee testisarjoja, jotka on hankittu järjestelmällisesti myöhemmin kuin harjoitustiedot.
(Voit tehdä ”erityisiä” osioita, jotka otetaan huomioon tilin hankinta-aika, jos kokeilusi suunnitellaan hyväksyttävästi, mutta yleensä se ei kata niin paljon aikaa kuin haluat testata ajautumisen havaitsemiseksi)
Vastaa
Miksi meidän pitäisi tehdä ristivalidointi erillisen vahvistusjoukon käyttämisen sijaan?
Aurélien Géron puhuu tästä kirjassaan
Välttääksesi liikaa harjoitustietojen ”tuhlaamista” validointijoukoissa, yleinen tekniikka käyttää ristivalidointia.
Miksi voimme k-10 käyttää muiden k-arvojen sijasta ristivalidoinnissa?
Vastaa on, haluaisin aluksi kiittää PhD Jason Brownleea hänen upeasta opetusohjelmastaan k-kertaisessa ristivalidoinnissa. Viittaan yhteen hänen viittaamaansa kirjaan.
Kuhn & Johnson puhui k-arvon valinnasta kirjassaan .
K: n valinta on yleensä 5 tai 10, mutta virallista sääntöä ei ole. Kun k kasvaa, harjoitusjoukon ja uudelleen näytteistävien osajoukkojen välinen eroero pienenee. Kun tämä ero pienenee, tekniikan esijännitys pienenee (ts. bias on pienempi k = 10: lle kuin k = 5 ). Tässä yhteydessä puolueellisuus on arvioitujen ja todellisten suorituskykyarvojen välinen ero.
Sitten voidaan sanoa, miksi emme käytä jätä-yhtä -out ristivalidointi (LOOCV), koska k-arvo on siellä suurin, ja siten harhaa on vähiten. Tuossa kirjassa he ovat myös puhuneet, miksi voimme suositella 10-kertaista CV: tä LOOCV: n sijaan.
Käytännön näkökulmasta suuremmat k-arvot ovat enemmän laskennallisesti rasittava. Äärimmäisessä tilanteessa LOOCV verottaa laskennallisesti eniten, koska se vaatii yhtä monta mallisovitusta kuin datapisteitä, ja jokainen malli sopii osajoukkoon, joka on lähes saman kokoinen kuin koulutusjoukko. Molinaro (2005) havaitsi, että jätetty yksi ja k = 10-kertainen ristivalidointi tuottivat samanlaisia tuloksia, mikä osoittaa, että k = 10 on enemmän houkutteleva laskennallisen tehokkuuden näkökulmasta. Myös pienillä k: n arvoilla, esimerkiksi 2 tai 3, on suuri puolueellisuus, mutta ne ovat erittäin laskennallisesti tehokkaita.
Olen lukenut paljon tutkimuksia mielipiteiden luokittelusta ja siihen liittyvistä aiheista. Suurin osa heistä käyttää 10-kertaista ristivalidointia luokittelijoiden kouluttamiseen ja testaamiseen. Tämä tarkoittaa, että erillistä testausta / validointia ei tehdä. Miksi näin on?
Jos emme käytä ristivalidointia (CV) valitaksesi yhden useista malleista (tai emme käytä CV hyperparametrien virittämiseksi) , meidän ei tarvitse tehdä erillistä testiä. Syynä on, että erillisen testin tekemisen tarkoitus saavutetaan tässä CV: ssä (yksi k-taitoksesta kussakin iteraatiossa). Eri SE-ketjut ovat puhuneet tästä paljon. Voit tarkistaa.
Lopuksi voit kysyä minulta, jos jotain kirjoittamaani ei ole sinulle selvää.
Vastaa