Datensparsität wird zum Problem
On Januar 1, 2021 by adminIch habe dies in einem Artikel gelesen
Entwickeln eines Der Ansatz zum Screening von virtuellen Syntheseparametern führt zu zwei primären rechnerischen Herausforderungen: Datensparsität und Datenknappheit.
. Solche kanonischen Darstellungen sind jedoch notwendigerweise spärlich, da es im Vergleich zur Anzahl der tatsächlich verwendeten Aktionen viel mehr Aktionen gibt, die während der Synthese eines Materials ausgeführt werden können.
Ich habe jedoch zuvor gelernt, dass Datensparsity eine gewünschte Eigenschaft ist.
Wenn die Datenpunkte spärlich verteilt sind, gibt es ein klares Muster, das eine Maschine lernen kann.
Mein Verständnis, dass Datensparsität zu einer Herausforderung wird, ist, dass wenn unsere Datenmatrix so aussieht:
$$ (x_1, x_2, \ cdots, x_N) = \ begin {pmatrix} 1 & & & \\
1 \\ & & \ ddots \\ & & & 1 \ end {pmatrix} $$ Natürlich wird es kein Muster geben, das eine Maschine lernen könnte, weil es dort ist ist Datenknappheit in jeder Dimension. Ich denke also, dass das Problem der Datenknappheit immer noch ein Problem der Datenknappheit ist.
Fragen :
-
Ist mein Verständnis korrekt? ?
-
Gibt es eine Möglichkeit zu erkennen, wann die Datenarmut eine Herausforderung darstellt?
-
Wenn die Datensparsität zum Problem wird, hilft dann eine angemessene Reduzierung der Dimensionalität?
Antwort
Datensparsität ist meistens ein rechnerisches Problem. Stellen Sie sich ein Empfehlungssystem vor, das Hunderttausenden von Benutzern Tausende von Produkten empfiehlt. Wenn Sie die Daten zur Benutzer-Produkt-Interaktion in einer Matrix speichern, handelt es sich um eine große Datenmenge, die aus vielen Nullen besteht (die meisten Benutzer sind nur interessiert in einer ausgewählten Teilmenge von Produkten). Klüger wäre es, solche Daten unter Verwendung einer spärlichen Matrixdarstellung zu speichern (die nur die Nicht-Nullen aufzeichnet). Dies würde bei einer Speicherung helfen, aber Sie würden dennoch einen Algorithmus benötigen, der mit solchen spärlich dargestellten Daten interagieren kann, und in vielen Fällen wird dies nicht von der Stange angeboten.
Darüber hinaus, da die meisten Werte sind Nullen, für die meisten Beispiele liefern sie relativ wenig Informationen. Wenn Sie Ihr Modell mit solchen Daten trainieren, erhalten Sie eine große Anzahl von Parametern, die die meiste Zeit unbrauchbar sind. Modelle mit einer großen Anzahl von Parametern sind für sich genommen problematisch, da Sie zur Schätzung der Parameter große Datenmengen und Optimierungsalgorithmen benötigen, die in solchen Einstellungen gut funktionieren. In Fällen, in denen spärliche Daten häufig vorkommen, wie z. B. Sprachdaten, in denen die Verteilung von Wörtern sehr verzerrt ist, verwenden wir normalerweise eine Art Dimensionsreduktion, wie z. B. Einbettungen (dies ist, was word2vec tut). P. >
Schreibe einen Kommentar