Image Image Image Image Image
Scroll to Top

To Top

11

Jul
2020

In Uncategorized

By Bill

Anschreiben für 2. ausbildung Muster

On 11, Jul 2020 | In Uncategorized | By Bill

Und hier sind zwei coole .gifs, die eines meiner Modelle bei der Arbeit zeigen (rot = Krebs): Die Ausgabe dieser Stufe ist eine Vorhersage pro Modell pro verdächtiger Region im Bild. Diese werden zu den Eingaben für den nächsten Teil der Pipeline, der die eigentliche Diagnose erzeugt. Ich habe auch versucht, die Basismodelle zu booten, aber dies gab Ergebnisse, die konsequent schlechter waren. Nach meinem derzeitigen Kenntnisstand hat keiner der Top-Konkurrenten Bootstrapping in dieser Problemeinstellung zu arbeiten. Dadurch erhalten Sie ein 3D-Raster mit “Knotenwahrscheinlichkeiten” (da das Modell die Wahrscheinlichkeit eines Knötpfens an jeder Position vorhersagt). Ich aggregierte diese dann mit einigen einfachen Statistiken wie max, stdev und der Position der maximalen Wahrscheinlichkeitsvorhersage. Wie auch immer, eines der schönen Dinge über die Architektur, die ich verwendet wurde, war, dass das Modell auf jeder Größe Eingabe trainiert werden kann (von mindestens 32x32x32 in der Größe). Dies liegt daran, dass der letzte Pooling-Layer in meinem Modell ein globaler maximaler Pooling-Layer ist, der unabhängig von der Eingabegröße eine Ausgabe mit fester Länge zurückgibt. Aus diesem Grund kann ich “Curriculum-Lernen” verwenden, um die Modellausbildung zu beschleunigen. Vertrauen in die Integration Durch eine Simulationsstudie konnte ich meinen Verdacht bestätigen, dass zur Optimierung des erwarteten MAP weniger zuversichtliche Vorhersagen in Bezug auf selbstbewusstere Vorhersagen geschrumpft werden sollten. Ich habe dies in einigen meiner Einreichungen angewendet und dies hat den letzten Ensembles einen begrenzten, aber bedeutenden Wert hinzugefügt.

Ich berechnete Vertrauen als Mittelwert (Vorhersage angesichts der tatsächlichen positiven Flanke)/Mean (Vorhersage ohne positive Flanke), wobei die Vorhersage auf den Ausfaltungen in der 10-fachen Kreuzvalidierung der Basismodelle berechnet wurde. Die Hyperparameter wurden auf der Grundlage der Anzahl der Trainings-positiven Flanken entschieden, je positiver flanken ich in den Zugdaten beobachtete, desto tiefer die Bäume. Es ist eine gute Praxis, eine Validierungsaufteilung bei der Entwicklung Ihres Modells zu verwenden. Wir verwenden 80% der Bilder für Schulungen und 20% für die Validierung. Sehr spät im Wettbewerb kam mein Teamkollege Julian mit einer neuen Funktion, um das Diagnosemodell hinzuzufügen – die Menge der “abnormalen Masse” in jedem Scan. Ich habe dies zu meinem Satz von Funktionen hinzugefügt, aber keiner von uns hatte wirklich genug Zeit, um es wirklich zu überprüfen – wir denken beide, dass es ein wenig geholfen hat. Wenn Sie daran interessiert sind, mehr über Julians Ansatz zu lesen, schauen Sie sich seinen Blog-Beitrag hier an. Um ein Modell mit diesem Dataset zu trainieren, benötigen Sie die Daten: Mit diesen einfachen Statistiken können Sie ein “reguläres” Modell (Logistische Regression) erstellen, um die Diagnose vorherzusagen.

Dieses Modell wird im Kaggle DSB-Dataset trainiert und validiert. Diese Features werden in ein lineares Modell für die Klassifizierung eingespeist. Im Folgenden finden Sie ein Feature-Importance-Diagramm, in dem die Y-Achse die Zunahme des Protokollverlusts anzeigt, wenn das angegebene Feature zufällig verschlüsselt wurde: Sie können ein Modell mit diesen Datasets trainieren, indem Sie sie an model.fit übergeben (siehe unten in diesem Tutorial). Wenn Sie möchten, können Sie das Dataset auch manuell iterieren und Bildstapel abrufen: Sie können feststellen, dass die Validierungsgenauigkeit im Vergleich zur Trainingsgenauigkeit niedrig ist, was darauf hinweist, dass unser Modell überpasst. In diesem Tutorial erfahren Sie mehr über Überanpassung und wie Sie sie reduzieren können. .cache() behält die Images im Speicher, nachdem sie während der ersten Epoche vom Datenträger geladen wurden. Dadurch wird sichergestellt, dass das Dataset beim Training des Modells nicht zu einem Engpass wird. Wenn Ihr Dataset zu groß ist, um in den Arbeitsspeicher zu passen, können Sie diese Methode auch verwenden, um einen performanten Zwischencache auf der Festplatte zu erstellen. O`Reilly-Mitglieder erleben Live-Online-Schulungen sowie Bücher, Videos und digitale Inhalte von mehr als 200 Verlagen.