Předpokládám, že se chci naučit klasifikátor, který předpovídá, zda je e-mail spam. A předpokládejme, že pouze 1% e-mailů je spam.
Nejjednodušší věcí by bylo naučit se triviální klasifikátor, který říká, že žádný z e-mailů není spam. Tento klasifikátor by nám poskytl 99% přesnost, ale nenaučil by se nic zajímavého a měl by 100% míru falešných negativů.
Abych tento problém vyřešil, lidé mi řekli „převzorkovat“, nebo se učit na podmnožině dat, kde 50% příkladů je spam a 50% není spam.
Ale mám strach z tohoto přístupu, protože jakmile tento klasifikátor postavíme a začneme ho používat na skutečný soubor e-mailů (na rozdíl od testovací sady 50/50), může předvídat, že mnoho e-mailů je spam, i když ve skutečnosti nejsou. Jen proto, že se v datové sadě zvyklo vidět mnohem více spamu, než ve skutečnosti je.
Jak tedy tento problém vyřešíme?
(„Převzorkování“ nebo opakování pozitivních příkladů tréninku vícekrát, takže 50% dat jsou pozitivní příklady školení, zdá se, že trpí podobnými problémy.)