Měli byste not jednoduše hodit data různými algoritmy a podívat se na kvalitu předpovědí. Musíte lépe porozumět svým datům a způsob, jak toho dosáhnout, je nejprve vizualizovat svá data (okrajové distribuce). I když vás konečně zajímají pouze předpovědi, budete mít lepší pozici pro vytváření lepších modelů, pokud lépe porozumíte datům. Nejprve se tedy pokuste lépe porozumět datům (a jednoduchým modelům přizpůsobeným datům) a pak budete v mnohem lepší pozici pro vytváření složitějších a snad i lepších modelů.
Poté vložte modely lineární regrese se svými 15 proměnnými jako preciktory (později se můžete podívat na možné interakce). Poté z toho uložení spočítejte zbytky, tj.
$$
r_i = Y_i - \ hat {Y} _i, \ qquad i = 1, 2, \ tečky, n
$$
Pokud je model adekuate, to znamená, že byl schopen extrahovat signál (strukturu) z dat, zbytky by neměly vykazovat žádné vzory. Box, Hunter & Hunter: „Statistika pro experimentátory“ (na kterou byste se měli podívat, je to jedna z vůbec nejlepších knih o statistice) to srovnává s analogií z chemie: Tento model je „filtrem“ určeným k zachycení nečistot z voda (data). To, co zbylo a které prošlo filtrem, by mělo být „čisté“ a jeho analýza (analýza reziduí) může ukázat, že pokud neobsahuje nečistoty (struktura). Viz Kontrola normálnosti zbytků v zobecněných lineárních modelech
Chcete-li vědět, co je třeba zkontrolovat, musíte pochopit předpoklady lineární regrese, viz Co je úplný seznam obvyklých předpokladů pro lineární regresi?
Jedním obvyklým předpokladem je homoskedasticita, tj. konstantní odchylka. Chcete-li to zkontrolovat, vykreslete zbytky $ r_i $ proti předpokládaným hodnotám, $ \ hat {Y} _i $. Chcete-li porozumět tomuto postupu, podívejte se na: Proč jsou zbytkové grafy konstruovány pomocí zbytkových vs predikovaných hodnot?.
Další předpoklady jsou linearita . Chcete-li je zkontrolovat, vykreslete zbytky proti každému z prediktorů v modelu. Pokud na těchto grafech vidíte nějakou křivku, je to důkaz proti linearitě. Pokud zjistíte nelinearitu, můžete zkusit některé transformace nebo (modernější přístup) zahrnout tento nelineární prediktor do modelu nelineárním způsobem, možná pomocí splajnů (máte 60 milionů příkladů, takže by to mělo být docela možné! ).
Pak musíte zkontrolovat možné interakce. Výše uvedené myšlenky lze použít také pro proměnné not v přizpůsobeném modelu. Jelikož se hodí model bez interakcí, které zahrnují proměnné interakce, jako je produkt $ x_i \ cdot z_i $ pro dvě proměnné $ x $, $ z $. Nakreslete tedy zbytky proti všem těmto proměnným interakce. Příspěvek na blogu s mnoha ukázkovými obrázky je http://docs.statwing.com/interpreting-residual-plots-to-improve-your-regression/
Ošetření v délce knihy je R Dennis Cook & Sanford Weisberg: „Rezidua a vliv v regresi“, Chapman & Hall. Modernějším zpracováním v délce knihy je Frank Harrell: „Strategie regresního modelování“.
A v souvislosti s otázkou v nadpisu: „Může stromová regrese fungovat horší než čistá lineární regrese?“ Ano, samozřejmě, že může. Stromové modely mají jako regresní funkci velmi složitou krokovou funkci. Pokud data skutečně pocházejí (chovají se jako simulované z) lineárního modelu, mohou být krokové funkce špatnou aproximací. A jak ukazují příklady v jiné odpovědi, stromové modely by mohly špatně extrapolovat mimo rozsah pozorovaných prediktorů. Můžete také zkusit randomforrest a zjistit, o kolik je to lepší než jediný strom.