Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-5059
Autor(en): Müller, Simon Peter
Titel: Consistency and bandwidth selection for dependent data in non-parametric functional data analysis
Sonstige Titel: Konsistenz und Bandweitenwahl für abhängige Daten in der nichtparametrischen funktionalen Datenanalyse
Erscheinungsdatum: 2011
Dokumentart: Dissertation
URI: http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-68394
http://elib.uni-stuttgart.de/handle/11682/5076
http://dx.doi.org/10.18419/opus-5059
Zusammenfassung: Besides a introduction this dissertation contains three more chapters. In the following paragraphs we will give a short summary for each of them. In Chapter 2 we examine non-parametric regression for &#945;-mixing functional data. A method for estimating the regression function m(x) is the k-nearest neighbour kernel estimate. We prove that the k-NN kernel estimate is pointwise almost complete consistent for &#945;-mixing data and we present, for two different assumptions on the covariance term, the almost complete convergence rate. The results are obtained on the one hand by using results of the functional kernel estimate, where a deterministic bandwidth sequence is used, and on the other hand by applying lemmas from Bradley and Burba et al.. Finally, we give an outline on how to avoid the drawback of susceptibility of the k-NN kernel estimate to outliers. We adumbrate on how to construct such a robust kernel estimate and on how get almost complete convergence. Chapter 3 is focused on uniform convergence rates on a compact set S<sub>E</sub> of non-parametric estimates for &#945;-mixing random variables of various conditional quantities, such as the conditional expectation, the conditional distribution function, and the conditional density function. It turns out in our proofs that there is a link between the covering number of the set S<sub>E</sub> and the type of &#945;-mixing. Indeed, there are many functional spaces on which a compact set has a covering number that grows exponentially. For such sets S<sub>E</sub> it is not possible to get uniform almost complete rates for general &#945;-mixing random variable, there we have to restrict on geometric &#945;-mixing random variables. Instead, if the covering number grows polynomially, we get almost complete rates for general &#945;-mixing random variables. Furthermore, we present two results for the kernel estimate of the regression function, where we get with some additional conditions similar rates as in the independent case. With slightly modified assumptions, not listed in this thesis, we get similar results for the kernel estimate of the conditional distribution function and the conditional density function. Moreover, we comment on the uniform almost complete rate for the estimate of the non-parametric regression function and outline how to possibly prove the validity of a cross-validation bandwidth selection procedure for &#945;-mixing functional data. In the last Chapter 4 we discuss the issue of a local adaptive bandwidth selection procedure for the kernel estimate of the regression function. Here, an obvious measure for the optimality of the parameter selection is the pointwise mean squared error. As the regression function m(x) is unknown, we cannot calculate it. In the literature different approximation methods as cross-validation or bootstrapping are presented. We pick up a bootstrap method for approximating this pointwise mean squared error for non-parametric functional regression. We prove that our approximation converges against the true error and afterwards we compare our method on simulated and real world data with a global and local version of a cross-validation method. The simulated data is constructed such that we have different nuances between homogenous and heterogenous data. The results differ then in the following way. On the one hand if the data is more homogenous, global and local methods perform similarly, on the other hand if the data gets more heterogenous, the local methods outperform the global bandwidth selection procedure more and more. In addition, we notice that in all examples the bootstrap method performs better or equal than the local cross-validation procedure. Moreover, it is possible to calculate confidence intervals from the bootstrapped data. As we need a pilot kernel estimate for bootstrapping, more calculation time is needed for that bootstrap procedure.
In der vorliegenden Dissertation betrachten wir Aspekte der nichtparametrischen funktionalen Datenanalyse. Es wird der funktionale Zusammenhang zweier Zufallsvariablen, einer erklärenden Zufallsvariablen X und einer abhängigen Zufallsvariablen Y, untersucht. Dabei bezieht sich der Begriff funktional in funktionaler Datenanalyse auf den Ursprung der erklärenden Zufallsvariablen X. Bei dieser wird angenommen, dass sie aus einem Funktionenraum E stammt. Die abhängige Zufallsvariable Y sei dagegen reellwertig. Neben der Einführung in die nichtparametrische funktionale Datenanalyse in Kapitel 1 beinhaltet diese Dissertation drei weitere Kapitel, deren Inhalt in den nachfolgenden drei Absätzen zusammengefasst ist. In Kapitel 2 betrachten wir die funktionale nichtparametrische Regression für &#945;-mischende Daten. Dabei ist man an einer Schätzung der unbekannten Regressionsfunktion m(x) := E[Y|X = x] interessiert. Im Gegensatz zur parametrischen Regression machen wir keine Annahmen über die Gestalt von m(x), wir setzen lediglich gewisse Regularitätsannahmen voraus. Eine Methode zur Schätzung der Regressionsfunktion m(x) ist der k-Nächste Nachbarn Kernschätzer. Der k-NN Kernschätzer gehört zu den lokalen Mittelungsschätzern. Bei diesem Verfahren bildet man ein gewichtetes Mittel über die abhängigen Zufallsvariablen Y<sub>i</sub>, die den k nächsten Nachbarn des Elementes x zugeordnet sind, um damit eine Schätzung von m(x) zu erhalten. Wir werden beweisen, dass der k-NN Schätzer für &#945;-mischende Daten punktweise konsistent ist, und wir geben, unter zwei sich unterscheidenden Voraussetzungen an den Kovarianzterm, jeweils die Konvergenzraten an. Zu guter Letzt geben wir einen Ausblick, wie man die Anfälligkeit des k-NN Kernschätzers gegenüber Ausreißern vermeiden kann. Wir umreißen dabei, wie man diesen robusten k-NN Schätzer konstruiert und zu einer Konsistenzaussage gelangt. In Kapitel 3 befassen wir uns mit der gleichmäßigen Konvergenz von Kernschätzern auf einer kompakten Menge S<sub>E</sub> verschiedener bedingter Größen, wie dem bedingten Erwartungswert, der bedingten Verteilungsfunktion und der bedingten Dichtefunktion für &#945;-mischende Daten. Wie bereits im zweiten Kapitel setzen wir für diese drei bedingten Größen lediglich gewisse Regularitätsannahmen voraus. In den Beweisen für die Konvergenzraten der verschiedenen bedingten Größen stellt sich heraus, dass ein Zusammenhang zwischen der Überdeckungszahl von S<sub>E</sub> und der Art der Abhängigkeit der Daten vorliegt. Besitzt S<sub>E</sub> eine exponentiell wachsende Überdeckungszahl, so ist es mit den uns bekannten Mitteln nicht möglich, gleichmäßige Konvergenzraten für allgemein &#945;-mischende Zufallsvariablen zu erhalten. Für Funktionenräume mit derartiger Eigenschaft von kompakten Teilmengen müssen wir uns auf geometrisch &#945;-mischende Zufallsvariablen beschränken. Bei Mengen S<sub>E</sub> mit polynomial wachsenden Überdeckungszahlen erhält man Resultate auch für arithmetisch &#945;-mischende Zufallsvariablen. Des Weiteren präsentieren wir Resultate für den Kernschätzer der Regressionsfunktion, bei denen man unter zusätzlichen Voraussetzungen ähnliche Konvergenzraten erhält wie für unabhängige Daten. Mit leicht modifizierten Voraussetzungen erhält man für die Kernschätzer der bedingten Verteilungs- und Dichtefunktion ähnliche Aussagen. Dies führen wir aber in dieser Arbeit nicht aus. Darüber hinaus geben wir für den Kernschätzer der Regressionsfunktion eine mögliche Beweisidee, um für &#945;-mischende Daten die Konsistenz der Kreuzvalidierung als Bandbreitenwahl zu erhalten. Im abschließenden Kapitel 4 beschäftigen wir uns mit einem lokalen datenabhängigen Verfahren der Bandbreitenwahl für den Kernschätzer der Regressionsfunktion. Als naheliegendes Maß für die Genauigkeit der Schätzung und somit der Güte der Bandbreitenwahl bietet sich der punktweise L&#1399;-Fehler an. Da die Regressionsfunktion m(x) unbekannt ist, ist dieser jedoch nicht bestimmbar und es ist notwendig, eine geeignete Approximation zu finden. In der Literatur werden hierzu verschiedene Methoden eingesetzt, wie z.B. Kreuzvalidierung oder verschiedene Bootstrap-Methoden. Wir haben in unserer Arbeit ein Bootstrap-Verfahren aufgegriffen und dieses auf den Fall der funktionalen nichtparametrischen Regression übertragen. Hierzu beweisen wir, dass unsere Methode asymptotisch gegen den zu approximierenden L&#1399;-Fehler konvergiert und wir vergleichen unser Verfahren anschließend auf simulierten und realen Datensätzen mit einer globalen Version der Kreuzvalidierung. Die simulierten Daten sind derart konstruiert, dass verschiedene Stufen zwischen homogen und heterogen angenommen werden. Bei den homogenen Daten erreichen, wie erwartet, die globale und die lokale Methode eine ähnliche Genauigkeit. Bei immer stärker werdender Heterogenität der Daten hingegen, schneidet das lokale Verfahren gegenüber der globalen deutlich besser ab. Zudem konnten wir in allen Beispielen feststellen, dass die Bootstrap-Methode zu einer höheren oder gleich guten Genauigkeit führt wie die lokale Kreuzvalidierung. Der Vorteil des Bootstrap-Verfahrens gegenüber der Kreuzvalidierung ist, dass man mit wenig Mehraufwand Konfidenzbänder berechnen kann. Man muss allerdings eine höhere Rechenzeit in Kauf nehmen, da man für das Bootstrapping-Verfahren eine Pilot-Kernschätzung benötigt.
Enthalten in den Sammlungen:08 Fakultät Mathematik und Physik

Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat 
Dissertation.pdf1,52 MBAdobe PDFÖffnen/Anzeigen


Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.