Statistický test pro časové řady, ve kterých dochází k výsledku - python

hlasů
49

Ptám se na pomoc ohledně regresního testování. Mám spojitou časovou řadu, která kolísá mezi kladnými a zápornými celými čísly. Mám také události, ke kterým dochází v této časové řadě ve zdánlivě náhodných časových bodech. V podstatě, když dojde k události, popadnu příslušné celé číslo. Pak chci vyzkoušet, zda toto celé číslo událost vůbec ovlivňuje. Stejně jako v případě, existuje více pozitivních / negativních celých čísel.

Původně jsem uvažoval o logistické regresi s kladným / záporným číslem, ale to by vyžadovalo alespoň dvě odlišné skupiny. Vzhledem k tomu, že mám pouze informace o událostech, ke kterým došlo. Opravdu nemůžu zahrnout takové množství událostí, které se nevyskytují, protože je poněkud souvislé a náhodné. Není možné měřit, kolikrát událost nastane.

Takže moje odlišná skupina je pravdivá v tom smyslu, že nemám žádné výsledky z něčeho, co se nestalo. Snažím se klasifikovat je:

Pokud dojde k výsledku, ovlivňuje tento výsledek kladné nebo záporné celé číslo .

Položena 11/05/2020 v 04:28
zdroj uživatelem
V jiných jazycích...                            


3 odpovědí

hlasů
0

I když je otázka po prvním odstavci docela těžko pochopitelná. Dovolte mi, abych pomohl z toho, co jsem z této otázky pochopil.

Za předpokladu, že chcete pochopit, zda existuje vztah mezi událostmi, které se dějí, a celými čísly v datech.

1. přístup: Vykreslete data na stupnici 2d a vizuálně zkontrolujte, zda existuje vztah mezi údaji. 2. přístup: zajistěte, aby data z událostí byla nepřetržitá, a odstraňte události z jiných dat a pomocí postupného okna vyhlaďte data a poté porovnejte oba trendy.

Výše uvedený přístup funguje dobře, pouze pokud rozumím vašemu problému správně. Existuje ještě jedna věc známá jako zkreslení pozůstalých. Možná vám chybí data, prosím zkontrolujte také tuto část.

Odpovězeno 18/05/2020 v 13:52
zdroj uživatelem

hlasů
0

Vypadá to, že máte zájem určit základní síly, které vytvářejí daný proud dat. Takové matematické modely se nazývají Markovovy modely. Klasickým příkladem je studium textu.

Pokud například spustím algoritmus skrytého Markovova modelu na odstavci anglického textu, zjistím, že existují dvě kategorie řízení, které určují pravděpodobnost toho, jaké písmena se v tomto odstavci zobrazují. Tyto kategorie lze zhruba rozdělit do dvou skupin, „aeiouy“ a „bcdfghjklmnpqrstvwxz“. Ani matematika, ani HMM „nevěděly“, čemu se mají tyto kategorie říkat, ale jsou to, k čemu je statisticky konvergováno po analýze odstavce textu. Tyto kategorie bychom mohli nazvat samohlásky a souhlásky. Ano, samohlásky a souhlásky tedy nejsou pouhými kategoriemi 1. třídy, vyplývají ze statistického psaní textu. Zajímavé je, že "prostor" se chová spíš jako samohláska než souhláska. Nedal jsem pravděpodobnosti pro výše uvedený příklad, ale je zajímavé poznamenat, že „y“ končí pravděpodobností zhruba 0,6 samohlásky a 0,4 souhlásky; znamenat, že “y” je nejvíce souhláska chovat samohlásku statisticky.

Skvělým příspěvkem je https://www.cs.sjsu.edu/~stamp/RUA/HMM.pdf, který se věnuje základním myšlenkám tohoto druhu analýzy časových řad a poskytuje i nějaký sudokód pro referenci.

Nevím moc o datech, se kterými pracujete, a nevím, jestli pojmy „pozitivní“ a „negativní“ hrají určující faktor v datech, která vidíte, ale pokud jste spustili HMM na vaše data a zjistil, že obě skupiny jsou sbírka kladných čísel a sbírání záporných čísel, pak bude vaše odpověď potvrzena, ano, nejvlivnější dvě kategorie, které řídí vaše údaje, jsou pojmy pozitivní a negativní. Pokud se nerozdělí rovnoměrně, pak vaše odpověď zní, že tyto koncepce nejsou vlivným faktorem při řízení dat. A ještě více, algoritmus by skončil několika pravděpodobnostními maticemi, které by vám ukázaly, jak moc je každé číslo ve vašich datech ovlivněno každou kategorií, takže byste měli mnohem lepší přehled o chování vašich údajů o časových řadách.

Odpovězeno 19/05/2020 v 07:59
zdroj uživatelem

hlasů
0

Možná nerozumím vašemu problému, ale nemyslím si, že byste mohli provést jakoukoli smysluplnou regresi bez dalších informací.

Regrese se obvykle používá k nalezení vztahu mezi dvěma nebo více proměnnými, zdá se však, že máte pouze jednu proměnnou (pokud jsou pozitivní nebo negativní) a jednu konstantu (výsledek je vždy pravdivý v datech). Možná byste mohli udělat nějaké statistiky o rozdělení čísel (střední, střední, standardní odchylka), ale nejsem si jistý, jak byste mohli udělat regresi. https://en.wikipedia.org/wiki/Regression_analysis

Možná budete chtít zvážit, že by mohlo dojít k silné předpojatosti, pokud vám chybí velká část vašich dat. https://en.wikipedia.org/wiki/Survivorship_bias

Doufám, že je to alespoň trochu užitečné, aby vás nasměroval správným směrem

Odpovězeno 11/05/2020 v 04:53
zdroj uživatelem

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more