Friday 13 October 2017

Flytte Gjennomsnittet Uteliggere


si at jeg har et postgresql-bord med følgende verdier. Hvis jeg bruker postgresql til å beregne gjennomsnittet, gir det meg et gjennomsnitt på 24 8 fordi den høye verdien på 100 har stor innvirkning på beregningen. Selv om jeg faktisk vil finne et gjennomsnitt et sted rundt 6 og eliminere ekstreme Jeg er på utkikk etter en måte å eliminere ekstremer og vil gjøre dette statistisk korrekt Ekstrem s kan ikke løses Jeg kan ikke si Hvis en verdi er over X, må den elimineres. Jeg har bøyet meg hodet på postgresql aggregatfunksjonene, men kan ikke sette fingeren på det som er riktig for meg å bruke Eventuelle forslag. Skrevet 29. mai 10 ved 8 41.Postgresql kan også beregne standardavviket. Du kan bare ta de datapunkter som er i gjennomsnittet - 2 stddev som stort sett ville tilsvare 90 datapoints nærmest gjennomsnittet. Selvfølgelig kan 2 også være 3 95 eller 6 99 995, men ikke bli hengt opp på tallene fordi i nærvær av en samling avvikere er du ikke lenger i gang med å håndtere med en vanlig di Stribution. Be veldig forsiktig og validere at det virker som forventet. Minn bruk av ntile-vinduet funksjonen Det lar deg enkelt isolere ekstreme verdier fra resultatsettet. Så si at du vil kutte 10 fra begge sider av resultatsettet Da passerer du verdien av 10 til ntile og å lete etter verdier mellom 2 og 9, gir deg ønsket resultat. Vær også oppmerksom på at hvis du har mindre enn 10 poster, kan du ved et uhell kutte mer enn 20, så sørg for å sjekke total antall poster as well. answered Jun 29 16 at 14 28.Your Answer.2017 Stack Exchange, Inc. Vi har en demon som leser inn data fra noen sensorer, og blant de tingene det beregner i tillegg til bare å rapportere staten er den gjennomsnittlige tiden det tar for at sensorene skal skifte fra en verdi til en annen. Det holder et løpende gjennomsnitt på 64 datapoints, og antar at runtime er ganske konstant. Dessverre, som vist ved grafen nedenfor, er inndataene ikke den mest uberørte. Hver linje representerer et annet sett med data, x-aksen betyr egentlig ikke noe annet enn en vag historisk tidsakse. Min åpenbare løsning for å håndtere dette ville være å lage et histogram av dataene og deretter velge modusen, men jeg lurte på hvis det var andre metoder som ville gi bedre ytelse eller ville være mer egnet for drift med et løpende gjennomsnitt. Noen raske Wikipedia-søk tyder på at algoritmer for å oppdage utelukkere kan være passende. Enkelhet er et pluss, siden demonen er skrevet i C. Edit I scoped ut Wikipedia og kom opp med disse ulike teknikkene. Chauvenet s kriterium ved å bruke gjennomsnittlig og standardavvik, beregne sannsynligheten for at en bestemt datapunkt ville skje, og deretter utelukke det dersom sannsynligheten er faktisk at dårlig er mindre enn 50 mens dette synes å være bra egnet for å korrigere et løpende gjennomsnitt i fly, er jeg ikke helt overbevist om dens effektivitet det virker med store datasett, det vil ikke kaste bort datapoints. Grubbs test En annen metode som bruker forskjell fra gjennomsnittet til standardavviket, og har noe uttrykk for når hypotesen om ingen utestengere blir avvist. Kokens avstand Måler hvilken innflytelse en datapunkt har på en minste kvadratregressjon, vil vår søknad antagelig avvise det hvis det overstiger 1.Tunket gjennomsnitt Skjul den lave enden og den høye enden, og ta deretter gjennomsnittet som normalt. Enhver har noen spesiell opplevelse og kan kommentere disse statistiske teknikkene. Også noen kommentarer om den fysiske situasjonen vi måler gjennomsnittlig tid til ferdigstillelse av en mekanisk vaskemaskin, så dens kjøretid skal være ganske konstant. Jeg er ikke sikker på om den faktisk har en normal fordeling. Edi 2 Et annet interessant spørsmål når demonen er oppstart, som i, har ikke noen tidligere data å analysere, hvordan skal det håndtere innkommende data Gjør det bare ikke å gjøre noen beskjærende beskjære. Eitit 3 En ting om maskinvaren endrer seg slik at kjøretidene blir forskjellige, er det verdt det å gjøre algoritmen er tilstrekkelig robust slik at den ikke vil kaste bort disse nye kjøretidene, bør jeg bare huske å spyle cachen når det skjer. Skrevet 12. april kl. 7 24. Tawani - de mangler ikke alle punktene Det du sier må defineres bruker generiske termer Du kan ikke gå med et enkelt eksempel Uten generelle definisjoner, hvis 400 er 30 er det fortsatt en outlier Og hvis det er 14 Og 9 Hvor stopper du Du trenger stddev s, intervaller, kvartiler, for å gjøre det Daniel Daranas 2. februar 09 på 17 05. Ved trimming må du ikke fjerne utelukkere du bare ikke ta med dem i beregningen. Fjern kan tyde på at poeng ikke lenger er i datasettet. Og du fjerner eller ignorerer ikke dem fordi de er uregelmessige, kriteriet er vanligvis bare det de er i noen ekstremt brøkdel av dataene En verdi som ikke er inkludert i et trimmet gjennomsnitt er bare litt mer eller mindre enn den høyeste laveste verdien inkludert Nick Cox Dec 3 14 på 16 48. Jeg vet ikke om det har et navn, men du kan lett komme opp med en rekke algoritmer hms for å avvise outliers. Find alle tallene mellom 10. og 90. prosentiler gjør dette ved å sortere og deretter avvise de første N 10 og de siste N 10 tallene og ta middelverdien av de gjenværende verdiene. Sorter verdier, avvis høye og lave verdier så lenge som Ved å gjøre det, endrer gjennomsnittlig standardavvikelse mer enn X. Sort-verdier, avviser høye og lave verdier så lenge som de er, er de aktuelle verdiene mer enn K standardavvik fra gjennomsnittet. Den vanligste måten å ha en Robust på det vanlige ordets betydning som er motstandsdyktig mot dårlig data gjennomsnitt er å bruke medianen Dette er bare middelverdien i den sorterte listen over halvveis mellom de to to verdiene, så for eksempel vil det være 90 5 halvveis mellom 90 og 91. Hvis du vil få virkelig inn i robust statistikk som robuste estimater av standardavviket osv. Jeg vil anbefale en tapt av koden på AGORAS-gruppen, men dette kan være for avansert for dine formål. Besvaret 13. februar 09 kl 9 22. Hvis alt du har er en variabel som du mener jeg tror s ome av respondentene ovenfor er over kritiske for tilnærmingen. Sikkert andre metoder som ser på ting som løftestang, er mer statistisk lyd, men det betyr at du gjør modellering av noe slag. Hvis du bare har for eksempel poeng på en test eller alder av eldre borgere troverdige tilfeller av ditt eksempel Jeg synes det er praktisk og rimelig å være mistenkelig for outlieren du tar opp Du kan se på det totale gjennomsnittet og det trimmet, og se hvor mye det endres, men det vil være en funksjon av prøvestørrelsen og avviket fra gjennomsnittet for dine outliers. With egregious outliers så vil du sikkert se på te data generering prosess for å finne ut hvorfor det er saken Er det en datainngang eller administrativ fluke Hvis så, og det er sannsynligvis ikke relatert til faktisk sant verdi som ikke er observert, synes det meg fint å trimme Hvis det er en sann verdi så langt du kan fortelle, kan det hende at du ikke kan fjerne med mindre du er eksplisitt i analysen din om det. swered Dec 3 14 på 13 58.My statistikk lærebok refererer til dette som en Sample Mean i motsetning til en populasjon Mean Sample innebærer det var en begrensning brukt på hele datasettet, men ingen modifikasjon fjerning til datasettet ble gjort. answered Mar 26 16 på 3 13.0 Velkommen til nettstedet 1 Hvilken bok Vennligst gi en referanse 2 Eksempelmiddel betyr vanligvis ikke en gjennomsnittlig oppnådd etter fjerning av utjevnene Juho Kokkala Mar 26 16 ved 8 06. Det kan være medianen Ikke alltid, men noen ganger har jeg ingen ide hva det kalles i andre anledninger Håper dette hjalp minst litt.

No comments:

Post a Comment