Toto je oprava předchozího článku, kde jsem opomenul mnohé okolnosti
§0.0.0 Na internetu často vidíte mapy jako tuto z posledních poslaneckých voleb1:
Z nějakého důvodu Andrej Babiš vyhrává v pohraničí. Dalším stereotypem je jeho neúspěch v Praze a úspěch u důchodců. Čím to ale je?
§0.0.1 Sociolog Daniel Prokop naznačil, existuje vztah s chudobou regionu a Sudetským územím a výsledky Andreje Babiše2. Osobně si myslím, že jeho práce šla udělat více detailněji. Rozhodl jsem se tedy použít data ze Sčítání lidu 20213 na úrovni obcí s rozšířenou působností a otestovat jeho hypotézu. Zde jsou už předpřipravená v .csv.
Sudety efekt
§1.0.0 Abych klasifikoval, kde Sudety leží, vzal jsem si tuto mapu nalezenou na internetu:
Pokud ORP za první republiky měla >50 % populace německou, tak jsem ji zapsal jako náležící k Sudetám. Což je trochu více striktní kategorizace než použil Hitler roku 1938.
§1.0.1 Když dáme data do teoretického modelu:
Babiš získal 25,61 % hlasů v oblasti dříve české a 27,52 % v dříve německé. Což je sice velmi signifikantní výsledek, bohužel ale nedokážeme vysvětlit 95,66 % zbývající variace. U poslaneckých voleb byl vztah silnější. ANO dostalo v českém území 28,19 % a v Sudetech 33,02 %. Stále nám však zbývá 83,76 % neznámé variace.
§1.0.2 Dle lineární regrese to nevypadá, že vztah je extra silný. Z mapy se vychyluje například Trutnovsko, ve kterém se moc ANO neuchytilo. Silná korelace mezi voliči ANO v roce 2021 a Babiše v roce 2023 musí být způsobena jiným vlivem:
Výsledek?
§2.0.0 Co takto ale vzít v potaz další data? Zda na hulváta dám všechna použitelná do regrese, tak vznikne toto:
Efekt Sudet už zmizel zcela úplně. Ale přesnost modelu je více než důstojná. S lineární regresí je ale jeden velký problém …
§2.0.1 Zda je toto skutečnost (spoiler: není), tak každé procento lidí, kteří jsou podnikatelé bez zaměstnanců, sníží volební zisk Babiše o 61,46 %. Jak absurdní!
Když máme 39 parametrů ku 205 ORP4, algoritmus má tendenci si vymýšlet čísla, která mu pomůžou maximalizovat R^2. Nebude se chovat dle zásad rozumu a být méně ambiciózní. Musím tedy nejdříve opravit různé parametry.
§2.0.2 Takto mezi sebou korelují (což je náznak problemů):
Můžeme vidět, že když jde o vzdělání a zaměstnanost, tak Sudety stále na mapě existují.
Úpravy dat
§3.0.0 Zde popíšu další úpravy. Jako příliš velkou korelaci jsem bral vše >0,7.
Vzdělání
§3.1.0 Můžeme vidět, že regiony v ČR jsou trochu segradované dle vzdělání. Je velmi nepravděpodobné, že najdeme místo, kde je hodně vysokoškoláků, málo maturantů a hodně lidí s < 9 lety vzdělání. Je v důsledku správné soudit, že v koeficientu: +1 % lidí bez vzdělání => +2,8 % volebního zisku Babiše se skrývá více než efekt samotné nejméně vzdělané skupiny.
§3.1.1 Abych vyřešil tyto problémy, tak byl stvořen faktor vzdělání, který je vypočítán:
data["e_factor"] = data["% bez vzdělání"] * 0 + data["% se základní školou"] * 1 + data["% s výučním listem"] * 2 + data["% s maturitou"] * 3 + data["% vysokoškoláků + VOŠ"] * 4
Etnické menšiny
§3.2.0 Jelikož data o národnosti byla vyplněna jen 2/3 lidí, jsou nehodnotná. Také nebylo vysvětleno, co příslušnost znamená, tudíž vše záleží jen na pocitu občana. Tyto parametry jsem úplně vyřadil. Akorát ponechal “% cizinců“, což je součet všech, kteří se neidentifikují jako Češi, Moravané a Slezané.
Věk
§3.3.0 Další problém je s věkem. Je zde -0,77 korelace mezi “% lidí nad 65” a “% dětí“. S populací v produktivním věku není vztah. Což implikuje, že jsou regiony, kde se lidem moc nechce rozmnožovat a zůstávají v nich akorát staří dožít. Můžeme proto nalézt mnoho menších korelací s ukazateli bohatšího regionu jako např. zaměstnanost, vzdělanost a prestižní povolání.
Tento vztah je slabší pro důchodce, tudíž jsem je jako jediné nechal.
Neznámé
§3.4.0 Vypadá to, že populace odmítavá k Sčítání lidu jsou spíše obyvatelé zaostalejších regionů. Není to však velká korelace.
Nezávisle na tom, pokud je něco označeno jako neznámé, odstraňuji.
Zaměstnanci
§3.5.0 Vyřadím také zaměstnance, jelikož dost korelují s zaměstnaností. Lze říci, že podnikatelů je všude stejně, akorát v bohatších krajích zaměstnávají větší počty lidí.
Rodinný stav
§3.6.0 Nakonec jsem odstranil všechny informace o rodinném stavu kromě % rozvedených, jelikož příliš korelovali mezi sebou a s obecným ukazatelem blahobytu regionu. Jmenovaný parametr byl nejvíce nezávislý.
Výsledek 2?
§4.0.0 S pár opravami vypadá výsledek takto:
§4.0.1 Tohle už vypadá více realisticky. Mezi silné faktory (p < 0, 01) řadíme:
Vzdělání -
Věk +
Rozvodovost -
Počet technických pracovníků +
V ozbrojených silách +
Zaměstnanost (mají p < 0,01) -
Nábožné lidi -
§4.0.2 Upřímně opravdu nevím, proč Babiš zaujal v posledních letech vojáky. Stejně se lze ptát čím Babiš namíchl křesťany v období 2021 - 2023. Oproti tomu je věk a vzdělání více očividné. Stereotypy nelžou.
§4.0.3 Co ale znamenají techničtí pracovníci? Dle ČSÚ:
Náplň jejich práce obvykle zahrnuje: přijímání a provádění technických činností týkajících se výzkumu, uplatňování koncepcí a provozních metod v oblasti přírodních věd včetně inženýrství, techniky, biologických oborů, lékařství a společenských a humanitních věd; zahajování a poskytování nejrůznějších technických služeb spojených s obchodem, financemi, státní správou včetně přípravy zákonů a předpisů a sociální práce; poskytování technické podpory pro umění a zábavu; účast na sportovních akcích; provádění náboženských aktivit. Pracovní činnosti mohou zahrnovat také dohled nad dalšími pracovníky.5
Takže např. doktor, veterinář, programátor, vědec, pilot, kněz, fitness trenér, policista, celník, fotograf nebo šéfkuchař.
To je od ČSÚ velmi informativní a rozhodně ne příliš obecné! Je však možné, že zdravotnictví volilo Babiše kvůli 10 % zvednutí platů na rok 20216.
Faktorová analýza
§5.0.0 Myšlenka ČSÚ nejspíše byla seskupit zaměstnání dle prestižnosti a náklady na vzdělání. Nikoli je shluknout dle podobnosti práce.
§5.0.1 Zda udělám faktorovou analýzu všech parametrů regionu, tak vybrané data lze nejvíce efektivně popsat 10 faktory7:
Obecný sociální status
§5.1.0 Jak lze vidět, na vrcholu jsou specialisté a řídící pracovníci, zatímco nejníže jsou lidé pracující jako obsluha strojů a nekvalifikovaní pracovníci.
§5.1.1 Pokud vezmu hodnoty > |0,5| a sestavím z nich index, tak (nečekaně) nejvyšší sociální status mají lidé v Praze (335). A nejmenší v Bílině (202).
§5.1.2 Rozhodně můžeme říci, že se jedná o jeden z největších predikátů volebního výsledku Andreje Babiše:
(Ne)stabilita komunit
§5.2.0 Další viditelný faktor je rozpad rodin. Mimo míru manželství, rozvodů a samoživitelek sem patří i počty lidí v církvích. Negativně faktor ovlivňuje počet Romů a překvapivě samotné Sudety. Nejnižší stabilita rodin je v Mostě (21) a nejvyšší v Kravařích (-56).
§5.2.1 Z nějakého důvodu je počet řemeslníků propojen s stabilitou komunit (asi opravář má více možností se seznamovat s zákazníky?). Jelikož více patří do sociálního statusu, zde jsem ho manuálně vymazal z výpočtu indexu.
§5.2.2 Tento faktor však není moc silný jako předchozí. Povšimněme si ale podobného rozdílu jako v §1.0.1 kvůli asociaci Sudet s nestabilními komunitami:
Výsledek 3
§6.0.0 Samozřejmě je více identifikovatelných faktorů, ale přijdou mi zajímavé tyto dva. Když je dám do finální regrese:
§6.0.1 Zde vidíme pár signifikantních koeficientů:
Zemědělství u ANO 2021
Znovu ozbrojené složky
U ANO 2021 počet žen
Velmi dominantní je samozřejmě S faktor, který odhaduje rozdíl mezi nejnižším a nejvyšším regionem na 22,4 % hlasů pro Babiše. Což je 63,4 % z skutečného rozdílu 35 %8.
Stabilita komunit ale není důležitá pro odhad volebního zisku Babiše. U obou případů. §5.2.2 je nejspíše nějaký statistický šum.
Závěr
§7.0.0 Závěrem bych řekl, že na samotných Sudetech moc nezáleží. Ano, byly poškozeny jak vyhnáním Němců (jejichž pozemky nedokázali Češi ve svých počtech zkolonizovat), tak vyhnáním Čechů z pohraničí po roce 1938 (o čemž se mnozí odpůrci Benešových dekretů moc nezmiňují). Ale zaostalé historicky Čechy obývané regiony též volí Babiše. Jako příklad lze vzít Ostravsko, které bylo jen menšinově germánské, ale dodnes trpí ukončením hornické činností po pádu komunismu.
§7.0.1 Když se zpětně podíváme na korelace vysokého počtu důchodců, tak se nelze divit, že tento efekt “sežral” sociální status. Většina důchodců nemá maturitu a nejčastěji vyšla učňák. Jejich mládí bylo spíše podobné dnešní nižší třídě. Kvůli tomu taky mají dnes mnozí nízké důchody.
§7.0.2 K pocitu, že na ně tradiční strany (ODS+ČSSD a jejich koaliční partneři) kašlou, přispívá i odliv schopných lidí z regionu. Jako člověk z zapomenuté obce fakt nechápu, proč bych tu nadále žil. A mnoho dalších známých, které uznávám jako rozumné lidi, odešli a nebo přemýšlí o odchodu. Kdo tu zůstal? Spolužáci, co nemají maturitu a dělají nějakou podprůměrně placenou práci. A staří lidé, kteří už mají po kariéře. A zda v regionu chybí vyšší třída, tak to není dobře. Například vidíme nedostatek lékařů. Můžeme se jim divit, že radši pracují ve větším městě za více?
§7.0.3 Zároveň je sociální třída spjata s ideologií. Ohrnovat nos nad určitými politickými stranami a názory je něco, jako když učenci před 400 lety psali latinsky nebo francouzsky. Nebo řečtí aristokraté citovali Homéra. Je to forma ukázání své vyšší pozice. Tudíž označení dezolát a lepšolidi je určitá ukázka lidové moudrosti.
§7.0.4 Demokratická společnost nám tedy nadělila kvůli cílenému marketingu politiků toxické mezilidské vztahy. Je hloupé házet vinu na cokoli jiného, jelikož v tomto systému není racionální se snažit “spojit lidi pod jednu vlajku“. Je utopistické tvořit stranu, kde budou mladí, staří, ženy, muži, podnikatelé, chudí, vysokoškoláci a cizinci rovně zastoupeni. Je lepší si vytipovat určitou skupinu a soustředit se na vytvoření jádra uvnitř ní. A pak se snažit o získání jiných bližších skupin. Dobro menšiny populace mne ani nemusí zajímat, jelikož k vládě stačí >50 % hlasů. Pokud teda ta menšina nejsou lidi, kteří mi dávají nejvíce peněz na kampaň :-)
§7.0.5 Zde ale musím říci, že Andrej Babiš udělal velkou chybu v přecenění, jak je jeho marketing vlivný. Ano, má silné jádro voličů. Ale ten zbytek se mu moc nedaří zlákat. Kdyby ho nenávidělo 45 % lidí, tak je to dle demokracie v pořádku. Poslední volby spíše ukázaly, že to je 60 % …
Limitace
§7.1.0 Na konec bych uvedl velký nedostatek této analýzy. A to je absence ekonomického statusu. Ten sice koreluje se sociálním, ale ne každý vysokoškolák-podnikatel je boháč. Spekuloval bych, že někdo s vysokým sociálním statusem, co nedosáhl slibovaného potenciálu, bude nejvíce anti-Babišovský, jelikož musí virtue-signalovat, že není nějaký obyčejný úředník.
to znamená nejmenší možný počet faktorů a nejvyšší možné R^2
bráno jako průměr rozdílu zisku Andreje Babiše v prezidentských volbách (~ 30 %) a ANO v poslaneckých (~ 40 %).