import pandas as pd
from IPython.display import HTML
from IPython.core.display import HTML
from IPython.display import Image
import re
import gender_guesser.detector as gender
import matplotlib.pyplot as plt
import requests
import geonamescache
from geonamescache import GeonamesCache 
import numpy as np
import plotly.express as px
from translate import Translator 
from geopy.geocoders import Nominatim

display(Image(filename='Bild.jpg', width=600, height=500))

df_alt = pd.read_excel("Tabelle.xlsx") # Tabelle in Python offnen

df_alt.shape # Anzahl Zeilen und Spalten

(7871, 32)

colnames = df_alt.columns.tolist()
print(colnames) # Spaltennamen

['PersonID', 'Name', 'Geburtsdatum,-ort/ggf. Sterbedatum,-ort', 'Beruf', 'Zieljahr1', 'Zielort1', 'Zieljahr2', 'Zielort2', 'Zieljahr3', 'Zielort3', 'Zieljahr4', 'Zielort4', 'Zieljahr5', 'Zielort5', 'Zieljahr6', 'Zielort6', 'Zieljahr7', 'Zielort7', 'Zieljahr8', 'Zielort8', 'Zieljahr9', 'Zielort9', 'Zieljahr10', 'Zielort10', 'Zieljahr11', 'Zielort11', 'Zieljahr12', 'Zielort12', 'Zieljahr13', 'Zielort13', 'Zieljahr14', 'Zielort14']

HTML(df_alt.iloc[:10, :4].to_html(index=False))

HTML(df_alt.iloc[:10, 4:19].to_html(index=False))

Beruf = df_alt["Beruf"].tolist() # Spalte Beruf als Liste

df_alt['Beruf'].head(20).to_list()

['Journalist',
 'prof. of chemistry',
 'Rechtsanwalt',
 'civil engineer',
 'prof. of biochemistry',
 'prof. of medicine',
 'musicologist',
 'Rabbiner',
 'prof. of French',
 'Diplomat,\xa0Historiker',
 'prof. of political science',
 'composer of light opera,\xa0film scores',
 'Gewerkschaftsfunktionär',
 'dancer,\xa0choreographer,\xa0teacher',
 'conductor,\xa0music director',
 'Fürsorgerin,\xa0Museumsdirektorin',
 'Prediger,\xa0Pädagoge',
 'Politiker,\xa0Publizist',
 'journalist',
 'Hochschullehrer']

Beruf = list(map(str, Beruf))    #Liste Beruf als String-Liste
Beruf = [element.replace("\xa0 ", " ") for element in Beruf]       #Entfernung der non-breaking space
Beruf = [wort.lower() for wort in Beruf]        #Berufe kleinschreiben
Berufsgruppe = []           #neue Liste "Berufsgruppe" öffnen

for beruf in Beruf: 
    if "politik" in beruf or "funktionär" in beruf: # Suche mit den Strings 
        Berufsgruppe.append("Politik")
    else:
        Berufsgruppe.append("andere Berufsgruppen")

print(Berufsgruppe[:20])

['andere Berufsgruppen', 'andere Berufsgruppen', 'andere Berufsgruppen', 'andere Berufsgruppen', 'andere Berufsgruppen', 'andere Berufsgruppen', 'andere Berufsgruppen', 'andere Berufsgruppen', 'andere Berufsgruppen', 'andere Berufsgruppen', 'andere Berufsgruppen', 'andere Berufsgruppen', 'Politik', 'andere Berufsgruppen', 'andere Berufsgruppen', 'andere Berufsgruppen', 'andere Berufsgruppen', 'Politik', 'andere Berufsgruppen', 'andere Berufsgruppen']

df_alt.insert(4, 'Berufsgruppe', Berufsgruppe) # neue Liste mit Berufsgruppe als Spalte

HTML(df_alt.iloc[:10, :5].to_html(index=False))

df_alt['Berufsgruppe'].value_counts() # Anzahl der gefundenen Politiker

Berufsgruppe
andere Berufsgruppen    6437
Politik                 1434
Name: count, dtype: int64

df = df_alt[df_alt['Berufsgruppe'].apply(lambda x: 'Politik' in str(x))]   #Zeilen mit gefundenen Politiker herausfiltern

df.shape

(1434, 33)

HTML(df.iloc[10:20, 1:5].to_html(index=False))

df['Name'].head(20).to_list() # noch nicht standardisierte Namen

['Abrahamowicz, Uriel (urspr. Walter)',
 'Abusch, Alexander',
 'Ackermann, Manfred',
 'Adam, Wilhelm (Willi)',
 'Adams (bis 1962 Cammnitzer), Ellen C.',
 'Adler, Friedrich Wolfgang (Fritz), Dr. rer. nat.',
 'Adler, Gerson',
 'Adler, Max Kurt, Dr. rer. pol.',
 'Adler-Rudel, Salomon (Shalom)',
 'Adolph (urspr. Adolf), Alfred',
 'Aenderl, Franz Xaver',
 'Albert, Peter Wenzel (von), Dr.',
 'Alexander, Henry Joachim, Dr. phil., Dr. jur.',
 'Alexander, Kurt, Dr. jur.',
 'Alexander, Walter, Dr. jur.',
 'Alfons, Anton',
 'Alliger, Ladislaus',
 'Allina, Heinrich',
 'Alroy, Efraim (bis 1938 Spiegel, Hermann)',
 'Alterthum, Martin, Dr. jur.']

Name = df["Name"].tolist() # Spalte "Namen" als Liste
string_Name = list(map(str, Name))   #Liste als String-Liste
Nachname = [element.split(',', 1)[0] for element in string_Name]  #liste der Nachnamen (Elemente vor ersten Komma)
Vorname = [element.split(',', 1)[-1] for element in string_Name]  #Liste der Vorname  (Elemente nach ersten Komma)

print(Nachname[:100]) #noch nicht standardisierten Nachnamen

['Abrahamowicz', 'Abusch', 'Ackermann', 'Adam', 'Adams (bis 1962 Cammnitzer)', 'Adler', 'Adler', 'Adler', 'Adler-Rudel', 'Adolph (urspr. Adolf)', 'Aenderl', 'Albert', 'Alexander', 'Alexander', 'Alexander', 'Alfons', 'Alliger', 'Allina', 'Alroy', 'Alterthum', 'Altmaier', 'Altrichter', 'Amter', 'Anders-Naumann', 'Apfel', 'Appelt', 'Arnold', 'Arnsberg', 'Aron', 'Arp', 'Arzt', 'Atlasz', 'Auerbach', 'Auerbach', 'Aufhäuser', 'Ausch', 'Aviad', 'Avidan', 'Avidar (urspr. Wroclawski)', 'Avnery', 'Avriel (urspr. Uiberall)', 'Azania', 'Baade', 'Babel', 'Bach', 'Bachman', 'Bachmann', 'Badt', 'Baender', 'Bäsel', 'Bahnik', 'Ballin', 'Bandmann', 'Bar-Giora (urspr. Bamberger)', 'Bar-Menachem', 'Bartel', 'Barth', 'Bato (urspr. Berliner)', 'Bauer', 'Bauer', 'Bauer', 'Bauernfeind', 'Bayern', 'Becher', 'Beck', 'Beck', 'Becker', 'Becker', 'Becker', 'Becker', 'Becker', 'Beckmann', 'Beckmann', 'Behrisch', 'Bein', 'Beling', 'Benda', 'Benedikt', 'Benfey', 'Benjamin', 'Benkovics (Benkovic)', 'Berczeller', 'Berger', 'Berger', 'Berger', 'Bernhard', 'Bernstein', 'Bertz', 'Beuer', 'Beuttel', 'Beyer', 'Beyth', 'Bill', 'Bindel', 'Binder', 'Binner', 'Birnbaum', 'Bischoff', 'Bitan (urspr. Baumgarten)', 'Blanc']

Nachname = [re.sub(r'\s\([^)]*\)', '', wort) for wort in Nachname] # Entfernung der Strings, die in Klammern nach einem Leerzeichen stehen

print(Nachname[:100]) # standardisierte Nachnamen

['Abrahamowicz', 'Abusch', 'Ackermann', 'Adam', 'Adams', 'Adler', 'Adler', 'Adler', 'Adler-Rudel', 'Adolph', 'Aenderl', 'Albert', 'Alexander', 'Alexander', 'Alexander', 'Alfons', 'Alliger', 'Allina', 'Alroy', 'Alterthum', 'Altmaier', 'Altrichter', 'Amter', 'Anders-Naumann', 'Apfel', 'Appelt', 'Arnold', 'Arnsberg', 'Aron', 'Arp', 'Arzt', 'Atlasz', 'Auerbach', 'Auerbach', 'Aufhäuser', 'Ausch', 'Aviad', 'Avidan', 'Avidar', 'Avnery', 'Avriel', 'Azania', 'Baade', 'Babel', 'Bach', 'Bachman', 'Bachmann', 'Badt', 'Baender', 'Bäsel', 'Bahnik', 'Ballin', 'Bandmann', 'Bar-Giora', 'Bar-Menachem', 'Bartel', 'Barth', 'Bato', 'Bauer', 'Bauer', 'Bauer', 'Bauernfeind', 'Bayern', 'Becher', 'Beck', 'Beck', 'Becker', 'Becker', 'Becker', 'Becker', 'Becker', 'Beckmann', 'Beckmann', 'Behrisch', 'Bein', 'Beling', 'Benda', 'Benedikt', 'Benfey', 'Benjamin', 'Benkovics', 'Berczeller', 'Berger', 'Berger', 'Berger', 'Bernhard', 'Bernstein', 'Bertz', 'Beuer', 'Beuttel', 'Beyer', 'Beyth', 'Bill', 'Bindel', 'Binder', 'Binner', 'Birnbaum', 'Bischoff', 'Bitan', 'Blanc']

print(Vorname[:50]) # noch nicht standardisierten Vornamen

[' Uriel (urspr. Walter)', ' Alexander', ' Manfred', ' Wilhelm (Willi)', ' Ellen C.', ' Friedrich Wolfgang (Fritz), Dr. rer. nat.', ' Gerson', ' Max Kurt, Dr. rer. pol.', ' Salomon (Shalom)', ' Alfred', ' Franz Xaver', ' Peter Wenzel (von), Dr.', ' Henry Joachim, Dr. phil., Dr. jur.', ' Kurt, Dr. jur.', ' Walter, Dr. jur.', ' Anton', ' Ladislaus', ' Heinrich', ' Efraim (bis 1938 Spiegel, Hermann)', ' Martin, Dr. jur.', ' Jakob', ' Josef', ' Hermann August Albert', ' Karl (urspr. Naumann, Kurt Wilhelm)', ' Alfred, Dr. jur.', ' Rudolf', ' Ludwig', ' Paul, Dr. jur.', ' Frederick Simon (urspr. Friedrich), Dr. med.', ' Erich Gustav Hinrich', ' Arthur Georg', ' Robert,Dr. med. dent.', ' Richard Joseph, Dr. jur.', ' Walter, Dr. phil.', ' Siegfried', ' Karl', ' Yeshayahu (urspr. Wolfsberg, Oscar), Dr. med.', ' Shimon (urspr. Koch, Simon)', ' Abraham', ' Uri (urspr. Ostermann, Helmut)', ' Ehud', ' Baruch (urspr. Eisenstadt, Boris), Dr.jur.', ' Fritz, Dr. rer. pol.', ' Kurt', ' David Josef, Dr. phil.', ' Ilse, geb. Rosenfeld', ' Kurt', ' Hermann, Dr. jur.', ' Paul', ' Friedrich (Fritz)']

Vorname= [element.strip() for element in Vorname]  #Entfernung des Leerzeichens vor dem Vornamen
Vorname = [re.sub(r'\s\([^)]*\)', '', wort) for wort in Vorname] #Entfernung der Zusatzinfo in Klammern bei Vornamen
Vorname = [re.sub(r',.*', '', text) for text in Vorname] # Entfernung der Kommas und Strings nach der Komma

print(Vorname[:50]) # standardisierte Vornamen

['Uriel', 'Alexander', 'Manfred', 'Wilhelm', 'Ellen C.', 'Friedrich Wolfgang', 'Gerson', 'Max Kurt', 'Salomon', 'Alfred', 'Franz Xaver', 'Peter Wenzel', 'Henry Joachim', 'Kurt', 'Walter', 'Anton', 'Ladislaus', 'Heinrich', 'Efraim', 'Martin', 'Jakob', 'Josef', 'Hermann August Albert', 'Karl', 'Alfred', 'Rudolf', 'Ludwig', 'Paul', 'Frederick Simon', 'Erich Gustav Hinrich', 'Arthur Georg', 'Robert', 'Richard Joseph', 'Walter', 'Siegfried', 'Karl', 'Yeshayahu', 'Shimon', 'Abraham', 'Uri', 'Ehud', 'Baruch', 'Fritz', 'Kurt', 'David Josef', 'Ilse', 'Kurt', 'Hermann', 'Paul', 'Friedrich']

df.insert(2, 'Nachname', Nachname) # Nachname als Spalte
df.insert(3, 'Vorname', Vorname) #Vorname als Spalte

HTML(df.iloc[10:20, 1:4].to_html(index=False)) #Ergebnis

Vorname_for_Gender = [name.replace('-', ' ').replace('.', ' ').replace(',', ' ') for name in Vorname] #Entfernung der  
#Bindestriche und vorsichtshalber auch weiteren Satzzeichen
Vorname_for_Gender = [name.split(' ', 1)[0] for name in Vorname_for_Gender]   #Abspeicherung des ersten Vornamen in einer Liste
Vorname_for_Gender = [name.replace('(', '').replace(')', '') for name in Vorname_for_Gender] # Entfernung der Klammer in Vornamen 
#wie z. B. Arndt, H(einz) W(olfgang)

print(Vorname_for_Gender[:100]) # Ergebnis der Trennung der ersten Vornamen

['Uriel', 'Alexander', 'Manfred', 'Wilhelm', 'Ellen', 'Friedrich', 'Gerson', 'Max', 'Salomon', 'Alfred', 'Franz', 'Peter', 'Henry', 'Kurt', 'Walter', 'Anton', 'Ladislaus', 'Heinrich', 'Efraim', 'Martin', 'Jakob', 'Josef', 'Hermann', 'Karl', 'Alfred', 'Rudolf', 'Ludwig', 'Paul', 'Frederick', 'Erich', 'Arthur', 'Robert', 'Richard', 'Walter', 'Siegfried', 'Karl', 'Yeshayahu', 'Shimon', 'Abraham', 'Uri', 'Ehud', 'Baruch', 'Fritz', 'Kurt', 'David', 'Ilse', 'Kurt', 'Hermann', 'Paul', 'Friedrich', 'Wilhelm', 'Günther', 'Eugen', 'Naftali', 'Abraham', 'Walter', 'Heinrich', 'Ludwig', 'Leo', 'Otto', 'Robert', 'Karl', 'Rupprecht', 'Lilly', 'Karl', 'Karl', 'Fritz', 'Heinrich', 'Karl', 'Karl', 'Ludwig', 'Käthe', 'Rudolf', 'Arno', 'Naftali', 'Walter', 'Kurt', 'Otto', 'Alice', 'Alfred', 'Stefan', 'Adolf', 'Alfred', 'Herzl', 'Kurt', 'Georg', 'Rudolf', 'Paul', 'Gustav', 'Wilhelm', 'Anna', 'Hans', 'Friedrich', 'Jakob', 'Otto', 'Wilhelm', 'Max', 'Hermann', 'Moshe', 'Thomas']

Geschlecht = [] #neue Liste "Geschlecht"
for name in Vorname_for_Gender: #Ermittlung der Gender mit Paket Gender_guesser
     d = gender.Detector()
     geschlecht = d.get_gender(name)
     Geschlecht.append(geschlecht) #Abspeicherung des Geschlechts in Liste "Geschlecht"

datei_Geschlecht = open("Geschlecht.txt", "w", encoding="utf-8") # Abspeicherung in einer txt-Datei
for geschlecht in Geschlecht: 
     #datei_Geschlecht.write(geschlecht)
     #datei_Geschlecht.write("\n")

Gender = open("Gender.txt", "r", encoding="utf-8").read().split("\n")[:-1] #Hochladen der abgespeicherten Liste

element_counts = pd.Series(Gender).value_counts() # unique Elemente der Liste
print(element_counts)

male           1288
female          116
unknown          23
andy              4
mostly_male       3
Name: count, dtype: int64

Geschlecht_german = [] #Übersetzung der Geschlechter ins Deutsche
for gender in Gender:
     if gender == "male":
        Geschlecht_german.append("männlich")
     elif gender == "female":
         Geschlecht_german.append("weiblich")
     else:
        Geschlecht_german.append("unbekannt")

print(Geschlecht_german[:50])

['männlich', 'männlich', 'männlich', 'männlich', 'weiblich', 'männlich', 'männlich', 'männlich', 'männlich', 'männlich', 'männlich', 'männlich', 'männlich', 'männlich', 'männlich', 'männlich', 'männlich', 'männlich', 'männlich', 'männlich', 'männlich', 'männlich', 'männlich', 'männlich', 'männlich', 'männlich', 'männlich', 'männlich', 'männlich', 'männlich', 'männlich', 'männlich', 'männlich', 'männlich', 'männlich', 'männlich', 'männlich', 'männlich', 'männlich', 'männlich', 'männlich', 'männlich', 'männlich', 'männlich', 'männlich', 'weiblich', 'männlich', 'männlich', 'männlich', 'männlich']

df.insert(4, 'Gender', Geschlecht_german)

HTML(df.iloc[:10, 2:5].to_html(index=False))

data_counts = df['Gender'].value_counts().reset_index()
data_counts.columns = ['Gender', 'Häufigkeit']
fig = px.bar(data_counts, x="Gender", y="Häufigkeit", color="Gender", width=800, height=600, text="Häufigkeit", 
             color_discrete_sequence=['#1f77b4', 'navy', 'darkgrey'], title="Geschlechterverteilung", opacity=0.5)
fig.update_layout(bargap=0.6) 
fig.update_traces(textposition='outside')
fig.update_layout(template="plotly_white")
fig.update_traces(
    hovertemplate= 'Gender: %{x}<extra></extra><br>' + 
                   'Häufigkeit: %{y}' 
)
fig.show()

datum = df["Geburtsdatum,-ort/ggf. Sterbedatum,-ort"].tolist() # Spalte mit Geburts-und Sterbejahren als Liste

print(datum[:20])

['geb. 29. Sept. 1915\xa0 Wien;\xa0', 'geb. 14. Febr. 1902\xa0 Nürnberg;\xa0', 'geb. 1. Nov. 1898\xa0 Nikolsburg/Mähren;\xa0', 'geb. 26. Juli 1905\xa0 Ludenberg b. Düsseldorf;\xa0', 'geb. 1. Mai 1925\xa0 Hannover;\xa0', 'geb. 9. Juli 1879\xa0 Wien,\xa0 gest. 2. Jan. 1960\xa0 Zürich;\xa0', 'geb. 2. Okt. 1927\xa0 Berlin;\xa0', 'geb. 12. Juni 1905\xa0 Pilsen/Böhmen;\xa0', 'geb. 23. Juni 1894\xa0 Czernowitz/Bukowina,\xa0 gest. 14. Nov. 1975\xa0 Jerusalem;\xa0', 'geb. 30. Juli 1895\xa0 Sommerfeld/Niederlausitz,\xa0 gest. 27. Apr. 1959\xa0 Berlin (Ost);\xa0', 'geb. 25. Nov. 1883\xa0 Steinweg b. Regensburg,\xa0 gest. 20. Okt. 1951\xa0 Kulmbach/Oberfr.;\xa0', 'k.A.', 'geb. 4. Jan. 1897;\xa0', 'geb. 13. Aug. 1892\xa0 Krefeld,\xa0 gest. 18. Febr. 1962\xa0 New York;\xa0', 'geb. 20. März 1878\xa0 Berlin,\xa0 gest. 20. Apr. 1949\xa0 New York;\xa0', 'geb. 17. Jan. 1898\xa0 Wampersdorf b. Mödling/Niederösterr.;\xa0', 'geb. 1898 (?),\xa0 gest. 1942\xa0 in GB;\xa0', 'geb. 24. Nov. 1878\xa0 Schaffa/Mähren,\xa0 gest. 10. Dez. 1953\xa0 Wien;\xa0', 'geb. 15. Aug. 1915\xa0 Hamburg;\xa0', 'geb. 31. Aug. 1887\xa0 Bernberg/Saale,\xa0 gest. 12. Febr. 1976\xa0 Tel Aviv;\xa0']

geboren = [] #neue Liste für Strings mit geburtsbezogener Informantion
regex_geboren = re.compile(r'(?:^geb\.|^b\.)\s+(.*?)(?:\bd\.|\bgest\.|\bg\.|\bgef\.|\bumgek\.|\bexecuted|\bdied|\bhinger\.|$)', re.DOTALL)
for satz in datum: # Extrakion der Strings, die zwischen geburts- und sterbebezogenen Strings oder nach geburtsbezogenen Strings stehen
     ergebnisse = regex_geboren.findall(satz)
     if ergebnisse:
         for extrakt in ergebnisse:
                 geboren.append(extrakt) #Abspeicherung der geburtsbezogenen Strings
     else:
        geboren.append("")

print(geboren[:20])

['29. Sept. 1915\xa0 Wien;\xa0', '14. Febr. 1902\xa0 Nürnberg;\xa0', '1. Nov. 1898\xa0 Nikolsburg/Mähren;\xa0', '26. Juli 1905\xa0 Ludenberg b. Düsseldorf;\xa0', '1. Mai 1925\xa0 Hannover;\xa0', '9. Juli 1879\xa0 Wien,\xa0 ', '2. Okt. 1927\xa0 Berlin;\xa0', '12. Juni 1905\xa0 Pilsen/Böhmen;\xa0', '23. Juni 1894\xa0 Czernowitz/Bukowina,\xa0 ', '30. Juli 1895\xa0 Sommerfeld/Niederlausitz,\xa0 ', '25. Nov. 1883\xa0 Steinweg b. Regensburg,\xa0 ', '', '4. Jan. 1897;\xa0', '13. Aug. 1892\xa0 Krefeld,\xa0 ', '20. März 1878\xa0 Berlin,\xa0 ', '17. Jan. 1898\xa0 Wampersdorf b. Mödling/Niederösterr.;\xa0', '1898 (?),\xa0 ', '24. Nov. 1878\xa0 Schaffa/Mähren,\xa0 ', '15. Aug. 1915\xa0 Hamburg;\xa0', '31. Aug. 1887\xa0 Bernberg/Saale,\xa0 ']

gestorben = [] #neue Liste für Strings mit sterbebezogener Informantion
regex_gestorben = re.compile(r'(?:\bgest\.|\bg\.|\bd\.|\bexecuted|\bgef\.|\bdied|\bhinger\.|\bgef\.|\bhinger\.)\s+(.*)', re.IGNORECASE)
for satz in datum: # Extraktion der Strings, die nach sterbebezognen Strings stehen
     ergebnisse = regex_gestorben.findall(satz)
     if ergebnisse:
         for extrakt in ergebnisse:
             gestorben.append(extrakt) #Abspeicherung der sterbebezogenen Strings
     else:
         gestorben.append("")

print(gestorben[:20])

['', '', '', '', '', '2. Jan. 1960\xa0 Zürich;\xa0', '', '', '14. Nov. 1975\xa0 Jerusalem;\xa0', '27. Apr. 1959\xa0 Berlin (Ost);\xa0', '20. Okt. 1951\xa0 Kulmbach/Oberfr.;\xa0', '', '', '18. Febr. 1962\xa0 New York;\xa0', '20. Apr. 1949\xa0 New York;\xa0', '', '1942\xa0 in GB;\xa0', '10. Dez. 1953\xa0 Wien;\xa0', '', '12. Febr. 1976\xa0 Tel Aviv;\xa0']

geburtsjahr = [] #neue Liste für Geburtsjahr
for jahr in geboren: #nach Geburtsjahr mit RegEx in Liste "geboren" suchen
    matches = re.findall(r"18[0-9][0-9]|19[0-9][0-9]", jahr) #Regex für die Suche nach Jahreszahlen
    geburtsjahr.append(matches)

print(geburtsjahr[715:750])

[['1895'], ['1898', '1897'], ['1912'], ['1891'], ['1905'], ['1893'], ['1869'], ['1896'], ['1905'], ['1902'], ['1901'], ['1903'], ['1900'], ['1887'], ['1898'], ['1899'], ['1871'], ['1923'], ['1914'], ['1900'], ['1899'], ['1870'], ['1885'], ['1886'], ['1922'], ['1907'], ['1906'], ['1911'], ['1885'], [], ['1870'], ['1891'], ['1888'], [], ['1920']]

sterbejahr = [] #neue Liste für "Sterbejahr"
for jahr in gestorben: #nach Sterbejahr mit RegEx in Liste "gestorben" suchen
    matches = re.findall(r"18[0-9][0-9]|19[0-9][0-9]", jahr) #Regex für die Suche nach Jahreszahlen
    sterbejahr.append(matches)

print(sterbejahr[:20])

[[], [], [], [], [], ['1960'], [], [], ['1975'], ['1959'], ['1951'], [], [], ['1962'], ['1949'], [], ['1942'], ['1953'], [], ['1976']]

Geburtsjahr = [element[0] if len(element) == 1 else '' for element in geburtsjahr]  #neue Liste für Geburtsjahre ohne Klammern 
#und ohne mehrmals vorkommenen Jahren

print(Geburtsjahr[715:750])

['1895', '', '1912', '1891', '1905', '1893', '1869', '1896', '1905', '1902', '1901', '1903', '1900', '1887', '1898', '1899', '1871', '1923', '1914', '1900', '1899', '1870', '1885', '1886', '1922', '1907', '1906', '1911', '1885', '', '1870', '1891', '1888', '', '1920']

Sterbejahr = [element[0] if len(element) == 1 else '' for element in sterbejahr]

print(Sterbejahr[:20])

['', '', '', '', '', '1960', '', '', '1975', '1959', '1951', '', '', '1962', '1949', '', '1942', '1953', '', '1976']

df.insert(5, 'Geburtsjahr', Geburtsjahr) # Geburtsjahr zu Spalte

df.insert(6, 'Sterbejahr', Sterbejahr) #Sterbejahr zu Spalte

HTML(df.iloc[:10, 2:7].to_html(index=False))

Ausreisejahr = df["Zieljahr1"].tolist()  #Spalte Zieljahr1 (Jahr der ersten Ausreise) zu Liste
Geburtsjahr = df["Geburtsjahr"].tolist()   #Spalte Geburtsjahr zu Liste

datentypen = [type(wert) for wert in Ausreisejahr]
print(datentypen[:20])

[<class 'float'>, <class 'float'>, <class 'float'>, <class 'float'>, <class 'float'>, <class 'float'>, <class 'float'>, <class 'float'>, <class 'float'>, <class 'float'>, <class 'float'>, <class 'float'>, <class 'float'>, <class 'float'>, <class 'float'>, <class 'float'>, <class 'float'>, <class 'float'>, <class 'float'>, <class 'float'>]

datentypen = [type(wert) for wert in Geburtsjahr] # Geburtsjahre sind als Strings abgespeichert
#und sollen zunächst in Floats umgewandelt werden
print(datentypen[:20])

[<class 'str'>, <class 'str'>, <class 'str'>, <class 'str'>, <class 'str'>, <class 'str'>, <class 'str'>, <class 'str'>, <class 'str'>, <class 'str'>, <class 'str'>, <class 'str'>, <class 'str'>, <class 'str'>, <class 'str'>, <class 'str'>, <class 'str'>, <class 'str'>, <class 'str'>, <class 'str'>]

Geburtsjahr = [float(x) if x else np.nan for x in Geburtsjahr] # String zu Float
datentypen = [type(wert) for wert in Geburtsjahr]
print(datentypen[:20])

[<class 'float'>, <class 'float'>, <class 'float'>, <class 'float'>, <class 'float'>, <class 'float'>, <class 'float'>, <class 'float'>, <class 'float'>, <class 'float'>, <class 'float'>, <class 'float'>, <class 'float'>, <class 'float'>, <class 'float'>, <class 'float'>, <class 'float'>, <class 'float'>, <class 'float'>, <class 'float'>]

ergebnis = [] #neue Liste für Ausreisealter
for wert_a, wert_b in zip(Ausreisejahr, Geburtsjahr): #Aus dem Ausreisejahr das Geburtsjahr abziehen
     ergebnis.append(wert_a - wert_b)

print(ergebnis[:20])

[19.0, 31.0, 40.0, 28.0, 14.0, 56.0, 12.0, 33.0, 42.0, 38.0, 51.0, nan, nan, 47.0, 61.0, 40.0, 40.0, 61.0, 18.0, 51.0]

df.insert(7, 'Ausreisealter', ergebnis) # neue Spalte "Ausreisealter" hinzufügen

HTML(df.iloc[:10, 2:8].to_html(index=False))

alter_counts = df['Ausreisealter'].value_counts().sort_index()
custom_colorscale = ['lightblue', '#2874a6']
fig = px.bar(alter_counts, x= alter_counts.index, y = alter_counts.values, width=850, height=650, color = alter_counts.values,
             title = "Ausreisealter",
             color_continuous_scale=custom_colorscale, opacity=0.8)
fig.update_layout(
    xaxis_title='Ausreisealter',  # Manuelle Benennung der x-Achse
    yaxis_title='Häufigkeit'
)
fig.update_traces(
    hovertemplate="Ausreisealter: %{x}<br>Häufigkeit: %{y}"
)
fig.update_xaxes(dtick=5)
fig.update_layout(template="plotly_white")
fig.show()

year_counts = df['Zieljahr1'].value_counts().sort_index()
year_counts = year_counts[(year_counts.index >= 1933) & (year_counts.index <= 1940)]
fig = px.bar(year_counts, x= year_counts.index, y = year_counts.values, width=850, height=650, color = year_counts.values,
             title = "Ausreisen pro Jahr",
             color_continuous_scale=[[0, 'steelblue'], [1, 'navy']], opacity=0.7)
fig.update_traces(textposition='outside')
fig.update_layout(bargap=0.1)
fig.update_layout(
    xaxis_title='Ausreisejahr',  # Manuelle Benennung der x-Achse
    yaxis_title='Häufigkeit'
)
fig.update_traces(
    hovertemplate="Ausreisejahr: %{x}<br>Häufigkeit: %{y}"
)
fig.update_layout(template="plotly_white")
fig.show()

df_land = df[['Zielort1', 'Zielort2', 'Zielort3', 'Zielort4', 
              'Zielort5', 'Zielort6', 'Zielort7', 'Zielort8', 'Zielort9',
              'Zielort10', 'Zielort11', 'Zielort12', 'Zielort13', 'Zielort14']]

fehlende_werte = df_land.isnull() # Ermittlung der fehlenden und nicht fehlenden Werte
print(fehlende_werte[:5])

    Zielort1  Zielort2  Zielort3  Zielort4  Zielort5  Zielort6  Zielort7  \
12     False      True      True      True      True      True      True   
17     False     False     False     False     False      True      True   
20     False     False     False     False      True      True      True   
25     False     False     False     False      True      True      True   
26     False     False      True      True      True      True      True   

    Zielort8  Zielort9  Zielort10  Zielort11  Zielort12  Zielort13  Zielort14  
12      True      True       True       True       True       True       True  
17      True      True       True       True       True       True       True  
20      True      True       True       True       True       True       True  
25      True      True       True       True       True       True       True  
26      True      True       True       True       True       True       True

anzahl_einträge = df_land.shape[1] - fehlende_werte.sum(axis=1) # Anzahl der Spalten minus Summe der fehlenden Werte
#pro Zeile
print(anzahl_einträge[:10])

12    1
17    5
20    4
25    4
26    2
42    4
43    1
58    1
63    2
65    7
dtype: int64

liste = anzahl_einträge.tolist()
df.insert(11, 'Anzahl_Zielorte', liste) # neue Spalte "Anzahl_Zielorte hinzufügen

HTML(df.iloc[:10, 11:25].to_html(index=False)) # neue Spalte "Anzahl_Zielorte hinzufügen

places_counts = df['Anzahl_Zielorte'].value_counts().sort_index()
custom_colorscale = ['navy', 'lightblue']
fig = px.bar(places_counts, x= places_counts.index, y = places_counts.values, width=850, height=650, color = places_counts.values,
             title = "Anzahl der Zielorte",
             color_continuous_scale=custom_colorscale, opacity=0.7)
fig.update_traces(textposition='outside')
fig.update_layout(bargap=0.1)
fig.update_layout(
    xaxis_title='Anzahl Zielorte',  # Manuelle Benennung der x-Achse
    yaxis_title='Häufigkeit'
)
fig.update_layout(template="plotly_white")
fig.update_xaxes(dtick=1)
fig.update_traces(
    hovertemplate="Anzahl Zielorte: %{x}<br>Häufigkeit: %{y}"
)
fig.show()

HTML(df.iloc[:10, 12:26].to_html(index=False))

Zielort = df["Zielort1"].tolist()  # Spalte "Zielort1" als Liste
Zielort = list(map(str, Zielort))  # Liste als String-Liste

datei_Ziel1 = open("Zielort1.txt", "w", encoding="utf-8")  # Öffnen der Datei für Abspeicherung der Ergebnisse
country_list = []  # neue Liste für Länder-Codes

for city in Zielort:
    # die Werte der Zeile werden nacheinander in die Suchseite der GeoNames-Datenbank geschickt
    response = requests.request("GET", f"https://www.geonames.org/search.html?q={city}&country=")
    ergebnis = re.findall(r"/countries.*\.html", response.text)  # auf der Ergebnis-Seite wird Spalte Countries gefunden
    
    if city == "nan":
        country_list.append("")
    elif city == "Saarbrücken":
        country_list.append("Saarbrücken")
    elif ergebnis:
        # dem ersten Ergebnis in der Spalte Countries [0] wird ein ".html"-String abgetrennt
        # Danach wird der Länder-Code an der Stelle [-2] gefunden
        country_code = ergebnis[0].strip(".html").split("/")[-2]
        country_list.append(country_code)
    else:
        #country_list.append("")

for country in country_list:  # Länder-Coden werden in einer txt-Datei abgespeichert
    datei_Ziel1.write(country)
    datei_Ziel1.write("\n")

datei_Ziel1.close()

Zielland1 = open("Zielort1.txt", "r", encoding="utf-8").read().split("\n")[:-1]
print(Zielland1[:100])

['PS', 'Saarbrücken', 'BE', 'Saarbrücken', 'GB', 'BE', 'US', 'GB', 'GB', 'CZ', 'CZ', 'GB', 'GB', 'GB', 'FR', 'NO', 'GB', 'GB', 'PS', 'PS', 'FR', 'PL', 'DK', 'CZ', 'FR', 'RU', 'RU', 'PS', 'FR', 'SX', 'CZ', 'PS', 'GB', 'SX', 'FR', 'GB', 'PS', 'PS', 'GB', 'PS', 'PS', 'PS', 'TR', 'GB', 'GB', 'US', 'FR', 'PS', 'CZ', 'FR', 'RU', 'AR', 'CN', 'PS', 'SX', 'CZ', 'FR', 'PS', 'CZ', 'IT', 'LU', 'GB', 'IT', 'AT', 'BE', 'SE', 'RS', 'Saarbrücken', 'CZ', 'SX', 'SX', 'GB', 'GB', 'CZ', 'PS', 'CZ', 'GB', 'RU', 'AU', 'FR', 'SE', 'FR', 'PS', 'PS', 'PE', 'DK', 'RU', 'FR', 'GB', 'Saarbrücken', 'BE', 'PS', 'EC', 'IT', 'FR', 'CZ', 'US', 'ZA', 'PS', 'FR']

gc = geonamescache.GeonamesCache() #mithilfe der Dictionaries werden vollständigen Namen der Länder ermittelt
countries = gc.get_countries()
country_names = []
for land_code in Zielland1:
    if land_code == "":
        country_names.append("")
    elif land_code == "Saarbrücken":
        country_names.append("Saarbrücken")
    elif land_code in countries:
        country_names.append(countries[land_code]['name'])
    else:
        country_names.append("")

land_namen=country_names

unique_liste = list(set(land_namen)) #unique Liste
unique_liste = list(map(str, unique_liste)) #unique Liste als String
unique_liste = [word for word in unique_liste if word != ''] #Entfernung fehlender Werte
print(unique_liste)

['Trinidad and Tobago', 'France', 'Luxembourg', 'New Zealand', 'China', 'United Kingdom', 'United States', 'Mexico', 'Palestinian Territory', 'Bolivia', 'Austria', 'Belgium', 'Turkey', 'Sweden', 'Serbia', 'Argentina', 'Russia', 'Cuba', 'Kyrgyzstan', 'Norway', 'Sint Maarten', 'Canada', 'Paraguay', 'Peru', 'Germany', 'Chile', 'Netherlands', 'Saarbrücken', 'Finland', 'Colombia', 'Latvia', 'Czechia', 'Australia', 'Poland', 'South Africa', 'Morocco', 'Uruguay', 'Brazil', 'Hungary', 'Denmark', 'Ecuador', 'Spain', 'Italy', 'Egypt']

unique_liste.remove("Sint Maarten") # Entfernung aus der unique liste
country_names = ["Netherlands" if city == "Sint Maarten" else city for city in country_names] # Ersetzung in der Ergebnisliste durch Netherlans

print(unique_liste)

['Trinidad and Tobago', 'France', 'Luxembourg', 'New Zealand', 'China', 'United Kingdom', 'United States', 'Mexico', 'Palestinian Territory', 'Bolivia', 'Austria', 'Belgium', 'Turkey', 'Sweden', 'Serbia', 'Argentina', 'Russia', 'Cuba', 'Kyrgyzstan', 'Norway', 'Canada', 'Paraguay', 'Peru', 'Germany', 'Chile', 'Netherlands', 'Saarbrücken', 'Finland', 'Colombia', 'Latvia', 'Czechia', 'Australia', 'Poland', 'South Africa', 'Morocco', 'Uruguay', 'Brazil', 'Hungary', 'Denmark', 'Ecuador', 'Spain', 'Italy', 'Egypt']

capitals = []  # neue Liste für Hauptstädte
gc = GeonamesCache()  # Ermittlung der Hauptstädte mithilfe der GeoName-Datenbank

for country in unique_liste:
    if country == "Saarbrücken":
        capitals.append("Saarbrücken")
    else:
        country_info = gc.get_countries_by_names().get(country)
        if country_info:
            capital = country_info.get("capital")
            capitals.append(capital)
        else:
            capitals.append("")

print(capitals)

['Port of Spain', 'Paris', 'Luxembourg', 'Wellington', 'Beijing', 'London', 'Washington', 'Mexico City', 'East Jerusalem', 'Sucre', 'Vienna', 'Brussels', 'Ankara', 'Stockholm', 'Belgrade', 'Buenos Aires', 'Moscow', 'Havana', 'Bishkek', 'Oslo', 'Ottawa', 'Asuncion', 'Lima', 'Berlin', 'Santiago', 'Amsterdam', 'Saarbrücken', 'Helsinki', 'Bogota', 'Riga', 'Prague', 'Canberra', 'Warsaw', 'Pretoria', 'Rabat', 'Montevideo', 'Brasilia', 'Budapest', 'Copenhagen', 'Quito', 'Madrid', 'Rome', 'Cairo']

capitals = ["Jerusalem" if capital == "East Jerusalem" else capital for capital in capitals]
print(capitals)

['Port of Spain', 'Paris', 'Luxembourg', 'Wellington', 'Beijing', 'London', 'Washington', 'Mexico City', 'Jerusalem', 'Sucre', 'Vienna', 'Brussels', 'Ankara', 'Stockholm', 'Belgrade', 'Buenos Aires', 'Moscow', 'Havana', 'Bishkek', 'Oslo', 'Ottawa', 'Asuncion', 'Lima', 'Berlin', 'Santiago', 'Amsterdam', 'Saarbrücken', 'Helsinki', 'Bogota', 'Riga', 'Prague', 'Canberra', 'Warsaw', 'Pretoria', 'Rabat', 'Montevideo', 'Brasilia', 'Budapest', 'Copenhagen', 'Quito', 'Madrid', 'Rome', 'Cairo']

df_koord = pd.DataFrame({'Land': unique_liste , 'Stadt': capitals})
print(df_koord[:20])

                     Land          Stadt
0     Trinidad and Tobago  Port of Spain
1                  France          Paris
2              Luxembourg     Luxembourg
3             New Zealand     Wellington
4                   China        Beijing
5          United Kingdom         London
6           United States     Washington
7                  Mexico    Mexico City
8   Palestinian Territory      Jerusalem
9                 Bolivia          Sucre
10                Austria         Vienna
11                Belgium       Brussels
12                 Turkey         Ankara
13                 Sweden      Stockholm
14                 Serbia       Belgrade
15              Argentina   Buenos Aires
16                 Russia         Moscow
17                   Cuba         Havana
18             Kyrgyzstan        Bishkek
19                 Norway           Oslo

Capitals = df_koord["Stadt"].tolist() #Spalte Hauptstädte als Liste
geolocator = Nominatim(user_agent="my_geocoder", timeout=10) #Ermittlung der Koordinaten der Hauptstädte mit Paket Nominatim
lat = [] #neue Liste für Latitude
lon = [] #neue Liste für Longitude
for capital in Capitals:
    location = geolocator.geocode(capital)
    if location:
        lat.append(location.latitude)
        lon.append(location.longitude)
    else:
        lat.append('')
        lon.append('')
df_koord["lat"] = lat # Latitude-Spalte wird dem Data Frame "Koordinaten" hinzugefügt
df_koord["lon"] = lon #Longitude wird dem Data Frame "Koordinaten" hinzugefügt 
df_koord.to_excel("Koordinaten.xlsx")

df_koord=pd.read_excel("Koordinaten.xlsx")
print(df_koord[:20])

                     Land          Stadt        lat         lon
0     Trinidad and Tobago  Port of Spain  10.657268  -61.518017
1                 Denmark     Copenhagen  55.686724   12.570072
2                 Czechia         Prague  50.059629   14.446459
3                  Canada         Ottawa  45.420878  -75.690111
4          United Kingdom         London  51.489334   -0.144055
5                  Latvia           Riga  56.949398   24.105185
6                  Norway           Oslo  59.913330   10.738970
7                   China        Beijing  39.905714  116.391297
8                   Spain         Madrid  40.416705   -3.703582
9                 Austria         Vienna  48.208354   16.372504
10                 Brazil       Brasilia -10.333333  -53.200000
11                Uruguay     Montevideo -34.905892  -56.191310
12             Luxembourg     Luxembourg  49.611277    6.129799
13              Australia       Canberra -35.297591  149.101268
14            New Zealand     Wellington -41.288795  174.777211
15                Hungary       Budapest  47.497879   19.040238
16                 France          Paris  48.853495    2.348391
17                 Mexico    Mexico City  19.432630  -99.133178
18          United States     Washington  38.895037  -77.036543
19  Palestinian Territory      Jerusalem  31.788472   35.218794

translator = Translator(to_lang="German") #Übersetzung der unique_liste ins Deutsche mit dem Paket Translator
word_dict = {} #eues Wörterbuch für Länder auf Englisch und auf Deutsch

for word in unique_liste:
    translated_word = translator.translate(word)
    word_dict[word] = translated_word #dem Dictionary werden die Ergebnisse der Übersetzung hinzugefügt
with open('land_dict.txt', 'w') as file: # neue txt-Datei für Dictionary
    for eng_word, de_word in word_dict.items():
        file.write(f"{eng_word}\t{de_word}\n") # Abspeicherung der Dictionary

word_dict = {} #neuer Dictionary 
with open('land_dict.txt', 'r') as file:
    for line in file:
        eng_word, de_word = line.strip().split('\t')
        word_dict[eng_word] = de_word #dem Dictionary werden die englische und deutsche Wörter hinzugefügt
translated_words = [] #neue Liste für übersetzte Länder
for word in country_names: #Übersetzung der Spalte mit Dictionary
    if word in word_dict:
        translated_words.append(word_dict[word])
    else:
        translated_words.append("")

print(translated_words[:20])

['Palästina', 'Saarbrücken', 'Belgien', 'Saarbrücken', 'Vereinigtes Königreich', 'Belgien', 'Vereinigte Staaten', 'Vereinigtes Königreich', 'Vereinigtes Königreich', 'Tschechien', 'Tschechien', 'Vereinigtes Königreich', 'Vereinigtes Königreich', 'Vereinigtes Königreich', 'Frankreich', 'Norwegen', 'Vereinigtes Königreich', 'Vereinigtes Königreich', 'Palästina', 'Palästina']

Land=df_koord['Land'].tolist()
übersetzte_länder = [] #neue Liste für übersetzte Länder
for land in Land: #Übersetzung der Spalte mit Dictionary
    if land in word_dict:
        übersetzte_länder.append(word_dict[land])
    else:
        übersetzte_länder.append("")
print(übersetzte_länder)

['Trinidad und Tobago', 'Dänemark', 'Tschechien', 'Kanada', 'Vereinigtes Königreich', 'Lettland', 'Norwegen', 'China', 'Spanien', 'Österreich', 'Brasilien', 'Uruguay', 'Luxemburg', 'Australien', 'Neuseeland', 'Ungarn', 'Frankreich', 'Mexiko', 'Vereinigte Staaten', 'Palästina', 'Argentinien', 'Marokko', 'Belgien', 'Paraguay', 'Finnland', 'Ekuador', 'Saarbrücken', 'Kuba', 'Südafrika', 'Türkei', 'Kirgisistan', 'Deutschland', 'Polen', 'Chile', 'Kolumbien', 'Serbien', 'Ägypten', 'Peru', 'Bolivien', 'Schweden', 'Niederlande', 'Russland', 'Italien']

ersetzungen = {
    "Vereinigtes Königreich": "UK",
    "Vereinigte Staaten": "USA",
    "Tschechien": "Tschechoslowakei",
    "Russland": "Sowjet Union"
}
translated_words = [ersetzungen.get(ort, ort) for ort in translated_words]
print(translated_words[:20])

['Palästina', 'Saarbrücken', 'Belgien', 'Saarbrücken', 'UK', 'Belgien', 'USA', 'UK', 'UK', 'Tschechoslowakei', 'Tschechoslowakei', 'UK', 'UK', 'UK', 'Frankreich', 'Norwegen', 'UK', 'UK', 'Palästina', 'Palästina']

übersetzte_länder = [ersetzungen.get(ort, ort) for ort in übersetzte_länder]

df_koord.insert(2, 'Land_german', übersetzte_länder)

print(df_koord[:10])

                  Land          Stadt          Land_german        lat  \
0  Trinidad and Tobago  Port of Spain  Trinidad und Tobago  10.657268   
1              Denmark     Copenhagen             Dänemark  55.686724   
2              Czechia         Prague     Tschechoslowakei  50.059629   
3               Canada         Ottawa               Kanada  45.420878   
4       United Kingdom         London                   UK  51.489334   
5               Latvia           Riga             Lettland  56.949398   
6               Norway           Oslo             Norwegen  59.913330   
7                China        Beijing                China  39.905714   
8                Spain         Madrid              Spanien  40.416705   
9              Austria         Vienna           Österreich  48.208354   

          lon  
0  -61.518017  
1   12.570072  
2   14.446459  
3  -75.690111  
4   -0.144055  
5   24.105185  
6   10.738970  
7  116.391297  
8   -3.703582  
9   16.372504

df.insert(14, 'Zielland1_german', translated_words) # neue Spalte "Zielland1_german" hinzufügen

HTML(df.iloc[:20, 12:20].to_html(index=False))

df_1933 = df[df['Zieljahr1'] == 1933]['Zielland1_german'].value_counts().reset_index() # Erstellung der Tabelle mit Einreisehäufigkeit 
#der einzelnen Zielländer im Jahr 1933 für Visualisierung mit bar_polar

df_1933.columns = ['Land_german', 'Anzahl_Einreisen']

print(df_1933[:10])

        Land_german  Anzahl_Einreisen
0  Tschechoslowakei               112
1        Frankreich                73
2             China                50
3       Saarbrücken                47
4       Niederlande                46
5         Palästina                41
6      Sowjet Union                39
7          Dänemark                24
8                UK                19
9        Österreich                18

fig = px.bar_polar(df_1933[:11], r="Anzahl_Einreisen", theta = "Land_german", title = "Zielländer 1933", 
                   color = "Anzahl_Einreisen",
                  color_continuous_scale=[
        (0, "rgba(0, 0, 139, 0.6)"),  
        (0.5, "rgba(255, 255, 255, 1)"), 
        (1, "rgba(139, 0, 0, 0.6)")  
    ])
fig.update_layout(width=830, height=600)
fig.update_layout(
    coloraxis_colorbar=dict(
        title="Anzahl der Einreisen" 
    )
)
fig.update_traces(
    hovertemplate="<b>%{theta}</b><br>Häufigkeit: %{r}"
)
fig.show()

df_filtered = df[(df['Zieljahr1'] >= 1933) & (df['Zieljahr1'] <= 1939)] # Ausschluss der Jahre mit wenigen Einreisen
country_counts = df_filtered['Zielland1_german'].value_counts() # Ermittlung der Häufigkeit der Einreisen in einzelne Länder
countries_to_keep = country_counts[country_counts >= 20].index 
df_filtered = df_filtered[df_filtered['Zielland1_german'].isin(countries_to_keep)] # Ausschluss der Länder, die weniger als 20 mal eingereist wurden

custom_colorscale = [
        (0, "rgba(0, 0, 139, 0.6)"), 
        (0.5, "rgba(255, 255, 255, 1)"),  
        (1, "rgba(139, 0, 0, 0.6)")  
    ]
fig = px.density_heatmap(df_filtered, x="Zieljahr1", y="Zielland1_german", marginal_y="histogram", color_continuous_scale=custom_colorscale,
                        title = "Heatmap für Ausreisejahre und Ziellander")
fig.update_layout(width=800, height=500)
fig.update_traces(marker_color="lightblue", selector=dict(type="histogram"))
fig.update_layout(
    xaxis_title='Jahr der ersten Ausreise', 
    yaxis_title='Zielländer'
)
fig.update_traces(hovertemplate= '<b>%{y}</b><br>' +
                                 'Jahr: %{x}<br>' +
                                 'Häufigkeit: %{z}')
fig.update_traces(
    hovertemplate='<b>%{y}</b><br>Häufigkeit: %{x}', 
    selector=dict(type='histogram')
)
fig.update_xaxes(dtick=1)
fig.show()

df_all = df.groupby(['Zieljahr1', 'Zielland1_german']).size().reset_index(name='Häufigkeit') # Erstellung der Tabelle mit 
#Einreisehäufigkeiten der einzelnen Zielländer gruppiert nach Einreisejahr
df_all = df_all[(df_all['Zieljahr1'] >= 1933)] # Berücksichtigung aller Jahre nach 1933
df_all.replace('', np.nan, inplace=True)
df_all = df_all.dropna() # Entfernung der fehlenden Werte
print(df_all[:20])

    Zieljahr1  Zielland1_german  Häufigkeit
9      1933.0           Belgien           7
10     1933.0         Brasilien           1
11     1933.0             China          50
12     1933.0          Dänemark          24
13     1933.0        Frankreich          73
14     1933.0       Kirgisistan           1
15     1933.0          Lettland           3
16     1933.0         Luxemburg           1
17     1933.0           Marokko           1
18     1933.0       Niederlande          46
19     1933.0          Norwegen           2
20     1933.0         Palästina          41
21     1933.0             Polen           2
22     1933.0       Saarbrücken          47
23     1933.0          Schweden           4
24     1933.0      Sowjet Union          39
25     1933.0           Spanien           4
26     1933.0         Südafrika           4
27     1933.0  Tschechoslowakei         112
28     1933.0                UK          19

print(df_all.columns)

Index(['Zieljahr1', 'Zielland1_german', 'Häufigkeit'], dtype='object')

print(df_koord.columns)

Index(['Land', 'Stadt', 'Land_german', 'lat', 'lon'], dtype='object')

df_all = df_all.rename(columns={'Zielland1_german': 'Land_german'}) # die Spalte mit Ländernamen soll in beiden Tabellen 
#gleichen Namen tragen
df_all = df_all.rename(columns={'Zieljahr1': 'Ausreisejahr'})
df_all['Ausreisejahr'] = df_all['Ausreisejahr'].astype(int)

df_merged = pd.merge(df_koord, df_all, on='Land_german', how='right') # Zusammenfügung der Tabellen
df_merged = df_merged.dropna()
print(df_merged[:10])

          Land       Stadt  Land_german        lat         lon  Ausreisejahr  \
0      Belgium    Brussels      Belgien  50.846557    4.351697          1933   
1       Brazil    Brasilia    Brasilien -10.333333  -53.200000          1933   
2        China     Beijing        China  39.905714  116.391297          1933   
3      Denmark  Copenhagen     Dänemark  55.686724   12.570072          1933   
4       France       Paris   Frankreich  48.853495    2.348391          1933   
5   Kyrgyzstan     Bishkek  Kirgisistan  42.877789   74.606693          1933   
6       Latvia        Riga     Lettland  56.949398   24.105185          1933   
7   Luxembourg  Luxembourg    Luxemburg  49.611277    6.129799          1933   
8      Morocco       Rabat      Marokko  34.022360   -6.834022          1933   
9  Netherlands   Amsterdam  Niederlande  52.373080    4.892453          1933   

   Häufigkeit  
0           7  
1           1  
2          50  
3          24  
4          73  
5           1  
6           3  
7           1  
8           1  
9          46

fig = px.scatter_geo(df_merged, 
                     lat='lat', 
                     lon='lon', 
                     animation_frame="Ausreisejahr",
                     hover_data = {'Ausreisejahr': True, 'Land_german': True, 'lat': False, 'lon': False},
                     width=1100, height=650, size='Häufigkeit', color='Häufigkeit', opacity = 0.8, size_max=30,
                     projection='robinson', color_continuous_scale=px.colors.sequential.Bluered, title = "Zielländer und Ausreisejahre") 

# Setzt die Colorbar-Skala aus
fig.update_coloraxes(showscale=False)

fig.update_traces(hovertemplate= #  hover-Anweisungen 
                  '<b>%{customdata[1]}</b><br>' +
                  'Jahr: %{customdata[0]}<br>' +
                  'Häufigkeit: %{marker.size}<br>' 
                  )
for f in fig.frames: # Aktualisierung der Hover-Anweisungen für die Animation
     f.data[0].update(hovertemplate='<b>%{customdata[1]}</b><br>Jahr: %{customdata[0]}<br>Häufigkeit: %{marker.size}')

# Optional: Anpassung der Markierung
fig.update_traces(marker_sizemin=4)

# Anzeige
fig.show()

PersonID	Name	Geburtsdatum,-ort/ggf. Sterbedatum,-ort	Beruf
1	Abel, August	geb. 19. Dez. 1887 Gelsenkirchen, gest. 18. Aug. 1962 Frankfurt/M.;	Journalist
2	Abel, Emil	b. Vienna 2 June 1875, d. London 3 Apr. 1958.	prof. of chemistry
3	Abel, Paul, Dr. jur.	geb. 21. März 1874 Wien, gest. 10. Mai 1971 London;	Rechtsanwalt
4	Abeles, Paul William	b. Mistelbach near Vienna 17 Jan. 1897.	civil engineer
5	Abeles, Robert Heinz	b. Vienna 14 Jan. 1926.	prof. of biochemistry
6	Abelmann, Walter H	b. Frankfurt/M 16 May 1921.	prof. of medicine
7	Aber, Adolf	b. Apolda, Thuringia, Ger. 28 Jan. 1893, d. London 21 May 1960.	musicologist
8	Aber, Felix, Dr. phil.	geb. 11. Apr. 1895 Breslau, gest. 14. Jan. 1964 New York;	Rabbiner
9	Abraham, Claude Kurt (fmly. Kurt Jakob Abraham)	b. Lorsch, Hessen, Ger. 13 Dec. 1931.	prof. of French
10	Abraham, Heinz, Dr.	geb. 30. Juni 1911 Allenstein/Ostpr.;	Diplomat, Historiker

Zieljahr1	Zielort1	Zieljahr2	Zielort2	Zieljahr3	Zielort3	Zieljahr4	Zielort4	Zieljahr5	Zielort5	Zieljahr6	Zielort6	Zieljahr7	Zielort7	Zieljahr8
1934.0	Afrika	1948.0	Deutschland	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
1938.0	UK	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
1938.0	UK	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
1939.0	UK	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
1939.0	USA	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
1933.0	Switzerland	1939.0	USA	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
1933.0	UK	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
1939.0	USA	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
1938.0	France	1946.0	USA	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
1933.0	Moskau	1937.0	Spain	1939.0	France	NaN	Moskau	NaN	Deutschland	NaN	NaN	NaN	NaN	NaN

Anzahl_Zielorte	Zieljahr1	Zielort1	Zieljahr2	Zielort2	Zieljahr3	Zielort3	Zieljahr4	Zielort4	Zieljahr5	Zielort5	Zieljahr6	Zielort6	Zieljahr7
1	1934.0	Palestine	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
5	1933.0	Saarbrücken	1935.0	Prag	1937.0	France	1941.0	Mexiko	1946.0	Berlin	NaN	NaN	NaN
4	1938.0	Belgien	1938.0	Frankreich	1940.0	USA	1964.0	Österreich	NaN	NaN	NaN	NaN	NaN
4	1933.0	Saarbrücken	1933.0	France	1934.0	Denmark	1945.0	Berlin	NaN	NaN	NaN	NaN	NaN
2	1939.0	UK	1948.0	Canada	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
4	1935.0	Belgien	1940.0	France	1940.0	USA	1946.0	CH	NaN	NaN	NaN	NaN	NaN
1	1939.0	USA	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
1	1938.0	UK	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
2	1936.0	UK	1949.0	Israel	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
7	1933.0	Prag	1933.0	Moskau	1933.0	NL	1933.0	France	1938.0	CH	1939.0	France	1946.0

Zieljahr1	Zielort1	Zieljahr2	Zielort2	Zieljahr3	Zielort3	Zieljahr4	Zielort4	Zieljahr5	Zielort5	Zieljahr6	Zielort6	Zieljahr7	Zielort7
1934.0	Palestine	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
1933.0	Saarbrücken	1935.0	Prag	1937.0	France	1941.0	Mexiko	1946.0	Berlin	NaN	NaN	NaN	NaN
1938.0	Belgien	1938.0	Frankreich	1940.0	USA	1964.0	Österreich	NaN	NaN	NaN	NaN	NaN	NaN
1933.0	Saarbrücken	1933.0	France	1934.0	Denmark	1945.0	Berlin	NaN	NaN	NaN	NaN	NaN	NaN
1939.0	UK	1948.0	Canada	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
1935.0	Belgien	1940.0	France	1940.0	USA	1946.0	CH	NaN	NaN	NaN	NaN	NaN	NaN
1939.0	USA	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
1938.0	UK	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
1936.0	UK	1949.0	Israel	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
1933.0	Prag	1933.0	Moskau	1933.0	NL	1933.0	France	1938.0	CH	1939.0	France	1946.0	Deutschland

Zieljahr1	Zielort1	Zielland1_german	Zieljahr2	Zielort2	Zieljahr3	Zielort3	Zieljahr4
1934.0	Palestine	Palästina	NaN	NaN	NaN	NaN	NaN
1933.0	Saarbrücken	Saarbrücken	1935.0	Prag	1937.0	France	1941.0
1938.0	Belgien	Belgien	1938.0	Frankreich	1940.0	USA	1964.0
1933.0	Saarbrücken	Saarbrücken	1933.0	France	1934.0	Denmark	1945.0
1939.0	UK	UK	1948.0	Canada	NaN	NaN	NaN
1935.0	Belgien	Belgien	1940.0	France	1940.0	USA	1946.0
1939.0	USA	USA	NaN	NaN	NaN	NaN	NaN
1938.0	UK	UK	NaN	NaN	NaN	NaN	NaN
1936.0	UK	UK	1949.0	Israel	NaN	NaN	NaN
1933.0	Prag	Tschechoslowakei	1933.0	Moskau	1933.0	NL	1933.0
1934.0	Prag	Tschechoslowakei	1938.0	Poland	1938.0	Denmark	1938.0
NaN	UK	UK	NaN	NaN	NaN	NaN	NaN
NaN	UK	UK	NaN	NaN	NaN	NaN	NaN
1939.0	UK	UK	1949.0	USA	NaN	NaN	NaN
1939.0	France	Frankreich	NaN	USA	NaN	NaN	NaN
1938.0	Norwegen	Norwegen	1938.0	Schweden	1946.0	Österreich	NaN
1938.0	UK	UK	NaN	NaN	NaN	NaN	NaN
1939.0	UK	UK	1949.0	Österreich	NaN	NaN	NaN
1933.0	Palestine	Palästina	NaN	NaN	NaN	NaN	NaN
1938.0	Palestine	Palästina	NaN	NaN	NaN	NaN	NaN

Datenbearbeitung und Datenstandardisierung¶

Contents¶

1. Daten¶

2. Ermittlung der Berufsgruppe Politik¶

3. Standardisierung der Namen¶

4. Ermittlung des Geschlechts¶

5. Ermittlung des Geburtsjahres und Sterbejahres¶

6. Ermittlung des Ausreisealters¶

7. Ermittlung der Anzahl der Zielorte¶

8. Standardisierung der Länder¶

Name	Geburtsdatum,-ort/ggf. Sterbedatum,-ort	Beruf	Berufsgruppe
Aenderl, Franz Xaver	geb. 25. Nov. 1883 Steinweg b. Regensburg, gest. 20. Okt. 1951 Kulmbach/Oberfr.;	Publizist, Politiker	Politik
Albert, Peter Wenzel (von), Dr.	k.A.	Politiker	Politik
Alexander, Henry Joachim, Dr. phil., Dr. jur.	geb. 4. Jan. 1897;	Rechtsanwalt, Verbandsfunktionär	Politik
Alexander, Kurt, Dr. jur.	geb. 13. Aug. 1892 Krefeld, gest. 18. Febr. 1962 New York;	Rechtsanwalt, Verbandsfunktionär	Politik
Alexander, Walter, Dr. jur.	geb. 20. März 1878 Berlin, gest. 20. Apr. 1949 New York;	Kommunalbeamter, Verbandsfunktionär	Politik
Alfons, Anton	geb. 17. Jan. 1898 Wampersdorf b. Mödling/Niederösterr.;	Parteifunktionär	Politik
Alliger, Ladislaus	geb. 1898 (?), gest. 1942 in GB;	Gewerkschaftsfunktionär	Politik
Allina, Heinrich	geb. 24. Nov. 1878 Schaffa/Mähren, gest. 10. Dez. 1953 Wien;	Politiker, Gewerkschaftsfunktionär	Politik
Alroy, Efraim (bis 1938 Spiegel, Hermann)	geb. 15. Aug. 1915 Hamburg;	Verbandsfunktionär	Politik
Alterthum, Martin, Dr. jur.	geb. 31. Aug. 1887 Bernberg/Saale, gest. 12. Febr. 1976 Tel Aviv;	Richter, Verbandsfunktionär	Politik

Name	Nachname	Vorname
Aenderl, Franz Xaver	Aenderl	Franz Xaver
Albert, Peter Wenzel (von), Dr.	Albert	Peter Wenzel
Alexander, Henry Joachim, Dr. phil., Dr. jur.	Alexander	Henry Joachim
Alexander, Kurt, Dr. jur.	Alexander	Kurt
Alexander, Walter, Dr. jur.	Alexander	Walter
Alfons, Anton	Alfons	Anton
Alliger, Ladislaus	Alliger	Ladislaus
Allina, Heinrich	Allina	Heinrich
Alroy, Efraim (bis 1938 Spiegel, Hermann)	Alroy	Efraim
Alterthum, Martin, Dr. jur.	Alterthum	Martin

Nachname	Vorname	Gender
Abrahamowicz	Uriel	männlich
Abusch	Alexander	männlich
Ackermann	Manfred	männlich
Adam	Wilhelm	männlich
Adams	Ellen C.	weiblich
Adler	Friedrich Wolfgang	männlich
Adler	Gerson	männlich
Adler	Max Kurt	männlich
Adler-Rudel	Salomon	männlich
Adolph	Alfred	männlich