Die Nutzung von Webdaten in den Sozialwissenschaften

Living reference work entry
First Online: 28 November 2019

pp 1–25
Cite this living reference work entry

Handbuch Methoden der Politikwissenschaft

Simon Munzert⁴ &
Dominic Nyhuis⁵

Part of the book series: Springer Reference Sozialwissenschaften ((SRS))

545 Accesses

Zusammenfassung

Das Kapitel bietet einen Überblick der Webdatensammlung für die sozialwissenschaftliche Forschung. Zu diesem Zweck wird nach einem praktischen Beispiel eine Übersicht der grundlegenden Webtechnologien geboten, um in einem zweiten Schritt einen vertiefenden Blick auf das Web Scraping einerseits und Programmierschnittstellen andererseits zu werfen. Die praktische Umsetzung der Webdatensammlung wird mit Code-Beispielen in der Programmiersprache R illustriert. Nach der praktischen Einführung werden Potenziale und Herausforderungen der webbasierten Sozialwissenschaft am Beispiel ausgewählter Anwendungen aus der aktuellen Forschungsliteratur diskutiert. Abschließend werden verschiedene technische und konzeptionelle Problemstellungen der Webdatensammlung dargelegt und einige weiterführende Literaturhinweise für die vertiefte Auseinandersetzung mit den Themen des Kapitels geboten.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Log in via an institution

Institutional subscriptions

Similar content being viewed by others

Die Nutzung von Webdaten in den Sozialwissenschaften

Chapter © 2020

Metadaten

Chapter © 2019

Metadaten

Chapter © 2022

Notes

1.
Trotz ihrer engen Verwandtschaft ist das Interesse der Sozialwissenschaft häufig besser mit den Begriffen des Web Scraping oder des Web Harvesting beschrieben. Hier steht die Sammlung einer bestimmten Materialmenge für die weitere Analyse im Vordergrund, während beim Web Crawling, das auch unter dem Begriff des Web Spidering diskutiert wird, das Anliegen eher in der Indexierung von Webseiten und den Beziehungsnetzwerken zwischen Seiten besteht. So machen sich Web Crawler die internen und externen Verlinkungen auf einer Webseite zunutze, um das Beziehungsgeflecht zwischen verschiedenen Seiten zu erfassen. Diese Unterscheidung schließt freilich nicht aus, dass es durchaus sozialwissenschaftliche Anwendungen gibt, die sich Techniken des Web Crawling zunutze machen, etwa in der Analyse von Beziehungsnetzwerken in einem bestimmten Politikfeld (Ackland und O’Neil 2011; McNutt und Pal 2011).
2.
Den Code für diese Übung haben wir in folgendem GitHub-Archiv hinterlegt: https://github.com/simonmunzert/munzert-nyhuis-webdaten.
3.
Die Details der Schritte werden in Abschn. 3 erläutert.
4.
Die Abweichung von der Größe des 18. Deutschen Bundestags mit seinen 630 Mitgliedern ergibt sich durch Nachrücker für ausscheidende Abgeordnete.
5.
Die ersten vier Einträge unterscheiden sich von den ersten vier Einträgen zuvor, da wir im Zuge des Downloads neue Namen für die HTML-Seiten nach der Konvention Vorname_Nachname.html vergeben. Die heruntergeladenen Dokumente auf unserer Festplatte sind also anders sortiert als die Einträge auf der Index-Seite der Wikipedia.
6.
Der PageRank-Algorithmus wurde 1996 von den Google-Gründern Larry Page und Sergey Brin entwickelt, der später zur Grundlage der Suchmaschine wurde.
7.
Die Bedeutung von Programmierschnittstellen für moderne Web-Infrastrukturen geht weit über die Bedürfnisse der automatischen Datensammlung hinaus. Auch Anwendungen von Drittanbietern, die auf Plattformen wie Twitter oder Facebook aufsetzen, machen sich die Zugangs- und Abfragemöglichkeiten von APIs zunutze, beispielsweise der bekannte Twitter-Client Tweetbot.
8.
Einen Überblick bietet das Projekt rOpenSci (https://ropensci.org/).
9.
Im Original „volume, velocity, variety, vinculation, and validity“ (Monroe 2013, S. 1).
10.
Vergleiche hierzu ausführlicher Munzert (2018).
11.
Die begleitende Webseite ist frei zugänglich unter http://www.r-datacollection.com.

Literatur

Ackland, Robert, und Mathieu O’Neil. 2011. Online collective identity: The case of the environmental movement. Social Networks 33(3): 177–190.
Article Google Scholar
Barberà, Pablo. 2015. Birds of the same feather tweet together: Bayesian ideal point estimation using Twitter data. Political Analysis 23(1): 76–91.
Article Google Scholar
Benoit, Kenneth, Drew Conway, Benjamin E. Lauderdale, Michael Laver, et al. 2016. Crowd-sourced text analysis: Reproducible and agile production of political data. American Political Science Review 110(2): 278–295.
Article Google Scholar
Bonica, Adam. 2013. Ideology and interests in the political marketplace. American Journal of Political Science 57(2): 294–311.
Article Google Scholar
Cederman, Lars-Erik, Nils B. Weidmann, und Nils-Christian Bormann. 2015. Triangulating horizontal inequality: Toward improved conflict analysis. Journal of Peace Research 52(6): 806–821.
Article Google Scholar
Chen, Xi, und William D. Nordhaus. 2011. Using luminosity data as a proxy for economic statistics. Proceedings of the National Academy of Sciences 108(21): 8589–8594.
Article Google Scholar
Gandrud, Christopher. 2015. Reproducible research with R and RStudio. Boca Raton: CRC.
Google Scholar
Henderson, Vernon, Adam Storeygard, und David N. Weil. 2011. A bright idea for measuring economic growth. American Economic Review 101(3): 194–199.
Article Google Scholar
King, Gary, Jennifer Pan, und Margaret E. Roberts. 2013. How censorship in China allows government criticism but silences collective expression. American Political Science Review 107(2): 326–334.
Article Google Scholar
King, Gary, Jennifer Pan, und Margaret E. Roberts. 2017. How the Chinese government fabricates social media posts for strategic distraction, not engaged argument. American Political Science Review 111(3): 484–501.
Article Google Scholar
Kuhn, Patrick M., und Nils B. Weidmann. 2015. Unequal we fight: Between- and within-group inequality and ethnic civil war. Political Science Research and Methods 3(3): 534–568.
Article Google Scholar
Linzer, Drew A. 2013. Dynamic Bayesian forecasting of presidential elections in the states. Journal of the American Statistical Association 108(501): 124–134.
Article Google Scholar
McNutt, Kathleen, und Leslie A. Pal. 2011. ‚Modernizing government‘: Mapping global public policy networks. Governance 24(3): 439–467.
Article Google Scholar
Mellon, Jonathan. 2013. Where and when can we use Google Trends to measure issue salience? PS: Political Science and Politics 46(2): 280–290.
Google Scholar
Michels, Robert. 1911. Zur Soziologie des Parteiwesens in der modernen Demokratie: Untersuchungen über die oligarchischen Tendenzen des Gruppenlebens. Leipzig: Klinkhardt.
Google Scholar
Mitchell, Ryan. 2015. Web scraping with Python: Collecting data from the modern web. Beijing: O’Reilly.
Google Scholar
Monroe, Burt L. 2013. The five Vs of big data political science: Introduction to the virtual issue on big data in political science. Political Analysis 21(V5): 1–9.
Article Google Scholar
Munzert, Simon. 2018. Auf dem Weg zu einer fundierten Softwareausbildung in der Sozialwissenschaft. In Computational Social Science: Die Analyse von Big Data, Hrsg. Joachim Behnke et al., 379–402. Baden-Baden: Nomos.
Chapter Google Scholar
Munzert, Simon, Christian Rubba, Peter Meißner, und Dominic Nyhuis. 2014. Automated web data collection with R: A practical guide to web scraping and text mining. Hoboken: Wiley.
Google Scholar
Nolan, Deborah, und Duncan Temple Lang. 2014. XML and web technologies for data sciences with R. New York: Springer.
Book Google Scholar
Nyhuis, Dominic, und Thorsten Faas. 2018. Twitter als Spiegel öffentlicher Meinung? Die Schätzung politischer Bewertungen auf Twitter mittels halbautomatischer Textklassifizierung. In Computational Social Science: Die Analyse von Big Data, Hrsg. Joachim Behnke et al., 235–253. Baden-Baden: Nomos.
Google Scholar
Shaw, Aaron, und Benjamin M. Hill. 2014. Laboratories of oligarchy? How the iron law extends to peer production. Journal of Communication 64(2): 215–238.
Article Google Scholar
Silver, Nate. 2012. The signal and the noise: Why so many predictions fail – But some don’t. New York: Penguin.
Google Scholar
Squire, Peverill. 1988. Why the 1936 Literary Digest poll failed. Public Opinion Quarterly 52(1): 125–133.
Article Google Scholar
Weidmann, Nils B., und Sebastian Schutte. 2017. Using night light emissions for the prediction of local wealth. Journal of Peace Research 54(2): 125–140.
Article Google Scholar
Wickham, Hadley, und Garrett Grolemund. 2017. R for data science: Import, tidy, transform, visualize, and model data. Beijing: O’Reilly.
Google Scholar

Download references

Author information

Authors and Affiliations

Hertie School, Berlin, Deutschland
Simon Munzert
Leibniz Universität Hannover, Hannover, Deutschland
Dominic Nyhuis

Authors

Simon Munzert
View author publications
You can also search for this author in PubMed Google Scholar
Dominic Nyhuis
View author publications
You can also search for this author in PubMed Google Scholar

Corresponding authors

Correspondence to Simon Munzert or Dominic Nyhuis .

Editor information

Editors and Affiliations

Methodenzentrum Sozialwissenschaft, Goethe-Universität Frankfurt Methodenzentrum Sozialwissenschaft, Frankfurt, Hessen, Germany
Claudius Wagemann
Institute for Political Sciences, University of Duisburg-Essen Institute for Political Sciences, Duisburg, Germany
Achim Goerres
Institut für Politikwissenschaft, Goethe-Universität Frankfurt am Main Institut für Politikwissenschaft, Frankfurt, Hessen, Germany
Markus Siewert

Rights and permissions

Reprints and permissions

Copyright information

© 2019 Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature

About this entry

Cite this entry

Munzert, S., Nyhuis, D. (2019). Die Nutzung von Webdaten in den Sozialwissenschaften. In: Wagemann, C., Goerres, A., Siewert, M. (eds) Handbuch Methoden der Politikwissenschaft. Springer Reference Sozialwissenschaften. Springer VS, Wiesbaden. https://doi.org/10.1007/978-3-658-16937-4_22-1

Download citation

DOI: https://doi.org/10.1007/978-3-658-16937-4_22-1
Received: 03 March 2019
Accepted: 29 June 2019
Published: 28 November 2019
Publisher Name: Springer VS, Wiesbaden
Print ISBN: 978-3-658-16937-4
Online ISBN: 978-3-658-16937-4
eBook Packages: Springer Referenz Sozialwissenschaften und Recht

Publish with us

Policies and ethics