Zusammenfassung
Das Kapitel bietet einen Überblick der Webdatensammlung für die sozialwissenschaftliche Forschung. Zu diesem Zweck wird nach einem praktischen Beispiel eine Übersicht der grundlegenden Webtechnologien geboten, um in einem zweiten Schritt einen vertiefenden Blick auf das Web Scraping einerseits und Programmierschnittstellen andererseits zu werfen. Die praktische Umsetzung der Webdatensammlung wird mit Code-Beispielen in der Programmiersprache R illustriert. Nach der praktischen Einführung werden Potenziale und Herausforderungen der webbasierten Sozialwissenschaft am Beispiel ausgewählter Anwendungen aus der aktuellen Forschungsliteratur diskutiert. Abschließend werden verschiedene technische und konzeptionelle Problemstellungen der Webdatensammlung dargelegt und einige weiterführende Literaturhinweise für die vertiefte Auseinandersetzung mit den Themen des Kapitels geboten.
Similar content being viewed by others
Notes
- 1.
Trotz ihrer engen Verwandtschaft ist das Interesse der Sozialwissenschaft häufig besser mit den Begriffen des Web Scraping oder des Web Harvesting beschrieben. Hier steht die Sammlung einer bestimmten Materialmenge für die weitere Analyse im Vordergrund, während beim Web Crawling, das auch unter dem Begriff des Web Spidering diskutiert wird, das Anliegen eher in der Indexierung von Webseiten und den Beziehungsnetzwerken zwischen Seiten besteht. So machen sich Web Crawler die internen und externen Verlinkungen auf einer Webseite zunutze, um das Beziehungsgeflecht zwischen verschiedenen Seiten zu erfassen. Diese Unterscheidung schließt freilich nicht aus, dass es durchaus sozialwissenschaftliche Anwendungen gibt, die sich Techniken des Web Crawling zunutze machen, etwa in der Analyse von Beziehungsnetzwerken in einem bestimmten Politikfeld (Ackland und O’Neil 2011; McNutt und Pal 2011).
- 2.
Den Code für diese Übung haben wir in folgendem GitHub-Archiv hinterlegt: https://github.com/simonmunzert/munzert-nyhuis-webdaten.
- 3.
Die Details der Schritte werden in Abschn. 3 erläutert.
- 4.
Die Abweichung von der Größe des 18. Deutschen Bundestags mit seinen 630 Mitgliedern ergibt sich durch Nachrücker für ausscheidende Abgeordnete.
- 5.
Die ersten vier Einträge unterscheiden sich von den ersten vier Einträgen zuvor, da wir im Zuge des Downloads neue Namen für die HTML-Seiten nach der Konvention Vorname_Nachname.html vergeben. Die heruntergeladenen Dokumente auf unserer Festplatte sind also anders sortiert als die Einträge auf der Index-Seite der Wikipedia.
- 6.
Der PageRank-Algorithmus wurde 1996 von den Google-Gründern Larry Page und Sergey Brin entwickelt, der später zur Grundlage der Suchmaschine wurde.
- 7.
Die Bedeutung von Programmierschnittstellen für moderne Web-Infrastrukturen geht weit über die Bedürfnisse der automatischen Datensammlung hinaus. Auch Anwendungen von Drittanbietern, die auf Plattformen wie Twitter oder Facebook aufsetzen, machen sich die Zugangs- und Abfragemöglichkeiten von APIs zunutze, beispielsweise der bekannte Twitter-Client Tweetbot.
- 8.
Einen Überblick bietet das Projekt rOpenSci (https://ropensci.org/).
- 9.
Im Original „volume, velocity, variety, vinculation, and validity“ (Monroe 2013, S. 1).
- 10.
Vergleiche hierzu ausführlicher Munzert (2018).
- 11.
Die begleitende Webseite ist frei zugänglich unter http://www.r-datacollection.com.
Literatur
Ackland, Robert, und Mathieu O’Neil. 2011. Online collective identity: The case of the environmental movement. Social Networks 33(3): 177–190.
Barberà, Pablo. 2015. Birds of the same feather tweet together: Bayesian ideal point estimation using Twitter data. Political Analysis 23(1): 76–91.
Benoit, Kenneth, Drew Conway, Benjamin E. Lauderdale, Michael Laver, et al. 2016. Crowd-sourced text analysis: Reproducible and agile production of political data. American Political Science Review 110(2): 278–295.
Bonica, Adam. 2013. Ideology and interests in the political marketplace. American Journal of Political Science 57(2): 294–311.
Cederman, Lars-Erik, Nils B. Weidmann, und Nils-Christian Bormann. 2015. Triangulating horizontal inequality: Toward improved conflict analysis. Journal of Peace Research 52(6): 806–821.
Chen, Xi, und William D. Nordhaus. 2011. Using luminosity data as a proxy for economic statistics. Proceedings of the National Academy of Sciences 108(21): 8589–8594.
Gandrud, Christopher. 2015. Reproducible research with R and RStudio. Boca Raton: CRC.
Henderson, Vernon, Adam Storeygard, und David N. Weil. 2011. A bright idea for measuring economic growth. American Economic Review 101(3): 194–199.
King, Gary, Jennifer Pan, und Margaret E. Roberts. 2013. How censorship in China allows government criticism but silences collective expression. American Political Science Review 107(2): 326–334.
King, Gary, Jennifer Pan, und Margaret E. Roberts. 2017. How the Chinese government fabricates social media posts for strategic distraction, not engaged argument. American Political Science Review 111(3): 484–501.
Kuhn, Patrick M., und Nils B. Weidmann. 2015. Unequal we fight: Between- and within-group inequality and ethnic civil war. Political Science Research and Methods 3(3): 534–568.
Linzer, Drew A. 2013. Dynamic Bayesian forecasting of presidential elections in the states. Journal of the American Statistical Association 108(501): 124–134.
McNutt, Kathleen, und Leslie A. Pal. 2011. ‚Modernizing government‘: Mapping global public policy networks. Governance 24(3): 439–467.
Mellon, Jonathan. 2013. Where and when can we use Google Trends to measure issue salience? PS: Political Science and Politics 46(2): 280–290.
Michels, Robert. 1911. Zur Soziologie des Parteiwesens in der modernen Demokratie: Untersuchungen über die oligarchischen Tendenzen des Gruppenlebens. Leipzig: Klinkhardt.
Mitchell, Ryan. 2015. Web scraping with Python: Collecting data from the modern web. Beijing: O’Reilly.
Monroe, Burt L. 2013. The five Vs of big data political science: Introduction to the virtual issue on big data in political science. Political Analysis 21(V5): 1–9.
Munzert, Simon. 2018. Auf dem Weg zu einer fundierten Softwareausbildung in der Sozialwissenschaft. In Computational Social Science: Die Analyse von Big Data, Hrsg. Joachim Behnke et al., 379–402. Baden-Baden: Nomos.
Munzert, Simon, Christian Rubba, Peter Meißner, und Dominic Nyhuis. 2014. Automated web data collection with R: A practical guide to web scraping and text mining. Hoboken: Wiley.
Nolan, Deborah, und Duncan Temple Lang. 2014. XML and web technologies for data sciences with R. New York: Springer.
Nyhuis, Dominic, und Thorsten Faas. 2018. Twitter als Spiegel öffentlicher Meinung? Die Schätzung politischer Bewertungen auf Twitter mittels halbautomatischer Textklassifizierung. In Computational Social Science: Die Analyse von Big Data, Hrsg. Joachim Behnke et al., 235–253. Baden-Baden: Nomos.
Shaw, Aaron, und Benjamin M. Hill. 2014. Laboratories of oligarchy? How the iron law extends to peer production. Journal of Communication 64(2): 215–238.
Silver, Nate. 2012. The signal and the noise: Why so many predictions fail – But some don’t. New York: Penguin.
Squire, Peverill. 1988. Why the 1936 Literary Digest poll failed. Public Opinion Quarterly 52(1): 125–133.
Weidmann, Nils B., und Sebastian Schutte. 2017. Using night light emissions for the prediction of local wealth. Journal of Peace Research 54(2): 125–140.
Wickham, Hadley, und Garrett Grolemund. 2017. R for data science: Import, tidy, transform, visualize, and model data. Beijing: O’Reilly.
Author information
Authors and Affiliations
Corresponding authors
Editor information
Editors and Affiliations
Rights and permissions
Copyright information
© 2019 Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature
About this entry
Cite this entry
Munzert, S., Nyhuis, D. (2019). Die Nutzung von Webdaten in den Sozialwissenschaften. In: Wagemann, C., Goerres, A., Siewert, M. (eds) Handbuch Methoden der Politikwissenschaft. Springer Reference Sozialwissenschaften. Springer VS, Wiesbaden. https://doi.org/10.1007/978-3-658-16937-4_22-1
Download citation
DOI: https://doi.org/10.1007/978-3-658-16937-4_22-1
Received:
Accepted:
Published:
Publisher Name: Springer VS, Wiesbaden
Print ISBN: 978-3-658-16937-4
Online ISBN: 978-3-658-16937-4
eBook Packages: Springer Referenz Sozialwissenschaften und Recht