Datenintegration und Deduplizierung

Chapter
First Online: 01 January 2015

pp 121–140
Cite this chapter

Daten- und Informationsqualität

Jens Bleiholder⁵ &
Joachim Schmid⁶

9563 Accesses
5 Citations

Zusammenfassung

In Unternehmen liegen viele Daten heutzutage immer seltener vollständig an einem einzigen physikalischen Ort vor, sondern sind weltweit verteilt. Dies liegt zum einen an der immer besser gewordenen Infrastruktur, die eine solche Verteilung auf einfache Art und Weise ermöglicht, und zum anderen an der Tatsache, dass viele Unternehmen weltweit tätig sind. So fallen Daten weltweit an, werden aber jeweils lokal – vor Ort – gespeichert. Daher müssen oft mehrere Datenquellen genutzt werden, um einen aktuellen, vollständigen und genauen Überblick über die vorhandenen Daten zu gewinnen. Datenintegration hilft, indem sie Daten aus mehreren Quellen zusammenführt und einheitlich darstellt. Diese integrierten Daten können genutzt werden, um sich einen Überblick über das Unternehmen zu verschaffen, z. B. wenn Unternehmen fusionieren und nur noch eine Kundendatenbank bestehen bleiben soll, oder wenn zu einem Kunden die Daten aus den verschiedenen Fachabteilungen zusammengeführt werden sollen. Anhand eines solchen Beispiels, der Integration von Kundendaten zu Kfz- und Lebensversicherungen erläutern wir im Folgenden einzelne Techniken.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Log in via an institution

Subscribe and save

Springer+ Basic

$34.99 /Month

Get 10 units per month
Download Article/Chapter or eBook
1 Unit = 1 Article or 1 Chapter
Cancel anytime

Buy Now

Chapter: USD 29.95; Price excludes VAT (USA)

eBook: USD 49.99; Price excludes VAT (USA)

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Similar content being viewed by others

Datenintegration und Deduplizierung

Chapter © 2021

Datenintegration und Deduplizierung

Chapter © 2018

Standardisierter Datenaustausch

Chapter © 2020

Literatur

Bilke, A. und Naumann, F. Schema Matching using Duplicates. In: Proceedings of ICDE, 2005, S. 69–80.
Google Scholar
Bleiholder, J. und Naumann, F. Conflict Handling Strategies in an Integrated Information System. In: Proceedings of IIWeb workshop, 2006.
Google Scholar
Fuxman, A., Fazli, E. und Miller, R. J. ConQuer: Efficient Management of Inconsistent Databases. In: Proceedings of SIGMOD, 2005, S. 155–166.
Google Scholar
Hernandez, M. und Stolfo, S. The Merge/Purge Problem for Large Databases. In: Proceedings of SIGMOD, 1995, S. 127–138.
Google Scholar
Leser, U. und Naumann, F. Informationsintegration – Architekturen und Methoden zur Integration verteilter und heterogener Datenquellen. dpunkt, Heidelberg, 2006.
Google Scholar
Levenshtein, V. Binary Codes Capable of Correcting Spurious Insertions and Deletions of Ones. In: Problems of Information Transmission, 1965, 1, S. 8–17.
Google Scholar
Madhavan, J., Bernstein, P. und Rahm, E. Generic Schema Matching with CUPID. In: Proceedings of VLDB, 2001, S. 49–58.
Google Scholar
Melnik, S., Garcia-Molina, H. und Rahm, E. Similarity Flooding: A Versatile Graph Matching Algorithm and its Application to Schema Matching. In: Proceedings of ICDE, 2002, S. 117–128.
Google Scholar
Naumann, F., Bilke, A., Bleiholder, J., und Weis, M. Data Fusion in Three Steps: Resolving Schema, Tuple, and Value Inconsistencies. In: Data Engineering Bulletin. 29(2), 2006, S. 21–31.
Google Scholar
Rahm, E. und Bernstein, P. A. On Matching Schemas Automatically. Technischer Bericht, Microsoft Research, 2001.
Google Scholar
Schmid, J. The Main Steps to Data Quality In: Advances in Data Mining, 4th Industrial Conference on Data Mining, ICDM 2004, Revised Selected Papers, Springer, S. 69–77.
Google Scholar
Winkler, W. The State of Record Linkage and Current Research Problems. Statistics of Income Division, Internal Revenue Service Publication R99/04, 1999.
Google Scholar

Download references

Author information

Authors and Affiliations

Fachgebiet Informationssysteme, Hasso-Plattner-Institut, Prof.-Dr.-Helmert-Str. 2–3, 14482, Potsdam, Deutschland
Dipl.-Inform. Jens Bleiholder
Stuttgart, Deutschland
Joachim Schmid

Authors

Dipl.-Inform. Jens Bleiholder
View author publications
You can also search for this author in PubMed Google Scholar
Joachim Schmid
View author publications
You can also search for this author in PubMed Google Scholar

Corresponding author

Correspondence to Jens Bleiholder .

Editor information

Editors and Affiliations

Hochschule Weihenstephan-Triesdorf, Landshut, Germany
Knut Hildebrand
Haan, Germany
Marcus Gebauer
Lübeck, Germany
Holger Hinrichs
Helferskirchen, Germany
Michael Mielke

Rights and permissions

Reprints and permissions

Copyright information

© 2015 Springer Fachmedien Wiesbaden

About this chapter

Cite this chapter

Bleiholder, J., Schmid, J. (2015). Datenintegration und Deduplizierung. In: Hildebrand, K., Gebauer, M., Hinrichs, H., Mielke, M. (eds) Daten- und Informationsqualität. Springer Vieweg, Wiesbaden. https://doi.org/10.1007/978-3-658-09214-6_7

Download citation

DOI: https://doi.org/10.1007/978-3-658-09214-6_7
Published: 05 May 2015
Publisher Name: Springer Vieweg, Wiesbaden
Print ISBN: 978-3-658-09213-9
Online ISBN: 978-3-658-09214-6
eBook Packages: Computer Science and Engineering (German Language)

Publish with us

Policies and ethics

Access this chapter

Log in via an institution

Subscribe and save

Springer+ Basic

$34.99 /Month

Get 10 units per month
Download Article/Chapter or eBook
1 Unit = 1 Article or 1 Chapter
Cancel anytime

Buy Now

Chapter: USD 29.95; Price excludes VAT (USA)

eBook: USD 49.99; Price excludes VAT (USA)

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions