Integracja danych to łączenie wielu źródeł danych w jedno źródło danych. Taka praktyka jest często bardzo czasochłonna i skomplikowana, ponieważ różne źródła danych są prawdopodobnie ze sobą niezgodne. Rzeczy tak proste, jak różne nazwy kolumn w arkuszu kalkulacyjnym, wystarczą, aby wymagać ponownego sformatowania daty. Ten proces jest najczęstszy w sytuacjach, gdy dwie grupy rozpoczęły działalność bez połączenia, ale zostały umieszczone razem po tym, jak pracowały niezależnie. Integracja danych stała się ważniejszym tematem ze względu na rozpowszechnienie bezpłatnych źródeł danych i baz danych online.
Część danych integracji danych może być prawie wszystkim, o ile jest przechowywana w systemie komputerowym. Rzeczywista zawartość danych rzadko jest tak ważna, jak sposób ich przechowywania. Przez większość czasu dane są przechowywane w bazach danych, zorganizowanych systemach informacji. Systemy te zawierają unikalne wpisy i pola, które pozwalają użytkownikom szybko znaleźć informacje.
Największą przeszkodą w każdym procesie integracji danych są same dane. W wielu przypadkach, gdy dane były konfigurowane po raz pierwszy, nie było zamiaru łączenia zbioru danych z innym. Oznacza to, że nawet jeśli dwa zbiory danych mogą odnosić się do tej samej rzeczy, są one całkowicie niezgodne.
Prawie wszystko spowoduje, że bazy danych będą niekompatybilne. Coś tak prostego, jak różnica w prezentacji, na przykład kolejność pól lub szerokość kolumn, może wystarczyć, aby uniemożliwić łatwe połączenie. Gdy dane znacznie się różnią, na przykład jedna baza danych zawierająca więcej lub mniej informacji, scalanie jest znacznie trudniejsze.
Dwie sytuacje, które wymagają integracji danych bardziej niż jakakolwiek inna, dotyczą biznesu i badań. W świecie biznesu łączenie działów lub firm wymaga połączenia wcześniej odrębnych informacji w jedną strukturę. Ta forma integracji jest na ogół bardzo trudna, chyba że pierwotne grupy używały podobnego oprogramowania i miały podobne cele informacyjne.
Kiedy integracja danych jest wykonywana do celów badawczych, generalnie przebiega znacznie płynniej. Kiedy jeden badacz daje dostęp do swoich informacji drugiemu, obie strony zazwyczaj analizują ten sam proces. Oznacza to, że będą używać podobnych metod do katalogowania i przechowywania swoich danych.
W przeszłości integracja danych była stosunkowo niewielkim obszarem badań danych, ale zmieniło się to od początku XXI wieku. Ponieważ bezpłatne internetowe bazy danych stają się coraz bardziej popularne i dokładne, firmy starają się uzyskać informacje w formacie, który można udostępnić. Dzięki temu mogą zarówno udostępniać swoje informacje w formie publicznej, jak i integrować prywatne wersje dobrze znanych publicznych interfejsów ze swoimi systemami.