Strona główna Machine Learning Jak przygotować dane treningowe zgodnie z RODO i wymogami prywatności użytkowników

Kamyki Scrabble układające się w napis data breach na rozmazanym tle — Źródło: Pexels | Autor: Markus Winkler

Machine Learning

Jak przygotować dane treningowe zgodnie z RODO i wymogami prywatności użytkowników

Przez

Bartosz Kubiak

29 marca, 2026

Rate this post

Nawigacja:

Kontekst: po co w ogóle martwić się RODO przy ML

Dane jako paliwo dla modeli i źródło ryzyka

Dane treningowe to paliwo dla modeli machine learning. Im więcej, im bardziej granularne i „żywe” dane, tym zwykle lepsze wyniki. Jednocześnie to dokładnie te same dane, na których opiera się zaufanie użytkowników – historia transakcji, logi zachowań, nagrania rozmów, zapytania do wyszukiwarki, wiadomości do supportu. Dla inżyniera to materiał do trenowania modeli, dla użytkownika – bardzo osobista warstwa jego cyfrowego życia.

RODO pojawia się wszędzie tam, gdzie da się powiązać informacje z konkretną osobą: bezpośrednio (imię, e‑mail, numer telefonu) lub pośrednio (kombinacja czasu, lokalizacji, identyfikatora urządzenia, wzorców zachowań). To oznacza, że wiele klasycznych źródeł danych do ML – logi serwera, clickstream, nagrania call center czy dane z aplikacji mobilnych – niemal zawsze zahacza o definicję danych osobowych.

Techniczne „to działa” nie wystarcza. Model, który świetnie przewiduje zachowania klientów, ale został wytrenowany na danych zebranych bez odpowiedniej informacji i podstawy prawnej, jest obciążeniem. Grozi nie tylko karą administracyjną, ale też koniecznością wycofania modelu, a czasem nawet „oduczenia” go danych konkretnej osoby. Do tego dochodzi reputacja – jedno głośne oskarżenie o używanie danych „po cichu” potrafi skasować lata pracy nad zaufaniem.

RODO dotyczy nie tylko baz danych, ale i samych modeli

Wciąż zdarza się myślenie: „My tylko trenujemy model na danych z systemu X, a system X ma już RODO w porządku, więc wszystko jest OK”. Takie podejście pomija dwa ważne fakty. Po pierwsze: trenowanie modelu jest odrębnym celem przetwarzania, który wymaga własnej podstawy prawnej i odrębnej informacji dla użytkownika. Po drugie: w wielu przypadkach model sam w sobie staje się nośnikiem danych osobowych lub przynajmniej informacji możliwych do powiązania z użytkownikiem.

Jeśli model jest w stanie z wysokim prawdopodobieństwem odtworzyć specyficzny element z historii interakcji konkretnej osoby, istnieje ryzyko, że doszło do „wycieku” danych z modelu. Przy dużych modelach językowych i generatywnych jest to realne zagrożenie – model potrafi „zapamiętać” fragmenty tekstów, adresów, a nawet numery kart, jeśli trenuje się go na źle zanonimizowanych danych.

RODO każe patrzeć nie tylko na to, co jest w tabeli SQL czy w hurtowni danych, lecz także na to, jaką wiedzę utrwala wytrenowany model i kto może ją później z niego wydobyć (przez API, interfejs użytkownika, narzędzia debuggingowe).

Ryzyka: od kar finansowych po blokadę projektu

Bez przemyślenia kwestii RODO przy przygotowaniu danych treningowych pojawia się kilka typowych ryzyk:

Ryzyko formalne – brak jasnej podstawy prawnej dla trenowania, zbyt szeroki zakres przetwarzania, brak DPIA dla wysokiego ryzyka profilowania.
Ryzyko techniczne – wycieki danych z warstwy surowej, nieprawidłowa pseudonimizacja, brak kontroli nad tym, kto ma dostęp do danych treningowych.
Ryzyko operacyjne – konieczność gwałtownego wyłączenia modelu po interwencji prawników lub regulatora, zamrożenie projektu ML na miesiące.
Ryzyko reputacyjne – utrata zaufania użytkowników, negatywne publikacje, zwiększona ostrożność klientów biznesowych.

Na etapie data science taki projekt wygląda jak obiecujący POC. Po dołączeniu działu prawnego i bezpieczeństwa okazuje się jednak, że część danych trzeba usunąć, inne zanonimizować mocniej, a jeszcze inne pozyskać na nowo z poprawioną klauzulą informacyjną. To prosta droga do opóźnień i konfliktów wewnątrz organizacji.

Historia z życia: jak „naprawić” rekomendacje i wywołać śledztwo UODO

Wyobraźmy sobie niewielki start‑up e‑commerce. Zespół data science dostaje zadanie: poprawić rekomendacje produktów. Ktoś wpada na pomysł, żeby zaciągnąć do treningu także dane z wiadomości e‑mail wysyłanych do działu obsługi – bo tam są świetne sygnały o tym, co ludzie faktycznie kupują, czego szukają i co im się nie podoba. Dane trafiają do S3, powstaje pipeline, model pięknie się uczy na podstawie treści wiadomości. Konwersja rośnie.

Po kilku tygodniach klient żąda wglądu w swoje dane i dopytuje, do czego są używane. Ktoś z supportu powołuje się na regulamin i ogólnie „personalizację”. Klient jednak dociska, sprawa trafia do działu prawnego, a potem do UODO. Okazuje się, że w e‑mailach powtarzają się informacje o zdrowiu, preferencjach i problemach rodzinnych. Dane te zostały użyte do trenowania modelu rekomendacji bez odrębnej podstawy prawnej i bez odpowiedniej anonimizacji.

Model trzeba wyłączyć, dane z e‑maili usunąć, część logów i backupów przejrzeć ręcznie. Zyski z lepszych rekomendacji znikają, za to pojawia się audyt zewnętrzny i utrata zaufania kluczowych klientów. Wszystko dlatego, że nikt nie zadał na początku kilku prostych pytań: czy to są dane osobowe? czy zawierają szczególne kategorie? czy użytkownik został o takim użyciu danych poinformowany?

Podstawy prawne w praktyce: kiedy dane stają się „danymi osobowymi”

Definicja danych osobowych a dane treningowe

Z punktu widzenia RODO dane osobowe to każda informacja, która pozwala zidentyfikować osobę fizyczną, bezpośrednio lub pośrednio. To znacznie szersza kategoria niż tylko imię, nazwisko i PESEL. W kontekście machine learning oznacza to, że danymi osobowymi mogą być między innymi:

identyfikatory użytkownika w aplikacji (user_id, session_id),
adresy e‑mail, numery telefonów, identyfikatory komunikatorów,
adresy IP, identyfikatory urządzeń, identyfikatory reklamowe,
dane lokalizacyjne w odpowiedniej rozdzielczości (np. dokładne współrzędne),
wzorce zachowań w serwisie (ciągi kliknięć, specyficzne nawyki),
nagrane głosy, wizerunki z monitoringu, treści wiadomości.

Log serwera, który z perspektywy DevOpsa jest po prostu tekstowym plikiem z datą, URL i IP, z perspektywy RODO jest zbiorem danych osobowych, jeśli można go powiązać z konkretnym użytkownikiem. Nawet jeśli w danych treningowych nie ma imion i nazwisk, często wystarczy kombinacja kilku pól, aby „odtworzyć” tożsamość.

Dane osobowe, pseudonimizowane i zanonimizowane – różnice z perspektywy ML

W projektach ML pojawiają się trzy kluczowe kategorie danych:

Rodzaj danych	Opis	Przykład w ML	RODO ma zastosowanie?
Dane osobowe	Dają się powiązać z konkretną osobą (bezpośrednio lub pośrednio).	Logi kliknięć z user_id, e‑mailem i IP.	Tak
Dane pseudonimizowane	Identyfikatory zastąpione innymi, ale istnieje klucz pozwalający odwrócić proces.	Historia transakcji z losowym ID zamiast e‑maila, klucz mapujący przechowywany osobno.	Tak
Dane zanonimizowane	Nie da się przypisać do osoby w rozsądny sposób – brak możliwości odwrócenia.	Zagregowane statystyki: liczba transakcji w wieku 25–34 lata w danym mieście.	Nie

Pseudonimizacja jest bardzo użyteczna w ML, bo ogranicza bezpośrednią identyfikowalność, a jednocześnie pozwala łączyć rekordy tego samego użytkownika w czasie. Jednak z perspektywy prawa to nadal dane osobowe, ponieważ istnieje (choćby w innej jednostce organizacyjnej) możliwość przywrócenia pierwotnej tożsamości.

Anonimizacja jest jednokierunkowa – po przeprowadzeniu procesu nie da się (w praktyce, przy rozsądnych nakładach) powiązać danych z osobą. Anonimizacja musi być trwała i odporna na połączenie z innymi dostępnymi zbiorami. W projektach ML pełna anonimizacja często obniża użyteczność danych, ale w wielu przypadkach da się znaleźć kompromis: zanonimizować mocno część cech, a inne zachować na poziomie pseudonimizacji.

Szczególne kategorie danych i „przypadkowe” wciąganie ich do zbioru

RODO wyróżnia szczególne kategorie danych, m.in. dotyczące zdrowia, poglądów politycznych, przekonań religijnych, orientacji seksualnej czy przynależności do związków zawodowych. Te dane podlegają jeszcze ostrzejszym zasadom przetwarzania. W machine learning łatwo je wciągnąć „tylnymi drzwiami”, na przykład:

trenując modele NLP na treści wiadomości e‑mail lub czatu, w których użytkownicy opisują swoje problemy zdrowotne lub poglądy,
analizując fora tematyczne lub grupy wsparcia bez właściwej anonimizacji,
nagrywając i transkrybując rozmowy z infolinii medycznych, ubezpieczeniowych czy psychologicznych.

Jeśli model trenowany jest na takich danych, organizacja musi mieć bardzo mocną podstawę prawną, wyraźną, konkretną zgodę użytkownika oraz często przeprowadzić ocenę skutków (DPIA). W praktyce oznacza to, że w wielu przypadkach lepiej ograniczyć zakres danych treningowych i odfiltrować treści, które wchodzą w szczególne kategorie – np. za pomocą klasyfikatorów lub reguł maskujących.

Administrator i procesor w projektach machine learning

W typowym projekcie ML występuje kilka ról:

Administrator danych – podmiot, który decyduje o celach i sposobach przetwarzania danych. Najczęściej to firma, która ma relację z użytkownikiem końcowym (np. sklep internetowy, bank, dostawca aplikacji mobilnej).
Procesor (podmiot przetwarzający) – podmiot, który przetwarza dane w imieniu administratora, na podstawie umowy. To może być software house tworzący model, dostawca platformy MLOps, firma realizująca labeling lub zewnętrzny zespół analityczny.

Często administrator przekazuje procesorowi dane do trenowania modeli. W takiej sytuacji konieczna jest umowa powierzenia przetwarzania danych osobowych, która określa m.in. rodzaj danych, zakres przetwarzania, środki bezpieczeństwa, podpowierzenia i zasady zwrotu/usunięcia danych. Procesor nie może używać powierzonych danych do własnych celów (np. trenowania swoich ogólnych modeli), chyba że ma na to odrębną podstawę i zgodę administratora.

Jeśli dodatkowo projekt ML korzysta z chmury (np. do przechowywania danych treningowych czy do trenowania modeli na GPU), dostawca chmury jest kolejnym procesorem lub dalszym podprocesorem, co powinno być odzwierciedlone w dokumentacji i umowach.

Podstawy prawne przetwarzania danych na potrzeby trenowania modeli

RODO wymaga, aby każde przetwarzanie danych osobowych, w tym tworzenie danych treningowych do ML, miało konkretną podstawę prawną. W praktyce przy projektach ML najczęściej pojawiają się:

Wykonanie umowy – gdy trenowanie modelu jest niezbędne do świadczenia usługi, na którą użytkownik się zapisał. Przykład: filtrowanie spamu w skrzynce pocztowej, detekcja nadużyć w transakcjach płatniczych.
Uzasadniony interes administratora – np. rozwój i ulepszanie produktów, analiza statystyczna, zapewnienie bezpieczeństwa systemów.
Zgoda użytkownika – szczególnie przy profilowaniu marketingowym, personalizacji wykraczającej poza to, czego przeciętny użytkownik może się spodziewać, oraz przy szczególnych kategoriach danych.

W praktyce trenowanie modeli na danych użytkowników często opiera się na uzasadnionym interesie, ale wymaga:

przeprowadzenia testu równowagi (czy interes administratora nie przeważa nad prawami użytkownika),
zapewnienia możliwości sprzeciwu (opt‑out),
transparentnego poinformowania o tym, że dane są używane także do trenowania modeli.

Gdy model służy do agresywnego profilowania marketingowego, analizy szczegółowych preferencji lub korzysta ze szczególnych kategorii danych, zdecydowanie bezpieczniej jest sięgnąć po wyraźną, odrębną zgodę. Tam, gdzie mówimy o funkcjach „niezbędnych do usługi” – jak antyfraud czy filtrowanie spamu – można zwykle oprzeć się na umowie lub uzasadnionym interesie.

Drewniane kostki z napisem COMPLIANCE na rustykalnym tle drewnianym — Źródło: Pexels | Autor: Markus Winkler

Mapowanie strumieni danych: co tak naprawdę trafia do zbioru treningowego

Rozrysowanie drogi danych – od źródła do pliku treningowego

Przygotowanie danych treningowych zgodnie z RODO zaczyna się od prostego, ale często pomijanego kroku: zrozumienia, skąd i jak płyną dane. W praktyce bardzo pomaga dosłowne rozrysowanie strumieni danych na diagramie, np. w formie:

źródło danych (formularz rejestracji, aplikacja mobilna, system CRM, logi serwera),
system, który jako pierwszy zbiera dane (backend, system ticketowy, baza analityczna),
etapy przekształceń (ETL/ELT),

Inwentaryzacja pól i cech – jakie informacje „wycieka” po drodze

Sam diagram przepływu danych to dopiero początek. Kolejny krok to bardzo przyziemne, ale niesamowicie skuteczne ćwiczenie: lista pól i cech, które ostatecznie lądują w zbiorze treningowym. Chodzi nie tylko o surowe kolumny z bazy, lecz także o cechy pochodne generowane w feature engineeringu.

Przydaje się prosta tabela (choćby w arkuszu), w której dla każdej kolumny/cechy zapisujesz m.in.:

nazwę techniczną (np. user_id_hash, avg_session_duration_7d),
opis biznesowy („hash identyfikatora użytkownika”, „średni czas sesji z ostatnich 7 dni”),
źródło (konkretny system, log, tabela),
typ z perspektywy RODO (dane osobowe, pseudonimizowane, zanonimizowane, szczególna kategoria),
czy jest niezbędna do osiągnięcia celu modelu, czy „nice to have”.

Już na tym etapie często wychodzą ciekawe rzeczy. Przykład z praktyki: model rekomendacyjny w e‑commerce, w którym zespół ML używał dokładnego timestampu rejestracji użytkownika jako jednej z cech. Dla modelu była to słaba, prawie losowa informacja, ale w połączeniu z innymi danymi mocno ułatwiała identyfikację konkretnej osoby w zbiorze. Po przeglądzie pól timestamp został zaokrąglony do dnia, a w niektórych przypadkach całkowicie usunięty – zero straty jakości, za to mniej ryzyka reidentyfikacji.

Takie „czyszczenie” listy pól – z punktu widzenia modelu i RODO jednocześnie – jest jednym z najprostszych sposobów na ograniczenie zakresu przetwarzania. Im mniej szczegółowych informacji o użytkowniku trafia do featurów, tym łatwiej obronić się przy pytaniu: „czy naprawdę było to potrzebne?”.

Łączenie źródeł – wąskie gardło prywatności

Modele lubią dane z wielu źródeł: logi aplikacji, CRM, system płatności, dane z kampanii reklamowych. Z perspektywy jakości predykcji to świetna wiadomość, ale z perspektywy RODO to właśnie moment, w którym rodzi się największe ryzyko naruszenia prywatności.

Przy łączeniu źródeł opłaca się przeanalizować kilka kwestii:

Minimalny zakres kluczy łączących – czy naprawdę potrzebne jest user_id, czy wystarczy grupa użytkowników (np. segment, kohorta)?
Poziom szczegółowości – czy trzeba trzymać surowe eventy z dokładną godziną, czy można ograniczyć się do agregatów dziennych/tygodniowych?
Zakres historyczny – czy model musi widzieć całą historię od 5 lat, czy wystarczy ostatni rok?

Drobna zmiana, typu przejście z surowych logów kliknięć do znacznie prostszych cech („liczba wizyt w ostatnich 30 dniach”, „liczba dodanych produktów do koszyka”), potrafi nie tylko odchudzić pipeline, ale też wyeliminować część danych, które są szczególnie wrażliwe lub łatwo identyfikowalne.

Dobrym nawykiem jest też zaznaczenie w dokumentacji, które połączenia danych są „krytyczne” z punktu widzenia prywatności – np. łączenie danych transakcyjnych z danymi z helpdesku. W razie audytu od razu wiadomo, na co patrzeć w pierwszej kolejności.

Ścieżka danych a prawa użytkownika – usunięcie, ograniczenie, sprzeciw

Na mapie strumieni danych powinno być wyraźnie widać, jak zrealizować prawa użytkowników. Pytanie praktyczne brzmi: jeśli ktoś zażąda usunięcia danych albo zgłosi sprzeciw wobec profilowania, co dzieje się ze zbiorem treningowym i modelem?

W praktyce trzeba odpowiedzieć na kilka pytań, najlepiej jeszcze przed wdrożeniem modelu:

W których bazach i plikach pojawia się dany użytkownik (identyfikatory, hashe, klucze techniczne)?
Czy dane treningowe są odtwarzalne (można je zrekonstruować z surowych źródeł), czy to jednorazowy snapshot?
Czy przewidywany jest regularny retraining, czy model będzie „zamrożony” na lata?

Jeżeli model jest regularnie douczany na świeżych danych, często wystarczy, że dane użytkownika zostaną usunięte z surowych źródeł i nie trafią do kolejnych iteracji treningu. Przy sporadycznym trenowaniu lub modelach budowanych na jednorazowym zbiorze bywa trudniej – trzeba rozważyć np. utrzymywanie listy rekordów wyłączonych ze zbioru, osobnych zestawów danych na potrzeby trenowania lub procedurę ponownego treningu po zebraniu odpowiedniej liczby żądań usunięcia.

Coraz częściej pojawiają się też narzędzia do „unlearningu” – usuwania wpływu konkretnych danych na już wytrenowany model. To wciąż żywy obszar badań, ale dobrze mieć go z tyłu głowy przy projektowaniu architektury, zwłaszcza w dużych projektach.

Zgoda, informacja i uzasadniony interes – jak „legalnie” trenować modele

Transparentność wobec użytkownika – jak mówić o ML po ludzku

RODO stawia mocny nacisk na to, by użytkownik wiedział, co dzieje się z jego danymi. Nie wystarczy ukryta w regulaminie wzmianka typu „dane mogą być używane w celach analitycznych”. Informacja o trenowaniu modeli powinna być:

konkretna – jakie typy modeli, w jakim ogólnym celu (np. „do wykrywania nadużyć”, „do personalizacji treści”);
zrozumiała – bez żargonu technicznego, raczej „analiza wzorców zachowania w serwisie” niż „model sekwencyjny na danych eventowych”;
łatwo dostępna – nie na 20. stronie polityki prywatności, lecz w miejscach, w których użytkownik podejmuje istotne decyzje (rejestracja, włączanie personalizacji itp.).

Przykładowa, sensowna informacja może brzmieć: „Analizujemy sposób korzystania z aplikacji (np. kliknięcia, czas spędzony w poszczególnych sekcjach), aby trenować modele uczące się, które pomagają nam wykrywać podejrzane logowania i proponować treści dopasowane do Twoich zainteresowań. Możesz sprzeciwić się tej analizie w ustawieniach prywatności.”

Taki opis zdejmuje część napięcia: użytkownik w miarę wie, co się dzieje, i ma wskazaną ścieżkę rezygnacji. Z punktu widzenia RODO realizuje to obowiązek informacyjny i wzmacnia argument za uzasadnionym interesem.

Zgoda – kiedy jest konieczna, a kiedy lepiej jej nie nadużywać

Zgoda użytkownika kojarzy się z „bezpieczną” podstawą prawną, ale w ML potrafi bardziej przeszkadzać niż pomagać, jeśli jest stosowana na oślep. Powinna być używana przede wszystkim tam, gdzie:

przetwarzanie nie jest niezbędne do świadczenia usługi (np. zaawansowane profilowanie marketingowe),
mamy do czynienia ze szczególnymi kategoriami danych,
chcemy danych używać do celów wykraczających poza to, czego przeciętny użytkownik rozsądnie się spodziewa.

Jeżeli zgoda ma być ważna, musi być dobrowolna, konkretna i jednoznaczna. Oznacza to m.in., że:

nie można „chować” zgody na trenowanie modeli w ogólnej akceptacji regulaminu,
nie wolno uzależniać podstawowej usługi (np. korzystania z komunikatora) od zgody na dodatkowe profilowanie marketingowe,
użytkownik musi mieć prosty sposób na wycofanie zgody – najlepiej w tym samym kanale, w którym ją wyraził.

Przykład: serwis streamingowy może oprzeć rekomendacje podstawowe („proponujemy podobne filmy do obejrzanych”) na uzasadnionym interesie, ale już bardzo szczegółowe profilowanie pod kątem kampanii reklamowych we współpracy z partnerami zewnętrznymi lepiej obsłużyć przez osobną zgodę.

Uzasadniony interes – dokumentacja, która naprawdę się przydaje

Jeśli projekt ML opiera się na uzasadnionym interesie, kluczowy jest test równowagi. Dla wielu zespołów brzmi to jak papierologia, ale dobrze zrobiony dokument ma jedną dużą zaletę: jasno pokazuje projektantom modelu, gdzie są granice.

W praktyce test równowagi powinien zawierać m.in.:

opis interesu administratora (np. „zwiększenie bezpieczeństwa transakcji”, „ulepszanie wyszukiwarki produktów”),
opis potencjalnego wpływu na użytkownika (ryzyka: np. błędna klasyfikacja, nadmierne profilowanie, dyskryminacja),
zastosowane środki ochrony (pseudonimizacja, ograniczenie retencji, możliwość sprzeciwu, brak wykorzystywania danych do innych celów),
ocenę, czy prawa i wolności użytkownika nie są nadmiernie naruszane.

Dobrym nawykiem jest przegląd takiego testu przy każdej istotnej zmianie modelu: dodaniu nowych cech, rozszerzeniu zakresu użytkowników, zmianie celu biznesowego. To moment, w którym można zatrzymać się i zadać kilka niewygodnych, ale potrzebnych pytań typu: „Czy te nowe dane o lokalizacji są nam naprawdę potrzebne?”, „Czy nie zaczynamy wchodzić w obszar, który użytkownik odbierze już jako inwazyjny monitoring?”.

Sprzeciw i opt‑out – projektowanie na poziomie produktu, nie tylko regulaminu

Jeżeli podstawą prawną jest uzasadniony interes, użytkownik ma prawo do sprzeciwu wobec przetwarzania jego danych w tym celu. W ML oznacza to potrzebę zaprojektowania realnego opt‑outu, a nie tylko zapisu w polityce prywatności.

Praktyczne opcje to m.in.:

przełącznik „wyłącz personalizację opartą na analizie Twojej aktywności” w ustawieniach konta,
osobny checkbox przy marketingowym profilowaniu z jasnym opisem,
mechanizm oznaczania użytkownika w bazie (flaga), który jest respektowany na każdym etapie pipeline’u danych – od logów, przez ETL, po generowanie zbiorów treningowych.

Jeżeli produkt ma kilka różnych zastosowań ML (np. rekomendacje, antyfraud, monitoring wydajności), nie wszystkie muszą być objęte możliwością sprzeciwu w ten sam sposób. Można rozdzielić procesy: antyfraud jako element bezpieczeństwa usługi (trudny do wyłączenia), rekomendacje marketingowe jako opcjonalna warstwa, z której użytkownik może zrezygnować.

Kafelkowe litery tworzące słowo PRIVACY na czerwonym tle — Źródło: Pexels | Autor: Miguel Á. Padriñán

Privacy by design w ML: jak projektować pipeline danych z myślą o prywatności

Minimalizacja danych – zaczyna się przy projektowaniu cech

Privacy by design w ML w dużej mierze sprowadza się do jednego pytania: „Czy ta konkretna informacja jest naprawdę potrzebna modelowi?”. Jeśli na etapie projektowania featurów przyjmiesz zasadę minimalizacji, wiele problemów znika, zanim się pojawi.

Przy układaniu cech przydaje się kilka prostych heurystyk:

preferuj agregaty zamiast surowych danych (liczby, średnie, procenty zamiast pełnych logów),
ograniczaj dokładność tam, gdzie to możliwe (wiek w przedziałach zamiast dokładnej daty urodzenia, lokalizacja na poziomie miasta zamiast współrzędnych),
unikaj cech, które niosą ryzyko wejścia w szczególne kategorie (np. treści tekstowe, z których można wyczytać zdrowie czy poglądy), chyba że projekt wyraźnie tego wymaga i ma odpowiednie podstawy.

Dobrym ćwiczeniem jest porównanie wyników modelu na bogatym zestawie cech i na zestawie „odchudzonym” pod kątem prywatności. Często okazuje się, że różnica w jakości jest minimalna, za to różnica w profilu ryzyka – ogromna.

Separacja środowisk i ról – kto widzi dane, a kto tylko wyniki

Pipeline ML to zwykle kilka środowisk: development, test, produkcja, czasem piaskownica do eksperymentów. Jeśli wszędzie lądują pełne dane osobowe, bardzo trudno mówić o privacy by design.

Praktycznie można zastosować kilka warstw ochrony:

silna pseudonimizacja (np. jednokierunkowe hashowanie identyfikatorów) już na wejściu do środowiska analitycznego,
oddzielenie zespołów – niewielka grupa ma dostęp do surowych danych w kontrolowanym środowisku, reszta pracuje na przetworzonych, zubożonych zbiorach,
maskowanie w środowiskach testowych – zamiast kopiować produkcyjną bazę „1:1”, generowanie zanonimizowanych lub syntetycznych danych tam, gdzie to sensowne.

Do tego dochodzi zwykła higiena dostępu: dzienniki kto i kiedy pobierał zbiory, kontrola uprawnień w narzędziach BI i w repozytoriach danych treningowych, ograniczanie eksportów do plików CSV na dyski lokalne. Brzmi przyziemnie, ale to właśnie w tych miejscach najczęściej dochodzi do wycieków.

Retencja danych i „termin ważności” zbiorów treningowych

Dane treningowe mają tę specyfikę, że kuszą, by trzymać je „na wszelki wypadek” – bo może przydadzą się do kolejnego modelu. Z perspektywy RODO to prosta droga do kłopotów. Trzeba z góry określić, jak długo dane będą przechowywane i do jakich celów.

Przydatne są tu dwa proste poziomy retencji:

retencja surowych danych (logów, eventów, danych transakcyjnych),

Warstwowanie retencji – inne zasady dla danych, inne dla modeli

Drugim poziomem jest retencja zbiorów treningowych i samych modeli. Tu sytuacja jest bardziej zniuansowana: model „zapomina” jednostkowe rekordy, ale wciąż może odtwarzać pewne wzorce, a nawet – przy nieostrożnym trenowaniu – fragmenty oryginalnych danych.

Przy układaniu polityki retencji dobrze działa podejście warstwowe:

dane surowe trzymane relatywnie krótko (np. kilka–kilkanaście miesięcy, w zależności od celu),
zbiory treningowe w formie „snapshotów” – dłużej, ale z jasnym uzasadnieniem (np. potrzeba audytu, odtworzenia wyników eksperymentu),
modele produkcyjne – tak długo, jak są używane, przy założeniu, że da się udowodnić, z jakich danych powstały i kiedy były aktualizowane.

Przykładowy scenariusz: system antyfraudowy oparty na danych transakcyjnych. Surowe logi trzymasz 12 miesięcy, zbiory treningowe generowane co kwartał – 24 miesiące, model produkcyjny – do czasu jego zastąpienia nowszą wersją, przy czym każda wersja ma powiązanie z konkretnymi datasetami.

Przy takim podejściu prościej odpowiedzieć na pytania w stylu: „Dlaczego mój wniosek został odrzucony?” albo „Czy nadal przetwarzacie moje dane sprzed trzech lat?”.

Usuwanie danych a „oduczenie” modelu

Jednym z trudniejszych pytań w kontekście RODO jest: co dzieje się z modelem, gdy użytkownik realizuje prawo do usunięcia danych? Przecież nie „wytniesz” jego rekordu z już wytrenowanej sieci neuronowej.

Na dziś dominują trzy praktyczne podejścia:

brak retrainingu „wstecz” – dane usuwasz z systemów źródłowych i kolejnych pipeline’ów, ale model trenujesz od zera dopiero przy kolejnej iteracji, już bez tych rekordów,
częsty retraining pełny – modele budujesz w cyklach (np. co miesiąc) na kompletnie odświeżonych danych, z uwzględnieniem wszystkich usunięć i sprzeciwów,
eksperymentalne „machine unlearning” – techniki pozwalające w teorii „oduczyć” model wpływu wybranych rekordów, na razie raczej w fazie badań niż stabilnych wdrożeń.

Z perspektywy praktyka zwykle wygrywa kombinacja dwóch pierwszych opcji: solidny proces usuwania danych z hurtowni + regularne, pełne trenowanie modeli. Zespół prawny ma wtedy argument, że wpływ usuniętych danych wygasa w czasie, a zespół ML zachowuje kontrolę nad jakością modeli.

Śledzenie pochodzenia danych (data lineage) – kto, kiedy, z czego zbudował model

Gdy systemów, baz i modeli zaczyna być kilkanaście, pamięć ludzka przestaje wystarczać. Bez dobrego data lineage możesz po roku nie wiedzieć, jakie dokładnie dane trafiły do modelu zainstalowanego w krytycznym procesie.

Przejrzysty łańcuch pochodzenia danych to kilka elementów:

udokumentowane procesy ETL – skąd przychodzi dana tabela, jakie transformacje na niej wykonujesz,
metadane przy datasetach treningowych: zakres dat, źródła, filtry, wersja schematu,
powiązanie modelu z konkretnym zestawem treningowym i konfiguracją (hiperparametry, wersja kodu),
log zmian – kto i kiedy wprowadził nowy feature, zmienił warunki filtrowania, dodał nowe źródło.

W praktyce nie chodzi o perfekcyjne narzędzia korporacyjne. Nawet proste oznaczanie zbiorów w katalogu danych i notatki w repozytorium kodu bardzo pomagają, gdy po półtora roku przychodzi żądanie dostępu do danych lub audyt regulatora.

Techniki ochrony danych treningowych: anonimizacja, agregacja, prywatność różnicowa

Pseudonimizacja a prawdziwa anonimizacja – gdzie przebiega granica

W projektach ML często używa się słowa „anonimizacja” na określenie tego, co z punktu widzenia RODO jest tylko pseudonimizacją. To niebezpieczne uproszczenie, bo tworzy złudne poczucie bezpieczeństwa.

Pseudonimizacja to sytuacja, w której klucze (np. identyfikatory użytkowników) zostały zastąpione innymi wartościami – najczęściej haszami lub losowymi ID. Jeżeli jednak istnieje gdzieś tabela mapująca stare ID na nowe, albo da się je odtworzyć poprzez korelację z innymi systemami, to wciąż są to dane osobowe.

Anonimizacja w sensie prawnym oznacza, że nikt – przy użyciu racjonalnie dostępnych środków – nie jest w stanie powiązać danych z konkretną osobą. To bardzo wysoka poprzeczka. W praktyce pełną anonimizację da się osiągnąć głównie na danych silnie zagregowanych lub bardzo zubożonych.

W ML bezpieczniej przyjąć, że wszystko, co zawiera indywidualne rekordy (nawet z zahashowanym ID), to dane osobowe. Pseudonimizacja jest ważnym środkiem ochrony, ale nie zwalnia z obowiązków z RODO.

Redukcja identyfikowalności: k‑anonimowość i pokrewne koncepcje

Jednym z praktycznych podejść do oceny ryzyka reidentyfikacji są koncepcje typu k‑anonimowość. Intuicja jest prosta: jeżeli każdy rekord w zbiorze danych jest „nieodróżnialny” od co najmniej k‑1 innych rekordów pod względem kluczowych cech (wiek, miasto, płeć itd.), to trudniej wskazać konkretną osobę.

W ML takie podejście można wykorzystać między innymi przy:

tworzeniu zbiorów do dzielenia się z zewnętrznymi partnerami (np. wspólne badania, hackathony),
przygotowywaniu zestawów testowych, które mają być szerzej dostępne w organizacji,
tworzeniu benchmarków wewnętrznych, gdzie identyfikowalność osób jest zbędna.

Przykład: zamiast dokładnego wieku, kodu pocztowego i daty rejestracji stosujesz przedziały wiekowe, miasto zamiast dzielnicy i rok rejestracji. Dane tracą trochę szczegółów, ale zyskujesz większą „gęstość” grup użytkowników, przez co trudniej wskazać konkretnego Kowalskiego.

Agregacja i zliczenia – dane użyteczne, ale mniej wrażliwe

Modele w wielu zastosowaniach nie potrzebują surowych logów, tylko dobrych statystyk. To przestrzeń, w której agregacja staje się sprzymierzeńcem prywatności.

Wyobraź sobie system rekomendacji treści. Zamiast pracować na liście wszystkich artykułów przeczytanych przez użytkownika z dokładnym timestampem, możesz wprowadzić cechy typu:

liczba artykułów z danej kategorii w ostatnim tygodniu,
procent czasu spędzonego w danej sekcji serwisu,
średnia długość sesji dzienna w ostatnich 30 dniach.

Dana jednostkowa (konkretny klik z konkretną godziną) znika, a model nadal dysponuje bogatą reprezentacją zachowania. Dodatkowy plus: mniej danych do przechowywania i obrabiania, prostszy pipeline, krótszy czas treningu.

Maskowanie i perturbacja danych – dodawanie kontrolowanego szumu

Czasem potrzebujesz udostępnić dane szerszemu gronu (np. zespołowi zewnętrznych konsultantów), ale nie chcesz pokazywać pełnej prawdy o każdym użytkowniku. Jednym z rozwiązań jest perturbacja – wprowadzanie kontrolowanego szumu do danych.

Proste techniki obejmują m.in.:

dodanie niewielkiej losowej wartości do liczbowych cech (np. +/- kilka procent),
zaokrąglanie kwot, liczników, czasów do „schodków” (np. do pełnych 5 minut, 10 zł),
maskowanie rzadkich kombinacji cech (np. bardzo nietypowych lokalizacji w połączeniu z rzadką aktywnością).

Jeżeli szum jest dobrze dobrany, modele nadal uczą się globalnych wzorców, ale utrudnione jest odtworzenie konkretnego zachowania konkretnej osoby. To szczególnie przydatne przy eksperymentach, gdzie celem jest sprawdzenie koncepcji, a nie osiągnięcie maksymalnej dokładności.

Prywatność różnicowa – kiedy zwykła anonimizacja nie wystarcza

Prywatność różnicowa (differential privacy) to podejście, które formalizuje pytanie: „Czy wynik analizy zmienia się istotnie, gdy dodamy lub usuniemy dane jednej osoby?”. Jeżeli nie – można powiedzieć, że system w pewnym stopniu „chroni” jednostkę przed wyciekiem informacji.

W praktyce stosuje się dwa główne nurty:

prywatność różnicowa na poziomie zapytań – dodawanie szumu do wyników statystyk (np. liczba użytkowników spełniających warunek), często wykorzystywane w narzędziach analitycznych,
prywatność różnicowa w uczeniu modeli – modyfikacja procesu treningu (np. w algorytmach gradientowych), tak aby wpływ pojedynczego rekordu na ostateczny model był ściśle ograniczony.

Popularne biblioteki ML (np. TensorFlow, PyTorch) mają już rozszerzenia wspierające trening z prywatnością różnicową. Nie jest to jednak „wtyczka na kliknięcie” – trzeba zrozumieć kompromisy: często spadek jakości modelu, dodatkową złożoność i konieczność dobrania parametrów szumu. Sensownie sprawdza się to tam, gdzie model działa na naprawdę wrażliwych danych: zdrowotnych, finansowych, edukacyjnych.

Uczenie federacyjne – model jedzie do danych, a nie dane do modelu

Klasyczne podejście do uczenia modeli zakłada centralne zbieranie danych. Uczenie federacyjne odwraca tę logikę: dane pozostają na urządzeniach użytkowników (lub w systemach lokalnych), a do nich wysyłany jest kod modelu, który trenuje się „na miejscu”. Później wracają jedynie zaktualizowane parametry, często dodatkowo zabezpieczone kryptograficznie.

Gdzie to ma sens?

w aplikacjach mobilnych, które zbierają bardzo osobiste dane (np. nawyki zdrowotne, sen, aktywność),
w ekosystemach rozproszonych (np. sieci IoT), gdzie centralne zbieranie danych byłoby kosztowne i ryzykowne,
w projektach, w których różne organizacje chcą wspólnie trenować model, nie dzieląc się surowymi danymi (tzw. federated analytics).

Uczenie federacyjne nie rozwiązuje wszystkich problemów – nadal pozostają kwestie zgody, podstawy prawnej, bezpieczeństwa aktualizacji modelu – ale radykalnie zmniejsza ryzyko wycieku scentralizowanej bazy pełnej wrażliwych informacji.

Zbiory syntetyczne – gdy prawdziwych danych lepiej nie ruszać

Czasem najlepszym sposobem ochrony danych jest… w ogóle ich nie używać w surowej formie poza najściślej kontrolowanym środowiskiem. Tu wchodzą dane syntetyczne – sztucznie wygenerowane rekordy, które statystycznie przypominają oryginalny zbiór, ale nie odwzorowują żadnej konkretnej osoby.

Zastosowania są dość szerokie:

środowiska developerskie i testowe – programiści nie potrzebują prawdziwych danych, aby zbudować API czy pipeline,
wstępny prototyp modelu – można sprawdzić, czy koncepcja w ogóle ma sens, zanim sięgnie się po wrażliwy dataset,
współpraca z zewnętrznymi dostawcami narzędzi – do testów integracji wystarczy syntetyka.

Oczywiście jakość danych syntetycznych ma swoje granice: na nich nie „wykarmisz” precyzyjnego modelu produkcyjnego. Za to świetnie nadają się do ograniczenia kontaktu większej liczby osób z prawdziwymi danymi, co z perspektywy ryzyka bywa bezcenne.

Kontrola dostępu do zbiorów treningowych – zasady jak do produkcyjnej bazy

Częsty błąd polega na traktowaniu repozytoriów danych treningowych jak „mniej wrażliwych” niż główna baza produkcyjna. Tymczasem w tych plikach i tabelach często jest więcej informacji kontekstowej, niż w operacyjnych systemach.

Rozsądne minimum to:

stosowanie tych samych standardów uwierzytelniania i autoryzacji, co do systemów produkcyjnych (MFA, role, zasada najmniejszych uprawnień),
oddzielenie ról: kto może widzieć surowe dane, kto tylko zanonimizowane, a kto jedynie metryki modelu,
regularny przegląd uprawnień, szczególnie dla kont serwisowych i narzędzi automatycznych,
monitorowanie eksportu danych na zewnątrz (pobrania plików, kopie na S3 poza głównym kontem, itp.).

Dobrą praktyką jest też wersjonowanie zbiorów treningowych wraz z kontrolą dostępu – tak, aby osoba z zespołu marketingu nie miała przypadkiem wglądu w dane, które były zebrane wyłącznie na potrzeby antyfraudu lub obsługi reklamacji.

Bezpieczeństwo modeli – ataki na inferencję i odtwarzanie danych

Na koniec element, o którym przy projektowaniu RODO często się zapomina: modele same w sobie mogą stać się wektorem wycieku danych. Istnieją całe klasy ataków (np. model inversion, membership inference), które próbują odtworzyć informacje o danych treningowych poprzez sprytne odpytanie modelu.

Kilka praktycznych środków ostrożności:

ograniczenie ilości informacji zwracanej przez model (np. zamiast pełnego rozkładu prawdopodobieństw – tylko top‑N klas),

Najczęściej zadawane pytania (FAQ)

Czy dane treningowe do machine learning to zawsze dane osobowe w rozumieniu RODO?

Nie zawsze, ale w praktyce bardzo często. Dane treningowe stają się danymi osobowymi wtedy, gdy można je powiązać z konkretną osobą – bezpośrednio (np. e‑mail, numer telefonu) albo pośrednio (zestaw cech, który „składa się” na jedną osobę).

W ML danymi osobowymi będą zwykle: identyfikatory użytkownika w aplikacji, adresy IP, dokładna lokalizacja, logi kliknięć z user_id czy nagrania rozmów. Nawet jeśli nie ma imienia i nazwiska, kombinacja kilku pól często pozwala zidentyfikować człowieka. Zwykły log serwera z IP i timestampem dla developera jest plikiem tekstowym, a dla RODO – zbiorem danych osobowych.

Jaka jest różnica między danymi osobowymi, pseudonimizacją a anonimizacją w ML?

Dane osobowe to wszystko, co pozwala zidentyfikować osobę. Pseudonimizacja polega na zastąpieniu bezpośrednich identyfikatorów (np. e‑maila) innymi ID, ale gdzieś istnieje klucz pozwalający to odwrócić. Anonimizacja z kolei to taki proces, po którym nie da się już w rozsądny sposób wrócić do konkretnej osoby.

W ML pseudonimizacja jest bardzo wygodna: możesz łączyć dane tego samego użytkownika w czasie, a jednocześnie ograniczasz widoczność jego „prawdziwej” tożsamości w zespole technicznym. Z punktu widzenia prawa to jednak nadal dane osobowe. Dane naprawdę zanonimizowane (np. zagregowane statystyki dla grup wiekowych w mieście) wypadają spod RODO, ale często są mniej użyteczne do trenowania modeli.

Czy wytrenowany model może sam w sobie być nośnikiem danych osobowych?

Tak, model potrafi „przenosić” dane osobowe, nawet jeśli już nie widzisz surowych rekordów. Jeśli model jest w stanie z dużym prawdopodobieństwem odtworzyć specyficzny fragment historii konkretnego użytkownika (np. cytat z maila, adres, fragment rozmowy), to znaczy, że utrwalił dane osobowe w swoich wagach.

To szczególnie dotyczy dużych modeli językowych i generatywnych trenowanych na nieoczyszczonych danych tekstowych. Wyobraź sobie model czatu supportowego, który po kilku promptach „przypomina sobie” numer karty z korespondencji z klientem – to klasyczny przykład wycieku przez model. Dlatego przy ocenie zgodności z RODO patrzy się nie tylko na bazę danych, ale i na to, co można wydobyć z modelu przez API czy panel dla pracowników.

Czy potrzebuję osobnej podstawy prawnej, żeby użyć danych do trenowania modelu?

Tak. Trenowanie modelu to osobny cel przetwarzania danych, a nie po prostu „przedłużenie” istniejącego systemu. Jeśli zbierałeś dane „do obsługi zamówień”, to użycie ich do trenowania systemu rekomendacyjnego wymaga osobnego uzasadnienia prawnego i jasnej informacji dla użytkownika.

Przykład z praktyki: firma ma regulamin mówiący o „przetwarzaniu danych w celu realizacji umowy”. Na tej podstawie nie może „po cichu” wrzucić treści maili klientów z problemami zdrowotnymi do modelu rekomendacji. Potrzebna jest osobna podstawa (np. wyraźna zgoda albo dobrze opisany uzasadniony interes z oceną ryzyka) i odpowiednia klauzula informacyjna.

Jak sprawdzić, czy mój projekt ML wymaga DPIA (oceny skutków dla ochrony danych)?

DPIA jest zwykle potrzebna tam, gdzie pojawia się wysokie ryzyko dla praw i wolności osób – a zaawansowane profilowanie czy modele przewidujące zachowania klientów często się w to wpisują. Jeśli model podejmuje lub wspiera decyzje wpływające na ludzi (np. ocena ryzyka kredytowego, selekcja ofert, intensywne targetowanie), to sygnał, że DPIA może być obowiązkowa.

Dobrym filtrem są pytania: czy model tworzy szczegółowe profile? czy bazuje na danych wrażliwych (zdrowie, poglądy, seksualność)? czy jego decyzje są trudne do wyjaśnienia? Jeśli na część odpowiadasz „tak”, trzeba włączyć dział prawny i security jeszcze przed produkcją i wspólnie ocenić, czy DPIA jest wymagana i jak ją przeprowadzić.

Jakie są najczęstsze błędy przy przygotowaniu danych treningowych pod kątem RODO?

Powtarza się kilka schematów. Po pierwsze, założenie „system źródłowy ma RODO ogarnięte, więc my możemy trenować model bez dodatkowych kroków”. Po drugie, zbieranie danych „na wszelki wypadek”, bez jasnego celu i podstawy – aż do momentu, gdy trzeba to wytłumaczyć klientowi lub regulatorowi.

Do tego dochodzi zbyt słaba pseudonimizacja (np. zamiana e‑maila na łatwy do odgadnięcia hash), brak kontroli dostępu do surowych danych treningowych oraz ignorowanie szczególnych kategorii danych w tekstach i nagraniach. Tak rodzą się sytuacje, w których świetnie działający POC trzeba nagle wyłączyć, przeorać logi i backupy, a zyski z modelu znikają pod ciężarem śledztwa i audytów.

Jak praktycznie ograniczyć ryzyko wycieku danych z modelu ML?

Podejście „privacy by design” sprawdza się także w ML. Zanim zaczniesz trenować, przejrzyj źródła: usuń pola zbędne dla celu modelu, zastosuj sensowną pseudonimizację, odfiltruj wrażliwe treści z tekstów (zdrowie, życie seksualne, poglądy polityczne), ogranicz dokładność lokalizacji. Im mniej zbędnych danych wejdzie do modelu, tym mniejsze ryzyko, że coś z niego „wypadnie”.

Po treningu spójrz na model jak na potencjalne źródło wycieku: ustaw limity i logowanie zapytań do API, testuj podatność na „wydłubywanie” przykładów treningowych specjalnie przygotowanymi promptami, ogranicz dostęp do debugowych interfejsów. To trochę jak z dostępem do bazy produkcyjnej – nie chodzi tylko o to, co w niej jest, ale kto i jak może do niej zajrzeć.