Wykorzystanie danych syntetycznych do rozwoju sztucznej inteligencji
Trudno w to uwierzyć, ale rozwój sztucznej inteligencji w pewnym sensie spowodował niedobór danych. Nie jest to niedobór sam w sobie. Mamy zdumiewającą ilość danych, która rośnie wykładniczo(szacunki wskazują, że w 2023 r. powstało 120 zettabajtów). Liczba ta może wzrosnąć ponad dwukrotnie do 2027 roku!
Obecnie, problemem związanym z danymi jest ich przydatność, a nie ilość. Dane syntetyczne - produkt generatywnej sztucznej inteligencji - mogą być rozwiązaniem tego problemu.
W tym artykule omówimy istotne miejsce danych syntetycznych w naszych inicjatywach związanych ze sztuczną inteligencją, w jaki sposób firmy mogą wykorzystywać dane syntetyczne do odblokowania wzrostu oraz wyzwania etyczne są z tym związane.
Czym są dane syntetyczne? I dlaczego ich potrzebujemy?
Mówiąc najprościej, dane syntetyczne to dane generowane algorytmicznie, które naśladują dane rzeczywiste. Może to być 100 000 dat urodzenia wygenerowanych losowo. To wydaje się łatwe.
Zazwyczaj jednak dane syntetyczne wypełniają lukę w danych nadających się do określonego celu: 100 000 dat urodzenia kobiet, które niedawno zarejestrowały się do głosowania. To już jest trudniejsze.
Prawdziwą zaletą danych syntetycznych są jednak rzadkie przypadki brzegowe: na przykład zestaw danych pacjentów z rakiem prostaty w wieku poniżej 35 lat lub obrazy wzorców zużycia pierścieni tłokowych z brązu. W tym kierunku to zmierza. Ta specyfika - ta rzadkość - sprawia, że dane są trudniejsze do uzyskania, a w niektórych przypadkach bardziej ryzykowne w użyciu.
Główny analityk danych Accenture, Fernando Lucini, wyjaśnia w rozmowie z doradcą strategicznym SAS, Kimberly Nevalą, że dane syntetyczne mogą również pomóc w ochronie prywatności danych. Prywatne dane osobowe są ściśle strzeżone w ochronie zdrowia, sektorze publicznym, a nawet w handlu detalicznym. Jeśli nie możemy ryzykować ujawnienia tych danych, potrzebujemy danych zastępczych do analizy.
"Prosimy AI o stworzenie danych z tymi samymi wzorcami, ale bez cech oryginalnych danych. Mówiąc prościej dane syntetyczne to dane generowane maszynowo, które nie są kopią, ale odwzorowaniem sygnałów i wzorców w oryginalnych danych" - wyjaśnia Lucini.
Kluczowe odpowiedniki danych:
1 yottabajt (YB) = 1 000 zettabajtów
1 zettabajt (ZB) = 1 000 eksabajtów
1 eksabajt (EB) = 1 000 petabajtów
1 petabajt (PB) = 1 000 terabajtów
1 terabajt (TB) = 1000 gigabajtów
1 gigabajt (GB) = 1000 megabajtów
1 megabajt (MB) = 1000 kilobajtów
1 kilobajt (KB) = 1000 bajtów
Wartość danych syntetycznych
Dostęp do dużych, zróżnicowanych i autentycznych danych ma kluczowe znaczenie dla szkolenia solidnych modeli sztucznej inteligencji. Jednak uzyskanie tego rodzaju rzeczywistych danych może być trudne, biorąc pod uwagę rosnące obawy o prywatność, ograniczenia prawne oraz wysokie koszty pozyskiwania danych i adnotacji.
Dane syntetyczne mogą być tworzone z już wbudowanymi etykietami i adnotacjami - oszczędzając czas i zasoby - i bez ujawniania poufnych informacji, ponieważ powiązania z prawdziwymi osobami zostały usunięte w celu zapewnienia prywatności.
A co z anonimowymi danymi? Według Edwina van Unena, głównego doradcy klienta SAS, anonimizacja również nie jest rozwiązaniem. Jest ona nieadekwatna, pracochłonna i niespójna.
"Jego niska jakość sprawia, że jest prawie niemożliwy do wykorzystania w zaawansowanych zadaniach analitycznych, takich jak modelowanie AI lub uczenie maszynowe i tworzenie pulpitów nawigacyjnych" - wyjaśnia Edwin van Unen.
Dane syntetyczne zmieniają zasady gry. Odzwierciedla to oryginalne właściwości statystyczne i korelacje. Zbiory danych są bardzo przydatne do testowania i szkolenia precyzyjnych modeli predykcyjnych bez konieczności maskowania wrażliwych informacji. To podejście "syntetycznego bliźniaka" pomaga przeciwdziałać stronniczości i zapewnia niemal idealną anonimowość.
Infografika
Dlaczego dane syntetyczne są niezbędne dla przyszłości organizacji opartej na sztucznej inteligencji?
Spojrzenie na cztery podstawowe typy danych syntetycznych i sposób, w jaki są one często wykorzystywane
- Dane syntetyczne reprezentują osoby, produkty i inne podmioty oraz ich działania lub atrybuty - w tym klientów i ich nawyki zakupowe lub pacjentów i ich objawy, leki i diagnozy.
- Obrazy syntetyczne mają kluczowe znaczenie dla szkolenia w zakresie wykrywania obiektów, klasyfikacji i segmentacji obrazów. Obrazy te są przydatne do wczesnego wykrywania raka, odkrywania leków i badań klinicznych lub nauczania samojezdnych samochodów. Syntetyczne obrazy mogą być wykorzystywane w rzadkich przypadkach brzegowych, w których dostępnych jest niewiele danych, takich jak poziome sygnały drogowe.
- Tekst syntetyczny może być dostosowany do solidnych, wszechstronnych modeli przetwarzania języka naturalnego (NLP) do tłumaczenia, analizy sentymentu i generowania tekstu do zastosowań takich jak wykrywanie oszustw i testy warunków skrajnych.
- Syntetyczne dane szeregów czasowych (w tym dane z czujników) mogą być wykorzystywane w systemach radarowych, odczytach czujników IoT oraz detekcji i pomiarze światła. Może to być cenne dla konserwacji predykcyjnej i autonomicznych systemów pojazdów, w których więcej danych może zapewnić bezpieczeństwo i niezawodność.
SAS® Data Maker - teraz w wersji próbnej
Chroń istniejące dane, szybciej wprowadzaj innowacje i zapewniaj skalowalne wyniki za pomocą interfejsu low-code/no-code, aby szybko rozszerzać lub generować dane. Uwolnij potencjał istniejących danych dzięki SAS Data Maker.
Tworzenie danych syntetycznych: Kiedy używać SMOTE vs. GAN
Generowanie danych za pomocą reguł biznesowych i logiki biznesowej nie jest nową koncepcją. Sztuczna inteligencja dodaje warstwę dokładności do generowania danych poprzez wprowadzenie algorytmów, które mogą wykorzystywać istniejące dane do automatycznego modelowania odpowiednich wartości i relacji.
Dwie popularne techniki sztucznej inteligencji do generowania danych syntetycznych to:
- Synthetic minority oversampling technique (SMOTE).
- Generative adversarial network (GAN).
SMOTE to inteligentna technika interpolacji. Działa poprzez wykorzystanie próbki rzeczywistych danych i generowanie punktów danych pomiędzy losowymi punktami i ich najbliższymi sąsiadami. W ten sposób SMOTE pozwala skupić się na punktach zainteresowania, takich jak niedostatecznie reprezentowane klasy, i tworzyć podobne punkty, aby zrównoważyć zestaw danych i poprawić ogólną dokładność modeli predykcyjnych.
Z drugiej strony, GAN to technika, która generuje dane poprzez szkolenie zaawansowanego modelu głębokiego uczenia się w celu reprezentowania oryginalnych danych. GAN składa się z dwóch sieci neuronowych: generatora do tworzenia syntetycznych danych i dyskryminatora, który próbuje je wykryć. Ta iteracyjna relacja przeciwstawna tworzy coraz bardziej realistyczne dane syntetyczne, ponieważ dyskryminator ostatecznie nie może łatwo odróżnić danych syntetycznych od rzeczywistych. Proces szkolenia może być czasochłonny i często wymaga procesorów graficznych (GPU), ale może uchwycić wysoce nieliniowe, złożone zależności między zmiennymi, a tym samym generować bardzo dokładne dane syntetyczne. Może również generować dane w granicach lub poza granicami oryginalnych danych, potencjalnie reprezentując nowe dane, które w przeciwnym razie zostałyby pominięte.
Test: Dane syntetyczne kontra dane zanonimizowane
SAS i jego partner przetestowali dane syntetyczne jako alternatywę dla zanonimizowanych danych, wykorzystując rzeczywisty zestaw danych dotyczących rezygnacji klientów telekomunikacyjnych (przeczytaj wpis na blogu, Korzystanie z danych syntetycznych generowanych przez sztuczną inteligencję w celu łatwego i szybkiego dostępu do danych wysokiej jakości). Van Unen wyjaśnił, że zespół ocenił wynik pod kątem jakości danych, ważności prawnej i użyteczności.
Wnioski:
- Dane syntetyczne zachowały oryginalne właściwości statystyczne i logikę biznesową, w tym "głęboko ukryte wzorce statystyczne". Dla porównania, anonimizacja niszczy podstawowe korelacje.
- Modele oparte na danych syntetycznych przewidywały churn podobnie do tych wytrenowanych na oryginalnych danych. Tymczasem zanonimizowane modele danych wypadły słabo.
- Syntetyczne dane mogą być wykorzystywane do trenowania modeli i zrozumienia kluczowych cech danych, chroniąc prywatność poprzez ograniczenie i uniemożliwienie dostępu do oryginalnych danych.
- Procesy generowania danych syntetycznych są powtarzalne. Anonimizacja jest zmienna, niespójna i bardziej manualna.
"To studium przypadku wzmacnia ideę, że syntetyczne dane generowane przez sztuczną inteligencję zapewniają szybki i łatwy dostęp do wysokiej jakości danych do analizy i opracowywania modeli" - potwierdza van Unen. "Podejście do prywatności poprzez projektowanie sprawia, że analiza, testowanie i rozwój są bardziej elastyczne."
Musimy podchodzić do danych syntetycznych z dużą ostrożnością, aby uniknąć niezamierzonych skutktów. Natalya Spicer Synthetic Data Product Manager SAS
Etyczne aspekty danych syntetycznych
W miarę jak wykorzystanie danych syntetycznych staje się coraz bardziej powszechne, zbiory danych syntetycznych również staną się bardziej powszechne. Te wspólne repozytoria będą sprzyjać współpracy, demokratyzacji danych i wzajemnemu zapylaniu pomysłów. Mogą one jednak nieumyślnie gwarantować stronniczość, ukrywać naruszenia prywatności danych i utrwalać nieuczciwe praktyki związane z danymi.
Wbrew powszechnemu przekonaniu, argumentuje Lucini, dane syntetyczne nie są ani automatycznie prywatne, ani nie chronią prywatności. Bez odpowiedniej kontroli i testów, generowanie danych syntetycznych może nadal prowadzić do wycieków prywatności.
"Modele generatywne mogą być "czarną skrzynką". Aby zapewnić odpowiedzialne użytkowanie, wymagają one rygorystycznej walidacji, której branża jeszcze w pełni nie opracowała. Musimy podchodzić do danych syntetycznych z dużą ostrożnością, aby uniknąć niezamierzonych konsekwencji," mówi Natalya Spicer, menedżer produktu ds. danych syntetycznych w SAS.
Prawo do prywatności jest czarno-białe - możemy je regulować, ustanawiać wokół niego zasady i każdy może być związany tymi zasadami. Uczciwość i stronniczość nie są tak proste do uregulowania. Jeśli te subiektywne decyzje zostaną pozostawione jednostkom, konsekwencje mogą mieć długofalowe skutki. Potrzebujemy więc zarządzania na poziomie przedsiębiorstwa, dopóki nie pojawią się bardziej kompleksowe regulacje rządowe.
"Stworzyliśmy platformę SAS® Viya® do zgodnego z przepisami wykorzystania danych i analityki, co ma kluczowe znaczenie w obliczu przyspieszenia rozwoju sztucznej inteligencji i danych syntetycznych" - mówi Spicer. "SAS Viya zapewnia pełną identyfikowalność sposobu tworzenia modeli, aż do surowych danych i modeli wykorzystywanych do analizy ich dokładności".
Przyszłość danych syntetycznych i sztucznej inteligencji
Wraz z rozwojem sztucznej inteligencji i nauki o danych, dane syntetyczne będą stawały się coraz ważniejsze. Synergia między danymi syntetycznymi a nowymi technikami umożliwi tworzenie jeszcze bardziej wyrafinowanych i realistycznych zestawów danych syntetycznych, jeszcze bardziej przesuwając granice tego, co jest możliwe.
Zarządzanie będzie odgrywać ważną rolę w miarę rozwoju wykorzystania danych syntetycznych. Organizacje muszą wdrożyć solidne ramy zarządzania, praktyki audytu danych i jasną komunikację na temat ograniczeń i odpowiednich przypadków użycia danych syntetycznych. Zasady oznaczania i identyfikowania wykorzystania danych syntetycznych staną się również kluczowe dla uniknięcia niewłaściwego wykorzystania i nieporozumień. Wykorzystując moc danych syntetycznych, specjaliści data science mogą odblokować nowe granice innowacji, opracować bardziej solidne i niezawodne modele sztucznej inteligencji oraz napędzać transformację, która pozytywnie wpływa na nasz świat.
Dowiedz się więcej
Polecane materiały
- Key questions to kick off your data analytics projectsThere’s no single blueprint for starting a data analytics project. Technology expert Phil Simon suggests these 10 questions as a guide.
- Payment fraud evolves fast – can we stay ahead?Payment fraud happens when a criminal steals a person’s private payment information, then uses it for an illegal transaction. As payment trends evolve, so do the fraudsters. Banks and PSPs can fight back with advanced analytics techniques that adapt quickly to spot anomalies in behavior.
- What is a data lake & why does it matter?As containers for multiple collections of data in one convenient location, data lakes allow for self-service access, exploration and visualization. In turn, businesses can see and respond to new information faster.