
Yapay zeka atılımlarını desteklemek için sentetik verilerden yararlanma
İnanması zor ama yapay zekanın yükselişi bazı açılardan veri eksikliği yarattı. Aslında eksiklik değil. Katlanarak büyüyen şaşırtıcı miktarda veriye sahibiz(tahminler 2023 yılında 120 zettabayt oluşturulacağınıgösteriyor ). Ve bu sayı 2027 yılına kadar iki katına çıkabilir!
Hayır, mevcut veri sorunumuz miktar değil, uygunluktur. Üretken yapay zekanın bir ürünü olan sentetik veriler bunun için bir cevap olabilir.
Bu makalede, sentetik verilerin veriye aç yapay zeka girişimlerimizdeki hayati yerini, işletmelerin büyümenin kilidini açmak için sentetik verileri nasıl kullanabileceğini ve henüz çözülmemiş etik zorlukları tartışacağız.
Sentetik veri nedir? Ve neden buna ihtiyacımız var?
Basitçe ifade etmek gerekirse, sentetik veriler gerçek dünya verilerini taklit eden algoritmik olarak oluşturulmuş verilerdir. Rastgele oluşturulmuş olabilir - 100.000 doğum tarihi. Sakin ol.
Ancak genellikle sentetik veriler, amaca uygun verilerdeki bir boşluğu doldurur: Yakın zamanda oy kullanmak için kayıt yaptırmış 100.000 kadının doğum tarihleri. Çok sert.
Ancak sentetik verinin gerçek cazibesi nadir görülen uç durumlarda ortaya çıkıyor: 35 yaşından genç erkek prostat kanseri hastalarından oluşan bir veri seti ya da bronz piston segmanlarındaki aşınma modellerinin görüntüleri gibi. Bunun nereye gittiğini görüyor musun? Bu özgüllük - bu nadirlik - verilerin elde edilmesini zorlaştırır ve bazı durumlarda kullanımı daha riskli hale getirir.
Accenture'ın CDO'su Fernando Lucini,SAS stratejik danışmanı Kimberly Nevala ile yaptığı podcast sohbetinde sentetik verilerin veri gizliliği konusunda da yardımcı olabileceğini açıklıyor. Özel kişisel bilgiler (PPI), sağlık sektörü, kamu sektörü ve hatta perakende sektöründe sıkı bir şekilde korunmaktadır. PPI'yi ifşa etme riskini göze alamadığımızda, analiz yapmak için yerine geçen verilere ihtiyacımız var.
"(Yapay zekadan...) aynı kalıplara sahip ancak orijinal verinin özelliklerinden hiçbirine sahip olmayan veriler oluşturmasını istiyoruz. Basit bir ifadeyle (sentetik veri), orijinal verideki sinyallerin ve örüntülerin bir kopyası - bir kopyası değil, ancak bir kopyası - olan makine tarafından üretilen verilerdir" diye açıklıyor Lucini.
Anahtar veri eşdeğerleri:
1 yottabyte (YB) = 1.000 zettabyte
1 zettabayt (ZB) = 1.000 eksabayt
1 exabyte (EB) = 1.000 petabayt
1 petabayt (PB) = 1.000 terabayt
1 terabayt (TB) = 1.000 gigabayt
1 gigabayt (GB) = 1.000 megabayt
1 megabayt (MB) = 1.000 kilobayt
1 kilobayt (KB) = 1.000 bayt
Sentetik verilerin faydaları
Büyük, çeşitli ve gerçek verilere erişim, sağlam yapay zeka modellerinin eğitimi için çok önemlidir. Ancak bu tür gerçek dünya verilerini elde etmek, artan gizlilik endişeleri, yasal kısıtlamalar ve yüksek veri toplama ve açıklama maliyetleri göz önüne alındığında zor olabilir.
Sentetik veriler, etiketler ve açıklamalar önceden eklenmiş olarak oluşturulabilir—zaman ve kaynak tasarrufu sağlar—ve gerçek bireylerle olan bağlantılar kesildiği için yerleşik veri gizliliği sayesinde hassas bilgileri ifşa etmez.
Anonimleştirilmiş veriye ne oldu, diye soruyorsunuz? SAS Baş Müşteri Danışmanı Edwin van Unen'e göre anonimleştirme de çözüm değil. Yetersiz, zahmetli ve tutarsızdır.
Van Unen, "Düşük kalitesi, yapay zeka veya makine öğrenimi modelleme ve gösterge tablosu oluşturma gibi ileri analitik görevler için kullanılmasını neredeyse imkansız hale getiriyor," diye açıklıyor.
Sentetik veriler burada oyunu değiştiriyor. Orijinal istatistiksel özellikleri ve korelasyonları yansıtır. Veri setleri, hassas bilgileri maskelemeye gerek kalmadan hassas tahmin modellerini test etmek ve eğitmek için oldukça kullanışlıdır. Bu "sentetik ikiz" yaklaşımı, önyargıları önlemeye yardımcı olur ve mükemmele yakın anonimlik sağlar.
İnfografik
Sentetik Veri Kuruluşunuzun Yapay Zeka Odaklı Geleceği İçin Neden Gerekli?
Dört temel sentetik veri türüne ve bunların sıklıkla nasıl kullanıldığına bir bakış
- Sentetik yapılandırılmış veriler bireyleri, ürünleri ve diğer varlıkları ve bunların faaliyetlerini veya niteliklerini temsil eder - müşteriler ve satın alma alışkanlıkları veya hastalar ve semptomları, ilaçları ve teşhisleri dahil.
- Sentetik görüntüler , nesne algılama, görüntü sınıflandırma ve segmentasyon eğitimi için çok önemlidir. Bu görüntüler kanserin erken teşhisi, ilaç keşfi ve klinik deneyler ya da sürücüsüz araçların öğretilmesi için faydalıdır. Sentetik görüntüler, yatay yönelimli trafik sinyalleri gibi az verinin mevcut olduğu nadir uç durumlar için kullanılabilir.
- Sentetik metin , suistimal tespiti ve stres testi gibi uygulamalar için çeviri, duygu analizi ve metin oluşturmaya yönelik sağlam, çok yönlü doğal dil işleme (NLP) modellerini mümkün kılacak şekilde uyarlanabilir.
- Sentetik zaman serisi verileri (sensör verileri dahil) radar sistemlerinde, IoT sensör okumalarında ve ışık algılama ve menzil belirlemede kullanılabilir. Daha fazla verinin güvenlik ve güvenilirliği sağlayabileceği kestirimci bakım ve otonom araç sistemleri için değerli olabilir.
SAS® Data Maker - Şimdi Önizlemede
Verileri hızlı bir şekilde artırmak veya oluşturmak için az kodla veya hiç kod kullanmadan bir arayüz kullanarak mevcut verileri koruyun, daha hızlı yenilik yapın ve ölçeklenebilir sonuçlar elde edin. SAS Data Maker ile mevcut verilerin potansiyelini ortaya çıkarın.

Sentetik veri oluşturma: SMOTE ve GAN ne zaman kullanılmalı
İş kuralları ve iş mantığı ile veri üretmek yeni bir kavram değildir. Yapay zeka, uygun değerleri ve ilişkileri otomatik olarak modellemek için mevcut verileri kullanabilen algoritmalar sunarak veri üretimine bir doğruluk katmanı ekler.
Sentetik veri üretmek için iki popüler yapay zeka tekniği vardır:
- Yapay Azınlık Fazla Örnekleme Tekniği (SMOTE).
- Çekişmeli üretici ağ (GAN).
SMOTE akıllı bir enterpolasyon tekniğidir. Gerçek verilerin bir örneğini kullanarak ve rastgele noktalar ile bunların en yakın komşuları arasında veri noktaları oluşturarak çalışır. Bu şekilde SMOTE, yeterince temsil edilmeyen sınıflar gibi ilgi çekici noktalara odaklanmanıza ve veri setini dengelemek ve tahmin modellerinde genel doğruluğu artırmak için benzer noktalar oluşturmanıza olanak tanır.
Öte yandan GAN, orijinal verileri temsil etmek için sofistike bir derin öğrenme modelini eğiterek veri üreten bir tekniktir. Bir GAN, iki sinir ağından oluşur: sentetik veri oluşturmak için bir üretici ve bunu tespit etmeye çalışan bir ayırt edici. Bu yinelemeli karşıtlık ilişkisi giderek daha gerçekçi sentetik veriler üretir, çünkü ayırıcı nihayetinde sentetik ve gerçek veriler arasındaki farkı kolayca söyleyemez. Eğitim süreci zaman alıcı olabilir ve genellikle grafik işleme birimleri (GPU'lar) gerektirir, ancak değişkenler arasındaki yüksek derecede doğrusal olmayan ve karmaşık ilişkileri yakalayarak son derece doğru sentetik veriler üretebilir. Ayrıca, orijinal verilerin sınırlarında veya ötesinde veri üretebilir ve potansiyel olarak aksi takdirde ihmal edilecek yeni verileri temsil edebilir.
Bir test: Sentetik verilere karşı anonimleştirilmiş veriler
SAS ve bir iş ortağı, gerçek dünyadaki bir telekom müşterisinin kayıp veri setini kullanarak anonimleştirilmiş verilere alternatif olarak sentetik verilerin uygulanabilirliğini test etti (blog gönderisini okuyun , Yüksek kaliteli verilere kolay ve hızlı erişim için yapay zeka tarafından oluşturulan sentetik verileri kullanma). Van Unen, ekibin sonucu veri kalitesi, yasal geçerlilik ve kullanılabilirlik açısından değerlendirdiğini açıkladı.
Ne öğrendiler?
- Sentetik veriler, "derin gizli istatistiksel modeller" de dahil olmak üzere orijinal istatistiksel özellikleri ve iş mantığını korudu. Karşılaştırmalı olarak, anonimleştirme altta yatan korelasyonları yok eder.
- Sentetik veri modelleri, orijinal veriler üzerinde eğitilenlere benzer şekilde yayılmayı tahmin etmiştir. Bu arada, anonimleştirilmiş veri modelleri düşük performans göstermiştir.
- Sentetik veriler, modelleri eğitmek ve temel veri özelliklerini anlamak için kullanılabilir, orijinal verilere erişimi azaltarak ve önleyerek gizliliği korur.
- Sentetik veri oluşturma süreçleri tekrarlanabilir. Anonimleştirme değişken, tutarsız ve daha manueldir.
Van Unen, "Bu vaka çalışması, yapay zeka tarafından üretilen sentetik verilerin analitik ve model geliştirme için yüksek kaliteli verilere hızlı ve kolay erişim sağladığı fikrini güçlendiriyor" diyor. "Tasarıma göre gizlilik yaklaşımı analiz, test ve geliştirmeyi daha çevik hale getiriyor."
İstenmeyen sonuçlardan kaçınmak için sentetik verilere büyük bir dikkatle yaklaşmalıyız. Natalya Spicer Synthetic Data Product Manager SAS
Sentetik verilere ilişkin etik hususlar
Sentetik verinin kullanımı yaygınlaştıkça, sentetik veri kasaları da daha yaygın hale gelecektir. Bu ortak havuzlar işbirliğini, verilerin demokratikleşmesini ve fikirlerin çapraz tozlaşmasını teşvik edecektir. Ancak istemeden de olsa önyargıları destekleyebilir, veri gizliliği ihlallerini gizleyebilir ve adil olmayan veri uygulamalarını sürdürebilirler.
Lucini, sanılanın aksine sentetik verilerin ne otomatik olarak özel olduğunu ne de gizliliği koruduğunu savunuyor. Doğru kontroller ve testlerle uygulanmadığı takdirde, sentetik veri üretimi yine de gizlilik sızıntılarına yol açabilir.
"Üretken modeller bir 'kara kutu' olabilir. Sorumlu kullanımın sağlanabilmesi için sıkı doğrulama gerektirirler, ancak sektör henüz bunu tam olarak geliştirmemiştir. İstenmeyen sonuçlardan kaçınmak için sentetik verilere büyük bir dikkatle yaklaşmalıyız," diyor SAS Sentetik Veri Ürün Müdürü Natalya Spicer.
Mahremiyet hakkı siyah ve beyazdır - bunu düzenleyebilir, etrafına kurallar koyabilir ve herkesi bu kurallara bağlayabiliriz. Adillik ve önyargının düzenlenmesi o kadar kolay değildir. Bu öznel kararlar bireylere bırakılırsa, sonuçları uzun vadeli olabilir. Dolayısıyla, daha kapsamlı hükümet düzenlemeleri yapılana kadar kurumsal düzeyde yönetişime ihtiyacımız var.
Spicer, "SAS ® Viya® 'yı kurduk. Yapay zeka ve sentetik verilerin hızlanmasıyla birlikte çok önemli hale gelen veri ve analitiğin uyumlu kullanımı için kurumsal bir platform olarak hizmet vermeyi amaçlıyoruz." dedi. "SAS Viya, modellerin nasıl oluşturulduğuna ilişkin tam izlenebilirliğe sahiptir; ham veriye ve doğruluğunu analiz etmek için kullanılan modellere kadar."
Sentetik veri ve yapay zekanın geleceği
Yapay zeka ve veri bilimi ilerledikçe, sentetik veriler giderek daha önemli hale gelecektir. Sentetik veriler ve yeni teknikler arasındaki sinerji, mümkün olanın sınırlarını daha da zorlayarak daha da sofistike ve gerçekçi sentetik veri setlerinin oluşturulmasını sağlayacaktır.
Sentetik veri kullanımı geliştikçe yönetişim de önemli bir rol oynayacaktır. Kurumlar sağlam yönetişim çerçeveleri, veri denetimi uygulamaları ve sentetik verilere yönelik sınırlamalar ve uygun kullanım durumları hakkında açık bir iletişim uygulamalıdır. Sentetik verilerin kullanımının etiketlenmesi ve tanımlanmasına yönelik politikalar da yanlış kullanım ve yanlış anlaşılmaların önüne geçilmesi açısından büyük önem taşıyacaktır. Veri bilimciler, sentetik verilerin gücünü benimseyerek inovasyonun yeni sınırlarını ortaya çıkarabilir, daha sağlam ve güvenilir yapay zeka modelleri geliştirebilir ve dünyamızı olumlu yönde etkileyen dönüşümü teşvik edebilirler.
Insights 'a şimdi abone olmaya hazır mısınız?
Önerilen Kaynaklar
-
Analytics: A must-have tool for leading the fight on prescription and illicit drug addictionStates and MFCUs now have the analytics tools they need to change the trajectory of the opioid crisis by analyzing data and predicting trouble spots – whether in patients, prescribers, distributors or manufacturers. The OIG Toolkit with free SAS® programming code makes that possible.
-
What is a data lake & why does it matter?As containers for multiple collections of data in one convenient location, data lakes allow for self-service access, exploration and visualization. In turn, businesses can see and respond to new information faster.
-
Are you good at scoring?Credit scoring is the foundation for evaluating clients who apply for a loan (or other types of exposure for the bank). It is not unusual for it to take up to 12 months to build and deploy a new credit scoring model. Reforming the process will help minimize losses, increase earnings and reduce operational risk.