מה זה בעצם אומר "לשכוח" או "להשכיח" נתונים?
Machine Unlearning
השלכות אפשריות של הסרות נתונים
בקשות להסרת נתונים ממערכות בינה מלאכותית מעלות חששות אתיים ומשפטיים משמעותיים, ויש להן השלכות עצומות במיוחד עבור מנתחי הנתונים השונים. בשנים האחרונות, וככל שיותר ויותר פעילויות (חברתיות וכלכליות) מתרחשות באינטרנט עלתה הרגישות לנושא הפרטיות.
רגישות זו הביאה לעליה משמעותית (אך לא מספקת) בתקנות הגנת מידע ברחבי העולם, ואנשים שהנתונים האישיים שלהם מעובדים רשאים לדרוש את הסרת נתוניהם ממאגרי המידע השונים. להסרת המידע (מחיקה) יש השלכות על מערכות ה AI השונות למשל:
- שיבוש תהליך הלמידה של המודל. לעתים עלול הדבר לגרום לצורך של הכשרת המודל מחדש, דבר הדורש משאבים רבים של זמן ועלויות. החשש מפני הצורך באימון מחודש עלול להיות מוטה על ידי נטיות כלליות שעשויות למנוע את האימון והמחיקה הנדרשת.
- גם אם לא תמיד נאלצים להתחיל מאפס, הרי שתמיד קיים החשש מפגיעה בדיוק ביצועיו של המודל המסוים שטופל – לצורך הסרת נתונים. מדובר במציאת האיזון שבין כיבוד הזכות לפרטיות והקפדה על יעילות המודל ותוצאות הפלט.
- משפטית ואתית. כמובן שכיבוד פרטיותו של אדם היא בעלת חשיבות עליונה, וזכותו לפרטיות ולהגנת המידע מעוגנות בתקנות שונות כמו למשל ה GDPR הגנת המידע הכללי של האיחוד האירופאי או תקנות הגנת הפרטיות (אבטחת מידע), תשע”ז-2017 – כשאי עמידה בחוקים תגרור בעקבותיה שלל עונשים.
- בעת הסרת נתונים (ביטול למידה) של נתונים ספציפיים, קיים הכרח לוודא שההסרה היא מלאה ואיננה חלקית, מאחר והסרה חלקית תיחשב להפרת הנחיות האתיקה.
חשיבות ביטול למידת מכונה לפרטיות הנתונים
בין הדאגות השונות שמביאה איתה הטכנולוגיה נמצא הפוטנציאל לפרצת מידע. מערכות AI מטפלות ביעילות בכמויות אינסוף של נתונים אישיים, כלכליים, צבאיים ועוד כולם נתונים רגישים שהפכו עד מהרה, את מערכות ה AI למטרה לפושעי סייבר. בין הסכנות ניתן למנות : גישה לא מרשית, דליפת נתונים בשל הצפנה לא מספקת, רשלנות ועוד. באופן די הגיוני, הדעות סביב הנושא חלוקות. יש הטוענים שביטול/מחיקת פרטים של למידת מכונה לא יעזור, מאחר והיא עצמה בעצם בעלת תפקיד משמעותי בזיהוי חריגות שתפקידן דווקא להגן על נתונים רגישים. ולכן אמורה להיות ההתמקדות בקידום מערכות אבטחה שתמנענה גישה לא מורשת והפרות נתונים או פרטיות.
מצד שני קיים החשש המתמיד שמתוך עצם הסתמכותה של בינה מלאכותית על ניתוח מערכים נרחבים לזיהוי דפוסים היא עלולה להוביל, שלא במתכוון, לחשיפת מידע אישי כמו לדוגמא במקרים של מודלים שהוכשרו על פי מסמכים רפואיים שונים אנונימיים אך ה AI עדין מסוגלת, באמצעות מתאמים שונים לזהותם ולחשוף נתונים הפוגעים בעקרונות הפרטיות. ולכן, עד שתהיינה די מסגרות אתיות ויפותחו די אלגוריתמים לשמירה על פרטיות, נדרשת היכולת לביטול למידת המכונה.
לסיכום
מיום ליום הולך וגובר תפקידן המשמעותי של מערכות הבינה המלאכותית בחיי היום יום של כל אחד ואחת מאתנו.
בזמנים בהם הופכת המכונה לבעלת אוסף תפקידים עצום כל כך ובתחומים רבים כל כך, לא ניתן להימנע מהחשיבה על הגנת הפרטיות ועל ההשלכות האתיות והמשפטיות של שילוב ה AI במגזרים השונים. עד שייושמו כללים נוספים נראה כי השימוש בטכניקת Machine Unlearning מאפשרת הגנה מסוימת שתצליח לבנות אמון ולעמוד בתקנים והתקנות השונים.