טרם ביצעת אימות לכתובת הדוא"ל שלך. לאימות כתובת הדואל שלך  לחצו כאן

רשימת קריאה

רשימת הקריאה מאפשרת לך לשמור כתבות ולקרוא אותן במועד מאוחר יותר באתר,במובייל או באפליקציה.

לחיצה על כפתור "שמור", בתחילת הכתבה תוסיף את הכתבה לרשימת הקריאה שלך.
לחיצה על "הסר" תסיר את הכתבה מרשימת הקריאה.

הביקורת ברשת אמיתית - או מזויפת?

נתקלתם בביקורת מסעדה או סרט ברשת ואתם בטוחים שהיא נכתבה בידי מכונה. ובכן, כנראה שדווקא המכונה יודעת טוב מכם מי אדם ומי לא

תגובות

נניח שהחלטתם לפנק את עצמכם בארוחה רומנטית במסעדה יוקרתית. חיפוש קצר באינטרנט העלה מספר אפשרויות אטרקטיביות וכעת נותר רק לבחור מביניהן את המתאימה ביותר. נשמע פשוט? לא בהכרח. מבחינת רמת המחירים הן דומות מאוד, מבחינת המיקום, גם כן דומות. בכולן התפריטים נראים מעולים.

אז איך בכל זאת אפשר להחליט במי לבחור? זה השלב שבו רובנו עוברים לקרוא את הביקורות. ואם עד עכשיו היינו לא החלטיים, עיון בביקורות יבלבל אותנו לחלוטין. איך ייתכן שאותה מסעדה מקבלת באותו חודש מצד אחד ביקורות מעולות ותשבחות לרוב ומצד שני ביקורות איומות והשמצות נוראיות? על איזה ביקורות ניתן לסמוך ומאלה כדאי להתעלם? בהנחה שחלק מהביקורות מזוייפות ולא אמינות, איך ניתן לזהות ולסנן אותן?

ישנם לא מעט אתרי אינטרנט שמרכזים ביקורות של משתמשים על כל דבר שהוא. מלונות, בתי אירוח, מסעדות, מוצרים ועוד. הרעיון בכל האתרים האלה, הן בארץ והן בעולם, הוא דומה – הצגת ביקורות שנכתבו ע”י משתמשים.

כל אחד יכול לכתוב ביקורת על כל מקום, בין אם הוא היה בו או לא. בעל מסעדה יכול לכתוב ביקורת המהללת את עצמו וגם ביקורת המשמיצה את המתחרה שמעבר לכביש. בעל צימר יכול לפאר ולשבח את חדרי הצימר ולהדגיש כמה הם מודרניים למרות שבפועל הם לא שופצו כבר יותר מ-15 שנה. המקלדת סובלת הכל והאנונימיות מאפשרת לכל אחד לכתוב כל דבר תחת כל שם.

האם בכלל ניתן לזהות תכנים מזיויפים רק על ידי קריאת הביקורת עצמה, בלי לדעת דבר וחצי דבר על הכותב עצמו?

תלוי. אם אתה בן אדם ואתה מנסה להסיק מתוך קריאת הביקורת האם היא אמיתית או מזוייפת, סיכויי ההצלחה שלך הם סביב ה-50%. כלומר, חבל לך להשקיע זמן ומחשבה בקריאת הביקורת, ניתוחה וקבלת החלטה לגבי מהימנותה. ואם אתה מכונה? באופן מפתיע, מסתבר שהמחשב יכול להגיע למסקנות ותובנות בצורה די מדוייקת על סמך ניתוח התוכן בלבד. סיכויי הצלחתו של המחשב גדולים בעשרות אחוזים מסיכויי הצלחתו של בן האנוש.

אז איך בכל זאת ניתן לזהות אם ביקורת היא מזוייפת או אמיתית?

בטוח שחלק מהקוראים מהנהנים כרגע בראשם ואומרים לעצמם שבמבט חטוף הם יודעים לזהות ביקורות מזוייפות, עמוסות שקרים. אבל כפי שכבר אמרנו, מחקרים מראים שהאדם לא הרבה יותר מוצלח בכך מהמטבע שבכיסו – 50% הצלחה...

לא מאמינים? הנה דוגמה. לפניכם שתי ביקורות – אחת אמיתית ולגיטימית ואחת מזוייפת. ביקורות אלה נלקחו מאחד מהאתרים המציגים ביקורות של משתמשים על בתי מלון.

הראשונה: “מיטות מעולות, חדרים נקיים, אמבטיה מדהימה, נוף מדהים, שירות מעולה, צ'ק אין וצ'ק אאוט מהירים. מאוד אירופאי מבחינת הגינונים אבל עם מיזוג אוויר!”

השניה: ”מלון מעולה עם נוף יפה. הצוות היה נפלא והחדרים נוחים ומרווחים. אפילו היה בחדר התקן לאיי-פוד שלי".

מה התשובה הנכונה? מה מזוייף ומה אמיתי? החלטתם? בואו נחכה עם התשובה הנכונה לסוף הכתבה ובינתיים נבין איך המחשב מנתח את המידע ומגיע להחלטה הנכונה ברובם המוחלט של המקרים.

בכתבה הקודמת דיברנו על שימוש בשיטות לזיהוי אנומליות על מנת לשפר את מערך הגנת הסייבר. באופן מפתיע, אותן השיטות בהן השתמשנו לזיהוי של סוסים טרויאנים, תולעים ושאר מזיקים שימשו אותנו גם לזיהוי הביקורות המזוייפות. האמת שזה לא כל כך מפתיע.

השיטות לזיהוי אנומליות בסייבר מזהות את אותן פעולות שמתבצעות ברשת או במחשב אבל מקומן הוא לא באמת שם. כלומר, מישהו שתל אצלנו וירוס או סוס טרויאני ועכשיו התוכנות הזדוניות האלה מבצעות פעולות שלא ממש עולות בקנה אחד עם הפעולות הרגילות שאנו מבצעים בשיגרה. במילים אחרות, המנגנונים לזיהוי אנומליות שהצגנו יודעים לזהות את אותן תוכנות שמזייפות פעולות כך שתיראנה לגיטימיות לכל אמצעי אבטחה שייבחן אותן ובאופן הזה הן עוקפות את אמצעי האבטחה. בפועל, תחת הזיוף המוצלח מתבצעת הפעולה הזדונית שפוגעת ברשת או במחשב. אבל הזיופים האלה מזוהים בצורה טובה ע"י המנגנונים לזיהוי אנומליות שלמעשה נבנו ותוכננו בדיוק על מנת לזהות התחכמויות כאלה.

ואיך זה מתקשר לביקורות המזויפות? גם כאן מדובר בפעולות לגיטימיות (ביקורות אמיתיות) שבוצעו (נכתבו) ע"י משתמשים לגיטימיים וברקע גורם זדוני ביצע פעולות זדוניות (ביקורות מזויפות). כל שנותר הוא להפעיל את אותן השיטות מעולם הסייבר על עולם הביקורות ולצפות בפליאה בתוצאות.

איך מתבצע ניתוח הביקורות ע”י המנגנונים לזיהוי אנומליות?

ביקורת מורכבת מאוסף של משפטים ומילים. השיטות לזיהוי אנומליות לא יכולות לעבוד באופן ישיר על הביקורת עצמה ועל הטקסט המרכיב אותה. שיטות אלה עובדות על הייצוג הסטטיסטי (מספרי) של הביקורת. כלומר, על מנת להשתמש בשיטות לזיהוי הזיופים יש להמיר כל ביקורת מאוסף של מילים לרשימה של מספרים המייצגת את הסטטיסטיקה של המשפטים והמילים בביקורת.

בכתבה זו נציג שתי שיטות לניתוח הביקורות ולהמרתן מייצוג טקסטואלי לייצוג סטטיסטי. לצורך ההסבר נפעיל אותן על הביקורת הבאה: “החדר היה נהדר, הצוות היה נפלא, הבריכה היתה מצחינה, האוכל היה זוועה ופחדתי מהרעלה".

הניתוח הראשון יתבצע ע"י פירוק הביקורת לאוסף של מילים וחלוקת המילים לקטגוריות שונות המתארות אותן. לדוגמא, נניח שהגדרנו 10 קטגוריות של מילים (בפועל מגדירים כמה עשרות קטגוריות): חיובי, שלילי, רגשות, קללות, השמצות, שמות עצם, פעלים, זמן עבר, זמן הווה וזמן עתיד. כל מילה יכולה להיות שייכת לקטגוריה אחת או יותר. למשל, התמונה הבאה מציגה את חלוקת המילים בדוגמא שלנו לקטגוריות השונות:

ניתן לראות שהמילה "פחדתי", למשל, שייכת לשלוש קטגוריות שונות: רגשות, פעלים וזמן עבר. כעת אנו סוכמים את מספר המילים המופיעות בכל קטגוריה, כפי שניתן לראות בתמונה הבאה:

עשו לנו לייק לקבלת מיטב הכתבות והעדכונים ישירות לפייסבוק שלכם

מה שקיבלנו כאן זה ייצוג סטטיסטי המהווה קידוד של הביקורת שלנו ע"י רשימה של עשרה מספרים המתאימים לעשר הקטגוריות שהגדרנו. כלומר, הביקורת שלנו מיוצגת (מקודדת) ע"י רצף המספרים הבא: 2,2,1,0,1,0,5,5,0,1

תהליך זה מתבצע עבור כל ביקורת וביקורת כך שבסופו של דבר כל ביקורת מומרת באופן זה מאוסף של מילים ומשפטים לרשימה של 10 מספרים (בפועל, כמו שצוין, התוצאה הסופית תכיל כ-100 מספרים המתאימים לכ-100 קטגוריות שונות ולא רק ל-10 שהודגמו כאן).

הניתוח השני יתבצע ע"י פירוק הטקסט בביקורת לרצפים של אותיות באורכים שונים. למשל, רצפים באורך אחד, באורך שתים, אורך שלוש וכו'. כלומר, אנו סוכמים את מספר הפעמים בו הופיע כל רצף של אותיות בביקורת.

לדוגמה, עבור רצפים באורך אחד, נבדוק כמה פעמים הופיעה כל אות באלף-בית בביקורת. לשם פשטות ההמחשה נדגים שיטה זו רק על שלוש המילים הראשונות בדוגמה שלנו (“החדר היה נהדר"), כפי שניתן לראות בתמונה הבאה:

באותו אופן נבדוק עבור רצפים באורך שתים כמה פעמים הופיע רצף של כל שתי אותיות באלף-בית בביקורת. למשל, עבור שלוש המילים הראשונות בביקורת שלנו יתבצע הפירוק לרצפים כפי שמראה התמונה הבאה:

ניתן לראות שרצף האותיות "הח" מופיע פעם אחת ואילו הרצף "דר" מופיע פעמיים. לעומתם, הרבה רצפים (כגון, “אא", “אב", “אג" וכו') בכלל לא מופיעים. באותו אופן אפשר להמשיך ולבדוק את שכיחות הרצפים באורך שלוש, ארבע וכו'.

מה שקיבלנו כאן זה ייצוג סטטיסטי המהווה קידוד של הביקורת שלנו ע"י רשימה ארוכה של מספרים המתאימים לכל הקומבינציות של הרצפים שהגדרנו. עבור רצפים באורך אחד יש לנו 27 מספרים (כמספר האותיות באלף-בית העברי). עבור רצפים באורך שתיים יש לנו 27*27=729 מספרים (כמספר כל הקומבינציות של הזוגות השונים של האותיות). עבור רצפים באורך שלוש יש לנו 27*27*27=19,683 מספרים (כמספר כל הקומבינציות של השלשות השונות של האותיות) וכו'. כלומר, אם אנו רוצים לקודד ביקורת עפ"י רצפים באורך אחד, שתיים ושלוש של האותיות שמרכיבות אותה נקבל רשימה של 20,439 מספרים המייצגים אותה (רובם יהיו מן הסתם אפסים).

תהליך זה מתבצע עבור כל ביקורת וביקורת כך שבסופו של דבר כל ביקורת מומרת מאוסף של מילים ומשפטים לרשימה של מעל 20,000 מספרים.

שתי השיטות שתארנו לניתוח הביקורת ממירות את הביקורת מטקסט המורכב ממילים ומשפטים לרשימה ארוכה של מספרים המייצגת את הסטטיסטיקה של הביקורת. השיטות לזיהוי אנומליות משתמשות בסטטיסטיקה הזאת על מנת להבין איזו ביקורת הינה לגיטימית ואיזו מזוייפת. הרעיון הבסיסי של שיטות אלה הוא שאם ניקח כמה מאות דוגמאות של ביקורות ונלמד את המבנים השונים שלהן, את הסטטיסטיקות שלהן (כפי שהגדרנו בשלב הקודם), נוכל להגדיר סוגים שונים של ביקורות לגיטימיות. כאשר תגיע ביקורת מזוייפת, הסטטיסטיקה שלה תחרוג מהסוגים הלגיטימיים שהמערכת מכירה ולכן תוגדר על ידה כאנומליה. בדרך זו תגלה המערכת לזיהוי אנומליות את הביקורות המזויפות.

על מנת לבחון את דרך התמודדות השיטות לזיהוי אנומליות אל מול הביקורות הטקסטואליות, ביצענו ניסוי בו לקחנו כמה מאות ביקורות לגיטימיות וכמה עשרות ביקורות מזויפות, פרקנו כל ביקורת לגורמים וייצגנו אותה ע"י אלפי המאפיינים הסטטיסטיים השונים (כפי שהגדרנו בשתי שיטות הניתוח). כעת נתנו למנגנוני זיהוי האנומליות ללמוד את ההתנהגות הטבעית של הביקורות (ע"י ניתוח הסטטיסטיקות שמייצגות כל ביקורת), להבין מהי קשת הביקורות הלגיטימיות ולסווג כל ביקורת כלגיטימית או מזוייפת.

להזכירכם, אחוזי ההצלחה של בני אדם הם סביב ה-50%. אחוזי ההצלחה של השיטות שהפעלנו הגיעו לכ-90% - כלומר ב-9 מתוך 10 החלטות, המערכת צדקה וסיווגה באופן נכון את הביקורת כלגיטימית או מזוייפת. ההחלטה של המחשב היא ב-80% יותר מדוייקת מהחלטתו של האדם.

התמונה הבאה ממחישה כיצד הניתוח הסטטיסטי ועיבודו ע"י השיטות המתמטיות לזיהוי אנומליות מאפשר לזהות את הביקורות המזויפות. כל נקודה מייצגת ביקורת יחידה וניתן לראות שהביקורות הלגיטימיות מפוזרות במספר קבוצות וחלקים בתמונה ואילו הביקורות המזויפות הינן חריגות באופן ברור ולא קרובות לאף קבוצה של ביקורות לגיטימיות.

איך ייתכן כזה פער עצום בין האדם למכונה? ההסבר הוא די פשוט. כפי שהסברנו, כל ביקורת מיוצגת בסופו של דבר ע"י אלפי מאפיינים סטטיסטיים. כלומר, המימד (מספר המשתנים) של הבעיה שאותה אנו מנסים לפתור הוא מאוד גבוה (כמה אלפים). למחשב אין בעיה לעבד ולנתח (אם מסבירים לו איך) בעיות כאלה במימד כזה גבוה ולהגיע למסקנות במהירות בעוד שהאדם קצת יותר מוגבל. המחשב יכול לכרות ביעילות מידע רב ולנתח הררים של מידע דיגיטלי תוך הפעלת אלגוריתמים מתמטיים מסובכים ומורכבים בעוד שהאדם ירגיש שם די מהר אבוד בתוך ים המידע האינסופי. המחשב יכול לחשב ביעילות ולקחת בחשבון את הקומבינציות השונות של המילים והאותיות ואילו האדם לא ממש מסוגל לכך.

מנגנונים ושיטות לזיהוי אנומליות הינם שימושיים כמעט בכל היבט בחיינו בכלל ובעולם הדיגיטלי והאינטרנט בפרט. מצד אחד הם עוזרים לממשלות וארגונים לשפר ללא היכר את מערך ההגנה ולמנוע התקפות קטלניות והרסניות אך מצד שני הם יכולים להיות שימושיים בחיי היומיום עבור כל אחד מאיתנו, לעזור לנו להבין טוב יותר את המידע הרב באינטרנט ולזהות עבורנו מי ידיד ומי אויב.

ואם אתם תוהים איזו ביקורת היתה מזוייפת בדוגמה שנתנו אז התשובה היא שהראשונה היתה אמיתית והשניה מזוייפת...

ד"ר גיל דוד הוא מנכ"ל חברת Brainstorm Private Consulting



תגובות

דלג על התגובות

בשליחת תגובה זו הנני מצהיר שאני מסכים/מסכימה עם תנאי השימוש של אתר הארץ

סדר את התגובות