מכונות לומדות להקשיב: איך המחשב מזהה את העקבות הדיגיטליים של הקול האנושי - המעבדה - הבלוג של מעבדת המדיה והמידע של האוניברסיטה הפתוחה - הארץ

טרם ביצעת אימות לכתובת הדוא"ל שלך. לאימות כתובת הדואל שלך  לחצו כאן

לקרוא ללא הגבלה, רק עם מינוי דיגיטלי בהארץ  

רשימת קריאה

רשימת הקריאה מאפשרת לך לשמור כתבות ולקרוא אותן במועד מאוחר יותר באתר,במובייל או באפליקציה.

לחיצה על כפתור "שמור", בתחילת הכתבה תוסיף את הכתבה לרשימת הקריאה שלך.
לחיצה על "הסר" תסיר את הכתבה מרשימת הקריאה.

מכונות לומדות להקשיב: איך המחשב מזהה את העקבות הדיגיטליים של הקול האנושי

הדברים שכל אחד מאיתנו לומד מלידה, כמו הבנה של סיטואציות ואינטונציות, יכולים להיות קשים להפליא למחשבים, אבל כמו אצלנו, הפיתרון מגיע מהרבה ניסיון ולימוד

תגובות

ורד זילבר-ורוד וענת לרנר

בעידן שנשלט בידי אפליקציות כמו וואטסאפ וסנאפצ'ט וברשתות חברתיות כמו פייסבוק - התמונה והטקסט שולטים ברמה, והדיבור הפך מפעולה פשוטה וחיונית בחיי היומיום לאמצעי תקשורת שהוא לא יותר מ"נחמד שיש". עתיד הוורבאליות נראה אף עגום יותר.  מחקרים בתחום הנוירולוגיה הצליחו להוכיח כי ניתן לקודד קטעי דיבור ישירות מפענוח פעילות של נוירונים בודדים – כלומר, ייתכן שלא רחוק היום שבו נתחבר לחיישנים שיפענחו את המסרים שלנו ישירות מהפעילות המוחית, ללא צורך בהשמעת קול.

אולם עד שזה יקרה, וכל עוד יש קסם ושימוש בהתבטאויות ספונטניות, הדיבור כאן. לא רק שהוא כאן, הוא נאגר, ובכמויות עתק. המרחב הווירטואלי מוצף בדיבור. סרטוני יוטיוב, סטוריז באינטסגרם, אולפני החדשות באינטרנט, סרטים וסדרות שעולים לרשת  - כל אלה מכילים צליל וקול. השאלה היא - כיצד להפיק ידע מכל התוכן הקולי השוטף הזה? על אף הגידול העצום ביצירה ובשיתוף של וידאו מקוון, אין עדיין דרך יעילה וזמינה לחפש ולנווט בתוכן קולי. וכתוצאה מכך - קשה למנף את התועלת מהתכנים האלה.

בנוסף לאתגרי החיפוש והניווט בתוכן קולי, מהנדסי עיבוד הדיבור עוסקים בתכנון בוט (Bot) ידידותי, שיידע להתאים את טון הדיבור שלו לסיטואציה, ויידע לפענח את טון הדיבור שלנו ולהבין גם את מה שלא נאמר בפירוש במלים. חברות ענק מנסות לפצח את הקודים הטמונים בשפה ואת הגיוון העשיר המתאפשר בדיבור, במטרה להנדס ממשק אדם מכונה באמצעות שיחה. החזון הוא לנהל שיחה אמיתית עם הבוט, כמו על יתרונות וחסרונות של שכונת מגורים מסוימת. אנחנו לא נדבר אל המחשב ("תמצא לי חתן!"), אנחנו נדבר עם המחשב ("אז מה אתה אומר? הוא מתאים לי?").

הממשק לא יהיה רק רובוט שמזהה את המילים שאנחנו אומרים, אלא ישות שעובדת איתנו, שמתממשקת לחיי היומיום שלנו ומעורבת בדילמות יומיומיות. ישות כזאת תהיה צריכה לזהות לא רק את התוכן של הדיבור אלא להבין גם את הניואנסים בדיבור.

כאמור, אחת המיומנויות המשמעותיות של תקשורת דיבור אנושית היא התאמת אופן הדיבור הן לסיטואציה, והן לשותפים לשיחה. למשל, אנשים נוהגים להתאים את אופן הדיבור לגיל של בן או בת השיח. דיבור למבוגרים מאיתנו שונה מדיבור לילדים; אנשים מתאימים את רמת הרשמיות של טון הדיבור בשיחה עם חברים לעומת שיחה עם נותני שירות בלתי מוכרים; אנשים נוטים להתאים את טון הדיבור גם לדרג ההיררכי של בני שיחם בארגון, וכן הלאה.

הבנת יכולותיו המגוונות של הקול האנושי היא חלק ממגמת מחקר הולכת וגוברת הן של תקשורת הדיבור והן של אנשי מחשבים שמנסים לדמות את הדיבור המכאני לדיבור אנושי, ככל האפשר. חוקרי תקשורת הדיבור שואפים לחקור את טבעם של סימנים וסמלים מילוליים ולא-מילוליים, ואת תפקידה של התנהגות תקשורתית במגוון של הקשרים חברתיים, כגון יחסים אישיים וארגוניים, מפגשים בין-תרבותיים, דיונים פוליטיים ומשפטיים ועוד.

היה זה המשורר דוד אבידן בשנת 1974 שכתב "שיחות בין בני-אדם לעולם אינן תהליכים מילוליים טהורים. המשוחחים מזרימים אלה אל אלה מידע מיותר בכמויות מפלצתיות, מנסים לשחד אלה את אלה באינטונציות, בתנועות ובלחצים מנטליים".

בשפה המקצועית, הרמזים האלה מחולקים לרמזים פרא-לשוניים, המעבירים מידע דינמי עשיר על כוונותיו של הדובר ועל מצבו הרגשי, לעומת רמזים חוץ-לשוניים, המשקפים מאפיינים יציבים יותר, כגון זהות חברתית, מגדר ביולוגי וחברתי, מעמד סוציו-אקונומי, רקע גיאוגרפי וגיל. בהקשר זה, טכנולוגיית זיהוי דובר, המאפשרת לשייך באופן אוטומטי קטע דיבור ברב-שיח לדובר מסוים, עושה למשל שימוש בדרכים השונות שבהן הדוברים משתמשים בשפתות הקול (הידועים בכינויים "מיתרי הקול") שלהם כדי להחצין את זהותם. במובן הזה, המכונות "למדו להקשיב". במקביל לעיבוד אותות, שעיקר עיסוקו באופן שבו אנשים מעבירים מידע לא-לשוני, חוקרים בתחום ניתוח השיח עוסקים באופן שבו הדוברים מציבים את עצמם בשיח. המונח "קול" משמש במובן המטאפורי שלו כדי להסביר כיצד אדם, או קבוצה, ממתגים את עצמם בהקשרים מסוימים, למשל, בשיח המוסדי. מחקרים הראו שהמשתתפים אמנם מיצבו את עצמם גם יחסית לעצמם (מיצוב רפלקסיבי), וגם יחסית לבני שיחם המיידיים, אולם הטענה היא שהמיצוב נעשה אפילו יחסית לבני-אדם אחרים שאיתם הם ניהלו משא-ומתן בעבר, ולפעמים גם ביחס לבני שיח עתידיים.

אם כך, כיצד ממפים את הניואנסים הרבים כל כך בדיבור? למשל, כיצד המחשב יזהה – לא מי הדוברים - אלא מהו היחס של הדוברים אחד לשני?

כדי לענות על שאלות אלו, אנו מנסות לחלץ עקבות דיגיטליים של הקול האנושי. אחד מכיווני המחקר שלנו עוסק בחילוץ המאפיינים האקוסטיים של התפקיד שאנשים מילאו בדיאלוגים. במחקרים אחרים הצליחו לזהות בצורה אוטומטית תפקידים באינטראקציה, למשל במהדורות חדשות ובתוכניות אירוח, כך שבהינתן תמלול הדיבור האוטומטי ("והרי החדשות מפי ...") ניתן גם לייחס אותו לדובר הרלוונטי (מגיש החדשות). קיימים כיום אלגוריתמים המאפשרים זיהוי של  שלושה סוגי תפקידים: שדרן, כתב ומרואיין, המבוססים גם על ניתוח שפה, כלומר, על ביטויים קבועים וצפויים, שאופייניים לבעלי התפקידים השונים. אחד מכיווני המחקר שלנו הוא לחפש רמזים אקוסטיים לתפקיד הדובר במגוון של אינטראקציות, כגון בפגישות טיפוליות ובדיאלוגים תוך כדי משחק-משימתי.

מה זה אומר "לחפש רמזים"?

אנחנו יודעים אמנם לזהות ללא בעיה שינויים בעוצמת הדיבור, באינטונציה, ובקצב הדיבור. הרמזים בהם משתמשים לצורכי המחקר מורכבים יותר. האוויר הוא החומר ממנו נוצר גל הקול, אותו גל שנוצר על ידי תנועת חלקיקי האוויר היוצאים מפי הדובר אל עבר אוזני המאזינים. את התנודות האלה קולט מכשיר ההקלטה, ומייצג אותן בצורת קובץ דיגיטלי. לאחר מכן, הקבצים הדיגיטליים מעובדים, וניתן להפיק מהם אלפי מאפיינים אקוסטיים, ותבניות ייחודיות.

כך שמשמעות "חיפוש הרמזים" היא להשתמש בהקלטות של דוברים במצבים שאותם רוצים לחקור, ולנסות לאמן מכונה להבחין בין סוגי דיבור שונים, באמצעות כלים של למידה חישובית. לדוגמה, אם נרצה להבין מה מאפיין את דיבורו של בעל סמכות אל הכפוף לו, נשתמש בשיחות בין מנהלים לעובדים, ונאמן את הלומד האוטומטי, באמצעות דוגמאות, למצוא את המשותף לכל קטעי הדיבור של המנהלים מול כל קטעי הדיבור של הכפיפים.  

תוצאות המחקר שלנו מראות שניתן לזהות את תפקיד הדובר במצבים שבדקנו. מידת הזיהוי היא תלוית דובר. למשל, אצל דובר מסוים התפקיד זוהה ב-89%! מקטעי הדיבור שלו. אצל אחרים הזיהוי היה פחות מכך (ובממוצע - 71%). ממצאים אלה מעידים על כך שהמקצוע, או התפקיד, משפיעים על מאפייני הקול. כדי להוסיף למורכבות, הגבוהה גם כך, מצאנו שתוך כדי הדיאלוג, נוצרת דינמיקה בין הדוברים שבה מתרחשת התכנסות והתקרבות אחד לשני, כך שאחוזי הזיהוי של תפקיד הדובר בתחילת השיחה גבוהים יותר מאשר בסופה.

העובדה שהתנהגות באה לידי ביטוי בדיבור היא מרתקת (כמה מאיתנו מודעים לכך שהם מחקים את בני השיח שלהם תוך כדי השיחה? כמה מאיתנו מודעים לכך שדיבורם מושפע מהדרג של שותפיהם לשיחה, גם אם הם מאוד משתדלים להסתיר זאת?). ולסיכום, כדוברים, אנחנו מבצעים שינויים קטנים מאוד, ממש על סף רמת התפיסה האנושית, בטון הדיבור, בעוצמת הדיבור, בקצב הדיבור, והם אלה שמסגירים מידע משמעותי על טיב יחסינו עם בני השיח שלנו.

ד"ר ענת לרנר היא חברת סגל בכיר במחלקה למתמטיקה ולמדעי המחשב באוניברסיטה הפתוחה. ענת חוקרת את השילוב בין התנהגות תת-הכרתית עם מחקר אקוסטי של אותות דיבור. עיבוד אקוסטי של אותות דיבור מאפשר הצצה לנתונים ולתדרים שהאוזן האנושית אינה בנויה לשמוע, ולשינויים מזעריים שקשה לנו להבחין בהם באמצעות האזנה בלבד. 

ד"ר ורד זילבר-ורוד, עמיתת מחקר במרכז לחקר חדשנות בטכנולוגיות למידה באוניברסיטה הפתוחה. חוקרת דיבור וטכנולוגיות דיבור.

 



תגובות

דלג על התגובות

בשליחת תגובה זו הנני מצהיר שאני מסכים/מסכימה עם תנאי השימוש של אתר הארץ

סדר את התגובות