טרם ביצעת אימות לכתובת הדוא"ל שלך. לאימות כתובת הדואל שלך  לחצו כאן

רשימת קריאה

רשימת הקריאה מאפשרת לך לשמור כתבות ולקרוא אותן במועד מאוחר יותר באתר,במובייל או באפליקציה.

לחיצה על כפתור "שמור", בתחילת הכתבה תוסיף את הכתבה לרשימת הקריאה שלך.
לחיצה על "הסר" תסיר את הכתבה מרשימת הקריאה.

הסבא של סירי מאמין שיש גם לה עוד מה ללמוד

פרופסור סדאוקו פורוי מאוניברסיטת טוקיו מאמין שמחשבים יוכלו להשתוות לבני אנוש בתחום הזיהוי הקולי רק בעוד כעשור. זיהוי רגשות ייקח 10 שנים נוספות

תגובות

בשנים האחרונות נראה שהדרך לשוחח עם מחשבים ומכשירים אחרים כבר סלולה, שלא לומר הסתיימה. יותר ויותר מכשירים מבינים אותנו כשאנחנו מדברים אליהם בזכות אפליקציות כמו Siri של האייפון 4S מבית אפל ואפליקציות רבות נוספות כמו זו של  גוגל או evi הבריטית. לחילופין גם Ani.do הישראלית משתמשת ביכולות זיהוי דיבור.

אבל אם תשאלו את פרופסור סדאוקי פורוי מאוניברסיטת טוקיו, הוא יגיד לכם שהדרך עוד ארוכה, ואפשר להאמין לו. אחרי הכל, פורוי עוסק בתחום עוד הרבה לפני שמחשבים יכלו להיכנס לכיס כמו סמארטפונים. למעשה עוד הרבה לפני שאפשר היה לשים מחשב על שולחן, כלומר כ-40 שנה.

פורוי, שמגיע ארצה להרצות בכנס עיבוד דיבור שיחל ב-19 ביוני במרכז לעיבוד שפה במכללת אפקה בשיתוף עם ארגון AVIOS ישראל, אחראי בין היתר למחקר משנות ה-80 שמשמש כיום בכל טכנולוגיית זיהוי קולי. פורוי פיתח פרמטר בשם delta cepstra שמזהה את הדינמיקה המשתנה של הקול, ופועל עם פרמטרים סטטיסטיים אחרים כדי לשפר בצורה משמעותית את זיהוי הדיבור.

פורוי ופרופסור עמי מויאל ממכללת אפקה מסבירים כי כיום יש לתחום הזיהוי הקולי שני כיוונים מרכזיים. הבולט הוא תקשורת אדם מכונה, כמו במקרה של Siri או S voice של סמסונג. את הטכנולוגיה מנסים לקחת קדימה לתחומים של זיהוי מבטאים ודיאלקטים, ואף לזיהוי רגשות. ההבטחה מסתובבת באוויר כבר כמה שנים טובות. בעתיד, מאמין מויאל, מחשבים יהיו מסוגלים לתקשורת מולטי-מודלית שתתבסס על שילוב בין אודיו לווידיאו כדי להבחין בדקויות של הרגשות.

פרופסור סדאוקו פורוי
אוניברסיטת טוקיו

אבל כאמור, הדרך לכך היא עוד ארוכה, ולא רק בגלל הבינה המלאכותית, אלא גם בשל נושא הזיהוי. פורוי סיפר בראיון טלפוני להארץ כי הדרך לזיהוי קולי שיכול להתחרות בזה של בני אדם צפויה לארוך עוד כ-10 שנים לפחות. ואז, דרושות 10 שנים נוספות של מחקר כדי להבין מה מסתתר בין המילים - כלומר לזהות רגשות ומסרים לא ורבליים. "עדיין קשה מאוד לזהות רגשות כי הם כה חבויים ועדינים. יש מחקרים רבים שעובדים בתחום, אבל הם עדיין לא הגיעו לתוצאות טובות".

פורוי מספר שגם אחד התחומים שבהם יפאן נודעת יותר מכל מדינה - הרובוטים שמפותחים תדיר בתקווה שישמשו בני לוויה לאוכלוסיית הזקנים המתרחבת במדינה - עדיין צריך לעבור כברת דרך כדי שיוכל להגיע ליישומים מסחריים מלאים.

enthusiastikdotcom

בעידן האינטרנט הזיהוי הקולי משמש גם לניתוח של אודיו ומולטימדיה. כיום עדיין יש חיסרון בכלים לחיפוש בוידיאו, ואחת השיטות להתמודד עם הנושא היא לעשות את ההמרה לטקסט שמאפשרת לך לחפש בווידיאו, ולהגיע בדיוק לנקודה שאתה צריך בווידיאו.

פורוי מספר שביפאנית, עם סוגי הכתב השונים שלה ואלפי הסימניות שייבאה מסינית (קאנג'י), אי אפשר להקליד במהירות דיבור לטקסט וכך זיהוי קולי משמש כדי ליצור כתוביות באופן אוטומטי.

כמו בכל טכנולוגיה, ישנו תחום נוסף שבו משתמשים בזיהוי קולי וזה כמובן התחום הביטחוני. כיום, בעידן שאחרי הפיגועים במגדלי התאומים כשגופי ביטחון צריכים לעבור על כמויות אדירות של שיחות, ולזהות מילים חשודות, הזיהוי הקולי מסייע לצמצם את הזמן בחיפוש אחרי פעילויות חשודות.

המכשולים עשויים להישמע בנאליים להחריד, אבל זה לא הופך אותם לקשים פחות. הם כוללים בין היתר רעשי רקע שמקשים על זיהוי הדיבור מחוץ למעבדות הסטריליות של האוניברסיטאות והחברות המסחריות. ובנוסף, כמו שגם אפל גילתה כשניסתה לכבוש את בריטניה ובעיקר את סקוטלנד, (וכמו שאני גיליתי כשניסיתי לראות את הסרט Bloody Sunday על האירועים באירלנד בלי כתוביות), קיים קושי להתמודד עם מבטאים והווריאציות בין דובר לדובר.

פרופסור עמי מויאל
יח"צ

בשוק הביטחוני קיימת בעיה נוספת. כאשר ארה"ב מוצאת את עצמה במלחמות באזורים כמו אפגניסטאן, שבה מדברים שפות כמו פשטו ואורדו, שמאגרי המידע עליהן מוגבלים מאוד, יש צורך בפיתוח טכנולוגיה שתצליח למצות את המקסימום מהמאגרים המוגבלים שבידי החוקרים - תחום שמויאל מספר כי גם במרכז באפקה עוסקים בו.

בעיה נוספת קיימת בתחום שפות טונאליות כמו סינית מפני שגובה הקול משתנה מדובר לדובר וזה מקשה על הזיהוי של המילה המדויקת. וזה עוד לפני שדיברנו על ההבדלים בין השפה הנהוגה בבייג'ינג לזו שנהוגה בשנגחאי.

התמודדות עם הבעיות עוברת דרך מחקר סטטיסטי רב שמבוסס על מאגרי מידע אדירים של דיבור בשפות שונות, "מפני שהמחשבים אינם גמישים, ולכן אנחנו צריכים לאסוף מידע רב שדומה ככל האפשר לתנאים הטבעיים שבהם אנשים מדברים".

אבל יש גם טכנולוגיות נוספות שמנסות לחשוב מעבר למחקר הסטטיסטי, מספר פורוי. לדוגמא רשתות נוירונים ממוחשבות שמנסות לדמות את המוח האנושי. תחום שמיקרוסופט עוסקת בו, ולדבריה הגיעה בו לתוצאות יפות. דרך אחרת להתמודד עם הרעשים החיצוניים היא דווקא דרך חומרה: הצבא האמריקאי עושה ניסויים במיקרופוני לייזר, שמפיקים את הצליל בצורה דיגיטלית לפי תנועות השרירים, זאת בנוסף למיקרופון רגיל, וכך, הוא מספר, ההפרעות הופכות פחות רלוונטיות. אולם טכנולוגיה זו עדיין נמצאת בשלב הניסויי כאמור.



תגובות

דלג על התגובות

בשליחת תגובה זו הנני מצהיר שאני מסכים/מסכימה עם תנאי השימוש של אתר הארץ

סדר את התגובות