בואו לגלות את עמוד הכתבה החדש שלנו
 

רשימת קריאה

רשימת הקריאה מאפשרת לך לשמור כתבות ולקרוא אותן במועד מאוחר יותר באתר,במובייל או באפליקציה.

לחיצה על כפתור "שמור", בתחילת הכתבה תוסיף את הכתבה לרשימת הקריאה שלך.
לחיצה על "הסר" תסיר את הכתבה מרשימת הקריאה.

כך משחזרת הקניה באינטרנט ספרים עתיקים

אם אתם נדרשים להקליד אותיות מעוותות לפני קניה ייתכן ואתם משתמשים בשחזור טקסטים ישנים שיהפכו לדיגיטאליים

תגובות

בימי קדם, אם אדם רצה ללכת לקולנוע, הוא היה צריך להתקשר למענה קולי, או לחכות עד שהגיע לקופות האולם כדי לקנות את הכרטיסים. היום, כל מה שצריך לעשות זה להיכנס לאתר אינטרנט לבחור את השעה, ולשלם על הכרטיסים. אולם לפני שהאתר ייקח מכם כסף, הוא עשוי קודם כל להציג לכם שורה של אותיות מעוותות ולדרוש מכם להקליד את מה שאתם רואים. המנגנון הזה קרוי "קאפצ'ה", ורק בני אדם מסוגלים לפענח אותו. קאפצ'ות מבטיחות שתוכנות מחשב זדוניות לא יוכלו לפרוץ לאתרים מאובטחים.

מה שהגולשים ברשת לא יודעים הוא שבמעשיהם אלה הם גם מגויסים לפרויקט שנועד להפוך ספרים, עיתונים וטקסטים ישנים אחרים לקבצי טקסט ממוינים, מדויקים וניתנים לחיפוש. האותיות שמוצגות לפניכם באתר, הגיעו קרוב לוודאי מטקסט ישן ומעופש. הדף המקורי כבר נסרק לתוך מסד נתונים מקוון, אבל תכניות הסריקה שטיפלו בו עשו לא מעט טעויות. גולשי אתרים הם אלה שמתקנים אותן: קנו כרטיס לקולנוע, עזרו לשמר את ההיסטוריה.

התוכנה שאחראית למבצע נקראת reCaptcha, ופותחה על ידי צוות חוקרים בראשות לואיס פון-אן, חוקר מחשבים מאוניברסיטת קרנגי מלון. היום הפכה השיטה הזו לטכניקה העיקרית שמשמשת את גוגל לאימות טקסטים בגוגל בוקס, מיזם רחב היקף של ענקית האינטרנט שמטרתו להעביר ספרים לקבצים דיגיטליים.

דיגיטציה של ספרים היא לרוב תהליך תלת-שלבי: ראשית, צילום הטקסט בקובץ דיגיטלי. שנית, קידוד הטקסט באמצעות תוכנת זיהוי אותיות. השלב השלישי הוא תיקון הטעויות. בזכות הטכנולוגיה הקיימת כיום, שני השלבים הראשונים הפכו לפשוטים. השלב השלישי, לעומת זאת, יכול להיות קשה ביותר. בטקסטים נדירים באנגלית מהמאה ה-19 תוכנות הזיהוי טועות ב-10%-30% מהמלים. רק עין אנושית יכולה לתקן את הטעויות.

אולם ב-2006 מצא הצוות של ד"ר פון-אן דרך לעקוף את המכשול הזה. החוקרים העריכו כי בני אדם מסביב לעולם מפענחים לפחות 200 מיליון שורות קאפצ'ה ביום, בעשר שניות לשורה. הנתון הזה מיתרגם ל-500 אלף שעות ביום. "אז שאלנו: ?האם נוכל לעשות משהו שימושי עם הזמן הזה'?", נזכר ד"ר פון-אן.

בשלב הראשון בתיקון הטעויות, שתי תוכנות שונות סורקות עמוד. שתי התוכנות ישגו, אך לא בהכרח באותם מקומות. המלים ה"חשודות", אלה שפוענחו באופן שונה על-ידי שתי התוכנות, או כאלו שאינן מופיעות במילון באנגלית, מסומנות. לאחר מכן, כל מלה "חשודה" מומרת למנגנון קאפצ'ה. הקאפצ'ה שנוצרת היא גרסה מעוותת של המלה, כפי שהודפסה בדימוי הצילומי המקורי. בעזרת הגולשים ברשת, תוכנת הפענוח משיגה דיוק של יותר מ-99% מהמקרים - נתון שמשתווה ליכולת הפענוח האנושית.

להערכת ד"ר פון-אן, בתוכנה שלו משתמשים 70%-90% מהאתרים בהם מופעל מנגנון קאפצ'ה. לדבריו, כמה מיליוני מלים מתורגמות מדי יום. ד"ר פון-אן מכיר בכך שלא ניתן לתעתק את כל המלים, בדרך כלל מכיוון שהטקסט המקורי קרוע או פגום. אם מספיק משתמשים כושלים בזיהוי מלה בלתי ידועה, אותה מילה מסומנת כבלתי ניתנת לפענוח. התוכנה כושלת גם בפענוח כתב מחובר, אומר ד"ר פון-אן, ומוסיף כי "אף אחד לא קורא כתב מחובר יותר". כמו כן, המנגנון מפענח כעת רק מלים באנגלית.

אולם ד"ר פון-אן משוכנע שהביצועים ישתפרו עם הניסיון. "נמשיך לעבוד לאורך זמן רב", הוא מבטיח. "יש הרבה תוכן כתוב לעבור עליו".



תגובות

דלג על התגובות

בשליחת תגובה זו הנני מצהיר שאני מסכים/מסכימה עם תנאי השימוש של אתר הארץ

סדר את התגובות
*#
בואו לגלות את עמוד הכתבה החדש שלנו