Polaroid

תמלול קבצי אודיו קול ווידאו בידי אינטרנט כל עוד קליינטים

המלץ המתארת את קישור מאמר הערות הדפס מאמרשתף מאמר הגיע בפייסבוקשתף עמוד זה בטוויטרשתף קישור זה ב-Linkedinשתף עמוד זה ב-שתף עמוד זה בשנת שתף עמוד זה הזמן ב-Redditשתף עמוד זה הזמן ב-
במשך שבוע הראשון על ידי מאי, 2010 מנועי החיפוש הכריזה המתארת את שחרור עצום של עשיית התמלול הווידאו שלה ביוטיוב. אפילו שפורסמה במרכז 2009, גרסת הבטא בקרב התמלול סרטוני YouTube נתפסה קיימת למס' מוסד לימודים נבחרות, שדרני נוספות וסוכנויות ממשלתיות.

ההיסטוריה אצל טכנולוגיית זיהוי הדיבור ראשיתה מסוף שנות ה-30, אם וכאשר מעבדות AT&T Bell פיתחו אייפון פרימיטיבי שיכול לדעת שיחה. החוקרים יוכלו שהשימוש הנרחב בזיהוי שיחה יהווה תלוי ביכולת לתפוס אם וכאשר נאמן ועקבי קלט מילולי עדין נעשה. אולם מכיוון שטכנולוגיית המחשוב לא נודעה דיו מעולה, הפיתוח בידי זיהוי דיבור נעשה בתזמון חילזון.

חמישים שנה מעתה והלאה, הפוטנציאל על ידי רכוש חשמליים דיגיטליים רבים עלו לרוב המתארת את הטכנולוגיות המוצלחות והיקרות מאד בידי שנות ה-30. הגיע התאפשר הודות ל פריצות ההליכים שבוצעו בייצור שבבים ומוליכים למחצה. המחסומים הממשיים מאד למהירות ולדיוק אצל זיהוי דיבור - מהירות מצג והכוח - מהר לא היו בעיה.

שיש להן כוח מחשוב גבוה שנתיים (נמדד ביחידות בקרב FLOPS) מהיכן שמדעני המחשב בידי שנות ה-30 שלכם יכלו לחשוב, מתכנתים זכאים עתה להעצים אלגוריתמים לקוד ולפענוח בקרב 5 מעולה אצל דפוסי קול. מעשית הנם יכלו היום להרכיב מסד פרמטרים בידי אלפים רבים של דפוסי קול מיוחדים, להמיר אותם לגלי סינוס דיגיטליים ולנתח סימני אלפבית על אודות סמך המתמטיקה אצל אותות דפוסי קול. במשך תקופה מסוימת, כשיקרה ציוד הדיבור לכתב הפכו לשימושיות; פירמות נוספות התחילו לשווק זיהוי קולי לקוחות פוטנציאלים שלה - Dragon Dictation, Microsoft (XP, Vista), Google Voice וחברות מחיצת גבס אחרות.

לכן בזמן זה נשאלת השאלה - עד ל כמה הטכנולוגיות האלו אוביקטיביות, יחסית תמלול קבצי אודיו יוטיוב אצל רשת והאם גם יתחרו אי פעם אחר יעלו בדבר דיוק תמלול קבצי אודיו האנושי?

כל מי שמאוד אוהב לראות בסרטוני יוטיוב אלו שיש להן כיתובים מופעלים, כנראה תהיה שהדיוק בידי הכתוביות גדל במספר קיפולים במסגרת זמן החודשים האחרונים. הדיוק עלותו מעת ליום והוא רק מתכוון להשתפר ככל שיותר אנשים משתמשים בצבא. כפי שאריק שמידט, מנכ"ל רשת בע"מ ללא הפסקה -' התמלילים שלך ב-YouTube בקרב Google ישתפרו במשך מתי, ככל שיותר ויותר משתמשים יבחרו אשר, שזו שיטה אצל לימודים עצמית"

ברם הנו יש שתי פגמים ראשיים שאפשר לראות מתחילה למרות מכיוון שזאת טכנולוגיה של למוד עצמית -


1. כיתוב אמין ומקצועי מוצלח לא מורכב במקרה שבו הדובר מסביר מהסתכלות בצורה משמעותית חד וברורה.

תמלול לבית משפט . הסביבה חייבת לשאת מהטבע כמעט מכל ניתוח הפרעה

3. שגיאות מתגנבות בגלל תוים שנשמעות גלות דוגמת - שמיים וגבוהים - שנתקלנו באופן מהיר, המערכת אינן יכולה להפריד מצד השניים.

4. קריאות ביניים - לפעמים קרובות עוזרות עוצרים או גם משמיעים צלילי התבוננות במהלך נאומים - אילו כוללים אה, המממ, אהה וכיוצא בזה. תוכנת הזיהוי ישמח לבצע קושי לתמלל גם אחר מסוג זה, ולעתים מספקת השפעות מצחיקות. (חפש ביוטיוב בשביל התמלול קולי מעורר גיחוך של גוגל)


ולבסוף עובר החיסרון העיקרי העצום מכולן

5. שביעות כוונה פסיכולוגית - לאחר שהכתוביות בוצעו באמצעות הרובוטים בידי מנועי החיפוש, במקרה ש מאמיר הסרטון יתכן רוצה במידת הדיוק? ברור בייחוד שחשוב לבחון רק את הכתוביות המתומללות לחיפוש שגיאות ולהגהה מקרים. הגיע ללא הפסקה לחדש על מרבית הסרטון עיתים, לתקן את אותם המילים והיה אם ידני, לשפץ את כל החלק הדקדוק כללי פסיקים, מקפים, מרכאות וכיוצא בזה ולהעלות וש. תהליך שלוקח זמן קבוע.

לכן מה הדבר המתאים לתמלול קבצים אם לא טכנולוגיית זיהוי קול לטקסט?


התשובה הוא קטנה יותר, הפרוצס שבה קבצים דיגיטליים ואנלוגיים תומללו ב-50 השנים האחרון - מטופלים.

ארבעת הכול על פועלי חברת תמלול קבצי אודיו ותמלול מסה ב-Etranscriber Transcriptions.


Back to posts
This post has no comments - be the first one!

UNDER MAINTENANCE