מנוע החיפוש גוגל מתייחס בחשדנות לתכנים משוכפלים, כלומר תכנים שהופיעו כבר באתרים אחרים. הדרך בה גוגל מתמודד עם תוכן משוכפל תלויה בקשר בין התכנים ובמעמדם (איזה טקסט פורסם ראשון, מהו מעמדם של האתרים בהם פורסם התוכן וכדומה). לעיתים קרובות התגובה של מנוע החיפוש לתוכן מועתק היא הורדתו של האתר בו הוא מופיע לדירוגים נמוכים יותר בתוצאות החיפוש.
מסיבה זו, שכתוב תוכן אינטרנט היא אחת מהמטלות היותר נפוצות של עורכי תוכן לאתרים.
כיצד אומד גוגל מקוריות של תוכן?
השאלה המעניינת עורכי תוכן רבים היא באיזו מידה יש לשכתב טקסט קיים על מנת שיחשב כטקסט מקורי בעיני מנועי החיפוש.
על מנת לענות על שאלה זו יש להבין את הדרך בה אומד האלגוריתם של גוגל את מידת המקוריות של טקסט ומשם לנסות להסיק על הדרך הנכונה לשכתב תוכן לאתרי אינטרנט.
לצערנו, אנשי גוגל שומרים על עמימות בנוגע ליכולות האלגוריתמים הסמנטיים שלהם, ולכן תשובות אפשריות לשאלות אלו הן השערות בלבד.
בעבר נתקלתי בהערכות הגורסות כי תוכן אינטרנט משוכתב יחשב למקורי אם לפחות 60 אחוז מהמילים בטקסט החדש לא הופיעו בטקסט המקורי. כיום ברור לי כי הערכות אלו אינן מבוססות על מידע רציני וכי הסבירות שהן נכונות היא אפסית.
אין ספק שהאלגוריתם הסמנטי של גוגל הוא מורכב יותר ובוודאי אינו נסמך על ספירת מילים בלבד.
למעשה, אלגוריתם ההערכה של גוגל פועל על בסיס טכניקות של בלשנות חישובית ועיבוד שפה טבעית (NLP – Natural Language Processing). מטרתו לספק הערכה הסתברותית המבוססת על בחינת החוקיות הפנימית של הטקסט ולשם כך הוא נסמך על בינה מלאכותית המנתחת את התבניות הסמנטיות החבויות בטקסט (Latent Semantic Analysis) ומשווה אותן לטקסטים אחרים.
אני איני בלשן והידע שלי בנושאים כמו בלשנות חישובית מוגבל למדי, אך ידוע לי כי תחום המחקר בעיבוד השפה הטבעית נמצא עדיין בתחילת דרכו ולכן למרות המורכבות של האלגוריתם הסמנטי של גוגל, בעיות רבות בניתוח הפער בין משמעות הקשרית ובין משמעות מילונית של מילים עדיין לא באו על פתרונן: כיצד יתמודד האלגוריתם עם סינונימיה (נרדפות), כלומר מילים שונות המתארות אותו דבר, או כיצד ניתן להתמודד עם פוליסמיה, כלומר ריבוי משמעויות של מילה אחת? אותן בעיות הבאות לידי ביטוי באחזור מידע באמצעות האלגוריתם מתעוררות גם כאשר משווים בין טקסטים, ולכן כל עוד האלגוריתם הסמנטי של גוגל עדיין מוגבל, שכתוב תוכן אינטרנט הוא מלאכה קלה למדי.
כיצד משכתבים תוכן אינטרנט?
כאשר אני נשאל לגבי המידה בה צריך לשכתב תוכן על מנת שיחשב כמקורי, אני עונה כי אין שום דרך לאמוד בצורה מובהקת את אחוזי השינוי הנחוצים ולכן אני ממליץ על שכתוב תוכן טבעי, כלומר על כתיבה מחדש של הטקסט תוך שמירה על מבנה ורעיונות דומים מלבד מספר שינויים "קוסמטיים" בטקסט עצמו.
ניתן להשתמש במילונים ובכלי תזאורוס אולם עורך תוכן מיומן ידע לערוך ולשכתב תוכן בקלות רבה גם בלי להיעזר במילונים. לעיתים משימת שכתוב כזו תארך פחות מאשר משימה דומה של כתיבת תוכן לאתר אינטרנט ולעיתים היא תארך זמן רב יותר, הכול תלוי בטקסט עצמו וביכולותיו של העורך.
כאשר אני מתבקש לערוך תוכן לאתרי אינטרנט אני פועל בצורה הזו:
- תחילה אני קורא את הטקסט אותו אני אמור לערוך. אני מסכם בקצרה את הרעיונות העיקריים המובעים בטקסט ואת המבנה הלוגי שלו.
- אני מעתיק את הטקסט לעורך הטקסט שלי ומתחיל לכתוב אותו מחדש, פסקה אחר פסקה, תוך שמירה על הרעיון העיקרי המובע בכל פסקה ועל הדגשות ה-SEO הרלבנטיות (הטמעת מילות חיפוש, כותרות וכדומה).
- לאחר שאני מסיים את השכתוב אני עובר שוב על הטקסט ומבצע בו את כל ההתאמות המפורטות בפוסט כתיבת תוכן לאתרי אינטרנט.
מובן שישנן רמות שונות של שכתוב תוכן. לעיתים נדרשים עורכי תוכן אינטרנט לשכתוב מסיבי הכולל ארגון מחדש של המבנה הלוגי של הטקסט ולעיתים מספיק רק ניסוח מחודש של התוכן, הכול בהתאם לדרישת העריכה.
