אז הנה לנו החידה המציקה ביותר של אנשי האוטומציה בארץ הקודש, איך לעזאזל אנחנו יוצרים רשימת לינקים שמבוססת על תוצאות בעברית?! , ניסינו את Hrefer – אחרי ימים ושעות של נסיונות וכל מיני ומיני שיטות כאלו ואחרות הגענו למסקנה שלא מספיק טוב – אפילו שכן הצלחנו להוציא משהו מתחת לידינו בצורת תוצאות בעברית, נראה שהדבר לא היה מדוייק ולא הכיל את התוצאות מתוצאות החיפוש בישראל אלא פשוט מהחיפוש באנגלית ובעזרת מילים באנגלית  נעשה סינון של "תוצאות בעברית" וזהו.

אך השבוע במקרה במהלך סבב בדיקות נוסף של הנושא, ולאחר חיפושים לא מעטים עלה בידי להצליח ולהוציא את תוצאות העברית בצורה מדוייקת כפי שהן מופיעות בגוגל ישראל – ובצורה פשוטה במיוחד שלא האמנתי שלא בדקתי עד עכשיו בעצם. ובשימוש בתוכנה Scrpaebox כדי לעשות זאת, אז החלטתי לכתוב פה מדריך קצר על מנת לשתף את הגולשים כיצד ניתן לעשות זאת וכמובן שלאחר מכן אם תרצו תוכלו תמיד להשתמש ברשימות שתייצרו לכל צורך שלכם.



1. הבעיה מתחילה מכך שכפי שכולנו יודעים, גם HREFER וגם SB לא יודעים להבין עברית בכלל, האמת שעם HREFER התייאשתי כבר מלנסות לקבל תוצאות כמו שצריך ניתן לקבל איתו תוצאות בהחלט בעברית, אבל זה לא תמיד יהיה מה שבאמת חיפשתם אלא יותר מילים באנגלית עם תוצאות בעברית, ניתן לראות לדוגמא כאן את הבעיה עם SB כאשר מנסים להזין לה אותיות עבריות רגילות:



כפי שניתן לראות האותיות יוצאות פשוט בג'יבריש מצוי.

2. אז ניסתי משהו אחר, בעזרת הכלי של Xrumer שנקרא UTF to HTML ניסיתי להמיר את האותיות ולהזין אותם לתוכנה על מנת לעשות סקרייפינג:



מיותר לציין שלא יצאה שום תוצאה מהנסיון הזה.

3. אז עלה בראשי רעיון, שבאמת אני לא מבין איך לא חשבתי עליו קודם, לקודד את האותיות כקוד HEX כמו הג'יבריש שמופיע לפעמים כשיש כתובת אינטרנטית בעברית, לשם כך חיפשתי לי בגוגל  URL ENCODER  פשוט ואמין כפי שניתן למצוא בלי סוף למעשה ואליו הזנתי את מילת החיפוש בה אותה הייתי מעוניין למצוא, וניתן לראות פה את הפלט:



4. בשלב הבא כל מה שהיה צריך לעשות הוא פשוט להזין את הקוד אל חלון החיפוש של SB , ולשנות את המצב ל-SCRAPING של  CUSTOM FOOTPRINT , אשר אותם השארנו ריקים – מהסיבה הפשוטה שאיננו מחפשים בלוגים של וורדפרס אלא אנחנו רוצים לקבל תוצאה כללית של דף התוצאות של המילה הנתונה:

 



ואללה!  הצלחה, קיבלנו תוצאות, שימו לב לאתרים המופיעים בתוצאות ולסדר שלהם.

5. עכשיו כל מה שהיה צריך הוא לוודא שאכן התוצאות שקיבלנו תואמות את המציאות בגוגל, ולכן פשוט נריץ חיפוש ידני על אותו הביטוי:



ואכן התוצאות נכונות, קיבלנו בדיוק מה שחיפשנו.

 

בצורה זאת ניתן למעשה לפתור את הבעיה המציקה שקשה לגרד תוצאות בעברית ממנוע החיפוש, כמובן ששיטה זו תקפה גם לשפות אחרות ולא רק לעברית אלא גם לערבית או הודית או כל שפה אחרת, ניתן למצא כך יעדים לתגובות בפורומים, בלוגים, מאמרים רלוונטיים או סתם אתרים עבור החלפות קישורים אותם ניתן למיין לפי PR , קישורים יוצאים, נכנסים, להוציא את הקישורים של המתחרים שלנו בארץ ולבודד אותם ומה לא! בעצם לבצע עליהם כל פעולה אותה ניתן לבצע עם SB או כמובן לקחת את הרשימה ולהעביר אותה לתוכנה אחרת כמו Xrumer.

אני יכול להבטיח שזאת הפעם הראשונה שמידע זה מתפאם בישראל אז אל תשכחו איפה שמעתם את זה בפעם הראשונה :)

במדריכים הבאים בנושא הסקרייפבוקס נעסוק

1) בטכניקות מתקדמות של הוצאת הקישורים של המתחרים שלנו, מיונם לצרכים שלנו (פורומים, בלוגים וכו') ושימוש בהם…

2) יצירה קלה במיוחדת של רשימות Autoapprove של בלוגים.

 

יש לכם שיטה אחרת שאתם מכירים? יש לכם רעיונות לשכלולים, שימושים אפשריים או פיתוחים נלווים?  נשמח לשמוע אתכם בתגובות!

 

VN:F [1.9.18_1163]

מה דעתכם על הפוסט?

דירוג: 10.0/10 (3 הצבעות )

VN:F [1.9.18_1163]

דירוג: +1 (מתוך 1 הצבעה)

Scraping בעברית? יש חיה כזאת!, 10.0 out of 10 based on 3 ratings


שתפו אותנו בפייסבוק גוגל ובטוויטר!
אהבתם את מה שקראתם? הכניסו את כתובת המייל שלכם
והרשמו לעדכונים כדי שתהיו הראשונים לקבל את המידע שאף אחד לא מספר לכם: