כלים לקידום אתרים, כל הטכנולוגיות וחידושי האוטומציה
Scraping בעברית? יש חיה כזאת!
אז הנה לנו החידה המציקה ביותר של אנשי האוטומציה בארץ הקודש, איך לעזאזל אנחנו יוצרים רשימת לינקים שמבוססת על תוצאות בעברית?! , ניסינו את Hrefer – אחרי ימים ושעות של נסיונות וכל מיני ומיני שיטות כאלו ואחרות הגענו למסקנה שלא מספיק טוב – אפילו שכן הצלחנו להוציא משהו מתחת לידינו בצורת תוצאות בעברית, נראה שהדבר לא היה מדוייק ולא הכיל את התוצאות מתוצאות החיפוש בישראל אלא פשוט מהחיפוש באנגלית ובעזרת מילים באנגלית נעשה סינון של "תוצאות בעברית" וזהו.
אך השבוע במקרה במהלך סבב בדיקות נוסף של הנושא, ולאחר חיפושים לא מעטים עלה בידי להצליח ולהוציא את תוצאות העברית בצורה מדוייקת כפי שהן מופיעות בגוגל ישראל – ובצורה פשוטה במיוחד שלא האמנתי שלא בדקתי עד עכשיו בעצם. ובשימוש בתוכנה Scrpaebox כדי לעשות זאת, אז החלטתי לכתוב פה מדריך קצר על מנת לשתף את הגולשים כיצד ניתן לעשות זאת וכמובן שלאחר מכן אם תרצו תוכלו תמיד להשתמש ברשימות שתייצרו לכל צורך שלכם.
1. הבעיה מתחילה מכך שכפי שכולנו יודעים, גם HREFER וגם SB לא יודעים להבין עברית בכלל, האמת שעם HREFER התייאשתי כבר מלנסות לקבל תוצאות כמו שצריך ניתן לקבל איתו תוצאות בהחלט בעברית, אבל זה לא תמיד יהיה מה שבאמת חיפשתם אלא יותר מילים באנגלית עם תוצאות בעברית, ניתן לראות לדוגמא כאן את הבעיה עם SB כאשר מנסים להזין לה אותיות עבריות רגילות:
כפי שניתן לראות האותיות יוצאות פשוט בג'יבריש מצוי.
2. אז ניסתי משהו אחר, בעזרת הכלי של Xrumer שנקרא UTF to HTML ניסיתי להמיר את האותיות ולהזין אותם לתוכנה על מנת לעשות סקרייפינג:
מיותר לציין שלא יצאה שום תוצאה מהנסיון הזה.
3. אז עלה בראשי רעיון, שבאמת אני לא מבין איך לא חשבתי עליו קודם, לקודד את האותיות כקוד HEX כמו הג'יבריש שמופיע לפעמים כשיש כתובת אינטרנטית בעברית, לשם כך חיפשתי לי בגוגל URL ENCODER פשוט ואמין כפי שניתן למצוא בלי סוף למעשה ואליו הזנתי את מילת החיפוש בה אותה הייתי מעוניין למצוא, וניתן לראות פה את הפלט:
4. בשלב הבא כל מה שהיה צריך לעשות הוא פשוט להזין את הקוד אל חלון החיפוש של SB , ולשנות את המצב ל-SCRAPING של CUSTOM FOOTPRINT , אשר אותם השארנו ריקים – מהסיבה הפשוטה שאיננו מחפשים בלוגים של וורדפרס אלא אנחנו רוצים לקבל תוצאה כללית של דף התוצאות של המילה הנתונה:
ואללה! הצלחה, קיבלנו תוצאות, שימו לב לאתרים המופיעים בתוצאות ולסדר שלהם.
5. עכשיו כל מה שהיה צריך הוא לוודא שאכן התוצאות שקיבלנו תואמות את המציאות בגוגל, ולכן פשוט נריץ חיפוש ידני על אותו הביטוי:
ואכן התוצאות נכונות, קיבלנו בדיוק מה שחיפשנו.
בצורה זאת ניתן למעשה לפתור את הבעיה המציקה שקשה לגרד תוצאות בעברית ממנוע החיפוש, כמובן ששיטה זו תקפה גם לשפות אחרות ולא רק לעברית אלא גם לערבית או הודית או כל שפה אחרת, ניתן למצא כך יעדים לתגובות בפורומים, בלוגים, מאמרים רלוונטיים או סתם אתרים עבור החלפות קישורים אותם ניתן למיין לפי PR , קישורים יוצאים, נכנסים, להוציא את הקישורים של המתחרים שלנו בארץ ולבודד אותם ומה לא! בעצם לבצע עליהם כל פעולה אותה ניתן לבצע עם SB או כמובן לקחת את הרשימה ולהעביר אותה לתוכנה אחרת כמו Xrumer.
אני יכול להבטיח שזאת הפעם הראשונה שמידע זה מתפאם בישראל אז אל תשכחו איפה שמעתם את זה בפעם הראשונה
במדריכים הבאים בנושא הסקרייפבוקס נעסוק
1) בטכניקות מתקדמות של הוצאת הקישורים של המתחרים שלנו, מיונם לצרכים שלנו (פורומים, בלוגים וכו') ושימוש בהם…
2) יצירה קלה במיוחדת של רשימות Autoapprove של בלוגים.
יש לכם שיטה אחרת שאתם מכירים? יש לכם רעיונות לשכלולים, שימושים אפשריים או פיתוחים נלווים? נשמח לשמוע אתכם בתגובות!
אולי יעניינו אתכם גם:
שתפו אותנו בפייסבוק גוגל ובטוויטר!
הדפס פוסט | פוסט זה נכתב על ידי טל פריהר ב 6 ביוני 2011 בשעה 9:17, ונמצא בקטגוריה Scrapebox, מדריכים. עקוב אחר התגובות לפוסט בעזרת RSS 2.0. אתה יכול להשאיר תגובה או טראקבק מהאתר שלך. |
בערך לפני 7 שנים
Like
תותח
רעיון מצויין מאפשר להשתמש בכל מיני אתרים ומערכות שלא תומכות בכלל בעברית
בערך לפני 7 שנים
תודה שרון,
אכן אפשר ולפעמים אף צריך להשתמש ב"קומבינות" מעין אלו כדי להאכיל תוכנות את השפה העברית במקרים שהן אינן מעכלות אותה...
אגב ב-Hrefer בניגוד למה שחשבתי עד לא מזמן זה לא ממש עבד כמו שצריך, אם מישהו הצליח אשמח לשמוע.
ב-XR המפתחים במוצהר לא מעוניינים שכברירת מחדל יהיה UTF8 כדי לחסוך במשאבי עיבוד אך יש להם כלי חיצוני שמאפשר זאת בקלות.
* צריך לזכור לגבי SB שגם צריך לחפש לפי FOOTPRINTS עבריים בהתאם אם רוצים למצוא דברים מסויימים, פורומים נניח.
בערך לפני 7 שנים
מעולה!
בסוף לא תהיה לי ברירה אלא לקנות את הSB...
בדיוק שאלתי את עצמי היום איך אני מכין רשימה של AUTO APPROVE בשפת הקודש
בערך לפני 7 שנים
משה עד עכשיו לא שמת את ידיך על זה?! ולו רק בשביל להרחיב את רשימת הפליגים וכ'ו.... חבל! כלי מאוד זול ושימושי הרבה מעבר לנושא הבלוג ספאם שלו.
בערך לפני 7 שנים
האמת , ממש רעיון מגניב. אני משתמש אומנם בכלי שפותח על ידי אבל במקרה הזה אתה מציע בהחלט רעיון מעולה.
טל, כל הכבוד !
בערך לפני 7 שנים
היי יעקב תודה ,
מה הכלי שלך עושה?
בערך לפני 7 שנים
אהבתי!
בערך לפני 7 שנים
תודה רובי!
בערך לפני 7 שנים
אפשר לעשות scraping ב hrefer בעברית.
חפש את המילה בעברת ב IE, בשורת הכתובת יופיע הביטוי חיפוש %A3... זה הביטוי שאתה מכניס כדי לחפש בhrefer, עובד 200%.
יש גם כלים שעושים המרה לזה, לא זוכר איזה השתמשתי כרגע אבל אני יכול למצוא אם חשוב ...
בערך לפני 7 שנים
היי דודי מעניין, ENCODING ו HREFER לא עבדו לי בצורה חד משמעית וגם לכל מי שניסה להראות לי שזה עובד עד היום וכבר היו לא כמה כאלו (עיין בפורום של בוטמסטר בדיון עם האחרון שניסה)
אם אתה אומר שזה עובד לך אשמח אם תיצור קשר במייל ותראה לי איך?
תודה!
בערך לפני 7 שנים
מה בנוגע לעברית באנקור טקסט? יש אפשרות כזאת???
קראתי משהו על HTML Entities מכיר את הנושא?
בערך לפני 7 שנים
בטח שאפשר אנקורים בעברית. לגבי כל הפוסט הזה - מאז הם הוסיפו את האפשרות לעשות את מה שרשום פה עם ADDON מובנה.
לגבי האנקורים אם זה לא הולך רגיל אז בקידוד של HTML
אפשר להשתמש בכלי הזה:
http://www.botmasterlabs.net/utf_to_html/
או להוריד אותו:
http://www.botmasterlabs.net/free/UnicodeToHTML.exe
זה יסגור לך את כל הסיפור של ה HTML Entities :)
בערך לפני 7 שנים
איזה ADDON מובנה מדובר?
תודה
בערך לפני 7 שנים
ScrapeBox Unicode Converter
בערך לפני 7 שנים
טל שלום,
רציתי לשאול האם יש אפשרות להוסיף תוכן של טקסט בעברית ב- SB וגם אנקור טקסט בעברית. אם כן, מה צריך לעשות? כי ברגע שאני עושה את זה נכון לעכשיו הוא ממיר את זה לסימני שאלה (????) ז"א הוא לא תומך בקידוד של העברית. איך צריך לשמור את קובץ ה-notepad?
תודה.
בערך לפני 7 שנים
היי רוני בטח שאפשר תראה את שתי התגובות הקודמות - הפוסט הזה די ישן , מאז sb כבר הוציאו addon שמטפל בבעיה הזאת , כל מה שאתה צריך לעשות הוא להתקין אותו מתוך תפריט התוספים שם ולהפעיל אותו
בערך לפני 7 שנים
טל,
הבעיה שלי לא למצוא בלוגים העברית, אלא לשים אנקור טקסט בתגובות. הוספתי את ה- addon הזה והוא רק מתרגם מעברית לקוד..
כשאני מנסה בקבצים של NOTEPAD לכתוב בעברית ולשמור אותם אז הוא צועק שזה לא פורמט תקין.. וכאשר אני עושה בדיקת תגובות לפני ההספמה אז הוא מראה לי ג'יבריש, הן בשם (אנקור) והן בתגובות עצמן.
אשמח ואודה לך מאוד אם תיתן לי תגיד לי איך אני מסתדר עם זה.
בערך לפני 7 שנים
אתה עושה בדיוק את אותו דבר - אותו קוד שמופיע לך ב ADDON אתה משתמש בו גם לתגובות. הוא רושם לך שזה לא תקין? שירשום למי אכפת, תשמור את הקובץ בפורמט UTF8 ויהיה בסדר גמור
בערך לפני 4 שנים
היי טל אחלה מדריך, עבר קצת זמן לפי התגובה האחרונה פה...
בכל מקרה, רציתי לדעת, יש מצב אתה מעלה את המדריכים שאמרת שתעלה ? בעיקר מעניין אותי איך לאסוף רשימה ומקורות טובים להוציא מהם קישורים רלוונטיים.
תודה מראש :)