Semalt מציע 5 שלבים לגרד דפי אינטרנט

Scrapy הוא קוד פתוח ומסגרת לחילוץ מידע מהאתר השונה. הוא משתמש בממשקי API ונכתב בפייתון. סקראפי מתוחזק כיום על ידי חברת גירוד אתרים בשם Scrapinghub Ltd.

זהו מדריך פשוט כיצד לכתוב סורק אינטרנט באמצעות סקראפי, ניתוח ניתוח Craigslist ואחסון מידע בפורמט CSV. להלן חמשת השלבים העיקריים במדריך זה:

1. צור פרויקט Scrapy חדש

2. כתוב עכביש לסריקת אתר ולחילוץ נתונים

3. ייצא את הנתונים המגורדים באמצעות שורת הפקודה

4. החלף עכביש כדי לעקוב אחר הקישורים

5. השתמש בטיעוני עכביש

1. צור פרוייקט

השלב הראשון הוא יצירת פרויקט. יהיה עליכם להוריד ולהתקין את Scrapy. בסרגל החיפוש שלה, עליך להזין את שם הספרייה בה ברצונך לאחסן את הנתונים. סקראפי משתמש בעכבישים שונים כדי לחלץ מידע, ועכבישים אלה מבקשים בקשות ראשוניות ליצירת ספריות. כדי להפעיל עכביש לעבודה, עליכם לבקר ברשימת הספריות ולהכניס שם קוד מסוים. השגיח על הקבצים בספרייה הנוכחית שלך ושים לב לשני קבצים חדשים: quotes-a.html ו- quote-b.html.

2. כתוב עכביש לסריקת אתר ולחילוץ נתונים:

הדרך הטובה ביותר לכתוב עכביש ולחלץ נתונים היא ליצור בוררים שונים במעטפת של סקראפי. עליכם תמיד לסגור את כתובות האתר בציטוטים; אחרת, Scrapy ישנה באופן מיידי את האופי או השמות של כתובות האתרים האלה. עליך להשתמש בציטוטים כפולים סביב כתובת אתר כדי לכתוב עכביש בהתאם. עליך להשתמש.extract_first () ולהימנע משגיאת אינדקס.

3. ייצא את הנתונים המגורדים באמצעות שורת הפקודה:

חשוב לייצא את הנתונים המגורדים באמצעות שורת הפקודה. אם לא תייצא אותו, לא תקבל תוצאות מדויקות. העכביש יפיק ספריות שונות המכילות מידע שימושי. עליך להשתמש במילות המפתח של Python לתפוקה כדי לייצא מידע זה בצורה טובה יותר. ייבוא נתונים לקבצי JSON אפשרי. קבצי JSON שימושיים עבור מתכנתים. כלים כמו JQ עוזרים לייצא נתונים מגרדים ללא שום בעיה.

4. החלף עכביש כדי לעקוב אחר הקישורים:

בפרויקטים קטנים אתה יכול להחליף עכבישים לעקוב אחר קישורים כנדרש. אבל זה לא הכרחי בפרויקטים של גרידת נתונים גדולים. קובץ מציין מיקום עבור צינורות פריט יוגדר כשאתה מחליף עכביש. ניתן לאתר קובץ זה בקטע הדרכה / pipelines.py. בעזרת סקראפי תוכלו לבנות עכבישים מתוחכמים ולשנות את מיקומם בכל עת. אתה יכול לחלץ מספר אתרים בכל פעם ולבצע פרויקטים שונים של חילוץ נתונים.

5. השתמש בטיעוני עכביש:

התקשרות parse_author היא טיעון עכביש שניתן להשתמש בו כדי לחלץ נתונים מאתרים דינמיים. אתה יכול גם לספק ארגומנטים של שורת פקודה לעכבישים עם קוד ספציפי. טיעוני העכביש הופכים למאפייני עכביש תוך זמן קצר ומשנים את המראה הכללי של הנתונים שלך.

במדריך זה, סקרנו רק את היסודות של סקראפי. יש הרבה תכונות ואפשרויות לכלי זה. אתה רק צריך להוריד ולהפעיל את Scrapy כדי לדעת יותר על המפרט שלה.