סדנת R: ניתוח רשתות חברתיות / שאיבת נתונים מויקיפדיה (11.12.2014) (הכניסה חינם, בהרשמה מראש)

בהמשך לסדנת ה-R המוצלחת על R וביג-דטא, אנחנו שמחים להזמין אתכם לסדנת R אשר משלבת שני נושאים: (1) ניתוח רשתות חברתיות, (2) שאיבת נתונים מויקיפדיה (מה שמכונה web-scraping אתי דרך API). הסדנה תתקיים בחסות עמותת ויקימדיה ישראל, והאיגוד הישראלי לסטטיסטיקה.
הסדנה תועבר על ידי עפרית לסר ואורן בוצ'מן (ראו בהמשך), ומאורגנת על ידי אבנר קנטור וטל גלילי.
 _
ההשתתפות היא בחינם, אך דורשת הרשמה מוקדמת בשני קישורים (סורי על הריבוי, אך אין ברירה):
1) עליכם ליצור שם משתמש באתר של גוגל-קמפוס (ההרשמה היא בחינם, ובצד הימני העליון של המסך)
2) עליכם להירשם בגוגל-טופס שמופיע בקישור הישיר כאן.
 _
יש הגבלת מקום של 120 איש, אז אנא מהרו להירשם. לאחר שירשמו 120 הראשונים, ישלח אליהם מייל שמודיע שהם "בפנים". לאחר מכן ההרשמה תישאר פתוחה ל"רשימת המתנה", ובשבוע שלפני הסדנא נברר כמה אנשים לא יוכלו להגיע – ונזמין את האנשים מרשימת ההמתנה להגיע. בד"כ כשליש (לפחות) מהאנשים מבטלים ברגע האחרון, אז הרבה מהאנשים של רשימת ההמתנה צפויים לקבל הזמנה להגיע (אז תירשמו :) ).

כיבוד

היות והמפגש בחינם, אין לנו אפשרות לממן כיבוד (מעבר לתה וקפה שמציאים גוגל קמפוס). אי לכך: (1) רצוי שתביאו ארוחת ערב / תאכלו מראש. (2) נשמח אם תביאו כיבוד קל למפגש (פירות/ירקות חתוכים, שתיה או דיברי מתיקה – הכל הולך. עדיף איכות על כמות).

היכן?

בגוגל קמפוס:

ELECTRA TOWER
98 YIGAL ALON ST.
TEL AVIV
34TH FLOOR

מתי?

הסדנה תתקיים ביום חמישי, ה-11.12.2014 בין השעות 18:30-21:30

לו"ז (טנטטיבי):

  • 18:30-19:00 התכנסות
  • 19:00-20:00 – עפרית לסר
  • 20:30 – 20:00 הפסקה
  • 21:30 – 20:30- אורן בוצ'מן

קהל היעד?

משתמשי R.

נושאי הסדנא

רקע:

המחקר האקדמי בנושא ויקיפדיה הולך וגובר בשנים האחרונות. מחקר זה דורש התמודדות עם מספר אתגרים: למידת תרבות העריכה והתנהלות הקהילה, הבנת כללי האתיקה המחקרית של קרן ויקימדיה, פיתוח כלי תוכנה לאיסוף ועיבוד נתונים ושימוש בשיטות מחקר חדישות.

עמותת ויקימדיה ישראל מעוניינת לקדם את השימוש בשפת R לחקר ויקיפדיה (בעברית ובשפות אחרות). ברצוננו ליצור קהילת מפתחים וחוקרים אשר תפגש על בסיס קבוע ותפתח כלים שעל בסיסם יתבצע מחקר. היתרון בסביבת R הן יכולות מתקדמות לניתוח נתונים סטטיסטי, חזותי ואינטגרציה נוחה עם כלים אחרים. שפה זו צוברת פופולריות בקרב סטטיסטיקאים ומהווה חלק מאקולוגית הקוד הפתוח.

להלן נושאי ההרצאות:

Social network analysis with R and igraph

Social network analysis (SNA) is the use of network theory to analyze social networks. SNA provides both a visual and a mathematical analysis of entities relationships. These entities can be people, organizations, countries etc. SNA is a practical method for visualizing such networks, identify powerful individuals, and perform data-mining in order gain further insight on its nature.

This talk presents some basic concepts in SNA, and demonstrates it using R and igraph. igraph is a collection of network analysis tools with the emphasis on efficiency, portability and ease of use. It is open source and free and can be programmed in GNU R (as well as Python and C/C++).

About me: Ofrit Lesser is a PHD student at the Information Systems Engineering department, Ben Gurion University

Scraping Wikipedia using R and RCurl and httr

Wikipedia is the most commonly cited information source in infographics. The organization behind Wikipedia, the WMF, provides a rich API to access many types of structured and semi structured data. As a result most of the edits on Wikipedia today are performed using automated scripts called robots. To get at real-time version of information you will have to resort to "good old" scraping techniques.

This talk presents RCurl and httr are used to solve many challenges of scraping a website. I will discuss some of the technical challenges of using RCurl to build high level API based functionality as well as the other glue needed to scrape pages – (debugging, testing, two step authentication and editing). I’ll also touch on the ethics of scraping and provide some alternatives to large scale scraping of Wikipedia.

About me: Oren Bochman has a B.A. in Mathematics & Information Science from Bar Ilan University. Bochman is an open-source developer and contributor to Wikipedia.

פורסם בקטגוריה מפגשי R. אפשר להגיע לכאן עם קישור ישיר.

2 תגובות בנושא סדנת R: ניתוח רשתות חברתיות / שאיבת נתונים מויקיפדיה (11.12.2014) (הכניסה חינם, בהרשמה מראש)

  1. מאת erez‏:

    תוכלו לצרף את המצגות בבקשה

להגיב על טל גלילי לבטל

האימייל לא יוצג באתר. שדות החובה מסומנים *