כיבוד
היות והמפגש בחינם, אין לנו אפשרות לממן כיבוד (מעבר לתה וקפה שמציאים גוגל קמפוס). אי לכך: (1) רצוי שתביאו ארוחת ערב / תאכלו מראש. (2) נשמח אם תביאו כיבוד קל למפגש (פירות/ירקות חתוכים, שתיה או דיברי מתיקה – הכל הולך. עדיף איכות על כמות).
היכן?
בגוגל קמפוס:
ELECTRA TOWER
98 YIGAL ALON ST.
TEL AVIV
34TH FLOOR
מתי?
הסדנה תתקיים ביום חמישי, ה-11.12.2014 בין השעות 18:30-21:30
לו"ז (טנטטיבי):
- 18:30-19:00 התכנסות
- 19:00-20:00 – עפרית לסר
- 20:30 – 20:00 הפסקה
- 21:30 – 20:30- אורן בוצ'מן
קהל היעד?
משתמשי R.
נושאי הסדנא
רקע:
המחקר האקדמי בנושא ויקיפדיה הולך וגובר בשנים האחרונות. מחקר זה דורש התמודדות עם מספר אתגרים: למידת תרבות העריכה והתנהלות הקהילה, הבנת כללי האתיקה המחקרית של קרן ויקימדיה, פיתוח כלי תוכנה לאיסוף ועיבוד נתונים ושימוש בשיטות מחקר חדישות.
עמותת ויקימדיה ישראל מעוניינת לקדם את השימוש בשפת R לחקר ויקיפדיה (בעברית ובשפות אחרות). ברצוננו ליצור קהילת מפתחים וחוקרים אשר תפגש על בסיס קבוע ותפתח כלים שעל בסיסם יתבצע מחקר. היתרון בסביבת R הן יכולות מתקדמות לניתוח נתונים סטטיסטי, חזותי ואינטגרציה נוחה עם כלים אחרים. שפה זו צוברת פופולריות בקרב סטטיסטיקאים ומהווה חלק מאקולוגית הקוד הפתוח.
להלן נושאי ההרצאות:
Social network analysis with R and igraph
Social network analysis (SNA) is the use of network theory to analyze social networks. SNA provides both a visual and a mathematical analysis of entities relationships. These entities can be people, organizations, countries etc. SNA is a practical method for visualizing such networks, identify powerful individuals, and perform data-mining in order gain further insight on its nature.
This talk presents some basic concepts in SNA, and demonstrates it using R and igraph. igraph is a collection of network analysis tools with the emphasis on efficiency, portability and ease of use. It is open source and free and can be programmed in GNU R (as well as Python and C/C++).
About me: Ofrit Lesser is a PHD student at the Information Systems Engineering department, Ben Gurion University
Scraping Wikipedia using R and RCurl and httr
Wikipedia is the most commonly cited information source in infographics. The organization behind Wikipedia, the WMF, provides a rich API to access many types of structured and semi structured data. As a result most of the edits on Wikipedia today are performed using automated scripts called robots. To get at real-time version of information you will have to resort to "good old" scraping techniques.
This talk presents RCurl and httr are used to solve many challenges of scraping a website. I will discuss some of the technical challenges of using RCurl to build high level API based functionality as well as the other glue needed to scrape pages – (debugging, testing, two step authentication and editing). I’ll also touch on the ethics of scraping and provide some alternatives to large scale scraping of Wikipedia.
About me: Oren Bochman has a B.A. in Mathematics & Information Science from Bar Ilan University. Bochman is an open-source developer and contributor to Wikipedia.
תוכלו לצרף את המצגות בבקשה
שלום ארז,
המצגות עלו כעת בפוסט הזה:
http://r-israel.com/2014/12/96