מה מתוכנן להאקתון R מחירי רשתות של שבוע הבא (המתקיים ב-4 לאוגוסט ומתחיל ב-18:00)

בשבוע הבא יתקיים ביום שלישי האקטון R על מחירי המזון ברשתות השיווק. נותרו עוד (מעט!) מקומות פנויים במפגש, ואתם מוזמנים להירשם כאן בכדי להודיע לנו שאתם מגיעים.

מאז שהכרזנו על המפגש ועד עכשיו, עבדנו הרבה מאד כדי להתכונן למפגש (כלומר, יוני סידי עבד קשה – בעוד שאני בעיקר נהניתי לראות את הדברים המדהימים שהוא עשה).

נתוני המחירים מפוזרים בקבצי xml על פני אתרים רבים, יוני עמל רבות בשביל לאחד את כולם לקובץ אחד. יום אחד של נתונים הוא בערך 2.5GB (לא כל כך כיף בשביל עבודה עם R). לשם כך, יוני ריכז את הנתונים בתוך קובץ SQlite אשר ניתן לקרוא לתוך R, לשלוח לו פקודות SQL או לעבוד מולו בעזרת dplyr (הנחיות נוספות יינתנו למי שירשם כאן למפגש). את הנתונים ניתן לשלב עם מיקומי חנויות על פני מפה (מיקומים אשר לא ניתנו בקובץ נוח, ויוני נדרש לשאוב מאתרים שונים, ולעשות עליהם לא מעט הכנות בשביל שהם יהיו בפורמט אחיד). הנה דוגמא לצילום מסך של מפה אינטראקטיבית אשר יוני יצר על בסיס הנתונים (באפשרותכם להקליק על התמונה בשביל קובץ HTML עם המפה האינטראקטיבית בתחתיתו, כמו גם הקוד R אשר יצר אותה):

2015-07-31 11_49_55-Clipboard

כדי לעזור לכם לדעת עוד על מה מתוכנן, ואיך הגענו לכאן, יוני כתב כמה מילים ששווה לקרוא, להתראות שבוע הבא:

Last month a new law went into affect forcing all the major Israel Supermarket Chains to publish all prices and promotions so consumers can compare prices and lower prices through transparency. The full info of the law can be found [here].
The files instead of being in held in a centralized site in an easily read format for the public are spread out in many private sites in nonuniform archived xml files. The idea behind such a bad storage and formatting scheme is that the government wanted to have private companies make apps so the consumers can access the data through a third party.
The files format and generic layout can be found [here]. In reality the chains did not abide by the generic format and xml's have different structures and column attributes. Just to get a general idea of how much data is being sent every day, just the prices (smaller than the promotions file) take up 3 gigabytes of data per day.
While comparing items on an application is an important short term goal for the government and the law it is in our opinion only a first step. We are looking to bring the data to research quality data and add external information to supplement the information supplied by the chain stores.
We set out to incorporate multiple disciplines and agencies in this project to take advantage of each fields expertise. We have cooperation of representatives from the the Workshop for Public Information, Givat Ram Computer Science Department of the Hebrew University, the Statistics Departments of Tel Aviv University and the Hebrew University, the Geography Department at the Hebrew University, the Research Department in the Bank of Israel and the Central Bureau of Statistics.
Our current goals for the upcoming hackathon meeting are to get a good base for future work. This entails organizing all addresses of stores and incorporating it into a GIS system, creating a classification hierarchy of products in order to define uniform product baskets, and set up a sampling methodology that represents geographical units such that not all the data will be needed to conduct research.
פורסם בקטגוריה מפגשי R. אפשר להגיע לכאן עם קישור ישיר.

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *