कार्यप्रणाली
अवलोकन
Web Almanac HTTP Archive द्वारा आयोजित एक परियोजना है। HTTP Archive 2010 में स्टीव सॉडर्स द्वारा वेब को कैसे बनाया जाता है, इसे ट्रैक करने के लिए मिशन के साथ शुरू किया गया था। यह मासिक आधार पर लाखों वेब पेजों की संरचना का मूल्यांकन करता है और BigQuery पर विश्लेषण के लिए टेराबाइट्स मेटाडेटा उपलब्ध कराता है। HTTP Archive के बारे में अधिक जानें।
Web Almanac का मिशन HTTP Archive के डेटा वेयरहाउस को वेब समुदाय के लिए और अधिक सुलभ बनाना है, जिसमें हम विषय वस्तु विशेषज्ञ की प्रासंगिक जानकारी प्रदान करते हैं। आप इसे वेब की स्थिति के बारे में ज्ञान के वार्षिक भंडार के रूप में सोच सकते हैं, 2019 इसका पहला संस्करण होगा।
Web Almanac के 2019 संस्करण में चार स्तंभ शामिल हैं: सामग्री, अनुभव, प्रकाशन और वितरण। लिखित रिपोर्ट का प्रत्येक भाग एक स्तंभ का प्रतिनिधित्व करता है और इसके विभिन्न पहलुओं की खोज करने वाले अध्यायों से बना है। उदाहरण के लिए, भाग II यूजर एक्सपीरियंस का प्रतिनिधित्व करता है और इसमें प्रदर्शन, सुरक्षा, पहुंच, SEO, PWA और मोबाइल वेब अध्याय शामिल हैं।
डेटासेट के बारे में
HTTP Archive डेटासेट लगातार नए मासिक डेटा के साथ अपडेट हो रहे है। Web Almanac के 2019 संस्करण के लिए, जब तक कि अन्यथा अध्याय में उल्लेख नहीं किया गया, जुलाई 2019 से सभी मैट्रिक्स क्रॉल किए गए थे। ये परिणाम 2019_07_01
के साथ उपसर्ग किए गए तालिकाओं में BigQuery पर सार्वजनिक रूप से क्वेरी करने योग्य हैं।
Web Almanac में प्रस्तुत सभी मैट्रिक्स BigQuery पर डेटासेट का उपयोग कर सार्वजनिक रूप से प्रतिलिपि प्रस्तुत करने योग्य हैं। आप हमारी GitHub रिपॉजिटरी में सभी अध्यायों द्वारा उपयोग किए गए क्वेरी को देख सकते हैं।
कृपया ध्यान दें कि इनमें से कुछ क्वेरी काफी विशाल हैं और आप के प्रयोग के लिए महंगे हो सकते हैं, क्योंकि BigQuery को टेराबाइट द्वारा बिल किया जाता है। अपने खर्च को नियंत्रित करने में सहायता के लिए, टिम कडलेक की पोस्ट Using BigQuery Without Breaking the Bank देखें।
उदाहरण के लिए, डेस्कटॉप और मोबाइल पेज पर JavaScript बाइट्स की औसत संख्या को समझने के लिए, 01_01b.sql देखें:
#standardSQL
# 01_01b: Distribution of JS bytes by client
SELECT
percentile,
_TABLE_SUFFIX AS client,
APPROX_QUANTILES(ROUND(bytesJs / 1024, 2), 1000)[OFFSET(percentile * 10)] AS js_kbytes
FROM
`httparchive.summary_pages.2019_07_01_*`,
UNNEST([10, 25, 50, 75, 90]) AS percentile
GROUP BY
percentile,
client
ORDER BY
percentile,
client
प्रत्येक मीट्रिक के लिए परिणाम अध्याय-विशेष स्प्रेडशीट में सार्वजनिक रूप से देखे जा सकते हैं, उदाहरण के लिए JavaScript परिणाम देखें।
वेबसाइटें
हमारे डेटासेट में 5,790,700 वेबसाइट हैं। उनमें से, 5,297,442 मोबाइल वेबसाइट हैं और 4,371,973 डेस्कटॉप वेबसाइट हैं। अधिकांश वेबसाइटें मोबाइल और डेस्कटॉप दोनों सबसेट में शामिल हैं।
HTTP Archive, Chrome UX रिपोर्ट से अपनी वेबसाइटों के URL का स्रोत लेता है। Chrome UX रिपोर्ट Google का एक सार्वजनिक डेटासेट है जो क्रोम उपयोगकर्ताओं द्वारा सक्रिय रूप से विज़िट की गई लाखों वेबसाइटों के यूजर एक्सपीरियंस को एकत्र करता है। यह हमें उन वेबसाइटों की सूची देता है जो अप-टू-डेट हैं और वास्तविक-विश्व वेब उपयोग का प्रतिबिंब हैं। Chrome UX रिपोर्ट डेटासेट में एक फार्म कारक आयाम शामिल है, जिसका उपयोग हम डेस्कटॉप या मोबाइल उपयोगकर्ताओं द्वारा एक्सेस की गई सभी वेबसाइटों को प्राप्त करने के लिए करते हैं।
अपनी वेबसाइट की सूची के लिए जुलाई 2019 HTTP Archive क्रॉल का उपयोग Web Almanac द्वारा हाल ही में उपलब्ध Chrome UX रिपोर्ट रिलीज़, मई 2019 (201905) में किया गया। यह डेटासेट 11 जून, 2019 को जारी किया गया था और मई के महीने के दौरान Chrome उपयोगकर्ताओं द्वारा देखी गई वेबसाइटें इसमें सम्मलित हैं।
संसाधन सीमाओं के कारण HTTP Archive, Chrome UX रिपोर्ट में प्रत्येक वेबसाइट से केवल एक पृष्ठ का परीक्षण कर सकता है। इसके समाधान के लिए, इसमें केवल मुख पृष्ठ शामिल हैं। ध्यान दें कि यह कुछ पूर्वाग्रह को परिणामों में पेश करता हैं, क्योंकि एक होम पेज आवश्यक रूप से पूरी वेबसाइट का प्रतिनिधि नहीं है।
HTTP Archive को एक लैब टेस्टिंग टूल भी माना जाता है, जिसका अर्थ है कि यह एक डाटा सेंटर से वेबसाइटों का परीक्षण करता है और वास्तविक दुनिया के उपयोगकर्ता अनुभवों से डेटा एकत्र नहीं करता है। इसलिए, सभी वेबसाइट होम पेजों को लॉग आउट स्थिति में खाली कैश के साथ परीक्षण किया जाता है।
मेट्रिक्स
वेब कैसे बनाया जाता है, HTTP Archive इसके बारे में मेट्रिक्स एकत्र करता है। इसमें प्रति पृष्ठ बाइट्स की संख्या जैसे मूल मीट्रिक शामिल हैं, चाहे पृष्ठ को HTTPS से लोड किया गया था, और व्यक्तिगत अनुरोध और प्रतिक्रिया हेडर। इन मेट्रिक्स का अधिकांश हिस्सा WebPageTest द्वारा प्रदान किया जाता है, जो प्रत्येक वेबसाइट के लिए टेस्ट रनर के रूप में कार्य करता है।
अन्य परीक्षण टूल्स का उपयोग पृष्ठ के बारे में अधिक उन्नत मैट्रिक्स प्रदान करने के लिए किया जाता है। उदाहरण के लिए, Lighthouse का उपयोग पृष्ठ का ऑडिट करने के लिए किया जाता है ताकि अभिगम्यता और SEO जैसे क्षेत्रों में इसकी गुणवत्ता का विश्लेषण किया जा सके। नीचे दिए गए टूल्स सेक्शन इन टूलों में से प्रत्येक का विस्तार से वर्णन करता हैं।
लैब डेटासेट की कुछ अंतर्निहित सीमाओं के आसपास काम करने के लिए Web Almanac यूजर एक्सपीरियंस पर मैट्रिक्स के लिए Chrome UX रिपोर्ट का उपयोग भी करता है, विशेष रूप से वेब परफॉरमेंस के क्षेत्र में।
कुछ मैट्रिक्स पूरी तरह से हमारी पहुंच से बाहर हैं। उदाहरण के लिए, हमारे पास वेबसाइट बनाने के लिए उपयोग किए जाने वाले टूल्स का पता लगाना संभव नहीं है। यदि कोई वेबसाइट create-react-app का उपयोग करके बनाई गई है, तो हम बता सकते हैं कि यह React फ्रेमवर्क का उपयोग करता है, लेकिन जरूरी नहीं कि किसी विशेष बिल्ड टूल का उपयोग किया जाए। जब तक ये टूल्स वेबसाइट के कोड में पता लगाने योग्य निशान नहीं छोड़ते, तब तक हम उनके उपयोग को मापने में असमर्थ हैं।
अन्य मैट्रिक्स को मापने के लिए आवश्यक नहीं है लेकिन चुनौतीपूर्ण या अविश्वसनीय हैं। उदाहरण के लिए, वेब डिज़ाइन के पहलू स्वाभाविक रूप से देखने योग्य होते हैं और इन्हें परिमाणित करना मुश्किल हो सकता है, जैसे कि किसी पृष्ठ में एक बाहरी मोडल डायलॉग है।
टूल्स
Web Almanac निम्नलिखित ओपन सोर्स टूल्स की मदद से संभव हो पाया है।
WebPageTest
WebPageTest एक प्रमुख वेब परफॉरमेंस परीक्षण टूल और HTTP Archive की रीढ़ है। हम निजी परीक्षण एजेंटों के साथ WebPageTest के एक निजी उदाहरण का उपयोग करते हैं, जो वास्तविक ब्राउज़र हैं और जो प्रत्येक वेब पेज का परीक्षण करता हैं। डेस्कटॉप और मोबाइल वेबसाइटों को विभिन्न विन्यासों के तहत जांचा जाता है:
Config | Desktop | Mobile |
---|---|---|
Device | Linux VM | Emulated Moto G4 |
User Agent | Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36 PTST/190704.170731 | Mozilla/5.0 (Linux; Android 6.0.1; Moto G (4) Build/MPJ24.139-64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Mobile Safari/537.36 PTST/190628.140653 |
Location |
Redwood City, California, USA The Dalles, Oregon, USA |
Redwood City, California, USA The Dalles, Oregon, USA |
Connection | Cable (5/1 Mbps 28ms RTT) | 3G (1.600/0.768 Mbps 300ms RTT) |
Viewport | 1024 x 768px | 512 x 360px |
डेस्कटॉप वेबसाइट Linux VM पर डेस्कटॉप Chrome वातावरण से चलाए जाते हैं। नेटवर्क की गति एक केबल कनेक्शन के बराबर है।
मोबाइल वेबसाइट 3 जी कनेक्शन के बराबर नेटवर्क स्पीड के साथ Moto G4 डिवाइस पर मोबाइल Chrome वातावरण में चलाए जाते हैं। ध्यान दें कि उत्सर्जित मोबाइल उपयोगकर्ता एजेंट Chrome 65 के रूप में स्वयं की पहचान करता है, लेकिन वास्तव में Chrome 75 प्रयोग होता है।
दो स्थान हैं जहां से परीक्षण चलाए जाते हैं: कैलिफोर्निया और ओरेगन यूएसए। HTTP Archive कैलिफ़ोर्निया में Internet Archive डेटासेंटर में स्थित अपने स्वयं के परीक्षण एजेंट हार्डवेयर को बनाए रखता है। अतिरिक्त परीक्षण एजेंट ओरेगन में Google Cloud प्लेटफ़ॉर्म के us-west-1 से आवश्यकतानुसार जोड़े जाते हैं।
WebPageTest के HTTP Archive का निजी उदाहरण नवीनतम सार्वजनिक संस्करण के साथ सिंक में और कस्टम मैट्रिक्स के साथ संवर्धित रखा जाता है। ये JavaScript के स्निपेट हैं जिनका परीक्षण के अंत में प्रत्येक वेबसाइट पर मूल्यांकन किया जाता है। almanac.js कस्टम मीट्रिक में कई मीट्रिक शामिल हैं जो अन्यथा गणना करने के लिए पर्याप्त हैं, उदाहरण के लिए जो DOM अवस्था पर निर्भर हैं।
प्रत्येक परीक्षण के परिणाम एक HAR फ़ाइल के रूप में उपलब्ध होते हैं, यह एक मेटाडाटा वाली JSON-स्वरूपित संग्रह फ़ाइल होती है, जिसमें वेब पेज होता है।
Lighthouse
Lighthouse Google द्वारा निर्मित एक स्वचालित वेबसाइट गुणवत्ता आश्वासन टूल है। यह वेब पेजों का ऑडिट करके सुनिश्चित करता है कि वेबसाइट एंटी यूजर एक्सपीरियंस वाले पैटर्न जैसे कि अन ऑप्टिमाइज़ इमेजेज और अनभिगम्य सामग्री का प्रयोग नहीं करती हैं।
HTTP Archive अपने सभी मोबाइल वेब पेजों के लिए लाइटहाउस का नवीनतम संस्करण का प्रयोग करता है - डेस्कटॉप पेज सीमित संसाधनों के कारण शामिल नहीं किया जाता। जुलाई 2019 के क्रॉल के लिए, HTTP Archive ने Lighthouse के 5.1.0 संस्करण का उपयोग किया।
Lighthouse को WebPageTest के भीतर से अपने अलग परीक्षण के रूप में चलाया जाता है, लेकिन इसकी अपनी कॉन्फ़िगरेशन प्रोफ़ाइल होती है:
Config | Value |
---|---|
CPU slowdown | 1x* |
Download throughput | 1.6 Mbps |
Upload throughput | 0.768 Mbps |
RTT | 150 ms |
* ध्यान दें कि Lighthouse आमतौर पर 4x की सीपीयू मंदी के लिए कॉन्फ़िगर किया गया है, लेकिन WebPageTest में एक बग के कारण, यह परीक्षण के समय 1x था।
Lighthouse और HTTP Archive में उपलब्ध ऑडिट के बारे में अधिक जानकारी के लिए, Lighthouse डेवलपर प्रलेखन देखें।
Wappalyzer
Wappalyzer वेब पेजो द्वारा उपयोग की जाने वाली तकनीकों का पता लगाने के लिए एक टूल है। JavaScript फ्रेमवर्क से लेकर CMS प्लेटफॉर्म और यहां तक कि क्रिप्टोकरेंसी माइनर्स तक, 65 श्रेणियों का परीक्षण किया गया है। इसमें 1,200 से अधिक समर्थित प्रौद्योगिकियां हैं।
HTTP Archive सभी वेब पेजों के लिए Wappalyzer के नवीनतम संस्करण प्रयोग करता है है। जुलाई 2019 तक Web Almanac ने Wappalyzer के 5.8.3 संस्करण का उपयोग किया।
Wappalyzer कई अध्यायों को डेटा देता है जो कि WordPress, Bootstrap, और jQuery। उदाहरण के लिए, ईकॉमर्स और CMS अध्याय संबंधित ईकॉमर्स और CMS श्रेणियों पर बहुत अधिक निर्भर करते हैं, जो Wappalyzer द्वारा पता चला है।
Wappalyzer सहित सभी डिटेक्शन टूल्स की अपनी सीमाएँ हैं। उनके परिणामों की वैधता हमेशा इस बात पर निर्भर करेगी कि उनके पता लगाने के तंत्र कितने सही हैं। Web Almanac हर अध्याय में एक नोट जोड़ देगा जहां Wappalyzer का उपयोग किया जाता है लेकिन इसका विश्लेषण एक विशिष्ट कारण के कारण सटीक नहीं हो सकता है।
Chrome UX रिपोर्ट
Chrome UX रिपोर्ट वास्तविक-विश्व यूजर एक्सपीरियंस का एक सार्वजनिक डेटासेट है। वेबसाइट्स के मूल द्वारा एक्सपीरियंस को वर्गीकृत किया जाता है, उदाहरण के लिए https://www.example.com
। डेटासेट में पेंट, लोड, इंटरैक्शन और लेआउट स्थिरता जैसे UX मैट्रिक्स के वितरण शामिल हैं। महीने के अनुसार समूहीकरण के अलावा, एक्सपीरियंस को देश-स्तरीय भूगोल, फार्म कारक (डेस्कटॉप, फोन, टैबलेट) और प्रभावी कनेक्शन प्रकार (4 जी, 3 जी, आदि) जैसे आयामों से भी वर्गीकृत किया जाता है।
Chrome UX रिपोर्ट से वास्तविक दुनिया के यूजर एक्सपीरियंस का डेटा देने वाले Web Almanac के लिए, जुलाई 2019 डेटासेट (201907) का उपयोग किया जाता है।
आप web.dev पर BigQuery गाइड पर Chrome UX रिपोर्ट का उपयोग करके डेटासेट के बारे में अधिक जान सकते हैं।
थर्ड पार्टी वेब
Third Party Web , थर्ड पार्टीज़ अध्याय के लेखक पैट्रिक हुल्से की एक शोध परियोजना है, जो वेब पर थर्ड पार्टीज़ के संसाधनों के प्रभाव को पहचानने और उनका विश्लेषण करने के लिए HTTP Archive और Lighthouse डेटा का उपयोग करता है।
डोमेन को तीसरे पक्ष का प्रदाता माना जाता है, यदि वे कम से कम 50 अद्वितीय पृष्ठों पर दिखाई देते हैं। यह परियोजना विज्ञापन, विश्लेषिकी और सामाजिक जैसी श्रेणियों में प्रदाताओं को उनकी संबंधित सेवाओं से भी जोड़ती है।
Web Almanac के कई अध्याय थर्ड पार्टीज़ के प्रभाव को समझने के लिए इस डेटासेट के डोमेन और श्रेणियों का उपयोग करते हैं।
Rework CSS
Rework CSS एक JavaScript-आधारित CSS पार्सर है। यह संपूर्ण स्टाइलशीट लेता है और प्रत्येक व्यक्तिगत स्टाइल रूल, सिलेक्टर, डायरेक्टिव और वैल्यू को भेद करने वाली JSON-एन्कोडेड ऑब्जेक्ट का उत्पादन करता है।
इस विशेष उद्देश्य टूल ने CSS अध्याय में कई मैट्रिक्स की सटीकता में काफी सुधार किया। सभी बाहरी स्टाइलशीट में CSS और प्रत्येक पृष्ठ के लिए इनलाइन स्टाइल के ब्लॉक को विश्लेषण संभव बनाने के लिए पार्स और क्वियर किया गया था। इस बारे में अधिक जानकारी के लिए यह थ्रेड देखें कि यह BigQuery पर HTTP Archive डेटासेट के साथ कैसे एकीकृत किया गया था।
विश्लेषणात्मक प्रक्रिया
Web Almanac को वेब समुदाय से दर्जनों योगदानकर्ताओं के समन्वय के साथ योजना बनाने और निष्पादित करने में लगभग एक वर्ष लगा। यह खंड बताता है कि हमने Web Almanac में आपके द्वारा देखे गए मेट्रिक्स को क्यों चुना, उन्हें कैसे समझा और व्याख्या की गई थी।
Brainstorming
Web Almanac की शुरुआत जनवरी 2019 में HTTP Archive मंच पर एक पोस्ट के रूप में शुरू हुई थी जिसमें पहल और समर्थन जुटाने का वर्णन था। मार्च 2019 में हमने एक सार्वजनिक ब्रैनस्टोर्मिंग डॉक बनाया जिसमें वेब समुदाय में कोई भी अध्याय या मैट्रिक्स के लिए विचारों को लिख सकता है। यह सुनिश्चित करने के लिए एक महत्वपूर्ण कदम था कि हम उन चीजों पर ध्यान केंद्रित कर रहे हैं जो समुदाय के लिए महत्वपूर्ण हैं और इस प्रक्रिया में विविध लोग शामिल हैं।
ब्रैनस्टोर्मिंग के परिणामस्वरूप, 20 अध्याय तैयार हो गए थे और हमने प्रत्येक अध्याय के विषय विशेषज्ञ और सहकर्मी समीक्षकों को नियुक्त करना शुरू कर दिया था। स्वयंसेवकों को इस पैमाने की परियोजना के लिए प्रतिबद्ध होने की चुनौती के कारण इस प्रक्रिया में कुछ अंतर्निहित पूर्वाग्रह थे। इस प्रकार, कई योगदानकर्ता एक ही मंडलियों के सदस्य हैं। Web Almanac के भविष्य के संस्करणों के लिए एक स्पष्ट लक्ष्य लेखकों और सहकर्मी समीक्षकों के रूप में प्रतिनिधि और विविध क्षेत्रों के लोगो का समावेश को प्रोत्साहित करना हैं।
हमने जून 2019 तक अध्याय के साथ लोगों को जोड़ने और प्रत्येक अध्याय को बनाने वाले व्यक्तिगत मैट्रिक्स को अंतिम रूप देने के लिए उनका इनपुट प्राप्त करने में बिताया।
विश्लेषण
जून 2019 में, मैट्रिक्स और अध्यायों की स्थिर सूची के साथ, डेटा विश्लेषकों ने व्यवहार्यता के लिए मीट्रिक को कम कर दिया। कुछ मामलों में, कस्टम मेट्रिक्स को हमारी विश्लेषणात्मक क्षमताओं में अंतराल को भरने के लिए बनाने की आवश्यकता हुई।
जुलाई 2019 के दौरान, HTTP Archive डेटा पाइपलाइन ने कई मिलियन वेबसाइटों को क्रॉल किया, जो मेटाडेटा को Web Almanac में उपयोग करने के लिए एकत्रित करता है।
अगस्त 2019 से शुरू होकर, डेटा विश्लेषकों ने प्रत्येक मीट्रिक के परिणाम निकालने के लिए क्वेरी लिखना शुरू कर दिया। कुल मिलाकर, 431 क्वेरी हाथ से लिखे गए थे! आप प्रोजेक्ट के GitHub रिपॉजिटरी के sql/2019 डायरेक्टरी में चैप्टर द्वारा सभी क्वेरी को देख सकते हैं।
व्याख्या
लेखकों ने परिणामों की सही व्याख्या करने और उचित निष्कर्ष निकालने के लिए विश्लेषकों के साथ काम किया। जैसा कि लेखकों ने अपने संबंधित अध्याय लिखे हैं, वे इन आंकड़ों से आकर्षित होते हैं ताकि वे वेब की स्थिति का समर्थन कर सकें। सहकर्मी समीक्षकों ने अपने विश्लेषण की तकनीकी शुद्धता सुनिश्चित करने के लिए लेखकों के साथ काम किया।
पाठकों को परिणामों को अधिक आसानी से समझने के लिए, वेब डेवलपर्स और विश्लेषकों ने अध्याय में एम्बेड करने के लिए डेटा विज़ुअलाइज़ेशन बनाया। निष्कर्ष निकालने में आसान बनाने के लिए कुछ विज़ुअलाइज़ेशन को सरल बनाया गया है। उदाहरण के लिए, एक वितरण का पूरा हिस्टोग्राम दिखाने के बजाय, केवल कुछ प्रतिशत दिखाए जाते हैं। जब तक अन्यथा उल्लेख नहीं किया जाता है, सभी वितरणों का प्रतिशत, विशेषकर माध्य (50 वां प्रतिशत), और औसत का उपयोग करके संक्षेप में प्रस्तुत किया जाता है।
अंत में, संपादकों ने सरल व्याकरण संबंधी त्रुटियों को ठीक करने और पढ़ने के अनुभव में निरंतरता सुनिश्चित करने के लिए अध्यायों को संशोधित किया।
अब आगे
2019 संस्करण Web Almanac का पहला संस्करण है जो हम आत्मनिरीक्षण के वेब समुदाय में एक वार्षिक परंपरा और सकारात्मक बदलाव के प्रति प्रतिबद्धता की उम्मीद करते हैं। इस मुकाम पर पहुंचने के लिये समर्पित सभी योगदानकर्ताओं का धन्यवाद है और हम भविष्य के संस्करणों को और अधिक सुव्यवस्थित बनाने के लिए इस काम का अधिक से अधिक लाभ उठाने की उम्मीद करते हैं।
यदि आप वेब पंचांग के 2020 संस्करण में योगदान करने में रुचि रखते हैं, तो कृपया हमारा रुचि फ़ॉर्म भरें। हम इस परियोजना को और बेहतर बनाने के लिए आपके विचारों को सुनना पसंद करेंगे!