नेविगेशन स्किप करें

कार्यप्रणाली

अवलोकन

Web Almanac HTTP Archive द्वारा आयोजित एक परियोजना है। HTTP Archive 2010 में स्टीव सॉडर्स द्वारा वेब को कैसे बनाया जाता है, इसे ट्रैक करने के लिए मिशन के साथ शुरू किया गया था। यह मासिक आधार पर लाखों वेब पेजों की संरचना का मूल्यांकन करता है और BigQuery पर विश्लेषण के लिए टेराबाइट्स मेटाडेटा उपलब्ध कराता है। HTTP Archive के बारे में अधिक जानें।

Web Almanac का मिशन HTTP Archive के डेटा वेयरहाउस को वेब समुदाय के लिए और अधिक सुलभ बनाना है, जिसमें हम विषय वस्तु विशेषज्ञ की प्रासंगिक जानकारी प्रदान करते हैं। आप इसे वेब की स्थिति के बारे में ज्ञान के वार्षिक भंडार के रूप में सोच सकते हैं, 2019 इसका पहला संस्करण होगा।

Web Almanac के 2019 संस्करण में चार स्तंभ शामिल हैं: सामग्री, अनुभव, प्रकाशन और वितरण। लिखित रिपोर्ट का प्रत्येक भाग एक स्तंभ का प्रतिनिधित्व करता है और इसके विभिन्न पहलुओं की खोज करने वाले अध्यायों से बना है। उदाहरण के लिए, भाग II यूजर एक्सपीरियंस का प्रतिनिधित्व करता है और इसमें प्रदर्शन, सुरक्षा, पहुंच, SEO, PWA और मोबाइल वेब अध्याय शामिल हैं।

डेटासेट के बारे में

HTTP Archive डेटासेट लगातार नए मासिक डेटा के साथ अपडेट हो रहे है। Web Almanac के 2019 संस्करण के लिए, जब तक कि अन्यथा अध्याय में उल्लेख नहीं किया गया, जुलाई 2019 से सभी मैट्रिक्स क्रॉल किए गए थे। ये परिणाम 2019_07_01 के साथ उपसर्ग किए गए तालिकाओं में BigQuery पर सार्वजनिक रूप से क्वेरी करने योग्य हैं।

Web Almanac में प्रस्तुत सभी मैट्रिक्स BigQuery पर डेटासेट का उपयोग कर सार्वजनिक रूप से प्रतिलिपि प्रस्तुत करने योग्य हैं। आप हमारी GitHub रिपॉजिटरी में सभी अध्यायों द्वारा उपयोग किए गए क्वेरी को देख सकते हैं।

कृपया ध्यान दें कि इनमें से कुछ क्वेरी काफी विशाल हैं और आप के प्रयोग के लिए महंगे हो सकते हैं, क्योंकि BigQuery को टेराबाइट द्वारा बिल किया जाता है। अपने खर्च को नियंत्रित करने में सहायता के लिए, टिम कडलेक की पोस्ट Using BigQuery Without Breaking the Bank देखें।

उदाहरण के लिए, डेस्कटॉप और मोबाइल पेज पर JavaScript बाइट्स की औसत संख्या को समझने के लिए, 01_01b.sql देखें:

#standardSQL
# 01_01b: Distribution of JS bytes by client
SELECT
  percentile,
  _TABLE_SUFFIX AS client,
  APPROX_QUANTILES(ROUND(bytesJs / 1024, 2), 1000)[OFFSET(percentile * 10)] AS js_kbytes
FROM
  `httparchive.summary_pages.2019_07_01_*`,
  UNNEST([10, 25, 50, 75, 90]) AS percentile
GROUP BY
  percentile,
  client
ORDER BY
  percentile,
  client

प्रत्येक मीट्रिक के लिए परिणाम अध्याय-विशेष स्प्रेडशीट में सार्वजनिक रूप से देखे जा सकते हैं, उदाहरण के लिए JavaScript परिणाम देखें।

वेबसाइटें

हमारे डेटासेट में 5,790,700 वेबसाइट हैं। उनमें से, 5,297,442 मोबाइल वेबसाइट हैं और 4,371,973 डेस्कटॉप वेबसाइट हैं। अधिकांश वेबसाइटें मोबाइल और डेस्कटॉप दोनों सबसेट में शामिल हैं।

HTTP Archive, Chrome UX रिपोर्ट से अपनी वेबसाइटों के URL का स्रोत लेता है। Chrome UX रिपोर्ट Google का एक सार्वजनिक डेटासेट है जो क्रोम उपयोगकर्ताओं द्वारा सक्रिय रूप से विज़िट की गई लाखों वेबसाइटों के यूजर एक्सपीरियंस को एकत्र करता है। यह हमें उन वेबसाइटों की सूची देता है जो अप-टू-डेट हैं और वास्तविक-विश्व वेब उपयोग का प्रतिबिंब हैं। Chrome UX रिपोर्ट डेटासेट में एक फार्म कारक आयाम शामिल है, जिसका उपयोग हम डेस्कटॉप या मोबाइल उपयोगकर्ताओं द्वारा एक्सेस की गई सभी वेबसाइटों को प्राप्त करने के लिए करते हैं।

अपनी वेबसाइट की सूची के लिए जुलाई 2019 HTTP Archive क्रॉल का उपयोग Web Almanac द्वारा हाल ही में उपलब्ध Chrome UX रिपोर्ट रिलीज़, मई 2019 (201905) में किया गया। यह डेटासेट 11 जून, 2019 को जारी किया गया था और मई के महीने के दौरान Chrome उपयोगकर्ताओं द्वारा देखी गई वेबसाइटें इसमें सम्मलित हैं।

संसाधन सीमाओं के कारण HTTP Archive, Chrome UX रिपोर्ट में प्रत्येक वेबसाइट से केवल एक पृष्ठ का परीक्षण कर सकता है। इसके समाधान के लिए, इसमें केवल मुख पृष्ठ शामिल हैं। ध्यान दें कि यह कुछ पूर्वाग्रह को परिणामों में पेश करता हैं, क्योंकि एक होम पेज आवश्यक रूप से पूरी वेबसाइट का प्रतिनिधि नहीं है।

HTTP Archive को एक लैब टेस्टिंग टूल भी माना जाता है, जिसका अर्थ है कि यह एक डाटा सेंटर से वेबसाइटों का परीक्षण करता है और वास्तविक दुनिया के उपयोगकर्ता अनुभवों से डेटा एकत्र नहीं करता है। इसलिए, सभी वेबसाइट होम पेजों को लॉग आउट स्थिति में खाली कैश के साथ परीक्षण किया जाता है।

मेट्रिक्स

वेब कैसे बनाया जाता है, HTTP Archive इसके बारे में मेट्रिक्स एकत्र करता है। इसमें प्रति पृष्ठ बाइट्स की संख्या जैसे मूल मीट्रिक शामिल हैं, चाहे पृष्ठ को HTTPS से लोड किया गया था, और व्यक्तिगत अनुरोध और प्रतिक्रिया हेडर। इन मेट्रिक्स का अधिकांश हिस्सा WebPageTest द्वारा प्रदान किया जाता है, जो प्रत्येक वेबसाइट के लिए टेस्ट रनर के रूप में कार्य करता है।

अन्य परीक्षण टूल्स का उपयोग पृष्ठ के बारे में अधिक उन्नत मैट्रिक्स प्रदान करने के लिए किया जाता है। उदाहरण के लिए, Lighthouse का उपयोग पृष्ठ का ऑडिट करने के लिए किया जाता है ताकि अभिगम्यता और SEO जैसे क्षेत्रों में इसकी गुणवत्ता का विश्लेषण किया जा सके। नीचे दिए गए टूल्स सेक्शन इन टूलों में से प्रत्येक का विस्तार से वर्णन करता हैं।

लैब डेटासेट की कुछ अंतर्निहित सीमाओं के आसपास काम करने के लिए Web Almanac यूजर एक्सपीरियंस पर मैट्रिक्स के लिए Chrome UX रिपोर्ट का उपयोग भी करता है, विशेष रूप से वेब परफॉरमेंस के क्षेत्र में।

कुछ मैट्रिक्स पूरी तरह से हमारी पहुंच से बाहर हैं। उदाहरण के लिए, हमारे पास वेबसाइट बनाने के लिए उपयोग किए जाने वाले टूल्स का पता लगाना संभव नहीं है। यदि कोई वेबसाइट create-react-app का उपयोग करके बनाई गई है, तो हम बता सकते हैं कि यह React फ्रेमवर्क का उपयोग करता है, लेकिन जरूरी नहीं कि किसी विशेष बिल्ड टूल का उपयोग किया जाए। जब तक ये टूल्स वेबसाइट के कोड में पता लगाने योग्य निशान नहीं छोड़ते, तब तक हम उनके उपयोग को मापने में असमर्थ हैं।

अन्य मैट्रिक्स को मापने के लिए आवश्यक नहीं है लेकिन चुनौतीपूर्ण या अविश्वसनीय हैं। उदाहरण के लिए, वेब डिज़ाइन के पहलू स्वाभाविक रूप से देखने योग्य होते हैं और इन्हें परिमाणित करना मुश्किल हो सकता है, जैसे कि किसी पृष्ठ में एक बाहरी मोडल डायलॉग है।

टूल्स

Web Almanac निम्नलिखित ओपन सोर्स टूल्स की मदद से संभव हो पाया है।

WebPageTest

WebPageTest एक प्रमुख वेब परफॉरमेंस परीक्षण टूल और HTTP Archive की रीढ़ है। हम निजी परीक्षण एजेंटों के साथ WebPageTest के एक निजी उदाहरण का उपयोग करते हैं, जो वास्तविक ब्राउज़र हैं और जो प्रत्येक वेब पेज का परीक्षण करता हैं। डेस्कटॉप और मोबाइल वेबसाइटों को विभिन्न विन्यासों के तहत जांचा जाता है:

Config Desktop Mobile
Device Linux VM Emulated Moto G4
User Agent Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36 PTST/190704.170731 Mozilla/5.0 (Linux; Android 6.0.1; Moto G (4) Build/MPJ24.139-64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Mobile Safari/537.36 PTST/190628.140653
Location Redwood City, California, USA
The Dalles, Oregon, USA
Redwood City, California, USA
The Dalles, Oregon, USA
Connection Cable (5/1 Mbps 28ms RTT) 3G (1.600/0.768 Mbps 300ms RTT)
Viewport 1024 x 768px 512 x 360px

डेस्कटॉप वेबसाइट Linux VM पर डेस्कटॉप Chrome वातावरण से चलाए जाते हैं। नेटवर्क की गति एक केबल कनेक्शन के बराबर है।

मोबाइल वेबसाइट 3 जी कनेक्शन के बराबर नेटवर्क स्पीड के साथ Moto G4 डिवाइस पर मोबाइल Chrome वातावरण में चलाए जाते हैं। ध्यान दें कि उत्सर्जित मोबाइल उपयोगकर्ता एजेंट Chrome 65 के रूप में स्वयं की पहचान करता है, लेकिन वास्तव में Chrome 75 प्रयोग होता है।

दो स्थान हैं जहां से परीक्षण चलाए जाते हैं: कैलिफोर्निया और ओरेगन यूएसए। HTTP Archive कैलिफ़ोर्निया में Internet Archive डेटासेंटर में स्थित अपने स्वयं के परीक्षण एजेंट हार्डवेयर को बनाए रखता है। अतिरिक्त परीक्षण एजेंट ओरेगन में Google Cloud प्लेटफ़ॉर्म के us-west-1 से आवश्यकतानुसार जोड़े जाते हैं।

WebPageTest के HTTP Archive का निजी उदाहरण नवीनतम सार्वजनिक संस्करण के साथ सिंक में और कस्टम मैट्रिक्स के साथ संवर्धित रखा जाता है। ये JavaScript के स्निपेट हैं जिनका परीक्षण के अंत में प्रत्येक वेबसाइट पर मूल्यांकन किया जाता है। almanac.js कस्टम मीट्रिक में कई मीट्रिक शामिल हैं जो अन्यथा गणना करने के लिए पर्याप्त हैं, उदाहरण के लिए जो DOM अवस्था पर निर्भर हैं।

प्रत्येक परीक्षण के परिणाम एक HAR फ़ाइल के रूप में उपलब्ध होते हैं, यह एक मेटाडाटा वाली JSON-स्वरूपित संग्रह फ़ाइल होती है, जिसमें वेब पेज होता है।

Lighthouse

Lighthouse Google द्वारा निर्मित एक स्वचालित वेबसाइट गुणवत्ता आश्वासन टूल है। यह वेब पेजों का ऑडिट करके सुनिश्चित करता है कि वेबसाइट एंटी यूजर एक्सपीरियंस वाले पैटर्न जैसे कि अन ऑप्टिमाइज़ इमेजेज और अनभिगम्य सामग्री का प्रयोग नहीं करती हैं।

HTTP Archive अपने सभी मोबाइल वेब पेजों के लिए लाइटहाउस का नवीनतम संस्करण का प्रयोग करता है - डेस्कटॉप पेज सीमित संसाधनों के कारण शामिल नहीं किया जाता। जुलाई 2019 के क्रॉल के लिए, HTTP Archive ने Lighthouse के 5.1.0 संस्करण का उपयोग किया।

Lighthouse को WebPageTest के भीतर से अपने अलग परीक्षण के रूप में चलाया जाता है, लेकिन इसकी अपनी कॉन्फ़िगरेशन प्रोफ़ाइल होती है:

Config Value
CPU slowdown 1x*
Download throughput 1.6 Mbps
Upload throughput 0.768 Mbps
RTT 150 ms

* ध्यान दें कि Lighthouse आमतौर पर 4x की सीपीयू मंदी के लिए कॉन्फ़िगर किया गया है, लेकिन WebPageTest में एक बग के कारण, यह परीक्षण के समय 1x था।

Lighthouse और HTTP Archive में उपलब्ध ऑडिट के बारे में अधिक जानकारी के लिए, Lighthouse डेवलपर प्रलेखन देखें।

Wappalyzer

Wappalyzer वेब पेजो द्वारा उपयोग की जाने वाली तकनीकों का पता लगाने के लिए एक टूल है। JavaScript फ्रेमवर्क से लेकर CMS प्लेटफॉर्म और यहां तक कि क्रिप्टोकरेंसी माइनर्स तक, 65 श्रेणियों का परीक्षण किया गया है। इसमें 1,200 से अधिक समर्थित प्रौद्योगिकियां हैं।

HTTP Archive सभी वेब पेजों के लिए Wappalyzer के नवीनतम संस्करण प्रयोग करता है है। जुलाई 2019 तक Web Almanac ने Wappalyzer के 5.8.3 संस्करण का उपयोग किया।

Wappalyzer कई अध्यायों को डेटा देता है जो कि WordPress, Bootstrap, और jQuery। उदाहरण के लिए, ईकॉमर्स और CMS अध्याय संबंधित ईकॉमर्स और CMS श्रेणियों पर बहुत अधिक निर्भर करते हैं, जो Wappalyzer द्वारा पता चला है।

Wappalyzer सहित सभी डिटेक्शन टूल्स की अपनी सीमाएँ हैं। उनके परिणामों की वैधता हमेशा इस बात पर निर्भर करेगी कि उनके पता लगाने के तंत्र कितने सही हैं। Web Almanac हर अध्याय में एक नोट जोड़ देगा जहां Wappalyzer का उपयोग किया जाता है लेकिन इसका विश्लेषण एक विशिष्ट कारण के कारण सटीक नहीं हो सकता है।

Chrome UX रिपोर्ट

Chrome UX रिपोर्ट वास्तविक-विश्व यूजर एक्सपीरियंस का एक सार्वजनिक डेटासेट है। वेबसाइट्स के मूल द्वारा एक्सपीरियंस को वर्गीकृत किया जाता है, उदाहरण के लिए https://www.example.com। डेटासेट में पेंट, लोड, इंटरैक्शन और लेआउट स्थिरता जैसे UX मैट्रिक्स के वितरण शामिल हैं। महीने के अनुसार समूहीकरण के अलावा, एक्सपीरियंस को देश-स्तरीय भूगोल, फार्म कारक (डेस्कटॉप, फोन, टैबलेट) और प्रभावी कनेक्शन प्रकार (4 जी, 3 जी, आदि) जैसे आयामों से भी वर्गीकृत किया जाता है।

Chrome UX रिपोर्ट से वास्तविक दुनिया के यूजर एक्सपीरियंस का डेटा देने वाले Web Almanac के लिए, जुलाई 2019 डेटासेट (201907) का उपयोग किया जाता है।

आप web.dev पर BigQuery गाइड पर Chrome UX रिपोर्ट का उपयोग करके डेटासेट के बारे में अधिक जान सकते हैं।

थर्ड पार्टी वेब

Third Party Web , थर्ड पार्टीज़ अध्याय के लेखक पैट्रिक हुल्से की एक शोध परियोजना है, जो वेब पर थर्ड पार्टीज़ के संसाधनों के प्रभाव को पहचानने और उनका विश्लेषण करने के लिए HTTP Archive और Lighthouse डेटा का उपयोग करता है।

डोमेन को तीसरे पक्ष का प्रदाता माना जाता है, यदि वे कम से कम 50 अद्वितीय पृष्ठों पर दिखाई देते हैं। यह परियोजना विज्ञापन, विश्लेषिकी और सामाजिक जैसी श्रेणियों में प्रदाताओं को उनकी संबंधित सेवाओं से भी जोड़ती है।

Web Almanac के कई अध्याय थर्ड पार्टीज़ के प्रभाव को समझने के लिए इस डेटासेट के डोमेन और श्रेणियों का उपयोग करते हैं।

Rework CSS

Rework CSS एक JavaScript-आधारित CSS पार्सर है। यह संपूर्ण स्टाइलशीट लेता है और प्रत्येक व्यक्तिगत स्टाइल रूल, सिलेक्टर, डायरेक्टिव और वैल्यू को भेद करने वाली JSON-एन्कोडेड ऑब्जेक्ट का उत्पादन करता है।

इस विशेष उद्देश्य टूल ने CSS अध्याय में कई मैट्रिक्स की सटीकता में काफी सुधार किया। सभी बाहरी स्टाइलशीट में CSS और प्रत्येक पृष्ठ के लिए इनलाइन स्टाइल के ब्लॉक को विश्लेषण संभव बनाने के लिए पार्स और क्वियर किया गया था। इस बारे में अधिक जानकारी के लिए यह थ्रेड देखें कि यह BigQuery पर HTTP Archive डेटासेट के साथ कैसे एकीकृत किया गया था।

विश्लेषणात्मक प्रक्रिया

Web Almanac को वेब समुदाय से दर्जनों योगदानकर्ताओं के समन्वय के साथ योजना बनाने और निष्पादित करने में लगभग एक वर्ष लगा। यह खंड बताता है कि हमने Web Almanac में आपके द्वारा देखे गए मेट्रिक्स को क्यों चुना, उन्हें कैसे समझा और व्याख्या की गई थी।

Brainstorming

Web Almanac की शुरुआत जनवरी 2019 में HTTP Archive मंच पर एक पोस्ट के रूप में शुरू हुई थी जिसमें पहल और समर्थन जुटाने का वर्णन था। मार्च 2019 में हमने एक सार्वजनिक ब्रैनस्टोर्मिंग डॉक बनाया जिसमें वेब समुदाय में कोई भी अध्याय या मैट्रिक्स के लिए विचारों को लिख सकता है। यह सुनिश्चित करने के लिए एक महत्वपूर्ण कदम था कि हम उन चीजों पर ध्यान केंद्रित कर रहे हैं जो समुदाय के लिए महत्वपूर्ण हैं और इस प्रक्रिया में विविध लोग शामिल हैं।

ब्रैनस्टोर्मिंग के परिणामस्वरूप, 20 अध्याय तैयार हो गए थे और हमने प्रत्येक अध्याय के विषय विशेषज्ञ और सहकर्मी समीक्षकों को नियुक्त करना शुरू कर दिया था। स्वयंसेवकों को इस पैमाने की परियोजना के लिए प्रतिबद्ध होने की चुनौती के कारण इस प्रक्रिया में कुछ अंतर्निहित पूर्वाग्रह थे। इस प्रकार, कई योगदानकर्ता एक ही मंडलियों के सदस्य हैं। Web Almanac के भविष्य के संस्करणों के लिए एक स्पष्ट लक्ष्य लेखकों और सहकर्मी समीक्षकों के रूप में प्रतिनिधि और विविध क्षेत्रों के लोगो का समावेश को प्रोत्साहित करना हैं।

हमने जून 2019 तक अध्याय के साथ लोगों को जोड़ने और प्रत्येक अध्याय को बनाने वाले व्यक्तिगत मैट्रिक्स को अंतिम रूप देने के लिए उनका इनपुट प्राप्त करने में बिताया।

विश्लेषण

जून 2019 में, मैट्रिक्स और अध्यायों की स्थिर सूची के साथ, डेटा विश्लेषकों ने व्यवहार्यता के लिए मीट्रिक को कम कर दिया। कुछ मामलों में, कस्टम मेट्रिक्स को हमारी विश्लेषणात्मक क्षमताओं में अंतराल को भरने के लिए बनाने की आवश्यकता हुई।

जुलाई 2019 के दौरान, HTTP Archive डेटा पाइपलाइन ने कई मिलियन वेबसाइटों को क्रॉल किया, जो मेटाडेटा को Web Almanac में उपयोग करने के लिए एकत्रित करता है।

अगस्त 2019 से शुरू होकर, डेटा विश्लेषकों ने प्रत्येक मीट्रिक के परिणाम निकालने के लिए क्वेरी लिखना शुरू कर दिया। कुल मिलाकर, 431 क्वेरी हाथ से लिखे गए थे! आप प्रोजेक्ट के GitHub रिपॉजिटरी के sql/2019 डायरेक्टरी में चैप्टर द्वारा सभी क्वेरी को देख सकते हैं।

व्याख्या

लेखकों ने परिणामों की सही व्याख्या करने और उचित निष्कर्ष निकालने के लिए विश्लेषकों के साथ काम किया। जैसा कि लेखकों ने अपने संबंधित अध्याय लिखे हैं, वे इन आंकड़ों से आकर्षित होते हैं ताकि वे वेब की स्थिति का समर्थन कर सकें। सहकर्मी समीक्षकों ने अपने विश्लेषण की तकनीकी शुद्धता सुनिश्चित करने के लिए लेखकों के साथ काम किया।

पाठकों को परिणामों को अधिक आसानी से समझने के लिए, वेब डेवलपर्स और विश्लेषकों ने अध्याय में एम्बेड करने के लिए डेटा विज़ुअलाइज़ेशन बनाया। निष्कर्ष निकालने में आसान बनाने के लिए कुछ विज़ुअलाइज़ेशन को सरल बनाया गया है। उदाहरण के लिए, एक वितरण का पूरा हिस्टोग्राम दिखाने के बजाय, केवल कुछ प्रतिशत दिखाए जाते हैं। जब तक अन्यथा उल्लेख नहीं किया जाता है, सभी वितरणों का प्रतिशत, विशेषकर माध्य (50 वां प्रतिशत), और औसत का उपयोग करके संक्षेप में प्रस्तुत किया जाता है।

अंत में, संपादकों ने सरल व्याकरण संबंधी त्रुटियों को ठीक करने और पढ़ने के अनुभव में निरंतरता सुनिश्चित करने के लिए अध्यायों को संशोधित किया।

अब आगे

2019 संस्करण Web Almanac का पहला संस्करण है जो हम आत्मनिरीक्षण के वेब समुदाय में एक वार्षिक परंपरा और सकारात्मक बदलाव के प्रति प्रतिबद्धता की उम्मीद करते हैं। इस मुकाम पर पहुंचने के लिये समर्पित सभी योगदानकर्ताओं का धन्यवाद है और हम भविष्य के संस्करणों को और अधिक सुव्यवस्थित बनाने के लिए इस काम का अधिक से अधिक लाभ उठाने की उम्मीद करते हैं।

यदि आप वेब पंचांग के 2020 संस्करण में योगदान करने में रुचि रखते हैं, तो कृपया हमारा रुचि फ़ॉर्म भरें। हम इस परियोजना को और बेहतर बनाने के लिए आपके विचारों को सुनना पसंद करेंगे!