Home
» विकी
»
हर जगह डेटा इकट्ठा करने के लिए Google पत्रक ImportXML फ़ंक्शन का उपयोग कैसे करें
हर जगह डेटा इकट्ठा करने के लिए Google पत्रक ImportXML फ़ंक्शन का उपयोग कैसे करें
Video हर जगह डेटा इकट्ठा करने के लिए Google पत्रक ImportXML फ़ंक्शन का उपयोग कैसे करें
आप Google शीट के ImportXML फ़ंक्शन का उपयोग करके किसी भी वेब पेज से डेटा आयात कर सकते हैं। Google शीट्स पर ImportXML फ़ंक्शन का उपयोग करने का तरीका यहां बताया गया है।
Google शीट के ImportXML फ़ंक्शन में महारत हासिल करके, आप महसूस करेंगे कि आप पहले से ही एक प्रमाणित शीट्स विज़ार्ड के मालिक हैं। ImportXML किसी भी XML क्षेत्र से जानकारी प्राप्त करता है। इसके लिए धन्यवाद, आप कहीं भी इस पर उत्पन्न डेटा और मेटाडेटा डाउनलोड कर सकते हैं।
Google शीट के ImportXML फ़ंक्शन का उपयोग कैसे करें
XML मार्कअप भाषा एक वेब पेज में डेटा सेट को निर्दिष्ट करती है। संक्षेप में, <कुछ> और </ कुछ> के किसी भी सेट - वेब स्रोत कोड के निर्माण खंड या डेटा का एक निश्चित सेट उनके अंदर निवास करेगा। वेब के स्रोत कोड में कुछ पाठ होगा <p> aragraph टैग - एक पैराग्राफ, जिसमें कभी-कभी <b> पुराना होता है - बोल्ड टेक्स्ट में और संभवतः <a> एक लिंक - लिंक (इसके बाद </ a) > </ b> </ p> </ body> पूरे टैग को बंद करने के लिए)।
Google शीट्स इंपोर्टएक्सएमएल फ़ंक्शन एक निश्चित XML डेटा सेट और उसके बाहर डेटा कॉपी कर सकता है। उपरोक्त उदाहरण में, यदि हम पृष्ठ पर सभी लिंक प्राप्त करना चाहते हैं, तो हमें <a> </a> टैग में सभी जानकारी दर्ज करने के लिए ImportXML फ़ंक्शन से पूछना होगा । यदि आप किसी वेब का पूरा पाठ चाहते हैं, तो आप <body> </ body> या <p> </ p> के प्रत्येक संस्करण को लेकर शुरू कर सकते हैं , फिर बाद के चरणों में डेटा हटा सकते हैं।
शहर में पोस्टकोड और काउंटी की सूची कैसे निकालें
विकिपीडिया में तालिकाओं में बहुत बढ़िया ImportXML अभ्यास हैं। यह लेख एडमोंटन, अल्बर्टा में पूरे पोस्टकोड को डाउनलोड करने का उदाहरण देगा। कनाडाई पोस्टकोड की एक सूची प्राप्त करें जिसमें टी अक्षर से शुरू होता है। उस पेज को शुरू करने के लिए एक नई ब्राउज़र विंडो में खोलें।
पोस्टकोड का चयन करें, उस पर राइट-क्लिक करें और पृष्ठ स्रोत को देखने के लिए ब्राउज़र टूल खोलने के लिए निरीक्षण का चयन करें । आप देखेंगे कि प्रत्येक पृष्ठ स्रोत कोड एक टैग में है (तालिका में एक सेल की पहचान करें)। उसके बाद, लेख उन सभी एडमोंटन से जुड़े टीडी टैग आयात करेगा।
एक नई रिक्त Google शीट बनाएं। लेख सभी टीडी टैग सामग्री को ले जाएगा, जिसमें <span> और लिंक को निर्दिष्ट करके डेटा को निर्दिष्ट करना है जिसे आप XPath सिंटैक्स का उपयोग करना चाहते हैं। इंपोर्टएक्सएमएल वह URL और टैग लेता है जिसे आप Google शीट्स में आयात करने के तर्क के रूप में देख रहे हैं।
पृष्ठ स्रोत पर वापस जाने पर, हमें <b> </ b> टैग में पोस्टल कोड बोल्ड दिखाई देगा, शहर का नाम जो <a> </a> के तहत विकिपीडिया लेखों से लिंक करता है। अब केवल प्रत्येक बड़े शहर बॉक्स में लिंक प्राप्त करने और अन्य लिंक (पड़ोस) को हटाने का प्रयास करें। उन्हें दो प्रमुख कमांड कॉलम A और B में संपादित करें:
= importxml ("https://en.wikipedia.org/wiki/List_of_T_postal_codes_of_Canada", "// td / span / a [1]")
= importxml ("https://en.wikipedia.org/wiki/List_of_T_postal_codes_of_Canada", "// td / b [1]")
आपको परिणामों को थोड़ा परिष्कृत करने की आवश्यकता है:
यह क्रिया आपको यह समझने में मदद करती है कि XPath क्वेरी सिंटैक्स कैसे काम करता है: एक टैग केवल <टैग> का पहला संस्करण प्रदान करता है <पेरेंट टैग>। इसलिए, td / span / a [1] आपको प्रत्येक <td> में <span> में पहला लिंक देता है। इसी तरह, td / b [1] आपको प्रत्येक <td> या इस मामले में केवल पोस्टल कोड में पहला बोल्ड टेक्स्ट देता है।
बड़ी बात यह है कि आप एक फ़ंक्शन में दो प्रश्नों को निष्पादित कर सकते हैं। इसलिए, लेख एक a । Symbol के साथ दो अनुरोधों को जोड़ता है बीच में:
= importxml ("https://en.wikipedia.org/wiki/List_of_T_postal_codes_of_Canada", "// td / span / a [1] | // td / b [1]") |
हालाँकि, आपको पिछले परिणाम समान नहीं मिलेंगे। यह दो कॉलम के बजाय एक लंबी सूची में संयुक्त संपूर्ण अनुरोध को वैकल्पिक करेगा। इसके कई लाभ हैं लेकिन इस लेख में आवश्यक नहीं है।
'एडमॉन्टन' लिंक वाले बॉक्स में पोस्टकोड का चयन करने के लिए। हम इस कोड का उपयोग करेंगे:
= importxml ("https://en.wikipedia.org/wiki/List_of_T_postal_codes_of_Canada", "// td [अवधि / a = 'एडमॉन्टन'] / b [1]")
"खोज" रखो - परिणाम लाने के तरीके को प्रभावित किए बिना वर्ग कोष्ठक में परिणामों को संकीर्ण करने के लिए योग्य पाठ।
अब आसपास के क्षेत्रों के नाम। अगले कॉलम में "एडमॉन्टन" से निम्नलिखित पाठ प्राप्त करते हुए, उपयुक्त importXML फ़ंक्शन लिखें।
लेख स्पैन [1] की संपूर्ण सामग्री लेता है और सामग्री को विभाजित करने के लिए कोष्ठक और क्रॉसहेयर का उपयोग करता है, पहले कॉलम में "एडमॉन्टन" और निम्नलिखित कॉलम में पड़ोस का नाम डालता है। फिर हम संबंधित नाम के साथ पिनकोड को जोड़ सकते हैं:
= importxml ("https://en.wikipedia.org/wiki/List_of_T_postal_codes_of_Canada", "// td [अवधि / a = 'एडमॉन्टन'] / अवधि [1]")
इसके बाद, स्प्लिट फ़ंक्शन का उपयोग करें और संसाधित किए जा रहे डेटा को विभाजित और समूह करने के लिए निम्नलिखित कॉलमों में से कुछ का उपयोग करें:
= एसपीएलआईटी (कॉन्सेटेट (बी 2: जे 2), "(/)")
अंत में, यहाँ आवश्यक जानकारी के साथ परिणाम तालिका दी गई है:
वेब से ईमेल पतों को स्वचालित रूप से कॉपी कैसे करें
लेख आपको गाइड करेगा कि कैसे के बारे में सभी कर्मचारियों के ईमेल प्राप्त करें। पेज | Zapier। स्रोत कोड को देखते हुए, आप देखेंगे कि प्रत्येक सदस्य का ईमेल पता वर्ग = "ईमेल" फ़ील्ड में है। जब आप एक टैग विशेषता निर्दिष्ट करना चाहते हैं, तो निम्नानुसार Google पत्रक ImportXML फ़ंक्शन का उपयोग करें:
= importxml ("https://zapier.com/about//", "// span [@ class = 'email']")
Google शीट में वेब से ईमेल पते आयात करने के लिए Regex का उपयोग कैसे करें।
रेगेक्स की "पावर" का उपयोग करके ज़ापियर के पते प्राप्त करने के लिए, हम कक्षा की तलाश करने के बजाय <span> कमांड दर्ज करेंगे। अब हम इस कार्य को दो चरणों में करेंगे: पहले कॉलम में Zapier पेज से कॉल जानकारी, फिर, ईमेल को दूसरे कॉलम में सॉर्ट करें:
याद रखें, ImportXML सभी स्तंभों और पंक्तियों में अपने द्वारा भरे गए डेटा के आधार पर भरता है। Regex क्वेरी को प्रत्येक सेल में भरा जाना चाहिए जिसे आप परिणाम प्राप्त करना चाहते हैं। यह सब एक साथ रखने के लिए, आपको केवल Regexextract कमांड का उपयोग करने की आवश्यकता है, जो एक सरणी स्थिरांक सूत्र है: