Pure ამბობს, რომ არასტრუქტურირებულ მონაცემებს სჭირდება შენახვის მასშტაბი და შესრულება

Pure ამბობს, რომ არასტრუქტურირებულ მონაცემებს სჭირდება შენახვის მასშტაბი და შესრულება

[ad_1]

ამ პოდკასტში ჩვენ ვესაუბრებით Pure Storage-ს იმ გამოწვევებზე, რომლებიც წარმოიქმნება მონაცემთა შენახვისთვის არასტრუქტურირებული მონაცემების უზარმაზარი ზრდის გამო და მისგან სამუშაო ხედვის მოპოვების აუცილებლობაზე.

ჩვენ ვესაუბრებით ემი ფაულერს, FlashBlade-ის სტრატეგიისა და პროდუქტის მარკეტინგის ვიცე-პრეზიდენტს Pure Storage-ში, და FlashBlade-ის ტექნიკურ მახარებელს ჯასტინ ემერსონს არასტრუქტურირებული მონაცემების ბუნებაზე, მონაცემთა მოცულობის თვალსაზრისით მის უზარმაზარ ზრდაზე და მონაცემთა ტიპების მრავალფეროვნებაზე, ისევე როგორც მოთხოვნებზე. შენახვის თვალსაზრისით ამ გამოწვევის დასაკმაყოფილებლად.

ანტონი ადსჰედი: რა ძირითადი გამოწვევების წინაშე დგანან არასტრუქტურირებული მონაცემების მქონე საწარმოები მართვის, გამოყენებისა და ანალიზის თვალსაზრისით?

ემი ფაულერი: უპირველეს ყოვლისა, ყველას აქვს არასტრუქტურირებული მონაცემები ამ დღეებში, ასე რომ, ვფიქრობ, ეს კარგი გადახტომაა. ვფიქრობ, უახლესი მეტრიკა, რაც მე ვნახე, არის ის, რომ 2025 წლისთვის საწარმოს მონაცემების 80% არასტრუქტურირებული იქნება, ასე რომ, რა თქმა უნდა, ის წარმოადგენს რაღაც მნიშვნელოვანს, რომელთანაც უნდა ვიბრძოლოთ.

და მიუხედავად იმისა, რომ ჩვენ ვსაუბრობდით მონაცემთა ზრდაზე, რამდენადაც მახსოვს – და მე ჩემი ცხოვრების ნახევარზე მეტს ვინახავდი საცავში – მაგრამ ეს აღარ არის მხოლოდ იმაზე, თუ რამდენი ტერაბაიტი ან პეტაბაიტი, არამედ პოტენციური წყაროები. მონაცემები, რომლებიც, რა თქმა უნდა, ხელს უწყობს ზრდას.

ადრე იყო, რომ კრიტიკული მონაცემები იყო ძირითადად ტრანზაქციის მონაცემთა ბაზებში, რომლებიც მონაცემებს აწვდიდნენ მონაცემთა საწყობში და ეს საკმაოდ მარტივი იყო. მაგრამ ამ დღეებში, თუ თქვენ ხართ საცალო ვაჭრობა ან ფინანსური მომსახურების ორგანიზაცია ან ჯანდაცვის ორგანიზაცია, თქვენ ალბათ იღებთ ღირებულ მონაცემებს სუპერ მრავალფეროვანი წყაროების სახით; სურათებიდან ტვიტერებამდე IoT-მდე [internet of things] და ჟურნალის მონაცემები.

და ყველა გეუბნებათ, რომ თქვენი ყველაზე ღირებული აქტივი თქვენი მონაცემებია. ასე რომ, თქვენ იცით, რომ იდეალურ შემთხვევაში არ გსურთ არაფრის გადაგდება, მაგრამ ამავე დროს არ გსურთ სამუდამოდ შეინახოთ ყველაფერი როგორც ეფექტურობის თვალსაზრისით, ასევე მარეგულირებელი მიზეზების გამო.

ასე რომ, პირველი ის არის, რომ მონაცემთა არასტრუქტურირებული მენეჯმენტი უზარმაზარ გამოწვევად იქცევა: რა მაქვს? რისი შენახვა მინდა? და, რაც მთავარია, რა აზრების გამოტანა შემიძლია მისგან?

და ამის ერთ-ერთი მნიშვნელოვანი ელემენტია მეტამონაცემები – მონაცემები მონაცემების შესახებ – ასე რომ თქვენ შეგიძლიათ დაგეხმაროთ ამ გადაწყვეტილებების მიღებაში.

მეორე მნიშვნელოვანი ის არის, რომ საწარმოებმა ასევე იციან, რომ მათ შეუძლიათ მეტი გააკეთონ მონაცემებით, იქნება ეს კავშირების გამოტანა, დასკვნები მონაცემთა განსხვავებული წყაროებიდან მოგების ოპტიმიზაციისთვის ან საფრთხის აღმოჩენისთვის, ან, ჯანდაცვის სურათის მონაცემების შემთხვევაში, დიაგნოზის ან პაციენტის დაჩქარების მიზნით. ზრუნვა.

ამის ეფექტურად გასაკეთებლად, წერტილების დასაკავშირებლად განსხვავებულ წყაროებს შორის ამ შეხედულებების მოსაპოვებლად, თქვენ ნამდვილად უნდა შეძლოთ მონაცემების სამკუთხედი. ეს არ შეიძლება იყოს ათეულობით ფიზიკურ სილოში.

მესამე, რაც მე დავუკავშირებდი ადამიანის ყურადღების კლებულ დიაპაზონს, რომელიც არის რვადან 15 წამამდე, იმისდა მიხედვით, თუ რომელი კვლევა გაქვთ წასაკითხად Google-ში. მაგრამ თქვენი მონაცემების მომხმარებლები ახლა მოელიან, რომ შეძლებენ მისგან ინფორმაციის მიღებას სუპერ სწრაფად.

ასე რომ, მხოლოდ იმის ცოდნა, თუ რა გაქვთ მონაცემთა მართვის პერსპექტივიდან და ამ ყველაფრის ერთ ადგილას შენახვა საკმარისი არ არის. თქვენ უნდა გქონდეთ ის იცხოვროს ინფრასტრუქტურაში, რომელიც უზრუნველყოფს შესრულების დონეს, რათა რეალურად შეძლოთ მისი სწრაფად გაანალიზება. და ეს ძალიან ბევრია და ძალიან განსხვავდება იმისგან, რაც ორგანიზაციებს ჰქონდათ საქმე სულ რაღაც ხუთი ან ექვსი წლის წინ.

Adshead: რა ტექნიკური შესანახი გამოწვევებია არასტრუქტურირებული მონაცემები და რა შენახვის ტექნოლოგიებია საჭირო ამის დასაძლევად?

ჯასტინ ემერსონი: მე ვფიქრობ, რომ ყველა ძირითადი პრობლემა რაღაც ფორმით მოდის მასშტაბებთან დაკავშირებით.

ასე რომ, იქნება ეს მასშტაბი ფაილების თუ ობიექტების რაოდენობის თვალსაზრისით, რამაც შეიძლება გამოიწვიოს სირთულეები იმის შესახებ, თუ როგორ აწყობთ აპლიკაციებს, პროტოკოლებს, რომლებიც გჭირდებათ, რაც გჭირდებათ და უფრო მეტად, თუ როგორ უპასუხებთ ამ ნივთების ენერგიის მოხმარების მოთხოვნებს. მასშტაბი.

ემიმ ისაუბრა იმაზე, თუ როგორ აანალიზებდით ადრე მომხდარ მონაცემებს მონაცემთა საწყობში. ახლა თქვენ ცდილობთ მონაცემების რეალურ დროში გაანალიზებას. შემდეგი ტალღა არის ის, თუ როგორ აანალიზებთ საგნებს ან იწინასწარმეტყველებთ მომავალს?

ამისათვის საჭირო მონაცემების რაოდენობა საოცრად იზრდება. რამდენი ეფექტურობა გჭირდებათ ამ მონაცემების გასაანალიზებლად, უფრო და უფრო იზრდება და შემდეგ ეს ყველაფერი ქმნის ზეწოლას გარემოზე ან თქვენი მონაცემთა ცენტრის შეზღუდვებზე.

ასე რომ, უდიდეს შემთხვევებში, თქვენ ასრულებთ მთლიან ინფრასტრუქტურის ზომას მონაცემთა ცენტრის ზომით ან სიმძლავრის ანაბეჭდის ზომით. და ეს იწვევს გადაწყვეტილებებს უამრავ მომხმარებელს მასშტაბის ყველაზე დიდ ბოლოში.

როგორ გაუმკლავდებით ამ საკითხებს, არის ის, რომ თქვენ უნდა დაიწყოთ ფიქრი მასშტაბურობაზე თავიდანვე და სტეკის ყველა დონეზე.

თუ თქვენ არ აშენებთ მასშტაბირებად აპლიკაციებს – რის გამოც ამდენი ადამიანი, ამდენი სხვადასხვა სახის აპლიკაცია რეფაქტორდება ან ხელახლა აშენებულია მასშტაბური ღრუბლის მსგავსი ინფრასტრუქტურისთვის, ან სახარჯო ინფრასტრუქტურისთვის – თქვენ უნდა შეგეძლოთ ამ აპლიკაციების აშენება, რომ მოიხმაროთ მონაცემთა მასშტაბირებადი რაოდენობა, მონაცემები, რომლებიც მოიცავს პოტენციურად მრავალ სახელთა სივრცეს, მრავალ მონაცემთა ცენტრს, უამრავ სხვადასხვა ტიპის მონაცემს და ბოლოს, პლატფორმებზე დაფუძნებული, ფუნდამენტური პლატფორმები, რომლებიც მოგაწვდიან ამ დონის მასშტაბს.

იმის გამო, რომ ყველა პრობლემა, როგორც წესი, გამომდინარეობს იქიდან, რომ მონაცემთა რაოდენობა იზრდება, ამ მონაცემების დასამუშავებლად საჭირო გამოთვლითი სიმძლავრის რაოდენობა იზრდება და ასე რომ, ზრდა იწვევს ყველა ამ მასშტაბის პრობლემას.

და ის, თუ როგორ ხვდებით ამ მასშტაბის პრობლემებს მასშტაბის სხვადასხვა დონეზე, სინამდვილეში საკმაოდ საინტერესოა.

[ad_2]

Facebook Comments

Pure ამბობს, რომ არასტრუქტურირებულ მონაცემებს სჭირდება შენახვის მასშტაბი და შესრულება

Pure ამბობს, რომ არასტრუქტურირებულ მონაცემებს სჭირდება შენახვის მასშტაბი და შესრულება

[ad_1]

ამ პოდკასტში ჩვენ ვესაუბრებით Pure Storage-ს იმ გამოწვევებზე, რომლებიც წარმოიქმნება მონაცემთა შენახვისთვის არასტრუქტურირებული მონაცემების უზარმაზარი ზრდის გამო და მისგან სამუშაო ხედვის მოპოვების აუცილებლობაზე.

ჩვენ ვესაუბრებით ემი ფაულერს, FlashBlade-ის სტრატეგიისა და პროდუქტის მარკეტინგის ვიცე-პრეზიდენტს Pure Storage-ში, და FlashBlade-ის ტექნიკურ მახარებელს ჯასტინ ემერსონს არასტრუქტურირებული მონაცემების ბუნებაზე, მონაცემთა მოცულობის თვალსაზრისით მის უზარმაზარ ზრდაზე და მონაცემთა ტიპების მრავალფეროვნებაზე, ისევე როგორც მოთხოვნებზე. შენახვის თვალსაზრისით ამ გამოწვევის დასაკმაყოფილებლად.

ანტონი ადსჰედი: რა ძირითადი გამოწვევების წინაშე დგანან არასტრუქტურირებული მონაცემების მქონე საწარმოები მართვის, გამოყენებისა და ანალიზის თვალსაზრისით?

ემი ფაულერი: უპირველეს ყოვლისა, ყველას აქვს არასტრუქტურირებული მონაცემები ამ დღეებში, ასე რომ, ვფიქრობ, ეს კარგი გადახტომაა. ვფიქრობ, უახლესი მეტრიკა, რაც მე ვნახე, არის ის, რომ 2025 წლისთვის საწარმოს მონაცემების 80% არასტრუქტურირებული იქნება, ასე რომ, რა თქმა უნდა, ის წარმოადგენს რაღაც მნიშვნელოვანს, რომელთანაც უნდა ვიბრძოლოთ.

და მიუხედავად იმისა, რომ ჩვენ ვსაუბრობდით მონაცემთა ზრდაზე, რამდენადაც მახსოვს – და მე ჩემი ცხოვრების ნახევარზე მეტს ვინახავდი საცავში – მაგრამ ეს აღარ არის მხოლოდ იმაზე, თუ რამდენი ტერაბაიტი ან პეტაბაიტი, არამედ პოტენციური წყაროები. მონაცემები, რომლებიც, რა თქმა უნდა, ხელს უწყობს ზრდას.

ადრე იყო, რომ კრიტიკული მონაცემები იყო ძირითადად ტრანზაქციის მონაცემთა ბაზებში, რომლებიც მონაცემებს აწვდიდნენ მონაცემთა საწყობში და ეს საკმაოდ მარტივი იყო. მაგრამ ამ დღეებში, თუ თქვენ ხართ საცალო ვაჭრობა ან ფინანსური მომსახურების ორგანიზაცია ან ჯანდაცვის ორგანიზაცია, თქვენ ალბათ იღებთ ღირებულ მონაცემებს სუპერ მრავალფეროვანი წყაროების სახით; სურათებიდან ტვიტერებამდე IoT-მდე [internet of things] და ჟურნალის მონაცემები.

და ყველა გეუბნებათ, რომ თქვენი ყველაზე ღირებული აქტივი თქვენი მონაცემებია. ასე რომ, თქვენ იცით, რომ იდეალურ შემთხვევაში არ გსურთ არაფრის გადაყრა, მაგრამ ამავე დროს არ გსურთ სამუდამოდ შეინახოთ ყველაფერი როგორც ეფექტურობის თვალსაზრისით, ასევე მარეგულირებელი მიზეზების გამო.

ასე რომ, პირველი ის არის, რომ მონაცემთა არასტრუქტურირებული მენეჯმენტი უზარმაზარ გამოწვევად იქცევა: რა მაქვს? რისი შენახვა მინდა? და, რაც მთავარია, რა აზრების გამოტანა შემიძლია მისგან?

და ამის ერთ-ერთი მნიშვნელოვანი ელემენტია მეტამონაცემები – მონაცემები მონაცემების შესახებ – ასე რომ თქვენ შეგიძლიათ დაგეხმაროთ ამ გადაწყვეტილებების მიღებაში.

მეორე მნიშვნელოვანი ის არის, რომ საწარმოებმა ასევე იციან, რომ მათ შეუძლიათ მეტი გააკეთონ მონაცემებით, იქნება ეს კავშირების შედგენა, დასკვნები მონაცემთა განსხვავებული წყაროებიდან მოგების ოპტიმიზაციისთვის ან საფრთხის აღმოჩენისთვის, ან ჯანდაცვის სურათის მონაცემების შემთხვევაში, დიაგნოზის ან პაციენტის დაჩქარების მიზნით. ზრუნვა.

ამის ეფექტურად გასაკეთებლად, წერტილების დასაკავშირებლად განსხვავებულ წყაროებს შორის ამ შეხედულებების მოსაპოვებლად, თქვენ ნამდვილად უნდა შეძლოთ მონაცემების სამკუთხედი. ეს არ შეიძლება იყოს ათეულობით ფიზიკურ სილოში.

მესამე, რაც მე დავუკავშირებდი ადამიანის ყურადღების კლებულ დიაპაზონს, რომელიც არის რვადან 15 წამამდე, იმისდა მიხედვით, თუ რომელი კვლევა გაქვთ წასაკითხად Google-ში. მაგრამ თქვენი მონაცემების მომხმარებლები ახლა მოელიან, რომ შეძლებენ მისგან ინფორმაციის მიღებას სუპერ სწრაფად.

ასე რომ, მხოლოდ იმის ცოდნა, თუ რა გაქვთ მონაცემთა მართვის პერსპექტივიდან და ამ ყველაფრის ერთ ადგილას შენახვა საკმარისი არ არის. თქვენ უნდა გქონდეთ ის იცხოვროს ინფრასტრუქტურაში, რომელიც უზრუნველყოფს შესრულების დონეს, რათა რეალურად შეძლოთ მისი სწრაფად გაანალიზება. და ეს ძალიან ბევრია და ძალიან განსხვავდება იმისგან, რაც ორგანიზაციებს ჰქონდათ საქმე სულ რაღაც ხუთი ან ექვსი წლის წინ.

Adshead: რა ტექნიკური შესანახი გამოწვევებია არასტრუქტურირებული მონაცემები და რა შენახვის ტექნოლოგიებია საჭირო ამის დასაძლევად?

ჯასტინ ემერსონი: მე ვფიქრობ, რომ ყველა ძირითადი პრობლემა რაღაც ფორმით მოდის მასშტაბებთან დაკავშირებით.

ასე რომ, იქნება ეს მასშტაბი ფაილების თუ ობიექტების რაოდენობის მიხედვით, რამაც შეიძლება გამოიწვიოს სირთულეები იმის შესახებ, თუ როგორ აწყობთ აპლიკაციებს, პროტოკოლებს, რომლებიც გჭირდებათ, და უფრო მეტად, თუ როგორ აკმაყოფილებთ ამ ნივთების ენერგიის მოხმარების მოთხოვნებს. მასშტაბი.

ემიმ ისაუბრა იმაზე, თუ როგორ აანალიზებდით ადრე მომხდარ მონაცემებს მონაცემთა საწყობში. ახლა თქვენ ცდილობთ მონაცემების რეალურ დროში გაანალიზებას. შემდეგი ტალღა არის ის, თუ როგორ აანალიზებთ საგნებს ან იწინასწარმეტყველებთ მომავალს?

ამისათვის საჭირო მონაცემების რაოდენობა საოცრად იზრდება. რამდენი ეფექტურობა გჭირდებათ ამ მონაცემების გასაანალიზებლად, უფრო და უფრო იზრდება და შემდეგ ეს ყველაფერი ქმნის ზეწოლას გარემოზე ან თქვენი მონაცემთა ცენტრის შეზღუდვებზე.

ასე რომ, უდიდეს შემთხვევებში, თქვენ ასრულებთ მთლიან ინფრასტრუქტურის ზომას მონაცემთა ცენტრის ზომით ან სიმძლავრის ანაბეჭდის ზომით. და ეს იწვევს გადაწყვეტილებებს უამრავ მომხმარებელს მასშტაბის ყველაზე დიდ ბოლოში.

როგორ გაუმკლავდებით ამ საკითხებს, არის ის, რომ თქვენ უნდა დაიწყოთ ფიქრი მასშტაბურობაზე თავიდანვე და სტეკის ყველა დონეზე.

თუ თქვენ არ აშენებთ მასშტაბირებად აპლიკაციებს – რის გამოც ამდენი ადამიანი, ამდენი სხვადასხვა სახის აპლიკაციის რეფაქტორაცია ან ხელახალი აშენება ხდება მასშტაბური ღრუბლის მსგავსი ინფრასტრუქტურისთვის, ან სახარჯო ინფრასტრუქტურისთვის – თქვენ უნდა შეგეძლოთ ამ აპლიკაციების შექმნა, რომ მოიხმაროთ მონაცემთა მასშტაბირებადი რაოდენობა, მონაცემები, რომლებიც მოიცავს პოტენციურად მრავალ სახელთა სივრცეს, მრავალ მონაცემთა ცენტრს, უამრავ სხვადასხვა ტიპის მონაცემს და ბოლოს, პლატფორმებზე დაფუძნებული, ფუნდამენტური პლატფორმები, რომლებიც მოგაწვდიან ამ დონის მასშტაბს.

იმის გამო, რომ ყველა პრობლემა, როგორც წესი, გამომდინარეობს იქიდან, რომ მონაცემთა რაოდენობა იზრდება, ამ მონაცემების დასამუშავებლად საჭირო გამოთვლითი სიმძლავრის რაოდენობა იზრდება და ასე რომ, ზრდა იწვევს ყველა ამ მასშტაბის პრობლემას.

და ის, თუ როგორ ხვდებით ამ მასშტაბის პრობლემებს მასშტაბის სხვადასხვა დონეზე, სინამდვილეში საკმაოდ საინტერესოა.

[ad_2]

Facebook Comments

კომენტარის დატოვება

თქვენი ელფოსტის მისამართი გამოქვეყნებული არ იყო. აუცილებელი ველები მონიშნულია *