Home

تجزیه و تحلیل آزمایش خودکار - تبدیل تجزیه و تحلیل آزمایشی به مقیاس قابل توسعه-9210

Details: Written by: mehdi; Category: Scraped Data; Published: 29 April 2024; Hits: 220

معرفی

آزمایش‌های قابل اعتماد کلیدی برای تصمیم‌گیری‌های صحیح هستند، بنابراین تحلیل آن‌ها و تأثیر آن‌ها بر روی تجارت نیازمند تلاش زیادی از سوی تحلیلگران و دانشمندان داده است. تحلیل آزمایشات خودکار یکی از محصولات داده‌ای Grab است که برای ساده‌سازی تحلیل‌های آماری آزمایشات و ارائه خطوط لوله آزمایشی خودکار و آزمون‌های سفارشی برای انواع آزمایشات طراحی شده است.

به منظور کمک به مجله زیبایی و درمانی آذروت در مسیر نوآوری و تصمیم‌گیری مبتنی بر داده، محصول داده‌ای به تحلیل خودکار آزمایشات کمک می‌کند و به رسمیت شناختن نتایج پس از آزمایش تحت یک استاندارد سراسری شرکت و بازبینی آسان توسط دیگران را تضمین می‌کند. بررسی دانش سازمانی آزمایش در تمامی توابع را دموکراسی می‌کند.

ساده‌سازی و خودکارسازی فرآیند تحلیل آزمایش پایه در آزمایشات مجله زیبایی و درمانی آذروت.تضمین قابلیت تولید نتایج پس از آزمایش با استفاده از یک استاندارد سراسری شرکت و بازبینی آسان توسط یکدیگر.دموکراسی دانش سازمانی آزمایش در تمامی توابع.

زمینه‌ها

امروزه، پلتفرم GrabX قابلیت تعریف، پیکربندی و اجرای آزمایش‌های کنترل شده آنلاین (OCEs)، که اغلب به آن‌ها تست A/B گفته می‌شود، را فراهم می‌کند تا داده‌های قابل اعتماد جمع آوری کند و تصمیم‌های مبتنی بر داده درباره بهبود محصولاتمان را بگیریم.

قبل از تحلیل خودکار، هر آزمایش به صورت دستی و براساس نیاز انجام می‌شد. این مدل دستی و فدرال چندین چالش را در سطح شرکت ایجاد می‌کند:

کارایی: شکل تکراری فرآیند ساخت خطوط لوله داده و تحلیل‌های پس از آزمایش هزینه‌های بزرگی را ایجاد می‌کند و پهنای باند تحلیلگران داده را از تحلیل‌های عمقی باز می‌کند.عدم کنترل کیفیت: خطر نتایج بی اعتبار، نا دسته بندی شده یا دیر ارسال به عنوان اینکه پلتفرم نمی‌تواند نظارت و کنترل داده را تمرین کند یا فراهمی را به دیگر شرکت‌های Grab ارائه کند.عدم قابلیت مقیاس پذیری و دسترسی: کاربران GrabX پس زمینه‌ها و مهارت‌های مختلفی دارند، که سبب می‌شود رویکردهای آن‌ها به آزمایشات متفاوت و غیر قابل انتقال / قابل استفاده باشد. به عنوان مثال، برخی تیم‌ها ممکن است از تکنیک‌های پیشرفته‌تری برای افزایش سرعت آزمایشات خود استفاده کنند بدون استفاده از منابع زیاد، اما این تکنیک‌ها بدون آموزش قابل انتقال نیستند.

راه حل

جزئیات معماری

زمانی که کاربران آزمایش‌ها را در GrabX تنظیم می‌کنند، می‌توانند معیارهای موفقیت مورد علاقه خود را پیکربندی کنند. این پیکربندی معیارها سپس به عنوان مجموعه‌داده‌های «برنزه»، «نقره» و «طلایی» در فرآیند خط لوله داده خودکار ذخیره می‌شوند.

پیکربندی معیارها و مجموعه‌داده‌های «برنزه»

در این پروژه، یک لغتنامه معیارها توسعه داده‌ایم که اطلاعاتی در مورد معیارها و نحوه محاسبه آن‌ها را ذخیره می‌کند. لغتنامه معیارها در CosmoDB ذخیره شده است و به عنوان یک پایانه API برای GrabX عمل می‌کند تا کاربران بتوانند از لیستی از معیارهای موجود انتخاب کنند. اگر یک معیار در دسترس نباشد، کاربران می‌توانند تعریف سفارشی معیارهای خود را وارد کنند.

این انتخاب معیارها به عنوان یک پیکربندی تحلیل، سپس به عنوان مجموعه‌داده‌های «برنزه» در Lake Data Azure به عنوان Metadata (فراداده) همراه با پیکربندی‌های آزمایش ذخیره می‌شود. زمانی که آزمایش شروع می‌شود، خط لوله داده تمام موضوعات آزمایش را و گروه‌های آزمایشی اختصاص داده شده به آن‌ها را از سامانه پیگیری پیکره کلیک جمع‌آوری می‌کند.

در این مورد، موضوع آزمایش به معنای جوانه‌های آزمایش است. به عنوان مثال، اگر موضوع آزمایش کاربر باشد، کاربر در طول دوره آزمایش تجربه مشابهی را تجربه خواهد کرد.

محاسبه معیارها و مجموعه‌داده‌های «نقره»

در این مرحله، موتور معیارها تمام داده‌های معیار را براساس پیکربندی معیارها جمع‌آوری می‌کند و معیارها را برای هر موضوع آزمایش محاسبه می‌کند. این داده محاسبه شده سپس به عنوان یک مجموعه‌داده «نقره» ذخیره می‌شود و مبنای مجموعه‌داده‌های آماری است.

مجموعه‌داده‌های «نقره» سپس از طریق «موتور تصمیم‌گیری» عبور می‌کنند تا مجموعه‌داده‌های «طلایی» نهایی را که شامل نتایج آزمایش است، دریافت کنند.

بصری‌سازی نتایج و مجموعه‌داده‌های «طلایی»

در مجموعه‌داده‌های «طلایی»، نتیجه آزمایش همراه با برخی از پیام‌های سفارشی که می‌خواهیم به کاربران خود نشان دهیم، در مجموعه‌های جدولی Facts و Dimensions ذخیره می‌شود (که معمولاً در طرح‌های استار استفاده می‌شوند).

برای کاربران بصری‌سازی نتایج در GrabX، از بصری‌سازی Power BI تعبیه شده استفاده می‌کنیم. ما بصری‌سازی را با استفاده از مجموعه‌داده «طلایی» بسازیم و آن را به هر صفحه آزمایش با یک فیلتر ثابت تعبیه کنیم. از این طریق، کاربران می‌توانند تجربه جریان انتها به انتها را مستقیماً از GrabX تجربه کنند.

اجرا

اجرا شامل چهار مولفه مهندسی کلیدی است:

پیکربندی تنظیمات تحلیلپایپلاین داده تحلیل خودکاربصری‌سازی نتایج

پیکربندی تنظیمات تحلیل بخشی از فرآیند تنظیم آزمایش است که در آن کاربران معیارهای موفقیتی که به آن‌ها علاقه دارند را انتخاب می‌کنند. این یک پیکربندی اساسی برای تحلیل‌های پس از آزمایش است، علاوه بر پیکربندی‌های معمول آزمایش (مانند استراتژی‌های نمونه‌برداری).

تضمین می‌کند که نتایج آزمایش گزارش شده با تنظیم فرضیه هم‌خوانی داشته باشند، که کمک می‌کند تا یکی از تله‌های متداول در OCEs1 از بین برود.

سه نوع معیار موجود است:

معیارهای پیش‌تعیین شده: این معیارها در Datamart Scribe تعریف شده‌اند، مانند ارزش ناخالص مرجع تجارت (GMV) هر نفر.معیارهای مبتنی بر رویداد: کاربران می‌توانند یک معیار آزمایشی به صورت یک گیج با نام رویداد برای شروع و پایان گیج خود تعیین کنند.ایجاد معیارهای اختصاصی: کاربران قابلیت تعریف معیاری را به صورت یک پرس و جو SQL دارند.

پایپلاین داده اینجا بیشتر از منابع داده و پردازش داده تشکیل شده است. ما از Azure Data Factory برای زمانبندی پایپلاین‌های ETL استفاده می‌کنیم تا بتوانیم معیارها و تحلیل‌های آماری را محاسبه کنیم. کارهای ETL با استفاده از Spark نوشته شده و با استفاده از Databricks اجرا می‌شوند.

پایپلاین‌های داده به صورت زیر سازمان‌دهی می‌شوند:

بارگیری آزمایش‌ها و Metadata معیارها که در مرحله ایجاد آزمایش تعریف شده‌اند.بارگیری رویدادهای آزمایش و پیگیری کلیک.بارگیری اختصاص‌دهی آزمایش. اختصاص یک تطبیق واحد تصادفی به شناسه‌های تجزیه و تحلیل داده به معادلهای مربوطه آزمایش یا نسخه‌های آزمایشی.تلفیق داده‌های یادشده بالا برای هر نسخه آزمایش و به دست آوردن داده‌های کافی برای انجام تحلیل‌های عمیقتر.

تحلیل خودکار از یک پکیج پایتون داخلی به نام «موتور تصمیم‌گیری» استفاده می‌کند که مجموعه داده و آزمون‌های آماری را از هم جدا می‌کند، به طوری که بتوانیم به تدریج برنامه‌های کاربردی از تکنیک‌های پیشرفته پیاده‌سازی شده بهبود دهیم. این ابزار مجموعه جامعی از نتایج آزمایش در سطح نسخه را ارائه می‌دهد که شامل آمارهای آماری، ارزش p، فاصله‌های اطمینان و انتخاب‌های آزمونی است که با پیکربندی‌های آزمایش مطابقت دارند. این یک پروژه همکاری جمعی است که به همه اجازه می‌دهد که آنچه را که باور می‌کنند باید در تحلیل پس از آزمایش بنیانی شامل شود، مشارکت کنند.

بصری‌سازی نتایج با استفاده از PowerBI انجام می‌شود که به GrabX تعبیه شده است، بنابراین کاربران می‌توانند آزمایش‌ها را اجرا و نتایج را در یک پلتفرم واحد مرور کنند.

تأثیر

در سطح هر کاربر، تحلیل آزمایش خودکار برای امکان سنجی معیارها با آزمایشات طراحی شده و ارائه نتایج آزمایش به صورت استاندارد و جامع طراحی شده است. این فرآیند تصمیم‌گیری را سریعتر می‌کند و پهنای باند تحلیلگران و دانشمندان داده را برای انجام تحلیل‌های عمیقتر آزاد می‌کند.

در سطح جامعه کاربری، به بهبود کارایی اجرای تحلیل آزمایشی با دسترسی به تمام آزمایش‌ها، نتایج و تصمیمات راه‌اندازی در یک پلتفرم واحد کمک می‌کند.

یادآوری/نتیجه

تحلیل آزمایش خودکار اولین سنگ بنای برای افزایش اعتماد OCEs در Grab است. همه انواع آزمایشات کاملاً وارد نمی‌شوند و احتمالاً لازم نیستند. در این مسیر، معتقدیم که این یادگیری‌های کلیدی می‌تواند برای آزمایش‌ها و تیم‌های پلتفرم مفید باشند:

برای معیارگذاری و ساده‌سازی چندین گام تحلیل آزمایش، نیازمندیم به خطوط لوله داده‌ای، ابزارهای تجزیه و تحلیل و یک فروشگاه معیار در زیرساخت.ابزار تجزیه «موتور تصمیم‌گیری» باید از دیگر مولفه‌های مهندسی جدا شود تا بتوان آن را به تدریج بهبود داد.

-3613

پردازش وظایف ETL با استفاده از Ratchet-3932

Details: Written by: mehdi; Category: Scraped Data; Published: 29 April 2024; Hits: 129

نمای کلی

در گراب، تیم اعطای وام به ساخت محصولاتی که به تالیف چندین میکرو سرویس وام متمرکز شده است. هر میکرو سرویس مسئولیت های مختلفی را انجام می دهد، مانند ارائه پیشنهادات، ذخیره اطلاعات کاربر، پرداخت مبالغ به حساب کاربر و بسیاری دیگر.

در این وبلاگ فنی، ما درباره اطلاعات و لازم است برای پردازش چندین وظیفه در تیم وام دهی در گراب صحبت خواهیم کرد. همچنین در مورد رتچت، کتابخانه Go که به ما در ساخت لوله های اطلاعاتی و همچنین روند ETL کمک می کند، صحبت خواهیم کرد. بیایید با مبانی اطلاعات و لوله های ETL آشنا شویم.

چیستی لوله اطلاعات؟

لوله اطلاعات برای توصیف یک سیستم یا روند استفاده می شود که داده ها را از یک پلتفرم به پلتفرم دیگر منتقل می کند. در طول پلتفرم ها، داده ها از طریق چندین مرحله به مبنای نیازهای تعریف شده عبور می کند که ممکن است مورد تغییر قرار گیرد. تمام مراحل لوله اطلاعات به صورت خودکار انجام می شوند و خروجی هر مرحله به عنوان ورودی مرحله بعدی عمل می کند.

چیستی لوله ETL؟

لوله ETL نوعی لوله اطلاعات است که شامل 3 مرحله اصلی است، به نام استخراج اطلاعات از منبع، تبدیل این داده ها به فرمت مورد نظر و در نهایت بارگیری داده های تبدیل شده به مقصد است. مقصد نیز به عنوان نشانی می شناخته می شود.

ترکیب مراحل لوله ETL، توابع را جهت اطمینان از اینکه نیازهای تجاری برنامه برآورده شده است.

بیایید به اختصار به هر یک از مراحل مربوط به لوله ETL نگاهی بیندازیم.

استخراج داده

استخراج داده برای برداشت داده ها از یک یا چند منبع استفاده می شود. منبع داده ممکن است بسته به نیاز متغیر باشد. برخی از منابع داده معمول استفاده شده عبارت اند از:

پایگاه دادهذخیره سازی مبتنی بر وب (S3، Google cloud و غیره)فایلهاFeeds کاربر، CRM و غیره.

فرمت داده نیز می تواند بسته به مورد کار به شکلی متغیر باشد. برخی از فرمت های معمول داده عبارت اند از:

SQLCSVJSONXML

با استخراج داده به فرمت مورد نیاز، آماده برای تغییر شکل مرحله بعدی می شود.

تغییر شکل داده

تغییر شکل داده شامل اعمال مجموعه قوانین و تکنیک هایی به منظور تبدیل داده های استخراج شده به یک فرمت معنادارتر و ساختار یافته تر برای استفاده می شود. داده های استخراج شده همیشه آماده استفاده نیستند. برای تغییر شکل داده، می توان از یکی از تکنیک های زیر استفاده کرد:

حذف داده های غیر ضروری.پیش پردازش و تمیز کردن داده ها.اعتبارسنجی داده ها.تولید مجموعه جدیدی از داده ها از داده های موجود.تجمیع داده ها از چند منبع به یک فرمت یکنواخت.

بارگیری داده

مرحله نهایی لوله ETL شامل انتقال داده های تغییر شکل یافته به یک مقصد است که در آن می توان به آن دسترسی داشته باشد. بر اساس نیازها، یک مقصد می تواند یکی از موارد زیر باشد:

پایگاه دادهفایلذخیره سازی مبتنی بر وب (S3، Google cloud و غیره)

یک لوله ETL ممکن است یا نیازمند مرحله بارگیری باشد یا نباشد. وقتی داده های تغییر شکل یافته برای استفاده بیشتر نیاز به ذخیره شدن دارند، از مرحله بارگیری برای انتقال داده های تغییر شکل یافته به انتخاب ذخیره سازی استفاده می شود. با این حال، در برخی از موارد، داده های تغییر شکل یافته برای استفاده بیشتر نیاز نیست و بنابراین مرحله بارگیری قابل نادیده گرفتن است.

اکنون که اصول را درک کرده ایم، بریم بررسی کنیم که چگونه ما در تیم اعطای وام گراب از لوله ETL استفاده می کنیم.

چرا از رتچت استفاده می کنیم؟

در گراب، بیشتر سرویس های زمینه پشتیبانی ما از Golang استفاده می کنند. به دلیل سادگی، سرعت اجرا و پشتیبانی از همروندی Golang، انتخاب عالی برای ساخت سیستم های لوله اطلاعاتی برای انجام وظایف دلخواه ETL است.

با توجه به اینکه رتچت همچنین با Golang نوشته شده است، این امکان را به ما می دهد که به راحتی لوله های داده سفارشی را ایجاد کنیم.

کانال های Go در هر مرحله پردازش به هم پیوسته اند، بنابراین دستورات ارسال داده برای هر کسی که با Go آشنا است به طور شفاف است. تمام داده های ارسالی و دریافتی به صورت JSON است، که تعادل خوبی از انعطاف پذیری و سازگاری فراهم می کند.

استفاده از رتچت برای وظایف ETL

ما از رتچت برای چندین وظیفه ETL مانند پردازش دسته ای، بازسازی و برنامه ریزی مجدد وام ها، ایجاد پروفایل های کاربر و غیره استفاده می کنیم. یکی از سرویس های زمینه پشتیبانی به نام Azkaban به مدیریت چندین وظیفه ETL مسئول است.

رتچت از پردازنده های اطلاعات برای ساختن یک لوله اطلاعاتی که شامل چندین مرحله استفاده می شود. هر پردازنده اطلاعات به صورت همروند اجرا می شود، بنابراین تمام داده ها به صورت همزمان پردازش می شوند. پردازنده های اطلاعات به مراحل تقسیم شده اند و این مراحل در یک لوله اجرا می شوند. برای ساخت یک لوله ETL، هر یک از سه مرحله (استخراج، تغییر شکل و بارگیری) از یک پردازنده اطلاعات استفاده می کند. رتچت یک مجموعه از پردازنده های اطلاعات مفید داخلی را ارائه می دهد، در عین حال امکان پیاده سازی پردازنده اطلاعات سفارشی را نیز فراهم می کند. به طور معمول، مرحله تغییر شکل از پردازنده اطلاعات سفارشی استفاده می کند.

بیایید به یکی از این وظایف نگاهی بیندازیم تا بفهمیم چگونه از رتچت برای پردازش یک وظیفه ETL استفاده می کنیم.

سفیدنامه فروشندگان از طریق لوله های ETL

سفیدنامه در اصل به معنای عرضه محصول به کاربر با نقشه برداری پیشنهاد به شناسه کاربر است. اگر یک بازرگان در تایلند گزینه دریافت وام نقدی را دریافت کند، این کار با سفیدنامه بازرگان انجام می شود. برای سفیدنامه کردن بازرگانان ما، تیم عملیات از یک پورتال داخلی برای بارگذاری یک فایل CSV با شناسه های کاربران بازرگان و اطلاعات مورد نیاز دیگر استفاده می کند. این فایل CSV توسط تیم داده و ریسک داخلی ما تولید می شود و به تیم عملیات تحویل داده می شود. هنگامی که فایل CSV بارگذاری می شود، شناسه های کاربر حاضر در فایل سفیدنامه می شوند.

استخراج داده

پس از بارگذاری تیم عملیات فایل CSV شامل لیست کاربران بازرگان برای سفیدنامه، فایل در S3 ذخیره می شود و یک ورودی در سرویس Azkaban با شناسه سند فایل بارگذاری شده ایجاد می شود.

مرحله استخراج داده از یک پردازنده اطلاعات خاص CSV استفاده می کند که از شناسه سند برای ابتدا ایجاد یک آدرس URL قبل از امضا می کند و سپس از آن برای دریافت داده از S3 استفاده می کند. داده استخراج شده به شکل بایت است و ما از کاما به عنوان جدا کننده برای فرمت داده CSV استفاده می کنیم.

تغییر شکل داده

برای تغییر شکل داده، یک پردازنده اطلاعات سفارشی تعریف می کنیم که به آن تغییردهنده می گوییم برای هر لوله ETL. تغییردهنده ها مسئول اعمال تمام تغییرات لازم بر روی داده قبل از آن که برای بارگیری آماده شود. تغییراتی که در تغییردهنده های سفیدنامه بازرگان اعمال می شوند عبارتند از:

تبدیل داده ها از بایت به ساختار.بررسی وجود تمامی فیلدهای الزامی در داده های دریافتی.اعتبارسنجی بر روی داده های دریافتی.تماس با میکروسرویس های خارجی برای سفیدنامه بازرگان.

همانطور که قبلاً گفته شد، فایل CSV به صورت دستی توسط تیم عملیات بارگذاری می شود. از آنجا که این یک فرایند دستی است، به خطاهای انسانی عرضه است. اعتبارسنجی داده در مرحله تغییر شکل، کمک می کند تا این خطاها را جلوگیری کرده و به بالاتر از لوله تکرار نشان دهد. از آنجا که داده های CSV شامل چندین ردیف است، هر ردیف از تمام مراحل فوق عبور می کند.

بارگیری داده

هرگاه بازرگانان سفیدنامه شوند، ما نیازی به ذخیره داده های تغییر شکل یافته نداریم. به عبارتی دیگر، ما برای این وظیفه ETL مرحله بارگیری را نداریم، بنابراین ما فقط از یک پردازنده اطلاعات خالی استفاده می کنیم. با این حال، این فقط یکی از موارد کاربردی است که ما داریم. در مواردی که نیاز به ذخیره داده های تغییر شکل یافته برای استفاده بیشتر وجود دارد، مرحله بارگیری شامل یک پردازنده اطلاعات سفارشی خواهد بود که مسئول ذخیره سازی داده ها است.

اتصال تمامی مراحل

پس از تعریف پردازنده های اطلاعات برای هر یک از مراحل لوله ETL، قطعه نهایی اتصال تمامی مراحل با یکدیگر است. همانطور که قبلاً گفته شد، وظایف ETL لوله های مختلف ای دارند و هر لوله ETL شامل 3 مرحله است که توسط پردازنده های اطلاعات آنها تعریف شده است.

برای اتصال این 3 مرحله، برای هر لوله ETL یک پردازنده کاری تعریف می کنیم. یک پردازنده کاری نماینده کل لوله ETL است و شامل پردازنده های اطلاعات برای هر یک از 3 مرحله است. هر پردازنده کاری شامل روش های زیر است:

تعیین منبع: پردازنده داده برای مرحله استخراج را تعیین می کند.تعیین پردازنده داده برای مرحله تغییر شکل را تعیین می کند.

-729

Go module proxy at مجله زیبایی و درمانی آذروت-3531

Details: Written by: mehdi; Category: Scraped Data; Published: 29 April 2024; Hits: 125

در Grab ، ما بسیار بر روی یک monorepo Go بزرگ برای توسعه پشتیبانی می کنیم ، که مزایایی مانند قابلیت استفاده مجدد کد و قابلیت کشف را ارائه می دهد. با این حال ، با رشد ما ادامه داده و مدیریت یک monorepo بزرگ چالش های منحصر به فرد خود را به همراه می آورد.

به عنوان یک مثال ، استفاده از دستورات Go مانند go get و go list هنگام بازیابی ماژول های Go که در یک مخزن چند ماژول قرار دارند ، بسیار آهسته است. این کندی بر روی بهره وری توسعه دهندگان ، سیستم های CI و میزبان سیستم کنترل نسخه GitLab ما تأثیر می گذارد.

در این نوشته وبلاگ ، ما نحوه کمک Athens، یک پروکسی ماژول Go را برای بهبود تجربه کلی توسعه دهندگان موتور های چرخشی به Go از یک monorepo Go بزرگ در Grab مورد بررسی قرار می دهیم.

نکات کلیدی

ما زمان اجرای دستور go get را از حدود 18 دقیقه به 12 ثانیه کاهش دادیم زمانی که ماژول های Go monorepo را بازیابی می کردیم. ما با استفاده از حالت fallback network در Athens و GOVCS mode Golang همراه با صرفه جویی در هزینه و بهبود کارایی ، کل اسکلت Athens خود را 70 درصد تنظیم کردیم.

مشکلات و راه حل ها

1. عملکرد بسیار کند دستورات Go

خلاصه مشکل: اجرای دستور go get در monorepo ما زمان قابل توجهی را می گیرد و می تواند منجر به کاهش عملکرد در سیستم کنترل نسخه ما شود.

وقتی با زبان برنامه نویسی Go کار می کنید ، هر روز از دستور go get بسیار متداولی استفاده می کنید. علاوه بر برنامه نویسان ، این دستور همچنین توسط سیستم های CI استفاده می شود.

چه کاری انجام می دهد؟

دستور go get برای دانلود و نصب بسته ها و وابستگی هایشان در Go استفاده می شود. توجه کنید که بسته به اینکه در حالت GOPATH سنتی یا حالت module-aware اجرا می شود ، به طور متفاوت عمل می کند. در Grab ، ما از حالت module-aware در تنظیمات یک مخزن چند ماژول استفاده می کنیم.

هر بار که go get اجرا می شود ، از دستورات Git مانند git ls-remote ، git tag ، git fetch و غیره برای جستجو و دانلود worktree کل استفاده می کند. استفاده بیش از حد از این دستورات Git در monorepo ما به طولانی شدن زمان پردازش کمک می کند و می تواند به سیستم کنترل نسخه ما زحمت بیاورد.

اندازه monorepo ما چقدر است؟

برای به درک کامل از چالش هایی که تیم های مهندسی ما با آن روبرو هستند ، تحت تأثیر گذاشتن git-sizer بر روی monorepo ما بسیار حائز اهمیت است.

در کلانترین دارایی ما ، مانورپو دارای حجم کل 69.3 گیبایت تجزیه نشده است ، عددی کاملا قابل توجه است. برای آنکه به مقایسه برسید ، مخزن هسته Linux ، شناخته شده به خاطر وسعت آن ، در حال حاضر 55.8 گیبایت است.

حجم کلاناندازه گیری مخزن: مجموع حجم ناسازگار مخزن حجم مجموعی 69.3 گیبایت است ، عددی کاملا حائز اهمیت است.

برای مقایسه ، به گزارش git-sizer مخزن Linux مراجعه کنید.

چقدر “کند” است؟

برای توضیح این مشکل بیشتر ، زمان لازم برای بازیابی ماژول های مختلف در monorepo ما با سرعت دانلود 10 مگابایت بر ثانیه را مقایسه خواهیم کرد.

این یک مثال از نحوه ساختاربندی یک ماژول در monorepo ما است:

دستورات GoGOPROXYاز قبل کش شده؟توضیحاتنتیجه (زمان)go get -x gitlab.company.com/monorepo/go/commons/util/gkproxy.golang.org,directبلهدانلود و نصب آخرین نسخه ماژول. این یک سناریوی مشترک است که توسعه دهندگان بسیاری با آن روبرو می شوند.18:50.71 دقیقهgo get -x gitlab.company.com/monorepo/go/commons/util/gkproxy.golang.org,directNoدانلود و نصب آخرین نسخه ماژول بدون هیچگونه حافظه نهان ماژول1:11:54.56 ساعتgo list -x -m -json -versions gitlab.company.com/monorepo/go/util/gkproxy.golang.org,directYesنمایش اطلاعات در مورد ماژول3.873 ثانیهgo list -x -m -json -versions gitlab.company.com/monorepo/go/util/gkproxy.golang.org,directNoنمایش اطلاعات در مورد ماژول بدون هیچگونه حافظه نهان ماژول3:18.58 دقیقه

در این مثال ، استفاده از go get برای بازیابی یک ماژول بیش از 18 دقیقه طول کشید. اگر ما نیاز داشته باشیم بیش از یک ماژول را در monorepo ما بازیابی کنیم ، ممکن است زمانبر باشد.

چرا در monorepo کند است؟

پیامدها: کاهش بهره وری و فشرده کردن سیستم ها

توسعه دهندگان و CI

هنگامی که عملکرد دستورات Go مانند go get کند است ، باعث تأخیرهای قابل توجه و نارسایی هایی در جریان کارهای توسعه نرم افزاری می شود. این منجر به کاهش بهره وری و ترغیب توسعه دهندگان می شود.

بهینه سازی سرعت عملیات دستورات Go برای اطمینان از جریان کاری کارآمد و تولید نرم افزار با کیفیت است.

همچنین شایان ذکر است که استفاده بیش از حد از دستورات go get همچنین می تواند منجر به مشکلات عملکرد برای VCS شود. وقتی بسته های Go به سرعت با استفاده از go get دانلود می شوند ، مشاهده کردیم که باعث ایجاد یک مانع در خوشه VCS ما می شود که می تواند باعث کاهش عملکرد یا حتی ایجاد مشکلات صف محدودیت نرخ شود.

این منجر به کاهش عملکرد زیرساخت VCS ما می شود و باعث تأخیر یا گاهی اوقات عدم دسترسی برای برخی کاربران و CI می شود.

راه حل: Athens + حالت fallbackNetwork + GOVCS + راه حل تازه بارگذاری سفارشی حافظه نهان

خلاصه مشکل: افزایش سرعت دستور go get با دانلود از VCS ما

با استفاده از Athens، یک سرور proxy برای ماژول های Go (درباره پروتکل GOPROXY بیشتر بخوانید) ، ما به مشکل سرعت را حل کردیم.

نحوه کار Athens چگونه است؟

Athens از یک سیستم ذخیره سازی برای بسته های ماژول Go استفاده می کند ، که همچنین می تواند پیکربندی شود برای استفاده از انواع مختلفی از سیستم های ذخیره سازی مانند Amazon S3 و Google Cloud Storage و غیره.

با کش کردن این بسته های ماژول در ذخیره سازی ، Athens می تواند بسته ها را مستقیماً از ذخیره سازی ارائه دهد به جای درخواست آنها از VCS مربوطه هنگام ارائه دستورات Go مانند go

-1905

چگونه اندازه فایل های جاوا اسکریپت صفحه GrabFood.com را سه برابر کاهش دادیم-651

Details: Written by: mehdi; Category: Scraped Data; Published: 29 April 2024; Hits: 118

مقدمه

هر هفته، زیرساخت ابری GrabFood.com به بیش از 1 ترابایت ترافیک و 175 میلیون درخواست خدمت می‌کند که هزینه‌های ما را افزایش داده است. برای کاهش هزینه‌های ابری، ما باید به بهینه‌سازی (و کاهش) اندازه بسته GrabFood.com توجه کنیم.

کاهشی در اندازه بسته در کمک داشته باشد:

بارگیری سریع‌تر سایت! (به ویژه برای مناطق با سرعت پهنای باند موبایلی کمتر)صرفه‌جویی در هزینه برای کاربران: کاهش داده‌های مورد نیاز برای هر بار بارگیری سایتصرفه‌جویی در هزینه برای Grab: کاهش خروج شبکه مورد نیاز برای خدمت رسانی به کاربرانزمان بندی ساخت سریع‌تر: کمترین وابستگی -> کمترین کد برای بسته‌بندی webpack -> ساخت سریعترساخت کوچک‌تر: کمترین وابستگی -> کمترین کد -> ساخت کوچکتر

بعد از اعمال 7 بهینه‌سازی بسته webpack، ما توانستیم بهبودهای زیر را بدست آوریم:

7% کاهش زمان بارگیری صفحه از 2600 میلی ثانیه به 2400 میلی ثانیه66% کاهش زمان بارگیری دارایی استاتیک JS از 180 میلی ثانیه به 60 میلی ثانیه3 برابر کاهش اندازه دارایی‌های استاتیک JS از 750 کیلوبایت به 250 کیلوبایت1.5 برابر کاهش خروج شبکه از 1800 گیگابایت به 1200 گیگابایت20% کمترین هزینه برای CloudFront از 1750 دلار به 1400 دلار1.4 برابر کاهش اندازه بسته از 40 مگابایت به 27 مگابایتزمان ساخت 3.6 برابر سریعتر از حدود 2000 ثانیه به حدود 550 ثانیه

راه حل

یکی از بزرگترین عوامل تأثیرگذار بر اندازه بسته وابستگی‌ها است. همانطور که قبلاً گفته شد، کمترین وابستگی به معنای کمترین تعداد خطوط کد برای کامپایل است که به نتیجه کاهش اندازه بسته منجر می‌شود. بنابراین، برای بهینه‌سازی اندازه بسته GrabFood.com، ما باید به وابستگی‌های خود نگاهی بیندازیم.

Tldr;

برو بهگام C: کاهش وابستگی‌های خودبرای دیدن 7 راهکاری که ما برای کاهش اندازه بسته خود به‌کار بردیم.

مرحله A: شناسایی وابستگی‌های خود

در این مرحله، باید از خود بپرسیم 'بزرگترین وابستگی‌های ما کدامند؟' با استفاده ازwebpack-bundle-analyzer بسته‌بندی‌های GrabFood.com را بررسی کردیم. این کار به ما نمایی از تمام وابستگی‌های ما می‌دهد و به راحتی می‌توانیم ببینیم کدام دارایی‌های بسته بزرگتر هستند.

خروجی تجزیه بسته به ما امکان می‌دهد به راحتی بررسی کنیم که در بسته‌مان چه وجود دارد.

چه راهنمایی کردن:

۱: وابستگی‌های بزرگ (بسیار واضح است، زیرا اندازه جعبه بزرگ خواهد بود)

۲: وابستگی‌های تکراری (کتابخانه‌ای که چند بار در دارایی‌های مختلف بسته می‌شود)

۳: وابستگی‌هایی که به نظر نمی‌رسد متعلق شوند (به عنوان مثال، چرا 'elliptic' در بسته frontend من است؟)

چه چیزی را اجتناب کنیم:

تنها وابستگی‌های کوچکی که بسیار کوچک هستند (به عنوان مثال <20kb). به دلیل بازده بسیار کم از این روش خودداری کنید.به عنوان مثال، منطق کسب و کار مانند کد React شمابه عنوان مثال، وابستگی‌های کوچک نود

مرحله B: بررسی استفاده از وابستگی‌های خود (وابستگی‌های من کجا استفاده می‌شوند؟)

در این مرحله، سعی می‌کنیم به این سوال پاسخ دهیم: 'با توجه به یک وابستگی، کدام فایل‌ها و قابلیت‌ها از آن استفاده می‌کنند؟'.

دو رویکرد گسترده وجود دارد که برای شناسایی نحوه استفاده از وابستگی‌های خود می‌توان استفاده کرد:

۱: رویکرد بالا به پایین: 'پروژه ما وابستگی X را کجا استفاده می‌کند؟'

شناسایی مفهومی که قابلیت(ها) نیاز به استفاده از وابستگی X را دارد.

۲: رویکرد پایین به بالا: 'وابستگی X چگونه در پروژه من استفاده شد؟'

ردیابی وابستگی‌ها با ردیابی دستورالعمل‌های import() و require() به صورت دستی

توصیه ما این است که از ترکیب هر دو رویکرد بالا به پایین و پایین به بالا برای شناسایی و جداسازی وابستگی‌ها استفاده کنید.

کاربردی:

موقع ردیابی وابستگی‌ها، روشنقصاوی پیش بینی کنید: با استفاده از یک سند، پیشرفت خود را در هنگام ردیابی وابستگی‌های متقابل فایل‌ها را پیگیری کنید.

خطاها:

چسبیدن به یک رویکرد تک بعدی - بدانید کی باید بین رویکردهای بالا به پایین و پایین به بالا جابه‌جا شوید تا فضای جستجو را به حداقل برسانید.

مرحله C: کاهش وابستگی‌های خود

اکنون که می‌دانید بزرگترین وابستگی‌های خود وجود دارد و از آن‌ها کجا استفاده می‌شود، مرحله بعدی درک این است که چگونه می‌توانید وابستگی‌های خود را کوچکتر کنید.

اینجا 7 راهکاری که می‌توانید برای کاهش وابستگی‌های خود استفاده کنید:

توجه: این راهکارها به ترتیب صعوبت آورده شده‌اند - ابتدا به برداشت‌های آسان تمرکز کنید 🙂

۱. دستیابی تنبل به وابستگی‌های بزرگ و وابستگی‌های کمتر استفاده شده

مشابه استفاده از بارگیری تنبل برای تقسیم صفحات React بزرگ به منظور بهبود عملکرد صفحه، ما همچنین می‌توانیم کتابخانه‌هایی را تنبل بارگیری کنیم که به ندرت استفاده می‌شوند یا تا پیش از انجام عملیات‌های کاربری خاصی استفاده نشوند.

قبل از:

constcrypto=require(‘crypto’)constcomputeHash=(value,secret)=>{returncrypto.createHmac(value,secret)}

بعد از:

constcomputeHash=async(value,secret)=>{constcrypto=awaitimport(‘crypto’)returncrypto.createHmac(value,secret)}

مثال:

سناریو: استفاده از کتابخانه Anti-abuse قبل از فراخوانی‌های آسیب پذیر APIعملیات: به جای بسته‌بندی کتابخانه Anti-abuse همراه با دارایه اصلی صفحه، ما تصمیم گرفتیم تا کتابخانه را تنبل بارگیری کنیم تا زمانی که باید از آن استفاده کنیم (به اصطلاح، کتابخانه را فقط قبل از انجام برخی عملیات حساس API بارگیری کنید).نتایج: 400 کیلوبایت در دارایه اصلی صفحه ذخیره شد.

یادداشت:

۲. ادغام نمونه‌های تکراری ماژول‌ها

اگر یک وابستگی مشابه در چندین دارایی ظاهر شود، در نظر داشته باشید که این وابستگی‌های تکراری را تحت یک ورودی مشترک ادغام کنید.

قبل از:

// ComponentOne.jsximportGrabMapsfrom‘grab-maps’// ComponentTwo.jsximportGrabMaps,{Marker}from‘grab-maps’

بعد از:

// grabMapsImportFn.jsconstgrabMapsImportFn=()=>import(‘grab-maps’)// ComponentOne.tsxconstgrabMaps=awaitgrabMapsImportFn()constGrabMaps=grabMaps.default// ComponentTwo.tsxconstgrabMaps=awaitgrabMapsImportFn()constGrabMaps=grabMaps.defaultconstMarker=grabMaps.Marker

مثال:

سناریو: وابستگی‌های تکراری 'grab-maps' در بستهعملیات: مشاهده کردیم که یک وابستگی 'grab-maps' را در 4 دارایی مختلف بسته‌بندی می‌کنیم، بنابراین برنامه را به یک ورودی واحد تغییر دادیم تا فقط یک نمونه از 'grab-maps' را بسته می‌کنیم.نتایج: 2 مگابایت در اندازه کل بسته صرفه‌جویی شد.

یادداشت:

برخی از کتابخانه‌هایی که در چندین دارایی ظاهر می‌شوند (به عنوان مثال antd) نباید به عنوان وابستگی‌های همانی در نظر گرفته شوند. شما می‌توانید این را با با هم مقایسه نحوه نصب هر ماژول کنید. اگر محتواها متفاوت باشد، webpack کار خود را انجام داده است و تنها کد مورد استفاده توسط کد ما را وارد می‌کند.برای شناسایی این امر، webpack به import() وابستگی نیاز دارد تا تشخیص دهد کدام ماژول به‌طور صریح به عنوان بسته جداگانه بسته می‌شود (جهت اطلاعات بیشتر را ببینید).

۳. استفاده از کتابخانه‌هایی که به فرمت ES Modules صادر می‌شوند

اگر یک کتابخانه مشخص شده با توزیع ES Module وجود داشته باشد، از آن نسخه به جای نسخه معمولی استفاده کنید. ES Modules به webpack امکان می‌دهد به‌طور خودکار tree-shaking را انجام دهد و به این ترتیب می‌توانید در اندازه بسته خود صرفه‌جویی کنید زیرا کد کتابخانه استفاده نشده در بسته بسته نمی‌شود.با استفاده ازbundlephobia به سرعت اطلاعات را

-2192

Page 50 of 52

Home

تجزیه و تحلیل آزمایش خودکار - تبدیل تجزیه و تحلیل آزمایشی به مقیاس قابل توسعه-9210

معرفی

زمینه‌ها

راه حل

جزئیات معماری

پیکربندی معیارها و مجموعه‌داده‌های «برنزه»

محاسبه معیارها و مجموعه‌داده‌های «نقره»

بصری‌سازی نتایج و مجموعه‌داده‌های «طلایی»

اجرا

تأثیر

یادآوری/نتیجه

پردازش وظایف ETL با استفاده از Ratchet-3932

نمای کلی

چیستی لوله اطلاعات؟

چیستی لوله ETL؟

استخراج داده

تغییر شکل داده

بارگیری داده

چرا از رتچت استفاده می کنیم؟

استفاده از رتچت برای وظایف ETL

سفیدنامه فروشندگان از طریق لوله های ETL

استخراج داده

تغییر شکل داده

بارگیری داده

اتصال تمامی مراحل

Go module proxy at مجله زیبایی و درمانی آذروت-3531

نکات کلیدی

مشکلات و راه حل ها

1. عملکرد بسیار کند دستورات Go

چه کاری انجام می دهد؟

اندازه monorepo ما چقدر است؟

چقدر “کند” است؟

چرا در monorepo کند است؟

پیامدها: کاهش بهره وری و فشرده کردن سیستم ها

توسعه دهندگان و CI

راه حل: Athens + حالت fallbackNetwork + GOVCS + راه حل تازه بارگذاری سفارشی حافظه نهان

نحوه کار Athens چگونه است؟

چگونه اندازه فایل های جاوا اسکریپت صفحه GrabFood.com را سه برابر کاهش دادیم-651

مقدمه

راه حل

مرحله A: شناسایی وابستگی‌های خود

مرحله B: بررسی استفاده از وابستگی‌های خود (وابستگی‌های من کجا استفاده می‌شوند؟)

مرحله C: کاهش وابستگی‌های خود

۱. دستیابی تنبل به وابستگی‌های بزرگ و وابستگی‌های کمتر استفاده شده

۲. ادغام نمونه‌های تکراری ماژول‌ها

۳. استفاده از کتابخانه‌هایی که به فرمت ES Modules صادر می‌شوند

Main Menu

Login Form