فن آوران گیتی افروز
زیرساخت محاسباتی GPU برای AI و HPCزیرساخت محاسباتی GPU برای AI و HPCپایدار

از H100 و A100 تا L40S — توان محاسباتی در مقیاس آموزش LLM، با تحویل دقیقه‌ای و داده داخل کشور

GPU as a Service گیتی افروز با +۴۸۰ کارت H100 SXM و +۹۲۰ کارت A100 ۸۰GB، InfiniBand NDR و Lustre/Weka، آماده اجرای training، fine-tuning و inference در مقیاس production است — بدون دغدغه تحریم و خروج داده.

Uptime ۹۹.۹٪ تضمین‌شدهتحویل GPU در کمتر از ۹۰ ثانیهData Residency کامل ایران
زیرساخت محاسباتی GPU برای AI و HPC
GPU Cloud
احراز هویت
Authentication
  • Single Sign-On
  • Passkeys & FIDO2
  • Adaptive MFA
  • Biometric
حاکمیت دسترسی
Authorization
  • RBAC / ABAC
  • PAM
  • Zero Trust
  • Just-in-Time
چرخه عمر
Lifecycle
  • Provisioning
  • Deprovisioning
  • Audit Trail
  • Compliance
یکپارچگی
Integration
  • SAML 2.0
  • OIDC / OAuth
  • SCIM 2.0
  • REST API

اعتماد +۱۳۰ تیم AI و تحقیقاتی ایرانی

۹ استارتاپ مدل زبانی فارسی۶ پژوهشگاه و دانشگاه برتر۴ بانک با تیم Model Risk۳ شرکت خودروسازی و autonomous
+۱٬۲۰۰کارت GPU فعال در حال سرویس‌دهی روزانه
مسیر ارزش‌آفرینی

ما نه فقط دردهای شما را می‌فهمیم — برای رسیدن به آنچه که سازمان شما باید باشد، نقشه می‌سازیم.

GITA GPU Cloud یک پلتفرم بومی محاسبات GPU است که bare-metal، VM و Kubernetes را روی یک fabric InfiniBand HDR/NDR ارائه می‌دهد. از training مدل‌های Foundation روی ۶۴ کارت H100 SXM با NVSwitch، تا inference با MIG و autoscaling در سطح pod — همه روی زیرساختی که داده آن هیچ‌گاه از مرز ایران خارج نمی‌شود.

Before

وضعیت رایج امروز

  1. 01

    training مدل ۷B شما هفته‌ها پشت صف A100 منتظر است

    هزینه پنهان: تأخیر در عرضه محصول و سوختن سرمایه نقدینگی تیم

  2. 02

    ۸ کارت A100 خریدیم، ۳۰٪ ساعت‌ها idle می‌ماند

    هزینه پنهان: هزینه استهلاک ۳ میلیارد تومان در سال روی hardware بی‌استفاده

  3. 03

    multi-node training روی شبکه ۲۵G به throughput تئوری نمی‌رسد

    هزینه پنهان: ۳ تا ۵ برابر شدن هزینه و زمان آموزش مدل

  4. 04

    داده‌های آموزشی حساس را نمی‌توان به cloud خارجی فرستاد

    هزینه پنهان: توقف کامل پروژه‌های AI یا پذیرش ریسک حقوقی

After

با GPU Cloud

  1. 01

    تحویل کلاستر در کمتر از ۹۰ ثانیه

    قبلاً: هفته‌ها انتظار برای تأمین H100

  2. 02

    پرداخت دقیقه‌ای، فقط برای ساعت‌های مصرف

    قبلاً: خرید CapEx ۲۰ میلیاردی برای ۸ کارت

  3. 03

    InfiniBand NDR با ۴۰۰Gbps در هر node

    قبلاً: all-reduce روی TCP کند و ناپایدار

  4. 04

    نگهداری کامل داده در دیتاسنتر تهران/مشهد

    قبلاً: ارسال داده حساس به cloud خارجی

معماری راهکار

معماری GITA GPU Cloud چگونه ساخته شده است — جریان داده زنده

زیرساخت روی سه لایه طراحی شده است: لایه سخت‌افزاری شامل nodeهای DGX-class با H100 SXM و A100 SXM متصل با NVLink و NVSwitch، یک fabric InfiniBand HDR ۲۰۰Gbps و NDR ۴۰۰Gbps برای ارتباط بین nodeها و ذخیره‌سازی موازی Lustre و Weka. لایه Control Plane شامل scheduler چند-tenant، API سازگار با OpenStack/Kubernetes و سیستم accounting per-minute است. لایه سرویس، SLURM برای HPC، Ray برای distributed training و vLLM/TensorRT-LLM برای inference را به‌صورت managed عرضه می‌کند.

جریان داده
ورودی‌ها
Clients & Identities
L01
End Users
Web · Mobile
Employees
SSO Portal
Service Accounts
mTLS · API
هسته احراز
Gateway · Auth · Policy · Token
L02
Identity Gateway
Edge · TLS 1.3
Auth Engine
SSO · MFA · FIDO2
Policy Engine
RBAC · ABAC · ZTNA
Token Service
JWT · OAuth · OIDC
لایه داده
Identity Store · HSM · Directory
L03
Identity Store
PostgreSQL
HSM
PKCS#11
Directory Sync
AD / Workday
ممیزی و تله‌متری
Audit Pipeline · Kafka
L04
Audit Pipeline
Kafka stream
اپلیکیشن‌ها
Apps & Cloud
L05
Apps & Cloud
ERP · Email · Custom
درخواست احراز هویت
ارزیابی سیاست
صدور توکن
گزارش ممیزی
همگام‌سازی داده

روی برچسب‌های بالا کلیک کنید تا فقط یک نوع جریان داده فعال شود — یا روی هر نود حرکت کنید برای نمایش پررنگ‌تر.

قابلیت‌های محصول

قابلیت‌هایی که در عملیات روزانه AI تفاوت می‌سازند

10 ماژول تخصصی یکپارچه و قابل توسعه — برای انتخاب هر قابلیت، روی آن کلیک کنید.

هسته اصلی

+۴۸۰ کارت H100 SXM و +۹۲۰ کارت A100 ۸۰GB در دسترس، تحویل در کمتر از ۹۰ ثانیه.

ناوگان GPU شامل H100 SXM5 با ۸۰GB HBM3، A100 SXM4 با ۸۰GB HBM2e، L40S برای inference و RTX 6000 Ada برای رندر و workloadهای سبک‌تر است. تمام کارت‌ها از مسیرهای پایدار تأمین شده‌اند و چرخه refresh منظم دارند. می‌توانید یک کارت یا ۶۴ کارت در یک کلاستر بگیرید — قیمت‌گذاری بر اساس همان مقدار واقعی مصرف.

نکات کلیدی
  • H100 SXM5 ۸۰GB با NVLink Gen4
  • A100 SXM4 ۸۰GB در توپولوژی ۸-GPU
  • L40S برای inference و fine-tuning سبک
  • RTX 6000 Ada برای CV و رندر
برای شماحذف زمان انتظار تأمین سخت‌افزار از روزها به ثانیه‌ها
موارد استفاده صنعتی

صنایعی که روی GITA GPU Cloud کار می‌کنند

استارتاپ‌های LLM فارسی

training و fine-tuning مدل‌های Foundation فارسی روی کلاسترهای ۳۲ تا ۶۴ کارت H100 با NVLink و InfiniBand — بدون نیاز به VPN یا cloud خارجی.

دانشگاه و پژوهشگاه

محیط SLURM آشنا برای پژوهشگران، quota آزمایشگاهی، billing per-job و قراردادهای ویژه دانشگاهی برای پروژه‌های ارشد و دکتری.

بانک و Model Risk

اجرای مدل‌های credit scoring، fraud detection و model risk validation روی زیرساخت ایزوله، با Audit Trail کامل و انطباق با الزامات بانک مرکزی.

تصویربرداری درمانی و Imaging AI

training مدل‌های segmentation روی CT/MRI با حجم چند ترابایت، با Data Residency کامل و رمزنگاری در حالت rest و transit.

تولید و Computer Vision صنعتی

آموزش مدل‌های کنترل کیفیت بصری روی خط تولید، با pipeline annotation تا deploy روی edge — همه روی یک پلتفرم.

خودروسازی و Autonomous

training مدل‌های perception و planning روی دیتاست‌های ۱۰+ پتابایت، با throughput Lustre تا ۸۰GB/s و GPUDirect Storage.

نهادهای دولتی و حاکمیتی

استقرار Air-Gapped کامل پلتفرم در دیتاسنتر سازمان، با گواهی‌های امنیتی ملی و انطباق با ابلاغیه‌های افتا.

رسانه و AIGC

تولید محتوا با Stable Diffusion، Flux و مدل‌های ویدیویی روی L40S و RTX 6000 Ada، با API ساده و autoscale در ساعات peak.

یکپارچه‌سازی

با تمام ابزارهای ML و DevOps شما کار می‌کند

+۶۰ ادغام آماده، تست‌شده روی workloadهای production
Training Frameworks
  • PyTorch
  • TensorFlow
  • JAX
  • DeepSpeed
  • Megatron-LM
Distributed Compute
  • Ray
  • Horovod
  • Dask
  • Spark with RAPIDS
Inference Servers
  • vLLM
  • TensorRT-LLM
  • Triton Inference Server
  • TGI
  • Ollama
Orchestration
  • Kubernetes
  • OpenShift
  • SLURM
  • Nomad
  • Kubeflow
MLOps و Experiment Tracking
  • MLflow
  • Weights & Biases
  • ClearML
  • DVC
  • Argo Workflows
Storage و Data
  • Lustre
  • WekaFS
  • Ceph
  • MinIO
  • GPUDirect Storage
ابزار شما در لیست نیست؟ ادغام سفارشی درخواست دهید
فرآیند پیاده‌سازی

از تماس اول تا اولین Training در ۴ فاز

نقشه راه شفاف از اولین تماس تا عملیات دائمی — هر مرحله با خروجی قابل اندازه‌گیری.

PHASE 01۲ تا ۳ روز

Workload Sizing

جلسه با معمار ML Ops، بررسی workload، تخمین کارت/ساعت، انتخاب توپولوژی و طراحی مدل قیمتی.

سند Capacity Plan و پیشنهاد کلاستر
PHASE 02۱ هفته

Onboarding و Pilot

ایجاد tenant، تحویل کلاستر آزمایشی ۴ تا ۸ کارت، migration کد و اولین training موفق روی پلتفرم.

Tenant فعال + اولین job production
PHASE 03۲ تا ۴ هفته

Scale-Up Production

گسترش به کلاستر هدف، بهینه‌سازی NCCL و dataloader، فعال‌سازی autoscale و monitoring تخصصی.

Pipeline training/inference پایدار
PHASE 04دائمی

بهره‌برداری و بهینه‌سازی

پشتیبانی ۲۴/۷، گزارش ماهانه utilization و هزینه، پیشنهاد بهینه‌سازی و دسترسی به نسل‌های جدید GPU.

SLA ۹۹.۹٪ و بهبود مستمر هزینه per-token
سوالات متداول فنی

سوالاتی که تیم فنی شما احتمالاً می‌پرسد

چطور با وجود تحریم، H100 تأمین می‌کنید؟ تداوم سرویس چه تضمینی دارد؟+

ما زنجیره تأمین چندمسیره و مستقل از پروایدرهای cloud خارجی داریم. موجودی فعلی +۴۸۰ کارت H100 SXM و +۹۲۰ کارت A100 ۸۰GB روی زمین در دیتاسنترهای داخلی است و چرخه تأمین refresh منظم دارد. در قراردادهای Reserved، تخصیص ظرفیت قانونی تضمین می‌شود و در صورت اختلال، migration به نسل بعدی بدون هزینه انجام می‌شود.

تأخیر شبکه بین سرور تهران و کاربر مشهد چقدر است؟+

ما دو سایت اصلی در تهران و مشهد داریم با لینک اختصاصی بین آن‌ها. RTT بین کاربر مشهد و سایت تهران به‌طور میانگین ۱۲ تا ۱۸ میلی‌ثانیه است. برای inference با حساسیت تأخیر، می‌توان workload را به نزدیک‌ترین سایت pin کرد و از edge endpoints در شهرهای دیگر استفاده کرد.

ایزولاسیون multi-tenant چگونه تضمین می‌شود؟ آیا کاربر دیگری می‌تواند به داده من دسترسی داشته باشد؟+

ایزولاسیون در چند لایه پیاده شده است: SR-IOV برای شبکه، VLAN اختصاصی، namespace جدا در Kubernetes، MIG برای جداسازی سخت‌افزاری GPU و رمزنگاری per-tenant در storage. در گزینه Bare-Metal، کل node اختصاصی است و هیچ workload دیگری روی آن اجرا نمی‌شود. تمام مرزها در penetration test سالانه تأیید می‌شود.

billing per-minute واقعاً دقیقه‌ای است یا rounding می‌شود؟+

billing با گرانولاریتی واقعی دقیقه‌ای ثبت می‌شود — اگر job شما ۷ دقیقه و ۲۰ ثانیه طول بکشد، حدود ۸ دقیقه حساب می‌شود. حداقل صورت‌حساب یک دقیقه است و هیچ هزینه‌ پنهانی برای provision، network و storage داخلی وجود ندارد. صورتحساب لحظه‌ای در داشبورد قابل مشاهده و export است.

تخفیف Reserved چقدر است و چه تعهدی دارد؟+

Reserved سه‌ماهه ۲۵٪، شش‌ماهه ۴۰٪ و دوازده‌ماهه ۶۰٪ تخفیف نسبت به on-demand دارد. ظرفیت تضمین‌شده است و در دوره قرارداد قابل migration بین نسل‌های GPU است. تعهد پرداخت دوره‌ای است نه پیش‌پرداخت کامل و قابل ترکیب با on-demand برای spike traffic.

تفاوت container و bare-metal چیست؟ کدام را انتخاب کنم؟+

Container روی Kubernetes ما برای ۹۰٪ workloadها بهترین انتخاب است — سرعت بالا، autoscale و قیمت پایین‌تر. Bare-Metal زمانی توصیه می‌شود که نیاز به driver خاص، kernel custom، یا اطمینان مطلق از عدم هم‌سایگی دارید — مثلاً برای training بزرگ ۶۴+ GPU یا workload با الزامات انطباق سخت‌گیرانه.

اگر همه ظرفیت H100 رزرو شده باشد، چقدر باید در صف منتظر بمانم؟+

ما با ظرفیت‌سنجی پویا تلاش می‌کنیم زمان انتظار صفر باشد و در ۹۸٪ مواقع تحویل کمتر از ۹۰ ثانیه است. در شرایط peak، صف اولویت‌دار برای Reserved customer داریم. برای training بزرگ پیش‌برنامه‌ریزی‌شده، Capacity Reservation با اعلام ۴۸ ساعت قبل، ظرفیت دقیق را قفل می‌کند.

اگر یک کارت GPU خراب شود، چه اتفاقی می‌افتد؟+

DCGM به‌طور مداوم سلامت کارت‌ها را پایش می‌کند. در صورت تشخیص خطای جدی (XID critical، ECC غیرقابل بازیابی، throttling پایدار)، job به‌صورت خودکار به node سالم migrate می‌شود و کارت معیوب از pool خارج می‌گردد. زمان میانگین تشخیص تا migration کمتر از ۹۰ ثانیه است و صورتحساب آن بازه‌ها صفر می‌شود.

scale up و scale down کلاستر چقدر زمان می‌برد؟+

Scale-up در سطح container و MIG معمولاً کمتر از ۳۰ ثانیه و در سطح node کامل کمتر از ۹۰ ثانیه طول می‌کشد. Scale-down بلافاصله انجام می‌شود و billing همان لحظه متوقف می‌گردد. برای کلاسترهای +۳۲ کارت با InfiniBand topology، provisioning ۲ تا ۴ دقیقه است.

SLA پشتیبانی و زمان پاسخ چقدر است؟+

Uptime رسمی پلتفرم ۹۹.۹٪ ماهانه است و در قرارداد penalty clause دارد. تیم ML Ops داخلی ما ۲۴/۷ در دسترس است: P1 (قطع سرویس) پاسخ زیر ۱۵ دقیقه، P2 (degraded) زیر ۱ ساعت و P3 (سوال فنی) زیر ۴ ساعت در ساعات کاری. برای مشتریان Enterprise، TAM اختصاصی فارسی‌زبان تخصیص داده می‌شود.

تماس مستقیم با تیم فنی

کلاستر آزمایشی H100 رزرو کنید

۴۵ دقیقه با معمار ML Ops ما صحبت کنید. workload شما را بررسی می‌کنیم، capacity plan می‌دهیم و اولین کلاستر آزمایشی H100 را برای شما فعال می‌کنیم. بدون پرزنتیشن فروش، بدون تعهد.

تلفن مستقیم
+۹۸ ۲۱ ۱۲۳۴ ۵۶۷۸
ایمیل تخصصی
gpu-cloud@gitiafrooz.com
ساعات کاری
شنبه تا چهارشنبه — ۸ تا ۲۰، پشتیبانی فنی ۲۴/۷
فرم درخواست جلسه
مرحله ۱ از ۲

۳۰ ثانیه طول می‌کشد

معمار ارشد ما طی ۴ ساعت کاری با شما تماس می‌گیرد.

رایگان · بدون پرزنتیشن فروش · بدون تعهد