IA

Akamai dévoile ses services pour l’inférence IA

Le fournisseur de service de réseau de contenu met à disposition des clients Akamai Cloud Inference (ACI).

 La solution est destinée à accélérer l'innovation pour les organisations souhaitant transformer les modèles prédictifs et les grands modèles de langage (LLM) en actions concrètes. Akamai Cloud Inference repose sur Akamai Cloud. Elle permet aux ingénieurs et développeurs d’utiliser des outils optimisés pour les applications d'IA ainsi que des charges de travail riches en données à proximité des utilisateurs finaux. Cette solution propose un débit trois fois supérieur tout en réduisant la latence jusqu'à 2,5 fois. En outre, les entreprises peuvent économiser jusqu'à 86 % sur les charges de travail d'inférence d'IA et d'IA agentique par rapport à l'infrastructure hyperscale traditionnelle.

Akamai Cloud propose une gamme d'options de calcul, des processeurs classiques aux GPU optimisés, en passant par les VPU ASIC sur mesure. L'intégration à l'écosystème AI Enterprise de Nvidia, en tirant parti de Triton, de Tao Toolkit, de TensorRT et de NvFlare assure une inférence IA optimisée sur les GPU Nvidia. En collaboration avec VAST Data, Akamai fournit un accès simplifié aux données en temps réel. À cela s'ajoute un stockage d'objets évolutif et une intégration avec les principaux fournisseurs de bases de données vectorielles, dont Aiven et Milvus, pour permettre la génération augmentée de récupération (RAG).

Par son système de gestion des données, Akamai stocke en toute sécurité des modèles d'IA optimisés et leurs éléments d'apprentissage, permettant une intelligence artificielle rapide et efficace à l'échelle mondiale.

Avec Kubernetes, ACI assure une mise à l'échelle automatique, une meilleure résilience et une optimisation des coûts. Soutenu par Linode Kubernetes Engine - Enterprise, et de la plateforme d'applications Akamai, Akamai Cloud Inference donne la possibilité de déployer rapidement une plateforme prête pour l'IA sur des projets Kubernetes open source, notamment Kserve, KubeFlow et SpinKube, intégrés pour rationaliser le déploiement de modèles d'IA pour l'inférence. De plus, le logiciel exploite des fonctionnalités WebAssembly (WASM) permettant aux développeurs d'exécuter des inférences pour les LLM directement à partir d'applications serverless, permettant d'exécuter du code léger en périphérie pour créer des applications sensibles à la latence.

Nos derniers livres blancs