Menu

Modèle de saisie sage

Amazon SageMaker fournit plusieurs algorithmes d`apprentissage automatique intégrés que vous pouvez utiliser pour divers types de problèmes. « Quels sont les attributs qui différencient ces clients, et quelles sont les valeurs pour chaque client le long de ces dimensions. » Vous utilisez ces réponses pour simplifier la vue des clients actuels et potentiels et, peut-être, pour mieux comprendre ces attributs de client. Pour ce type de question, Amazon SageMaker fournit l`algorithme d`algorithme d`analyse des composants principaux (PCA). Pour ce type de problème de classification discrète, Amazon SageMaker fournit deux algorithmes: l`algorithme d`apprentissage linéaire et l`algorithme XGBoost. Vous définissez les hyperparamètres suivants pour diriger ces algorithmes pour produire des résultats discrets: dans le format de protobuf recordIO, Amazon SageMaker convertit chaque observation dans le DataSet en une représentation binaire en tant que jeu de flotteurs à 4 octets et le charge ensuite vers le champ de valeurs protobuf. Si vous utilisez Python pour la préparation de vos données, nous vous recommandons vivement d`utiliser ces transformations existantes. Toutefois, si vous utilisez une autre langue, le fichier de définition protobuf ci-dessous fournit le schéma que vous utilisez pour convertir vos données au format protobuf Amazon SageMaker. La plupart des algorithmes Amazon SageMaker fonctionnent mieux lorsque vous utilisez le format de protobuf recordIO optimisé pour les données d`apprentissage. L`utilisation de ce format vous permet de tirer parti du mode pipe lors de la formation des algorithmes qui le supportent. Le mode fichier charge toutes vos données depuis Amazon Simple Storage Service (Amazon S3) vers les volumes d`instance de formation.

En mode canalisation, votre job de formation diffuse des données directement à partir d`Amazon S3. Le streaming peut fournir des temps de démarrage plus rapides pour les travaux de formation et un meilleur débit. Avec le mode pipe, vous réduisez également la taille des volumes Amazon Elastic Block Store pour vos instances d`apprentissage. Le mode pipe n`a besoin que d`un espace disque suffisant pour stocker vos artefacts de modèle finaux. Le mode fichier a besoin d`espace disque pour stocker vos artefacts de modèle finaux et votre jeu de données d`apprentissage complet. Consultez la spécification AlgorithmSpecification pour plus de détails sur le mode d`entrée de formation. Pour obtenir un résumé des formats de données pris en charge par chaque algorithme, consultez la documentation relative aux algorithmes individuels ou à cette table. Les modèles Amazon SageMaker sont stockés en tant que Model. tar. gz dans le compartiment S3 spécifié dans le paramètre OutputDataConfig S3OutputPath de l`appel create_training_job.

Vous pouvez spécifier la plupart de ces artefacts de modèle lors de la création d`un modèle d`hébergement. Vous pouvez également les ouvrir et les consulter dans votre instance de bloc-notes. Lorsque Model. tar. gz est non Tarred, il contient model_algo-1, qui est un objet Apache MXNet sérialisé. Par exemple, vous utilisez ce qui suit pour charger le modèle k-means en mémoire et l`afficher: COE, MT 2000: modélisation des systèmes hydrologiques terrestres à l`échelle continentale: test de la précision d`un GCM atmosphérique, Journal du climat, 13, 686-704 beaucoup d`Amazone Les algorithmes SageMaker prennent en charge la formation avec des données au format CSV. Pour utiliser des données au format CSV pour la formation, dans la spécification de canal de données en entrée, spécifiez Text/CSV comme ContentType. Amazon SageMaker requiert qu`un fichier CSV n`ait pas d`enregistrement d`en-tête et que la variable cible se trouve dans la première colonne. Pour exécuter des algorithmes d`apprentissage non supervisés qui n`ont pas de cible, indiquez le nombre de colonnes d`étiquettes dans le type de contenu. Par exemple, dans ce cas`Text/CSV; label_size = 0 `. Le modèle THMB (modèle d`hydrologie terrestre avec biogéochimie) (anciennement connu sous le nom d`HYDRA) simule le flux d`eau à travers les eaux souterraines, les rivières, les lacs et les zones humides. THMB est l`un des rares modèles hydrologiques qui simulent le système d`eau douce complet.

Réponses sous forme de recommandations discrètes — considérez cette question: « sur la base des réponses passées aux envois postaux, quel est le contenu recommandé pour chaque client? » Dans ce cas, vous êtes à la recherche d`une recommandation sur ce qu`il faut envoyer, pas si le courrier, le client. Pour ce problème, Amazon SageMaker fournit l`algorithme Factorization machine Algorithm. Algorithme de modèle de sujet neuronal (NTM) — une autre technique non supervisée pour déterminer des rubriques dans un ensemble de documents, à l`aide d`une approche de réseau neuronal.