Brief IA : SAP-RPT-1 : le pari audacieux de SAP sur les modèles tabulaires

SAP-RPT-1 : le pari audacieux de SAP sur les modèles tabulaires

Brief IA
Tom Levy·6 min·0 vues

SAP-RPT-1 est un modèle fondamental tabulaire développé pour améliorer l'analyse de données, visant à simplifier le traitement des données pour les entreprises et à augmenter leur efficacité. Dans un contexte où les modèles d'IA se multiplient, SAP-RPT-1 se distingue par sa capacité à intégrer des données variées, ce qui pourrait transformer la manière dont les entreprises exploitent les données et leur offrir un avantage concurrentiel significatif.

En bref
1SAP-RPT-1, un modèle fondamental, vise à transformer l'analyse de données tabulaires avec une architecture inspirée des transformers.
2SAP investit dans des modèles tabulaires pour réduire les coûts et améliorer la performance prédictive à long terme.
3La suite SAP-RPT-1 propose des modèles adaptés à divers besoins, incluant une version open-source pour les développeurs.
💡Pourquoi c'est importantSAP-RPT-1 pourrait redéfinir la gestion des données tabulaires en entreprise, optimisant les ressources et ouvrant de nouvelles opportunités commerciales.
Le brief IA que lisent les pros

Tu suis la course aux modèles IA ?

Chaque sortie (GPT, Claude, Gemini, Mistral…) décryptée le soir même, en 5 min. Gratuit.

Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.

Choisis ton rythme

Gratuit · Pas de spam · Désabonnement en 1 clic

📄
L'analyse en français

SAP-RPT-1 : une révolution dans le traitement des données tabulaires

Intelligence Artificielle

Le modèle SAP-RPT-1 marque une avancée significative dans le domaine des modèles fondamentaux, en se concentrant sur l'exploitation de vastes ensembles de données pour accomplir une variété de tâches. Les modèles fondamentaux actuels, souvent basés sur l'architecture transformer, ont été popularisés par des géants comme Google et OpenAI. Bien que leur développement nécessite des ressources considérables, ces modèles se distinguent par leur capacité à prédire avec précision à grande échelle, à exécuter des tâches sans entraînement spécifique préalable, et à gérer divers types de données, qu'elles soient textuelles, visuelles ou auditives.

Dans un contexte où les modèles de langage comme ChatGPT sont principalement formés sur des données textuelles, l'idée d'étendre ces principes à d'autres types de données, notamment tabulaires, devient de plus en plus pertinente. Certaines entreprises, conscientes du potentiel des données tabulaires, investissent dans le développement de modèles fondamentaux adaptés à ces données. L'objectif est de transformer les investissements initiaux, souvent élevés, en bénéfices futurs significatifs, tels qu'une meilleure performance prédictive, une productivité accrue et de nouvelles sources de revenus. Historiquement, chaque cas d'utilisation nécessitait un modèle tabulaire distinct, ce qui entraînait des coûts élevés pour les entreprises ayant de multiples applications IA. En revanche, un modèle fondamental pourrait potentiellement répondre à plusieurs besoins simultanément grâce à ses capacités de généralisation, offrant ainsi une solution plus économique et efficace.

L'initiative de SAP dans les modèles tabulaires

SAP, reconnu mondialement pour ses logiciels de planification des ressources d'entreprise (ERP), a récemment attiré l'attention en lançant sa propre gamme de modèles de Transformateur Préentraîné Relationnel (RPT). Ces modèles sont conçus pour être formés sur de vastes ensembles de données historiques couvrant divers secteurs d'activité. Cet article examine comment l'approche de SAP envers les modèles fondamentaux tabulaires pourrait transformer la manière dont les entreprises utilisent ces technologies. Nous explorerons l'évolution des modèles RPT, leur architecture technique, une démonstration pratique en Python, et les avantages et inconvénients potentiels de ces modèles. Enfin, nous discuterons des stratégies futures pour les modèles fondamentaux tabulaires chez des fournisseurs d'entreprise comme SAP.

Transformateurs Préentraînés Relationnels

Le chemin vers RPT chez SAP

SAP est un acteur majeur dans le domaine des logiciels ERP, aidant les entreprises à gérer efficacement des processus critiques dans des domaines variés tels que les ventes, les finances, les ressources humaines et la logistique. Depuis plusieurs années, SAP investit dans l'intelligence artificielle, offrant à ses clients deux principaux types de modèles IA : ceux optimisés pour le langage ABAP et la base de données S/4HANA, et des modèles d'IA étroite sur la Business Technology Platform de SAP. Avec l'essor de ChatGPT, SAP a élargi son offre avec des solutions d'IA conversationnelle et générative sous la marque Joule, adaptées à des cas d'utilisation spécifiques comme la récupération de connaissances et la génération de code. SAP propose également des intégrations avec des fournisseurs tiers de modèles préentraînés, tels qu'OpenAI et Anthropic, via le Generative AI hub. Le lancement de la suite SAP-RPT-1 marque une nouvelle étape avec des modèles fondamentaux tabulaires formés sur les vastes données ERP de SAP.

Architecture technique de SAP-RPT-1

Le transformateur préentraîné relationnel (RPT) de SAP adapte l'architecture des transformers classiques pour les données tabulaires. Les modèles SAP-RPT-1 initiaux utilisent l'architecture ConTextTab, décrite par Spinaci et al. (2025), qui s'inspire de l'architecture TabPFN proposée par Hollmann et al. (2022).

TabPFN est un modèle transformer préentraîné sur des tables synthétiques, encapsulant diverses relations causales entre les cellules des colonnes. Même avec des données synthétiques, TabPFN peut surpasser d'autres modèles dans des scénarios impliquant des tables relativement petites, avec moins de 10 000 lignes, pouvant contenir des valeurs manquantes et aberrantes. Grâce à l'apprentissage en contexte (ICL), TabPFN peut se généraliser à diverses tâches de classification sans nécessiter d'optimisation supplémentaire des hyperparamètres. Cependant, l'utilisation exclusive de données synthétiques limite la capture des valeurs sémantiques significatives des ensembles de données réelles. ConTextTab résout ce problème en entraînant le transformateur sur des données réelles et en utilisant des embeddings sémantiques pour les données catégorielles et textuelles.

La suite initiale SAP-RPT-1 comprend trois modèles :

  • sap-rpt-1-small : un modèle léger pour une inférence rapide et le prototypage.
  • sap-rpt-1-large : un modèle plus grand pour une performance prédictive accrue.
  • sap-rpt-1-oss : une version open-source disponible sur HuggingFace et GitHub.

Ces modèles peuvent être utilisés pour diverses tâches de classification et de régression en utilisant l'apprentissage en contexte à quelques exemples. Une version d'essai gratuite de SAP-RPT-1 est disponible pour des évaluations non productives dans un environnement de jeu.

Mise en pratique : utilisation de SAP-RPT-1

Pour accéder à la version d'essai gratuite de SAP-RPT-1, il suffit de se connecter via un lien spécifique. Une fois connecté, un token API personnel est généré, à sauvegarder dans un fichier access_token.json pour une utilisation ultérieure.

Ensuite, créez un fichier CSV nommé sales_data_test.csv avec les données fournies. Cet ensemble de données fictif est également accessible depuis l'environnement de jeu SAP-RPT-1.

Tableau 1 : Ensemble de Données de Test

La tâche est de prédire les valeurs de la colonne SALESGROUP (indiquée par [PREDICT]) à partir des autres colonnes. SAP-RPT-1 utilise l'ICL à quelques exemples, nécessitant des lignes de contexte complètes et des lignes de requête avec [PREDICT].

Construction et envoi de la demande de prédiction

Le modèle SAP-RPT-1 exige que la charge utile de la demande soit formatée avec deux clés principales : rows et index_column. Les rows doivent être une liste d'objets dictionnaires représentant les lignes de la table de données d'entrée, et index_column doit être le nom de la colonne d'index.

Voici comment créer la charge utile de la demande à partir de sales_data_test.csv :

import pandas as pd
df = pd.read_csv("sales_data_test.csv")  # Charger le fichier CSV
rows = df.to_dict(orient="records")  # Convertir en liste de dicts
index_column = "id"
"index_column": index_column

La charge utile devrait ressembler à ceci :

"PRODUCT": "Laptop",
"PRICE": 999.99,
"CUSTOMER": "Acme Corp",
"COUNTRY": "USA",
"SALESGROUP": "[PREDICT]"

Ensuite, définissez les en-têtes de la requête HTTP :

# Charger le token
with open("access_token.json", "r") as token_file:
    token_data = json.load(token_file)
AUTH_TOKEN = token_data["access_token"]

# Définir les en-têtes de la requête HTTP
"Content-Type": "application/json",
"Authorization": f"Bearer {AUTH_TOKEN}"

Enfin, envoyez la requête POST pour obtenir les prédictions :

url = "https://rpt.cloud.sap/api/predict"
response = requests.post(url, json=payload, headers=headers)
print(response.json())

En cas d'échec de la demande, les erreurs courantes incluent :

  • Mauvaise Demande (code d'erreur 400) : souvent causée par un format de données invalide ou une erreur de validation.
  • Non Autorisé (401).

Suivez Brief IA

L'actu IA du jour, aussi dans votre fil.

Commentaires