Brief IA

LAI #122: Word Embeddings Started in 1948, Not With Word2Vec

🔬 Researchvia Towards AI·Towards AI Editorial Team·

LAI #122: Word Embeddings Started in 1948, Not With Word2Vec

LAI #122: Word Embeddings Started in 1948, Not With Word2Vec
En bref
1Les embeddings de mots, une technique clé en traitement du langage naturel, ont des origines remontant à 1948.
2L'article souligne l'importance historique de cette technologie dans le développement de l'IA.
3Cela remet en question la perception que Word2Vec est le point de départ des embeddings de mots, élargissant ainsi notre compréhension de l'évolution de l'IA.
💡Pourquoi c'est importantComprendre les racines des technologies d'IA peut influencer les recherches futures et les innovations dans le domaine.
📄
Article traduit en français

LAI #122 : Les embeddings de mots ont commencé en 1948, pas avec Word2Vec

Ce qui se passe entre les laboratoires d'IA et les gouvernements

À mesure que les capacités de l'IA mûrissent, la relation entre les laboratoires d'IA et les gouvernements devient rapidement complexe. Vous avez probablement vu la version simplifiée de cette histoire : Anthropic aurait tracé une ligne sur la surveillance de masse et les armes autonomes, faisant face à des réactions du gouvernement américain, tandis qu'OpenAI est intervenu pour combler le vide. Mais la réalité est plus nuancée. Les deux entreprises faisaient déjà des travaux de défense et étaient en discussions avec des agences gouvernementales. Le conflit ne portait pas sur la question de savoir si les entreprises d'IA devraient travailler avec les gouvernements, mais sur ce qui se passe lorsqu'un gouvernement demande des conditions plus larges et qu'une entreprise dit non. Cette semaine, je décompose ce qui s'est réellement passé, ce que la plupart des couvertures ont mal compris, et pourquoi ce moment établit un précédent qui va bien au-delà d'un simple cycle d'actualités.

Astuce IA du jour

Lors de l'ajustement de votre pipeline RAG, le chevauchement des segments est l'un des paramètres les plus souvent négligés. La plupart des implémentations le fixent à zéro ou à une valeur par défaut fixe.

Le chevauchement contrôle la quantité de contenu répétée entre des segments adjacents. Sans cela, la récupération peut manquer de contexte qui s'étend au-delà d'une limite de segment : la première moitié d'une explication se trouve dans un segment, la seconde moitié dans le suivant, et aucune n'est récupérée dans son intégralité. Le modèle renvoie toujours une réponse, mais elle est basée sur un contexte incomplet. Trop de chevauchement, en revanche, augmente la taille de votre index et ralentit la récupération sans gains proportionnels en rappel.

Un bon point de départ est généralement un chevauchement de 10 à 20 % de la taille de votre segment. Avant de passer à l'échelle, évaluez le rappel de récupération sur de vraies requêtes de votre domaine.

Guide Anti-Slop AI

Si vous avez déjà utilisé l'IA pour rédiger un e-mail, un article de blog ou une mise à jour de projet et passé plus de temps à éditer la sortie qu'il ne vous aurait fallu pour l'écrire vous-même, cela vous concerne. Après plus de 3 ans à éditer le même contenu de mauvaise qualité chez Towards AI, nous avons transformé notre reconnaissance de motifs en un modèle de prompt réutilisable que nous publions gratuitement.

Le Guide Anti-Slop AI contient plus de 50 phrases AI interdites, des contraintes de style, et un flux de travail à deux modèles qui détecte les erreurs avant que vous ne lisiez le brouillon. Collez-le dans n'importe quel LLM, remplissez votre sujet, et il fonctionne pour les e-mails, les rapports, les articles de blog, les propositions, et plus encore.

Opportunités de collaboration

La communauté Discord Learn AI Together regorge d'opportunités de collaboration. Si vous êtes enthousiaste à l'idée de plonger dans l'IA appliquée, souhaitez un partenaire d'étude, ou même trouver un partenaire pour votre projet passion, rejoignez le canal de collaboration !

  • Canvas123 recherche un pair ou un mentor pour collaborer sur des projets impliquant l'apprentissage automatique, l'astrophysique et les mathématiques générales.

  • Tanners1406 construit une plateforme d'orchestration et a besoin de développeurs et de testeurs précoces pour le projet.

  • Jojosef6192 se spécialise en ingénierie des données et en analytique et souhaite trouver un partenaire d'étude pour explorer des sujets tels que SQL, la visualisation des données, et Azure Data Services.

Articles à lire

  1. Construire des agents IA avancés : un guide complet sur l'architecture de ChatGPT par Ahmed Boulahia
    Cet article retrace l'évolution architecturale complète des systèmes comme ChatGPT à travers huit couches progressives, en partant d'un prompt sans état jusqu'à un assistant agentique complet.

  2. IA agentique explicable pour l'allocation autonome de tâches dans des systèmes multi-agents distribués par YUSUFF ADENIYI GIWA
    Cet article plaide pour l'intégration de l'explicabilité directement dans la couche de coordination des systèmes multi-agents.

  3. ROPE à la main comme au bon vieux temps par Dr. Swarnendu AI
    Cet article traite de l'encodage positionnel et explique chaque méthode majeure en utilisant des calculs réels.

  4. Le parcours complet à la main : tableau de co-occurrence → matrice PMI → troncature SVD → embedding de mots par Dr. Swarnendu AI
    Cet article démontre que les embeddings de mots remontent à la théorie de l'information de Claude Shannon de 1948, et non aux réseaux neuronaux.

TwitterLinkedIn

Brief IA — Veille IA quotidienne

Toutes les innovations IA du monde entier, résumées et analysées automatiquement chaque jour.