Le modèle thématique corrélé (CTM) a été introduit pour la première fois par Blei et Laffère (2007) pour trouver de fortes corrélations entre les sujets. Par exemple, un document sur la géologie est plus susceptible d`être aussi sur l`archéologie que la génétique. Troisièmement, ARTM simplifie considérablement la conception et l`inférence des modèles thématiques multi-objectifs. Au stade de la conception, nous formalisons chaque exigence pour le modèle sous la forme d`un regularizer, un critère à maximiser. Au stade de l`inférence, nous différencions simplement chaque régularisateur par rapport aux paramètres du modèle. La rubrique d`arrière-plan ({tin B} ) contient des mots Lexis communs. Les distributions d`arrière-plan (p (w {vert} t) ) et (p (d {vert} t) ) sont lisses, car les mots d`arrière-plan se produisent dans de nombreux documents. Un modèle de sujet avec fond peut être considéré comme une généralisation de modèles robustes, qui n`utilisent qu`une seule distribution de fond (Chemudugunta et al. 2007; Potapenko et Vorontsov 2013). Des centaines d`extensions LDA ont été développées récemment pour modéliser les phénomènes de langage naturel et pour incorporer des informations supplémentaires sur les auteurs, le temps, les étiquettes, les catégories, les citations, les liens, etc. (Daud et al.

2010). La plupart des approches existantes impliquent une évaluation humaine. Newman et coll. (2009) demandent aux experts d`évaluer l`utilité des sujets par une échelle de 3 points. Chang et coll. (2009) préparent des listes de 10 mots les plus fréquents pour chaque sujet, en pénétrant un mot aléatoire dans chaque liste. Un sujet est considéré comme interprétable si les experts peuvent identifier correctement le mot d`intrusion. L`approche basée sur l`homme est importante au stade de la recherche, mais elle interdit une construction entièrement automatique du modèle thématique. Dans la section 4, nous travaillons sur un pool de régularisateurs en révisant les modèles de sujets connus.

Nous proposons une interprétation alternative de LDA en tant que régularisateur qui minimise la divergence Kullback – Leibler avec une distribution multinomiale fixe. Ensuite, nous considérons les régularisateurs pour le lissage, l`épargne, l`apprentissage semi-supervisé, la corrélation des sujets et la décorrelation, la maximisation de la cohérence des rubriques, la liaison de documents et la classification des documentments. La plupart d`entre eux exigent des calculs fastidieux dans l`approche bayésienne, alors que ARTM conduit à des résultats similaires “en une seule ligne”. La sparsité d`un modèle est mesurée par le rapport des éléments zéro dans les matrices (varPhi ) et (varTheta ) sur les rubriques spécifiques au domaine (S ). Dans cet article, nous proposons une approche semi-probabiliste nommée ARTM — régularisation additive des modèles thématiques. Il est basé sur la maximisation de la somme pondérée de la probabilité logarithmique et des critères de régularisation supplémentaires. L`apprentissage d`un modèle de sujet est considéré comme un problème d`optimisation multi-critères, qui est ensuite réduit à un problème de critère unique via la scalarisation. Pour résoudre le problème d`optimisation, nous utilisons un algorithme EM général régularisé.

Par rapport à l`approche bayésienne dominante, ARTM évite les hypothèses probabilistes excessives, simplifie l`inférence du modèle de sujet et permet d`utiliser n`importe quelle combinaison de regularizers. Dans la section 2, nous décrivons le modèle d`analyse sémantique latente probabiliste (PLSA), le prédécesseur historique de LDA. Nous introduisons l`algorithme EM du point de vue optimizational. Ensuite, nous montrons expérimentalement sur les données synthétiques que PLSA et LDA donnent des solutions non uniques et instables. En outre, nous utilisons PLSA comme base plus appropriée pour une régularisation plus forte axée sur les problèmes. Premièrement, nous ne visons pas à construire un modèle probabiliste de texte entièrement génératif. De nombreuses exigences pour un modèle de sujet peuvent être plus naturellement formalisées en termes de critères d`optimisation plutôt que de distributions antérieures. Les Regularizers n`ont peut-être aucune interprétation probabiliste. La structure des modèles régularisés est si simple que leur représentation et leur explication en termes de modèles graphiques ne sont plus nécessaires.

Ainsi, ARTM s`inscrit dans la tendance à éviter des hypothèses probabilistes excessives dans le traitement du langage naturel.