Title: First steps towards statistical modeling of dialogue to predict the speech act type of the next utterance
Abstract: We propose a statistical dialogue modeling method based on the information theory and the speech act theory. The dialogue model consists of a trigram of utterances classified by their speech act. It can be used to rule out erroneous speech recognition candidates that are syntactically and semantically correct, but contextually incorrect, by examining whether the utterance candidates form a natural local discourse in terms of speech act sequencing. Since it is based on the information theory, we can define objective measures for the quality of the dialogue model, such as discourse perplexity. We show that the dialogue model can predict the speech act type of the next utterance by experiments on 100 keyboard dialogues, that include 2,722 utterances and 38,954 words. It achieves 39.7% prediction accuracy for the top candidate and 61.7% for the top three candidates, when 90 dialogues were used for training and the remaining 10 dialogues were used for testing. We also show that we can make a better language model by combining the dialogue model with a sentence model. The word perplexity of word bigram with speech act type trigram is 7.27, while that of simple word bigram is 11.6, when the word perplexity of the language models is computed using the 100 keyboard dialogues. Eine statistische Dialogmodellmethode, die auf der Informations- und Sprechakttheorie basiert wird hierin vorgeschlagen. Das Dialogmodell besteht aus einem Trigramm von sprachlichen Äuβerungen, die dem Sprechakt nach kalssifiziert sind. Es kann dazu benutzt werden, fehlerhafte Kandidaten (syntaktisch und semantisch korrekt, aber im Kontext falsch) nach der Spracherkennung zu eliminieren, indem untersucht wird, ob diese Äuβerungskandidaten ein natürliches lokales Gespräch im Sinne der Sprechaktafolge bilden. Da es auf der Informationstheorie basiert, können wir objektive Messungen zur Qualität des Dialogmodells durchführen, wie z.B. zur Komplexität des Gesprächs. Anhand von 100 Experimenten mit einem Tastaturdialog, der 2722 Äuβerungen und 38954 Wörter umfaβt, wird gezeigt, daβ dieses Modell den Sprachakttype der nächsten sprachlichen Äuβerung voraussagen kann. Es erreicht 39,7% korrekter Voraussagen für den ersten Kandidaten und 61,7% für die drei ersten Kandidaten, wenn 90 Dialoge für das Training und 10 Dialoge für den Test benutzt werden. Des weiteren wird gezeigt, daβ das Sprachmodell durch die Kombination des Dialogmodells mit dem Satzmodell verbessert werden kann. Die Komplexität der Wortbigramme in Verbindung mit den Trigrammen des Sprechakts beträgt 7,27, wobei die eines einfachen Wortbigramms nur bei 1,16 liegt. Nous proposons une méthode statistique de modélisation du dialogue basée sur la théorie de l'information et la théorie des actes de langage. Le modèle du dialogue consiste en trigrammes d'énoncés classés en fonction de leurs actes de langage associés. Il peut être utilisé pour éliminer, à la sortie de l'étage de reconnaissance, les candidats erronés (syntaxiquement et sémantiquement corrects mais incorrects d'un point de vue contextuel) en examinant si ces énoncés candidats forment un discours local naturel du point de vue du séquencement des actes de langage. Comme ce modèle est basé sur la théorie de l'information, nous pouvons définir des mesures objectives de la qualité du modèle de dialogue, comme la perplexité du discours. Des expériences sur 100 dialogues au clavier, incluant 2722 énoncés et 38954 mots, montrent que ce modèle de dialogue peut prédire le type d'acte de langage de l'énoncé subséquent. En utilisant 90 dialogues pour l'apprentissage et les 10 autres dialogues pour le test, on obtient un score de prédiction correcte de 39.7% pour le premier candidat et de 61.7% pour les 3 premiers candidats. Nous montrons également que l'on peut améliorer le modèle de langage en combinant le modèle de dialogue avec le modèle de phrases. Calculée sur les 100 dialogues, la perplexité de mots des bigrammes de mots associés à des trigrammes d'actes de langage est de 7.27 alors que celle d'un simple bigramme de mots est de 1.16.
Publication Year: 1994
Publication Date: 1994-12-01
Language: en
Type: article
Indexed In: ['crossref']
Access and Citation
Cited By Count: 72
AI Researcher Chatbot
Get quick answers to your questions about the article from our AI researcher chatbot