NLG Workshop

  • Published on
    05-Aug-2015

  • View
    63

  • Download
    4

Embed Size (px)

Transcript

<p> 1. Aspekte der Natural Language Generation Esther Seyffarth, Ronja Laarmann-Quante TaCoS 25, 15./16.05.2015, Mnchen 2. TaCoS 25, Mnchen 21/05/15 2 Anwendungsbereiche der NLG sehr formale Texte Automatische Wetterberichte Automatische Routenbeschreibung (Navi) etwas formale Texte Produktbeschreibung (E-Commerce) SEO-Text auf Webseiten Automatische Zusammenfassung sehr informelle Texte Chatbot zur Unterhaltung (z.B. ELIZA) Twitterbot (als Kunstform oder zur Verbreitung von Informationen) Spam? Handy-Sprachsteuerung (z.B. Siri, Google Now) 3. TaCoS 25, Mnchen 21/05/15 3 Wichtige Eigenschaften natrlicher Sprache Um Sprache generieren zu knnen, mssen wir zunchst herausfinden, was die Natrlichkeit natrlicher Sprache konkret ausmacht. Die Ergebnisse der Sprachgenerierung sollen idealerweise nicht wie generierte Texte wirken! Tricks, um die wahrgenommene Natrlichkeit zu erhhen: Schreibfehler Interjektionen Ungenauigkeit im Ausdruck 4. TaCoS 25, Mnchen 21/05/15 4 Beispiel: Eigenschaften von Chatsprache 1. Freie Plauderchats marc30: ich mal wieder nich... quaki: was hast denn zori?? quaki: erzhl Lantonie: Das hast du dir verdient, zori? TomcatMJ: oh man wat frn krawall hier drauen...*guck* zora: nur einsen *brustschwell* stoeps: ree :-))) Quelle: Dortmunder Chatkorpus (http://www.chatkorpus.tu-dortmund.de/) Phonetisch motivierte Abweichungen Aktionswrter Akronyme Emoticons 5. TaCoS 25, Mnchen 21/05/15 5 Beispiel: Eigenschaften von Chatsprache 2. Professionelle Chats BENUTZER: vielen Dank. AUSKUNFT: Bittesehr. Haben Sie weitere Fragen? BENUTZER: noch eine frage: AUSKUNFT: Ja? BENUTZER. ich studiere in essen an einer fachhochschule (FOM) kann ich bcher aus der lehrbuchsammlung berhaupt ausleihen? AUSKUNFT: Nur wenn Sie in der FH Dortmund, Bochum, Gelsenkirchen oder Hagen studieren Quelle: Dortmunder Chatkorpus (http://www.chatkorpus.tu-dortmund.de/) Tokenisierungsfehler Kleinschreibung 6. TaCoS 25, Mnchen 21/05/15 6 Beispiel: Eigenschaften von Chatsprache 3. Plauderchats im Medienkontext totty: Renie, wenn du mir endlich ne Erhhung gestatten wrdest, wre och vieles einfacher ;-)) Revoluzzer: @heiland: KLAR DOCH, wenn eine Frau arbeitet und nen Kind hat ist das gleich ne Rabenmutter Revoluzzer: so sieht's aus im Vaterland Heiland11: In meiner generation nicht Gonzman: @revo so krass sehe ich das aba auch net Quelle: Dortmunder Chatkorpus (http://www.chatkorpus.tu-dortmund.de/) Vollgroschreibung Adressierungen 7. TaCoS 25, Mnchen 21/05/15 9 Exkurs: Maschinen mit Persnlichkeit Einem Computer das Verstehen von Sprache beizubringen, ist Zukunftsmusik. (Warum?) Wir knnen aber Regeln definieren, die es so aussehen lassen, als wrde der Computer wissen, worum es geht: George: Im George. ELIZA: Do you believe it is normal to be George? George: I dont know. Ive been George all my life. ELIZA: Tell me more about that. Alle pragmatischen Aspekte menschlicher Unterhaltungen knnen vom Computer hchstens simuliert werden. 8. TaCoS 25, Mnchen 21/05/15 10 Generierte Texte: E-Commerce Mit dem UE48H6270 erhalten Sie einen LED-Fernseher von Samsung mit einer Display-Diagonale von 121 cm (48 Zoll). Der Samsung UE48H6270 bietet brillante 3D-Bilder in scharfer Full HD-Auflsung sowie eine kabellose Datenbertragung. Das sparsame Display des LED- Fernsehers garantiert eine reflexionsarme Darstellung mit warmen und natrlichen Farben. Die Full HD-Auflsung auf dem Samsung UE48H6270 bietet ideale Voraussetzungen, um auf dem LED-Fernseher Kinofilme in brillanter Qualitt zu genieen. 9. TaCoS 25, Mnchen 21/05/15 11 Generierte Texte: SEO Delikate Spezialitten bei einem Lieferdienst in 80538 Mnchen bestellen Ein zuverlssiger Tipp sind die leckeren Gerichte Rigatoni Spinaci, Hummerkrabben in Erdnusssauce oder Gebratener Reis mit Hhnerfleisch. Nur selten zu finden, aber dennoch einen Versuch wert: Hagen Dazs Cookies und Cream, 500 ml. Der Mindestbestellwert im Durchschnitt bei Essen Zustellservices in 80538 Mnchen betrgt 22 Euro. 10. TaCoS 25, Mnchen 21/05/15 12 Generierte Texte: Automatische Zusammenfassung Bundeswehr in Kongo Die Parlamentsarmee Die berlegungen , ein Kontingent der Bundeswehr zur Absicherung der Wahlen nach Kongo zu schicken , stehen unter keinem guten Stern . Fr Angela Merkel stand wohl auch schnell fest , dass die Bundesrepublik das den Einsatz fhrende Land sein wrde . Der Verteidigungsminister , obwohl in die berlegungen eingebunden , tat jedoch so , als sei die Entscheidung lngst noch nicht gefallen . 11. TaCoS 25, Mnchen 21/05/15 13 Generierte Texte: Automatische Zusammenfassung ( 23.03.2006 ) Bundeswehr in Kongo Die Parlamentsarmee Die berlegungen , ein Kontingent der Bundeswehr zur Absicherung der Wahlen nach Kongo zu schicken , stehen unter keinem guten Stern . Fr die Bundeskanzlerin war relativ frh klar , dass Deutschland sich einem entsprechenden Wunsch der UN nicht wrde entziehen knnen . Fr Angela Merkel stand wohl auch schnell fest , dass die Bundesrepublik das den Einsatz fhrende Land sein wrde . Aus beidem hat sie kein Hehl gemacht . Der Verteidigungsminister , obwohl in die berlegungen eingebunden , tat jedoch so , als sei die Entscheidung lngst noch nicht gefallen . Das rcht sich nun . In beiden Regierungsfraktionen gibt es heftigen Widerstand gegen eine nicht schlssig vermittelte Operation der Bundeswehr in Westafrika . Die Bundeswehr aber ist eine Parlamentsarmee . Nur die Abgeordneten knnen Auslandseinstze anordnen . Die Soldaten haben jedoch einen moralischen Anspruch darauf , dass der Bundestag mit groer Mehrheit hinter dem Auftrag steht . Schlielich geht es um ihr Leben . Beim derzeitigen Stand der Debatte fehlen also die Voraussetzungen fr eine Kongomission . apz 12. TaCoS 25, Mnchen 21/05/15 14 Automatische Zusammenfassung Idee: Text Aneinanderreihung irgendwelcher Stze U.a. semantische Relationen zwischen Wrtern Lexikalische Kette (Morris &amp; Hirst, 1991): Sequenz von Wrtern, zwischen denen semantische Relationen bestehen Fr die Bundeskanzlerin war relativ frh klar , dass Deutschland sich einem entsprechenden Wunsch der UN nicht wrde entziehen knnen . Fr Angela Merkel stand wohl auch schnell fest , dass die Bundesrepublik das den Einsatz fhrende Land sein wrde . = thematische Einheit 13. TaCoS 25, Mnchen 21/05/15 15 Automatische Zusammenfassung Anwendung fr die automatische Textzusammenfassung nach Barzilay und Elhadad (1997): 1. Bestimmung thematischer Einheiten eines Textes mithilfe lexikalischer Ketten (z. B. mithilfe von Wiktionary) Was wird thematisch im Text behandelt? 2. Gewichtung der Ketten, Bestimmung von starken Ketten Worum geht es im Text hauptschlich? 3. Extraktion von Stzen als Reprsentanten fr die jeweilige thematische Einheit Welche Stze spiegeln konkret das jeweilige Thema wider? 14. TaCoS 25, Mnchen 21/05/15 16 Lexikalische Ketten ( 23.03.2006 ) Bundeswehr in Kongo Die Parlamentsarmee Die berlegungen , ein Kontingent der Bundeswehr zur Absicherung der Wahlen nach Kongo zu schicken , stehen unter keinem guten Stern . Fr die Bundeskanzlerin war relativ frh klar , dass Deutschland sich einem entsprechenden Wunsch der UN nicht wrde entziehen knnen . Fr Angela Merkel stand wohl auch schnell fest , dass die Bundesrepublik das den Einsatz fhrende Land sein wrde . Aus beidem hat sie kein Hehl gemacht . Der Verteidigungsminister , obwohl in die berlegungen eingebunden , tat jedoch so , als sei die Entscheidung lngst noch nicht gefallen . Das rcht sich nun . In beiden Regierungsfraktionen gibt es heftigen Widerstand gegen eine nicht schlssig vermittelte Operation der Bundeswehr in Westafrika . Die Bundeswehr aber ist eine Parlamentsarmee . Nur die Abgeordneten knnen Auslandseinstze anordnen . Die Soldaten haben jedoch einen moralischen Anspruch darauf , dass der Bundestag mit groer Mehrheit hinter dem Auftrag steht . Schlielich geht es um ihr Leben . Beim derzeitigen Stand der Debatte fehlen also die Voraussetzungen fr eine Kongomission . apz 15. TaCoS 25, Mnchen 21/05/15 17 Stze in der Zusammenfassung ( 23.03.2006 ) Bundeswehr in Kongo Die Parlamentsarmee Die berlegungen , ein Kontingent der Bundeswehr zur Absicherung der Wahlen nach Kongo zu schicken , stehen unter keinem guten Stern . Fr die Bundeskanzlerin war relativ frh klar , dass Deutschland sich einem entsprechenden Wunsch der UN nicht wrde entziehen knnen . Fr Angela Merkel stand wohl auch schnell fest , dass die Bundesrepublik das den Einsatz fhrende Land sein wrde . Aus beidem hat sie kein Hehl gemacht . Der Verteidigungsminister , obwohl in die berlegungen eingebunden , tat jedoch so , als sei die Entscheidung lngst noch nicht gefallen . Das rcht sich nun . In beiden Regierungsfraktionen gibt es heftigen Widerstand gegen eine nicht schlssig vermittelte Operation der Bundeswehr in Westafrika . Die Bundeswehr aber ist eine Parlamentsarmee . Nur die Abgeordneten knnen Auslandseinstze anordnen . Die Soldaten haben jedoch einen moralischen Anspruch darauf , dass der Bundestag mit groer Mehrheit hinter dem Auftrag steht . Schlielich geht es um ihr Leben . Beim derzeitigen Stand der Debatte fehlen also die Voraussetzungen fr eine Kongomission . apz X X X X X X X X X X X X Precision: 0.8 Recall: 0.57 F-Score: 0.67 16. TaCoS 25, Mnchen 21/05/15 18 Einfachste Textgenerierungsprojekte Im simpelsten Fall kann ein generierter Text die Form haben, dass Inhalte nach fest vorgegebenen Zusammensetzungsregeln kombiniert werden. 17. TaCoS 25, Mnchen 21/05/15 19 Einfachste Textgenerierungsprojekte (2) Bei einer ausreichend groen Datenbasis kann diese Methode zu berraschenden und sogar zufriedenstellenden Ergebnissen fhren! Quelle: Twitterbot @VergleichBot: https://twitter.com/vergleichbot 18. TaCoS 25, Mnchen 21/05/15 20 Einfachste Textgenerierungsprojekte (3) Zustzlich zu einem Satz-Template, das mit Inhalten befllt wird, kann man auch weitere Bedingungen definieren, die die Inhalte erfllen mssen. Quelle: Twitterbot @ParsExToto: https://twitter.com/parsextoto 19. TaCoS 25, Mnchen 21/05/15 21 Komplexere Textgenerierungsprojekte Im National Novel Generation Month schreibt man zwischen 1. und 30. November ein Programm, das einen Roman von 50.000 Wrtern erzeugt. Weitere Spielregeln gibt es nicht. Der Roman kann auch aus 50.000 Wiederholungen des Wortes meow bestehen. (Siehe Einreichung #50 des NaNoGenMo 2014.) Weil die Mindestanforderung so simpel ist, ldt der NaNoGenMo dazu ein, beliebig herumzuexperimentieren und kreativ zu sein. 20. TaCoS 25, Mnchen 21/05/15 22 NaNoGenMo Um einen Text von 50.000 Wrtern zu erzeugen, brauchen wir eine Datenbasis, anhand derer wir unserem Programm Sprache beibringen knnen. Viele Teilnehmer/innen haben 2014 Tweets als Korpus verwendet. It's 3:00pm and I'm in my pj's. That's allowed on a Sunday, right? It's 3:01PM and Raymond Felton is still a Knick. Obama's America. It's 3.02pm and all I have achieved today is getting out of bed, and that was only about 20 minutes ago. It's 3:03pm and I haven't had anything to eat all day! I'm kindaaaa hungry but idk what I wanna eat. It's 3:04pm and I haven't had lunch.... It's 3:05pm and all finished , what to do for the next 3 hours ... any suggestions? 21. TaCoS 25, Mnchen 21/05/15 23 NaNoGenMo Markov-Ketten sind ein beliebtes Mittel zur Generierung von Texten wenn sie etwas abgedreht klingen drfen Zhrechen irstie Ton sicheit vortenundeute dieen mehr Kon mus ab. kund Verg ver etkrischte, dig das eine Proch geriser in den Zorne eilichte war plinste sich hiellen Ton, ung, esagen Wohl, und diegen zug inen hft und esen hier gengmalecht =Grobendir ja Jundemeheugen Hiem ertgeniche sal da Bruchkeinsen Jer Oberr Seine abert. Un Gevorstanntwobarde, derze. 22. TaCoS 25, Mnchen 21/05/15 24 Ressourcen, Ressourcen, Ressourcen! Es gibt im Internet sehr viele sehr gute Ressourcen fr die freie Textgenerierung. Einige davon stellen wir im folgenden vor. Die Ressourcen sind nach ihrer Form thematisch sortiert: Wortlisten (ungewhnliche) Textkorpora APIs Interessante Datenstze 23. TaCoS 25, Mnchen 21/05/15 25 Wortlisten SwearJar: https://github.com/joshbuddy/swearjar/blob/master/lib/confi g/en.yml "bullshit": ["inappropriate"] "cyberfuck": ["sexual"] "dickwad": ["insult"] "dickweasel": ["insult"] "dickweed": ["insult"] "dickwod": ["insult"] 24. TaCoS 25, Mnchen 21/05/15 26 Wortlisten Deutsche Wortliste (ohne Annotationen): http://sourceforge.net/projects/germandict/?source=typ_re direct anilinblau bescherend Dynamikforderungen Flugbenzintanks Kinderglcksspielen Satellitenempfangsanlagen Zeittiefe 25. TaCoS 25, Mnchen 21/05/15 27 Wortlisten Datenbank mit einigen Wrtern (NN, ADJ, V) der Wortliste: https://github.com/noeddl/parsextoto/blob/master/parsextot o.sqlite 26. TaCoS 25, Mnchen 21/05/15 28 Wortlisten CMU Pronouncing Dictionary: http://www.speech.cs.cmu.edu/cgi-bin/cmudict Download als Textdatei mglich, das Dictionary ist aber auch im NLTK unter dem Namen gutenberg.cmudict enthalten SLANTING S L AE1 N T IH0 NG SLAP S L AE1 P SLAPDASH S L AE1 P D AE2 SH SLAPE S L EY1 P SLAPHAPPY S L AE1 P HH AE2 P IY0 SLAPPED S L AE1 P T SLAPPEY S L AE1 P IY0 SLAPPING S L AE1 P IH0 NG SLAPS S L AE1 P S SLAPSTICK S L AE1 P S T IH2 K 27. TaCoS 25, Mnchen 21/05/15 29 Wortlisten WordNet: http://wordnet.princeton.edu/wordnet/download/ Zugriff auch ber das NLTK mglich (Python) 00046577 02 r 01 extremely 0 00101565884 a 0101 | to an extreme degree; "extremely cold"; "extremely unpleasant" 00046695 02 r 01 drop-dead 0 001 ;u 07059049 n 0000 | extremely; "she was drop-dead gorgeous" 00046791 02 r 01 beyond_measure 0 000 | in excess or without limit; "amazed beyond measure" 28. TaCoS 25, Mnchen 21/05/15 30 Wortlisten Corpora, von Darius Kazemi: https://github.com/dariusk/corpora { "description": "A list of beer categories.", "beer_categories": [ "belgian and french ale", "british ale", "german ale", "german lager", "international ale", "international lager", "irish ale", "north american ale", "north american lager", "other lager", "other style" ] } 29. TaCoS 25, Mnchen 21/05/15 31 Wortlisten Wiktionary Verzeichnisse http://de.wiktionary.org/wiki/Kategorie:Verzeichnisse Hufigste Vor- und Nachnamen Deutschlands Fachbegriffe verschiedenster Bereiche Homophone Substantive, deren Stammvokal im Plural umgelautet wird Disney-Figuren Tierlaute 30. TaCoS 25, Mnchen 21/05/15 32 Textkorpora Reddit-Korpus (csv): https://github.com/umbrae/reddit-top- 2.5-million/tree/master/data 31. TaCoS 25, Mnchen 21/05/15 33 Textkorpora Enron-Email-Korpus: http://www.cs.cmu.edu/~./enron/ 500.000 Mails von 150 Personen; Teil der Untersuchung whrend des Enron-Skandals 2001 Achtung: Sehr groer Download! Dear Questia Series B Preferred Shareholder, The Board of Directors has adopted resolutions extending the Series Coffering in order to attempt to secure additional investors. This is noticethat the proxy holder of your shares intends to vote in favor of theresolutions, and of your right to rev...</p>