Analýza staročeské morfologie v Excelu

  • Published on
    24-Feb-2016

  • View
    62

  • Download
    0

Embed Size (px)

DESCRIPTION

Analza staroesk morfologie v Excelu. Boris Leheka, boris@daliboris.cz oddlen vvoje jazyka stav pro jazyk esk AV R Lingvistika Praha 2014 11. dubna 16.00. Boris Leheka. boris@daliboris.c z oddlen vvoje jazyka J AV R programtor s lingvistickmi zklady - PowerPoint PPT Presentation

Transcript

Analza korpusu v Excelu

Boris Leheka, boris@daliboris.czoddlen vvoje jazykastav pro jazyk esk AV R

Lingvistika Praha 201411. dubna16.00Analza staroesk morfologie v ExceluBoris Lehekaboris@daliboris.czoddlen vvoje jazyka J AV Rprogramtor s lingvistickmi zkladyVokabul webov materily ke staenhttp://vokabular.ujc.cas.cz/informace.aspx?t=LP2014http://bit.ly/1qmOjzD

Obsahel analzydeklinace staroeskch apelativasov obdobvzoryAuditoriumanketaExcelPower Queryimport a transformace datovch zdrojprogramovac jazyk

ObsahExcelPowerPivotstamiliony poloektabulkyrelaceKontingenn tabulky a grafyVstupyvchozpo transformacipomckyUkzka

el analzydeklinace staroeskch apelativdisertan prce Pavlny Jnovasov obdobvzorylemmatakoncovkyoven vskytu tvaru/tvar

AnketaKdo pouv Excel?Jakou verzi Excelu?20102013jinou (nap. Office 365 pro vysokokolky)Jakou edici Excelu?Home and StudentProfessionalKdo zn PowerPivot?Kdo zn Power Query?Kdo zn vertiklu?Pprava dat, nebo kontingenn tabulky/grafy v Excelu?

VstupyStaroesk textov bankaMetadataidentifiktorzkratkaobdob vznikuliterrn nratp. (podle poteby)Vertiklapoznmky = metainformace

Staroesk textov banka metadata

Staroesk textov banka Word

VstupySlovnkyESS (Pib, ch)MSS (a)StS (npi)GbSlov (anetbanliv)formt XMLpravy vstupVertiklakategorizace tokenjazyktorzofunkce (interpunkce, slo)relevancesegmentace token na fonogramyzakonen13 fonogramy

Fonogramgrafick jednotka korespondujc s fonmemzmna fonmu v dsledku hlskoslovnho vvoje, flexe a/nebo slovotvorby znamen zmnu fonogramu

dievkadvkamchammouehostiehostihostiehostpravy vstupMetadata o textechvbr dajdataceasov obdobpevod z XML na CSVSlovnkylemmaslovn druhmorfologick charakteristikapravy vstup nstrojeC#transformaceDOCX > XMLXML > VERTVERT > TABMetadata > TABOpenRefinehttp://openrefine.organalza vstupstatistikyredefinice vlastnostExcel Power QueryDoplnkverze 2.10.3598.81pro Excel 2010 a 2013podmnkyWindows Vista a Window 8.1Office 2010 Professional Plus + SAOffice 2013 Professional Plus, Office 365 ProPlus, Excel 2013Principimport dat z rznch zdrojnov programovac jazyknen teba eit zabezpeen maker

Excel PowerPivotMicrosoft SQL Server 2012 PowerPivot for ExcelDoplnkpro Excel 2010od Excelu 2013 je ji soust programuverze 11.0.3129.0PodmnkyWindows XP SP3 a Window 8Office 2010 zdarma pro vechny edicev Excelu 2013 nvrh pouze v edici Professional64bitov verze (pro velk objemy dat)

Excel PowerPivotPrincipstamiliony zznamtabulkyrelaceNevhodynerozliuje velikost psmenrelaceM : Ntext != jedinen kltextov datavelk objembez redukce

Excel PowerPivotKontingenn tabulkyKontingenn grafyPrezy

Excel doporuenVstupn datatextov souboryrychl generovnlze i v Exceluidentifiktoryrelacetabulky v seitad hoc metadataaktualizacev PowerPivotuv ExceluImport v PowerPivotunejprve nastavit parametry, pak vybrat souborprvn dek jako nzvy, a po vbru souboruUkzkaMetadataXMLTXTpravyTextov bankaWordXML TEI P5Vertikla

UkzkaPowerPivotimport datvytvoen relacpotan sloupcemrytestovac datamal objemkontingenn tabulkavytveninteraktivitaprezypro vce objektkontingenn grafvytveninteraktivitaprezy

UkzkaPower Queryvytvoen dotazuoptovn sputn dotazuSeit Tokenyreln datapipraven tabulkypipraven grafytabulka a graf na pn

Analza morfologie v ExceluPlusyoff-linenen teba korpusov manaeropakovatelnost (s jinmi daty)ad hoc analzykontingenn pehledyzdarma (pro Excel 2010)Minusypprava vstupnch datchyb kontextbez pokroilch analzPostupyMryFormtovn selVelikost psmenIdentifiktoryAktualizacePowerPivotKontingenn tabulkyPropojen tabulkyPower QuerySouboryPrezyAutomaticky generovan mry maj obecn formtovn, tj. bez oddlova tisc. Je vhodn nejprve vytvoit vlastn mry, nastavit jim sprvn formtovn a pak je pout v kontingenn tabulce.Formt nastavovat v psu karet, lpe je z nabdky Formt vybrat poloku "Dal formty..." a nastavit ve ze zobrazenho dialogu.

PowerPivot velikost psmen v nzvech nerozliuje. Pi vytvoen Mry se vygeneruje automatick nzev ve tvaru "oznaen vzorce" + "nzev pole". Pokud se mn pouze jedno psmeno na mal, je poteba v nzvu zmnit na jin psmeno, pak na sprvn mal psmeno, nap. Souet Frekvence > Souet prekvence > Souet frekvence.Nerozliovn velikosti plat nap. i pro oznaen souboru v nastaven propojen.

Pro tabulku je vhodn z karty Rozen > Vlastnosti sestav > Chovn tabulky nastavit identifiktor tabulky (jedinen identifiktor dku) - dky tomu se v generovanch pehledech nebude automaticky stat, ale potat.

karta PowerPivot > Data aplikace Excel > Aktualizovat ve. Pepne do okna PowerPivotu, kde je poteba na kart Dom > Nast extern data > Aktualizovat vybrat Aktualizovat ve.Pi zobrazen jinho seznamu lze nastavit run aktualizaci (pomoc tlatka). Hod se pi nvrhu kontingennch tabulek s velkm potm dk.Pi run aktualizaci nefunguj rozbalovac tlatka uvnit tabulky.

A po aktualizaci v PowerPivotu. Na kart Data > Pipojen, tlatko Aktualizovat ve (Ctrl + Alt + F5).

Propojen tabulky: v PowerPivotu karta Odkazovan tabulka, tlatko Aktualizovat vybran

Textov soubory musej mt sprvnou podobu CSV, tj. Vetn dcch sekvenc pro dvojit rovn uvozovky a pro delimittor.Pokud se zmn kdovn, i port se nepovede: UTF8 s/bez signatury.Pejmenovan a vyputn sloupce: lze, ale pin to komplikace.

Spolen prezy nezapomenout propojit s novmi tabulkami (jinak se rozejdou poty).Nezvisl prezy lze vloit pes kontextovou kartu Monosti > Seadit a filtrovat > Vloit prez.Po odstrann tabulky se odstran i prez.

24