Textklassifikation - PowerPoint PPT Presentation

About This Presentation
Title:

Textklassifikation

Description:

CIS Subject Identifier and Content Extractor Version 5.0 ... i: Information from content extractor. o: Offensive content filter -it|h|f: Input format ... – PowerPoint PPT presentation

Number of Views:32
Avg rating:3.0/5.0
Slides: 11
Provided by: petra3
Category:

less

Transcript and Presenter's Notes

Title: Textklassifikation


1
Textklassifikation
  • Der Scirus-Classifier

2
Überblick
  • Komplexes Programm
  • Porno-Filter
  • Extraktion von Namen
  • Klassifikation aufgrund von Text
  • Klassifikation nach URL/Title
  • Feste Klassifikation aufgrund einer URL-Liste
  • Extraktion von Titel/Autor/Abstract etc bei
    Artikeln
  • Ausgabe von Refinement-Termen
  • Hier nur von Interesse Klassifikation aufgrund
    des textuellen Inhalts

3
Textklassifikation
  • Lexikonbasiert
  • Phrasen oder Wörter
  • Erhalten Gewicht für jede Kategorie
  • Starke Indikatoren
  • Klassifikation durch Berechnung eines Scores
  • Für jedes Vorkommen wird für jede Kategorie ein
    Zähler hochgesetzt
  • Normalisierung nach Dokumentlänge
  • Schwellenwert

4
Konfiguration
5
Konfigurations-Datein
  • //Number of words to process for subject
    identification
  • NWDS2000000
  • MINWORDS100
  • THRESHOLD1
  • SUBJgen all 0 0
  • SUBJchem all 1 0
  • SUBJcomp all 2 0
  • SUBJeng all 3 0
  • SUBJenv all 4 0
  • SUBJgeo all 5 0
  • SUBJastro all 6 0
  • SUBJlife all 7 0
  • SUBJmath all 8 0
  • SUBJmat all 9 0
  • SUBJmed all 10 0
  • .

6
Aufruf
  • CIS Subject Identifier and Content Extractor
    Version 5.0
  • USAGE classifier -help -oslA -itfh
    -silent -c CONFIG_FILE -nout -uat
    -URLltfilenamegt -smdltnumbergt -ps -t
    FILES_TO_IDENTIFY
  • -h print help
  • -c CONFIG_FILE Name of the configuration file.
    Default is ././config.txt
  • -oslA Output format
  • -os Short only print well identified
    subjects(default)
  • -ol Long print all subjects
  • -ot Topics only are output one line
  • Format filenameWORDCOUNTGENERALSCIEN
    CESCORETOPICSWITHSCORE
  • -oA Store and print all phrases for a
    topic
  • -oT Print all phrases found in the
    dictionary
  • (Used for dictionary testing only)
  • -Ttio Tasks to carry out and to output
    (default all are set)
  • t Topic identification
  • i Information from content extractor
  • o Offensive content filter
  • -ithf Input format

7
Ablauf
  • Einlesen des Textes bis zur spez. Anzahl von
    Wörtern
  • Abgleich mit dem Lexikon
  • Berechnen des Scores
  • Ausgabe des Ergebnisses in Abhängigkeit vom
    Schwellenwert

8
Scoring Formel
  • Sei
  • d Dokument,
  • c Kategorie,
  • t Term,
  • l(t) Länge von t,
  • wn(t) Wortanzahl in t,
  • q(t,c) Gewicht von t für c und
  • s(t,c) starker Indikator t für c
  • T(c) Klassifikations-Schwellenwert für c
  • W min(Wörter im Dokument, max proz. Wörter)
  • Score(d,c) ?t?d (l(t)/2 (wn(t) -1) x 2) x
    q(t,c))/W
  • Si-score(d,c) ?t?d s(tc)
  • d wird als c klassifiziert gdw. Si-score(d,c) gt 1
    score(d,c) gt T(c)

9
Klassifikations-Lexikon
  • Format TERM.INFO1/INFO2/...
  • INFO TOPICSFREQUENCYQUALITYLENGTHTYPEALONEO
    UTPUT
  • TOPICS MAINSUB
  • FREQUENCY 1 (not used)
  • QUALITY 0...9
  • LENGTH (number of words)
  • TYPE 0..3
  • 0 genuine topic-subtopic indicator
  • 1 only to distinguish between subtopics, not
    indicating topic itself
  • 2 as 0, but word is to be counted only if there
    are other phrases for same subtopic, with TYPE 0
  • 3 as 1, but word is to be counted only if there
    are other phrases for same subtopic, with TYPE 0
  • ALONE 0/1 strong indicator
  • OUTPUT Ø,, PHRASE

10
Klassifikations-Lexikon
  • Beispiel
  • a vinculo matrimonii.18010300
  • a-37 aircraft.14011301a 37 aircraft
  • a-address register.2011301a address
    register
  • a-bomb survivors.7018301a bomb survivors
  • a-c substitutions.15018301a c
    substitutions/7018301a c substitutions
  • a-calcium-calmodulin kinase.11018401a
    calcium-calmodulin kinase
  • a-chromanoxyl radical.7018301a chromanoxyl
    radical
  • a-crystallin gene.15018301a crystallin
    gene/7018301a crystallin gene
  • a-d conversion.3011301a d conversion
  • a-d converter.13011301a d
    converter/3011301a d converter/901130
    1a d converter
  • a-deficient mice.11017301a deficient
    mice/15018301a deficient mice
  • a-delta activity.11018301a delta activity
Write a Comment
User Comments (0)
About PowerShow.com