Results of the automated categorization of the Bavaria portal's internet search engine according to - PowerPoint PPT Presentation

1 / 39
About This Presentation
Title:

Results of the automated categorization of the Bavaria portal's internet search engine according to

Description:

technical reasons, resources like water, nature, energy ... 5. Agenda ... Internet-data collection from. Municipalities , Communities. Administrative district ... – PowerPoint PPT presentation

Number of Views:84
Avg rating:3.0/5.0
Slides: 40
Provided by: WEH80
Category:

less

Transcript and Presenter's Notes

Title: Results of the automated categorization of the Bavaria portal's internet search engine according to


1
Results of the automated categorization of the
Bavaria portal's internet search engine according
to the Life Event PrincipleErich
Weihserich.weihs_at_web.de, Munich, Germany
2
Agenda
  • Overview The Search Engine of the Bavarian
    Internet-Portal
  • The Life Event Principle
  • Methods for Classification the Web-Content
  • Quality Control
  • Conclusion

3
Purpose of the paper
  • It is the purpose of the paper to show that an
    automatic categorization with SVM for a search
    engine is possible with over 600 categories of
    Life Events and ca. 4.5 million sides

4
Purpose of the Search Engine
  • The search engine is part of the Bavarian portal
    www.bayern.de. to proof public Bavarian data
    like web-information from municipalities,
    communities, educational institutions, employment
    offices, chamber of commerce, state ministries
    with subordinate agencies and some other non
    government public institutions.
  • The Content is segmented according to the Life
    Event principle described below.

5
The basic idea for our Search Engine
  • is to segment the selected content of web data
    into Life Events described later and
  • not to structure the content according to
  • organization principles or
  • technical reasons, resources like water, nature,
    energy

6
Agenda
  • The Search Engine of the Bavarian Internet-Portal
  • The Life Event Principle
  • Methods for Classification the Web-Content
  • Quality Control
  • Conclusion

7
Life Events
The term "Life Events" refers to a sociological
concept, in which the interaction of various
economic, social and cultural, as well as
environment-related factors in the concrete life
situations of individuals and social groups are
included. We have defined approximately 600
events for concrete life situations, partitioned
in public and business.
8
List of the categories of the Life Event
Principle (part)
9
The Content
1
Internet-data collection from Municipalities ,
Communities Administrative district Subordinate
authorities Ministries State chancellery
Authority signpost Employment offices Chamber
of commerce Universities, technological
highschools Churches div.
  • URLs
  • ca. 4.5 mio. objects

X
10
Frequency of Selected CategoriesOctober 08 -
March 09
Sites
Work and Profession General (W P) Looking for
Jobs Information Services Taxes Health /
Health care
13.10.2008
1.3.2009
11
The Internet Supply of Selected Cities
Sites
12
Agenda
  • The Search Engine of the Bavarian Internet-Portal
  • The Life Event Principle
  • The Content
  • Methods for Classification the Web-Content
  • Quality Control
  • Conclusion

13
Why automatic Classification
4.5 million web pages changing over time with
very different content to put in order in 600
classes
14
Indexing
  With the complete indexation (perhaps more 100
pdf/doc pages)/object Text formats HTML, doc,
txt, pdf, ppt etc..    HTML code is removed and
so it is not possible to search for URLs in the
text   Problems are text and links of the Side
bars which may not be indexed (partial no
frames because of the barrier freedom) as well
referring links The contents, not the reference
to it, are sought-after
15
Methods for Classification
  • Metatags (in the web-page)
  • Semantic classifing
  • Supported Vector engine
  • Explizit Definition via URL
  • URL-Pattern

16
1.) Metatags the easiest way
depends from the use of the provider /
webmaster / webeditor
ltmeta name"ByLebenslagen" content"ByLl_MeineUmwe
lt_KartenBilder"gt ltmeta name"ByRaumbezug"
content"ByRb_GNEnglischer GartenGarten,
EnglischerEisbachEntenvolierebachKleinhesselohe
r See KöglmühlbachNeuberghausenFG1652100,ByRb_
GK125335827.0/4470675.05333493.0/4468340.0gt
17
Metatags example
18
Metatags / Source
19
2. Semantic based classification
2
The Life Event definition is made by the wording
of logical conditions this one select the desired
content of the 600 categories
  • Operators
  • and,
  • or,
  • not,
  • Term
  • near1-99
  • brackets (..)
  • Stop words
  • exclusion from URLs

20
Ideal-typical optimization of the categorisation

the result of hits is varying with n (Nearn) in
the class definition
n
Term A nearn term B
21
in practise Optimizing a parameter
3
22
Marginal utility for Information about sewage in
the field of environment
Category
23
Sematic Definition for looking for jobs
  • ((Arbeitsagentur near59 Stellensuche) ODER
    (Arbeitsagentur near59 Jobsuche) oder
    (Lebenslage near9 Stellensuche) oder
    (Lebenslage near50 Jobsuche) oder (Arbeit
    near59 Beruf und (Stellensuche oder Jobsuche))
    oder (Arbeitsagentur near59 Stellensuche) ODER
    (Arbeit near3 suche) oder (Job near3 suche)
    oder (suche near3 Arbeitsstelle) oder
    (Arbeitsagentur near59 Arbeitssuche) ODER
    (Arbeitsagentur near59 Jobsuche) oder
    (Lebenslage near9 Arbeitssuche) oder
    (Lebenslage near50 Jobsuche) oder (Arbeit
    near59 Beruf und (Arbeitssuche oder Jobsuche))
    oder (Arbeitsagentur near59 Arbeitssuche) oder
    (Arbeitsagentur near59 Stellegensuche) ODER
    (Arbeitsagentur near59 Jobsuche) oder
    (Lebenslage near9 Stellegensuche) oder
    (Lebenslage near50 Jobsuche) oder (Arbeit
    near59 Beruf und (Stellegensuche oder
    Jobsuche)) oder (Arbeitsagentur near59
    Stellegensuche) oder (Arbeitsagentur near59
    Stellensuche) ODER (Arbeitsagentur near59
    Jobsuche) oder (Lebenslage near9 Stellensuche)
    oder (Lebenslage near50 Jobsuche) oder (Arbeit
    near59 Beruf und (Stellensuche oder Jobsuche))
    oder (Arbeitsagentur near59 Stellensuche) ODER
    (Arbeit near3 suche) oder (Job near3 suche)
    oder (suche near3 Arbeitsstelle) oder
    (Arbeitsagentur near59 Arbeitssuche) ODER
    (Arbeitsagentur near59 Jobsuche) oder
    (Lebenslage near9 Arbeitssuche) oder
    (Lebenslage near50 Jobsuche) oder (Arbeit
    near59 Beruf und (Arbeitssuche oder Jobsuche))
    oder (Arbeitsagentur near59 Arbeitssuche) oder
    (Arbeitsagentur near59 Stellegensuche) ODER
    (Arbeitsagentur near59 Arbeitsangebote) oder
    (Lebenslage near9 Arbeitsangebote) oder
    (Arbeit near59 Beruf und (Arbeitsangebote oder
    Stellenangebote) oder (Arbeitsmarkt near59
    Arbeitssuche) ODER (Arbeitsagentur near59
    Arbeitsmarkt) oder (Lebenslage near9
    Arbeitsmarkt) oder (Lebenslage near50
    Arbeitsmarkt) oder (Arbeitsmarkt near59 Beruf
    und (Arbeitssuche oder Jobsuche)) oder
    (Arbeitsmarkt near59 Arbeitssuche) oder
    (Arbeitsmarkt near59 Stellegensuche) ODER
    (Arbeitsmarkt near59 Arbeitsangebote) oder
    (Lebenslage near9 Arbeitsmarkt) oder
    (Arbeitsmarkt near59 Beruf und (Arbeitsangebote
    oder Stellenangebote) oder (Arbeitsmarkt near59
    Arbeitssuche) ODER (Arbeitsagentur near59
    Arbeitsmarkt) oder (Lebenslage near9
    Arbeitsmarkt) oder (Lebenslage near50
    Arbeitsmarkt) oder (Stellenausschreibung
    near59 Beruf und (Arbeitssuche oder Jobsuche))
    oder (Stellenausschreibung near59 Arbeitssuche)
    oder (Stellenausschreibung near59
    Stellegensuche) ODER (Stellenausschreibung
    near59 Arbeitsangebote) oder (Lebenslage
    near9 Stellenausschreibung) oder
    (Stellenausschreibung near59 Beruf und
    (Arbeitsangebote oder Stellenangebote) nicht
    Buergermeister nicht Buergermeisterin nicht
    Amtsblatt nicht Anzeigenpreise nicht impressum
    nicht Stadtbranchenbuch nicht Schulanzeiger nicht
    Sportartikel nicht VHS nicht Gaestebuch nicht
    Volkshochschule nicht schule

24
3.) Statistical Classification
  • The Supported Vector engine (SVM) needed
  • between 50 and 200 learning sides" ( 10 from
    total)
  •  to build up the concept space, there are 3
    alternatives to it
  •  
  • manual choice from the Internet gt time expensive
    and subjective
  • A sample made of the data material won with
    Queries
  • Combination from 1 and 2

25
Automatic Classifing (SVM)
26
Semantic term profile versus support vector
machine (SVM)
4
Semantic Term Y
Category x
Category x
Category y
Websides
Category y
ltSuchstringgt((Database or catalog or information
system) near50 (Environment)) or ((Database or
catalog or information system) near50 (Health))
. . . . ./Suchstringgt
Semantic Term X
27
The combination of the different methods
28
Agenda
  • The Search Engine of the Bavarian Internet-Portal
  • The Life Event Principle
  • Methods for Classification the Web-Content
  • Quality Control
  • Conclusion

29
Comparision SVM ./. Semantic Classification
Category Job / Work
Category Identity Cards, Documents
30
Comparision SVM ./. Semantic Classification
Category Job / Work
Category Identity Cards, Documents
31
Semantisch versus multivariat (1)
A method comparison between semantic and SVM.
Hypothesis Both procedures open up the same data
space.
32
Semantisch versus multivariat (2)
33
Advantages for using the SVM Method
34
Method comparison between Semantic ./. SVM (1)
35
Comparison of the methods for the number of hits
in the category thunderstorm warning for the
search danger near n flood (2).
36
Agenda
  • The Search Engine of the Bavarian Internet-Portal
  • The Life Event Principle
  • Methods for Classification the Web-Content
  • Quality Control
  • Conclusion

37
Home Page of www.Bayern.de
38
Definition Umzug Move / RegistrationAbmeldun
gen, Ummeldungen und Anmeldungen
  • (Lebenslage oder Lebenslagen) UND ("Ummeldungen
    und Anmeldungen" ODER (Abmeldung oder Zuzug ))
    ODER (Einwohnermeldeamt ODER Wohnsitz near10
    Abmeldung ODER Einwohnermeldepflicht ODER
    Wohnsitz near10 Ummeldung ODER Wohnsitz
    near10 Anmeldung) Nicht Buergermeister nicht
    Buergermeisterin nicht Amtsblatt nicht
    Anzeigenpreise nicht impressum nicht
    Stadtbranchenbuch nicht Schulanzeiger nicht
    Sportartikel

39
The Web-Interface
4
Tree-Structure of the LE
X
40
Umzug in München
Umzug Homonym for moving or procession
41
Agenda
  • The Search Engine of the Bavarian Internet-Portal
  • The Life Event Principle
  • Methods for Classification the Web-Content
  • Quality Control
  • Conclusion

42
Homonym Umzug ( Procession Move)
3
43
Conclusion
  • Specific selection of the data space including
    p.e. municipalities, government, and further
    institutions of public interest
  • Use of the Live Event Principle instead of
    technical or organization criteria closer to
    the public
  • procedure choice for the categorisation
  • The advantage of the use of the SVM method is
    enhanced stability of the results when the data
    space changes over time as shown and more sides /
    category
  • specific use of Metatags in the web pages for the
    space reference and for the classification
  • specified , SOA

44
Erich Weihserich.weihs_at_web.de, Munich, Germany
Write a Comment
User Comments (0)
About PowerShow.com