Title: Results of the automated categorization of the Bavaria portal's internet search engine according to
1Results of the automated categorization of the
Bavaria portal's internet search engine according
to the Life Event PrincipleErich
Weihserich.weihs_at_web.de, Munich, Germany
2Agenda
- Overview The Search Engine of the Bavarian
Internet-Portal - The Life Event Principle
- Methods for Classification the Web-Content
- Quality Control
- Conclusion
3Purpose of the paper
- It is the purpose of the paper to show that an
automatic categorization with SVM for a search
engine is possible with over 600 categories of
Life Events and ca. 4.5 million sides
4Purpose of the Search Engine
- The search engine is part of the Bavarian portal
www.bayern.de. to proof public Bavarian data
like web-information from municipalities,
communities, educational institutions, employment
offices, chamber of commerce, state ministries
with subordinate agencies and some other non
government public institutions. - The Content is segmented according to the Life
Event principle described below.
5The basic idea for our Search Engine
- is to segment the selected content of web data
into Life Events described later and - not to structure the content according to
- organization principles or
- technical reasons, resources like water, nature,
energy
6Agenda
- The Search Engine of the Bavarian Internet-Portal
- The Life Event Principle
- Methods for Classification the Web-Content
- Quality Control
- Conclusion
7Life Events
The term "Life Events" refers to a sociological
concept, in which the interaction of various
economic, social and cultural, as well as
environment-related factors in the concrete life
situations of individuals and social groups are
included. We have defined approximately 600
events for concrete life situations, partitioned
in public and business.
8List of the categories of the Life Event
Principle (part)
9The Content
1
Internet-data collection from Municipalities ,
Communities Administrative district Subordinate
authorities Ministries State chancellery
Authority signpost Employment offices Chamber
of commerce Universities, technological
highschools Churches div.
- URLs
- ca. 4.5 mio. objects
X
10Frequency of Selected CategoriesOctober 08 -
March 09
Sites
Work and Profession General (W P) Looking for
Jobs Information Services Taxes Health /
Health care
13.10.2008
1.3.2009
11The Internet Supply of Selected Cities
Sites
12Agenda
- The Search Engine of the Bavarian Internet-Portal
- The Life Event Principle
- The Content
- Methods for Classification the Web-Content
- Quality Control
- Conclusion
13Why automatic Classification
4.5 million web pages changing over time with
very different content to put in order in 600
classes
14Indexing
With the complete indexation (perhaps more 100
pdf/doc pages)/object Text formats HTML, doc,
txt, pdf, ppt etc.. HTML code is removed and
so it is not possible to search for URLs in the
text Problems are text and links of the Side
bars which may not be indexed (partial no
frames because of the barrier freedom) as well
referring links The contents, not the reference
to it, are sought-after
15Methods for Classification
- Metatags (in the web-page)
- Semantic classifing
- Supported Vector engine
- Explizit Definition via URL
- URL-Pattern
161.) Metatags the easiest way
depends from the use of the provider /
webmaster / webeditor
ltmeta name"ByLebenslagen" content"ByLl_MeineUmwe
lt_KartenBilder"gt ltmeta name"ByRaumbezug"
content"ByRb_GNEnglischer GartenGarten,
EnglischerEisbachEntenvolierebachKleinhesselohe
r See KöglmühlbachNeuberghausenFG1652100,ByRb_
GK125335827.0/4470675.05333493.0/4468340.0gt
17Metatags example
18Metatags / Source
192. Semantic based classification
2
The Life Event definition is made by the wording
of logical conditions this one select the desired
content of the 600 categories
- Operators
- and,
- or,
- not,
- Term
- near1-99
- brackets (..)
- Stop words
- exclusion from URLs
20Ideal-typical optimization of the categorisation
the result of hits is varying with n (Nearn) in
the class definition
n
Term A nearn term B
21 in practise Optimizing a parameter
3
22Marginal utility for Information about sewage in
the field of environment
Category
23Sematic Definition for looking for jobs
- ((Arbeitsagentur near59 Stellensuche) ODER
(Arbeitsagentur near59 Jobsuche) oder
(Lebenslage near9 Stellensuche) oder
(Lebenslage near50 Jobsuche) oder (Arbeit
near59 Beruf und (Stellensuche oder Jobsuche))
oder (Arbeitsagentur near59 Stellensuche) ODER
(Arbeit near3 suche) oder (Job near3 suche)
oder (suche near3 Arbeitsstelle) oder
(Arbeitsagentur near59 Arbeitssuche) ODER
(Arbeitsagentur near59 Jobsuche) oder
(Lebenslage near9 Arbeitssuche) oder
(Lebenslage near50 Jobsuche) oder (Arbeit
near59 Beruf und (Arbeitssuche oder Jobsuche))
oder (Arbeitsagentur near59 Arbeitssuche) oder
(Arbeitsagentur near59 Stellegensuche) ODER
(Arbeitsagentur near59 Jobsuche) oder
(Lebenslage near9 Stellegensuche) oder
(Lebenslage near50 Jobsuche) oder (Arbeit
near59 Beruf und (Stellegensuche oder
Jobsuche)) oder (Arbeitsagentur near59
Stellegensuche) oder (Arbeitsagentur near59
Stellensuche) ODER (Arbeitsagentur near59
Jobsuche) oder (Lebenslage near9 Stellensuche)
oder (Lebenslage near50 Jobsuche) oder (Arbeit
near59 Beruf und (Stellensuche oder Jobsuche))
oder (Arbeitsagentur near59 Stellensuche) ODER
(Arbeit near3 suche) oder (Job near3 suche)
oder (suche near3 Arbeitsstelle) oder
(Arbeitsagentur near59 Arbeitssuche) ODER
(Arbeitsagentur near59 Jobsuche) oder
(Lebenslage near9 Arbeitssuche) oder
(Lebenslage near50 Jobsuche) oder (Arbeit
near59 Beruf und (Arbeitssuche oder Jobsuche))
oder (Arbeitsagentur near59 Arbeitssuche) oder
(Arbeitsagentur near59 Stellegensuche) ODER
(Arbeitsagentur near59 Arbeitsangebote) oder
(Lebenslage near9 Arbeitsangebote) oder
(Arbeit near59 Beruf und (Arbeitsangebote oder
Stellenangebote) oder (Arbeitsmarkt near59
Arbeitssuche) ODER (Arbeitsagentur near59
Arbeitsmarkt) oder (Lebenslage near9
Arbeitsmarkt) oder (Lebenslage near50
Arbeitsmarkt) oder (Arbeitsmarkt near59 Beruf
und (Arbeitssuche oder Jobsuche)) oder
(Arbeitsmarkt near59 Arbeitssuche) oder
(Arbeitsmarkt near59 Stellegensuche) ODER
(Arbeitsmarkt near59 Arbeitsangebote) oder
(Lebenslage near9 Arbeitsmarkt) oder
(Arbeitsmarkt near59 Beruf und (Arbeitsangebote
oder Stellenangebote) oder (Arbeitsmarkt near59
Arbeitssuche) ODER (Arbeitsagentur near59
Arbeitsmarkt) oder (Lebenslage near9
Arbeitsmarkt) oder (Lebenslage near50
Arbeitsmarkt) oder (Stellenausschreibung
near59 Beruf und (Arbeitssuche oder Jobsuche))
oder (Stellenausschreibung near59 Arbeitssuche)
oder (Stellenausschreibung near59
Stellegensuche) ODER (Stellenausschreibung
near59 Arbeitsangebote) oder (Lebenslage
near9 Stellenausschreibung) oder
(Stellenausschreibung near59 Beruf und
(Arbeitsangebote oder Stellenangebote) nicht
Buergermeister nicht Buergermeisterin nicht
Amtsblatt nicht Anzeigenpreise nicht impressum
nicht Stadtbranchenbuch nicht Schulanzeiger nicht
Sportartikel nicht VHS nicht Gaestebuch nicht
Volkshochschule nicht schule
243.) Statistical Classification
- The Supported Vector engine (SVM) needed
- between 50 and 200 learning sides" ( 10 from
total) - to build up the concept space, there are 3
alternatives to it -
- manual choice from the Internet gt time expensive
and subjective - A sample made of the data material won with
Queries - Combination from 1 and 2
-
25Automatic Classifing (SVM)
26Semantic term profile versus support vector
machine (SVM)
4
Semantic Term Y
Category x
Category x
Category y
Websides
Category y
ltSuchstringgt((Database or catalog or information
system) near50 (Environment)) or ((Database or
catalog or information system) near50 (Health))
. . . . ./Suchstringgt
Semantic Term X
27The combination of the different methods
28Agenda
- The Search Engine of the Bavarian Internet-Portal
- The Life Event Principle
- Methods for Classification the Web-Content
- Quality Control
- Conclusion
29Comparision SVM ./. Semantic Classification
Category Job / Work
Category Identity Cards, Documents
30Comparision SVM ./. Semantic Classification
Category Job / Work
Category Identity Cards, Documents
31Semantisch versus multivariat (1)
A method comparison between semantic and SVM.
Hypothesis Both procedures open up the same data
space.
32Semantisch versus multivariat (2)
33Advantages for using the SVM Method
34Method comparison between Semantic ./. SVM (1)
35Comparison of the methods for the number of hits
in the category thunderstorm warning for the
search danger near n flood (2).
36Agenda
- The Search Engine of the Bavarian Internet-Portal
- The Life Event Principle
- Methods for Classification the Web-Content
- Quality Control
- Conclusion
37Home Page of www.Bayern.de
38Definition Umzug Move / RegistrationAbmeldun
gen, Ummeldungen und Anmeldungen
- (Lebenslage oder Lebenslagen) UND ("Ummeldungen
und Anmeldungen" ODER (Abmeldung oder Zuzug ))
ODER (Einwohnermeldeamt ODER Wohnsitz near10
Abmeldung ODER Einwohnermeldepflicht ODER
Wohnsitz near10 Ummeldung ODER Wohnsitz
near10 Anmeldung) Nicht Buergermeister nicht
Buergermeisterin nicht Amtsblatt nicht
Anzeigenpreise nicht impressum nicht
Stadtbranchenbuch nicht Schulanzeiger nicht
Sportartikel
39The Web-Interface
4
Tree-Structure of the LE
X
40Umzug in München
Umzug Homonym for moving or procession
41Agenda
- The Search Engine of the Bavarian Internet-Portal
- The Life Event Principle
- Methods for Classification the Web-Content
- Quality Control
- Conclusion
42Homonym Umzug ( Procession Move)
3
43Conclusion
- Specific selection of the data space including
p.e. municipalities, government, and further
institutions of public interest - Use of the Live Event Principle instead of
technical or organization criteria closer to
the public - procedure choice for the categorisation
- The advantage of the use of the SVM method is
enhanced stability of the results when the data
space changes over time as shown and more sides /
category - specific use of Metatags in the web pages for the
space reference and for the classification - specified , SOA
44Erich Weihserich.weihs_at_web.de, Munich, Germany