Title: Int
1Intégration de mnoGoSearchsur le site de lEtat
de Vaudhttp//www.vd.ch
- Jean-Luc Thirot
- Centre de Compétence Web Content Management
SystemDSI / DI / Pôle Plates-formes
transversales - Juin 2009
2Thèmes abordés
- Pourquoi changer IndexedSearch?
- Pourquoi mnoGoSearch?
- Résultats
- Installation et configuration
3Indexed Search nest pas adapté
- Un audit en juin 2008 à clairement identifié que
Indexed Search était responsable des pertes de
performances du site en raison des charges sur la
base de données MySQL. - Il est aussi admis que ce moteur nest pas adapté
pour des sites de plus de 100 pages 1. - Indexed Search gère 7 requêtes simultanées et met
10 secondes pour afficher une requête. - Lindexation est la recherche sont pénalisantes.
4Des chiffres
- Typo3 version 4.1.7 (actuelle 4.1.10 - 4.2.6)
- mnogoSearch version 3.3.7 (actuelle 3.3.8)
- Statistiques du mois de Juin 2008
- 3 millions de pages vues (dont 30000 pages de
recherche) - Pointe à 200000 pages vues sur la journée la
plus chargée - 10 des requêtes pendant l'heure de pointe (11h)
- Dans le pire des cas, on a donc une pointe de
fréquentation de 20000 pages en une heure - Cela nous donne une moyenne de 5,5 pages par
seconde
5Conclusion de laudit
- Au cours de ce test, on constate que la charge
serveur est très élevée, proche de 50, avec des
centaines de processus Apache en attente. La page
de recherche affiche un temps de réponse démesuré
(280 secondes soit près de 5 minutes). Pendant
tout le test, le processus MySQL est resté à 100
de CPU ce qui montre qu'il est le point
limitant.
6Pourquoi mnoGoSearch?
- Solution open source
- Préconisé par les auditeurs
- Préconisé par Dmitri Dulepov
- Intégré à Typo3
7Test de charge avec mnoGoSearch
- Temps moyen pour afficher une page
- Indexed Search 6599ms
- Static files 235ms
- mnoGoSearch 135ms
48 x plus rapide
8Indexer vite
- DBMode multi gt 6h.
- DBMode blob gt 1h20
- multi threads indexer N10 gt 40 minutes.
9Charges lors de lindexation
- 5 juin 2009Load average max de 10 durant 40
minutes
10Architecture
Serveur 1Typo3et MySql
Serveur 2mnoGoSearchet MySQL
www.vd.ch
Indexer.conf
Binaires (pdftotext)
Search.htm
sr_iframe_modifie
Cron pour lindexation journalière
11mnoGoSearch vs Indexed Search
- Avantages de mnoGoSearch
- La vitesse
- La charge sur le serveur pour la recherche et
lindexation - Le plugin Typo3 mnoGoSearch 3 fait par
Dmitry Dulepov 2 - Utilisation dun moteur indépendant et spécialisé
- Désavantages de mnoGoSearch
- Les accès sur les pages privées ne sont pas gérés
1 - Le Typo3 core travaille sur lamélioration de
Indexed Search pour la version 4.3 1 mais avec
un gain en vitesse de 2 à 3x.
12Bibliographie
- Indexed Search Enhanced Finding results faster
with full-text, Michael Stucki http//typo3.org/fi
leadmin/t3n/articles/t3n_nr14_indexedsearchenhance
d.pdf - DMITRY-DULEPOV.COM http//dmitry-dulepov.com/arti
cle/eight-performance-tips-for-your-typo3-web-site
.html - Extension mnoGoSearch http//typo3.org/extension
s/repository/view/mnogosearch/current/ - Mnogosearch engine with mm_forumhttp//techblog.e
vo.pl/en/2009/04/02/mnogosearch-and-mmforum/
13Question?
14Qualité
Recherche mnoGoSearch Google Remarque
vivarium 28 24
Maternité bas revenu 263 557
Emploi 1711 9540
Emplois 556 568
Emplois taille 135 143
Emplois taille 2007 86 190(409)
Mise en évidence
Résumé
Pertinence
Version html
L'anti dictionnaire -
15Divers
Remarques
iFrame (sr_iframe) Modifications nécessaires de lextension Taille verticale fixe
Programmation de la page de recherche mnoGo Utilisation dexpression régulière pour afficher le titre
Les parsers Ils doivent être à jour même si les dernières versions datent
Modification des templates Typo3 Ajout des balises lt!UdmCommentgtlt!/UdmCommentgt pour exclure des éléments de la page de lindexation.
16Charges lors de lindexation
- 15 octobre 2008Load average max de 2.9
17Configuration pour lindexation
- Configuration mnoGoSearch
- DBMode multi gt 6h.
- DBMode blob gt 1h20
- multi threads indexer N10 gt 40 minutes.
- Le mode live nest pas en place
(indexationrecherche simultanée) - Le site est indexé à 4h00 du matin
- La taille des documents à indexer est limitée à
3Mo.Cette taille ne semble pas pauser de
problèmes aux parsers ou à lindexer.