Tutoriel Solr : Extraction d'un document entier et Indexation dynamique des mots avec TikaEntityProcessor
Créer un nouveau core ($bin/solr create -c nomducore) Dans le dossier ‘conf’ de ce core, créer un fichier nommé data-import.xml, et y mettre ce code :
Ne pas oublier de changer le chemin de baseDir (chemin du dossier dans lequel vous placerez vos fichiers à extraire), ainsi que de préciser le type de fichier que vous souhaitez importer (fileName=".*\.(doc)|(pdf)|(docx)"), et modifier ensuite le fichier solrconfig.xml du même dossier, et y rajouter ceci :
(Aux bon endroits).
Supprimer le fichier ‘managed-schema.xml’ et copier son contenu dans un nouveau nommé ‘schema.xml’.
Après la ligne :
Y ajouter les lignes suivantes :
Redémarrer ensuite Solr. Un onglet ‘dataimport’ devrait alors apparaître dans le core en question. S’y rendre y et cliquer ensuite sur le bouton ‘Execute’, puis sur le bouton ‘Refresh Status’ afin de s’assurer que tous les documents voulus ont bien été importés.