Tutoriel Solr : Extraction d'un document entier et Indexation dynamique des mots avec TikaEntityProcessor

Créer un nouveau core ($bin/solr create -c nomducore) Dans le dossier ‘conf’ de ce core, créer un fichier nommé data-import.xml, et y mettre ce code :

<dataConfig> 
<dataSource type="BinFileDataSource" />
<document>
<entity name="files" dataSource="null" rootEntity="false"
processor="FileListEntityProcessor"
baseDir="c:/temp/docs" fileName=".*\.(doc)|(pdf)|(docx)"
onError="skip"
recursive="true">
<field column="fileAbsolutePath" name="id" />
<field column="fileSize" name="size" />
<field column="fileLastModified" name="lastModified" />

<entity
name="documentImport"
processor="TikaEntityProcessor"
url="${files.fileAbsolutePath}"
format="text">
<field column="file" name="fileName"/>
<field column="Author" name="author" meta="true"/>
<field column="title" name="title" meta="true"/>
<field column="text" name="text"/>

</entity>
</entity>
</document>
</dataConfig>

Ne pas oublier de changer le chemin de baseDir (chemin du dossier dans lequel vous placerez vos fichiers à extraire), ainsi que de préciser le type de fichier que vous souhaitez importer (fileName=".*\.(doc)|(pdf)|(docx)"), et modifier ensuite le fichier solrconfig.xml du même dossier, et y rajouter ceci :

<requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler"> 

<lst name="defaults">	
<str name="config">data-import.xml</str> 
</lst>	
</requestHandler> 

et :
<lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-dataimporthandler-.*\.jar" />

(Aux bon endroits).

Supprimer le fichier ‘managed-schema.xml’ et copier son contenu dans un nouveau nommé ‘schema.xml’.

Après la ligne :

<field name="_text_" type="text_general" indexed="true" stored="false" multiValued="true"/>

Y ajouter les lignes suivantes :

<!-- AJOUTE -->

<field name="fileName" type="string" indexed="true" stored="true" />
<field name="author" type="string" indexed="true" stored="true" />
<field name="title" type="string" indexed="true" stored="true" />

<field name="size" type="long" indexed="true" stored="true" />
<field name="lastModified" type="date" indexed="true" stored="true" />

<field name="text" type="text_general" indexed="true" stored="true" multiValued="true"/>

<copyField source="*" dest="_text_"/>

Redémarrer ensuite Solr. Un onglet ‘dataimport’ devrait alors apparaître dans le core en question. S’y rendre y et cliquer ensuite sur le bouton ‘Execute’, puis sur le bouton ‘Refresh Status’ afin de s’assurer que tous les documents voulus ont bien été importés.