Feature #2390
fermé
Metadonnées de fichiers Office "*.docx" non récupérées
Ajouté par Alban KARNAVOS il y a environ 13 ans.
Mis à jour il y a presque 13 ans.
Temps estimé:
(Total: 4.00 h)
Description
Lorsque l'on crée une publication en glisser / déposer, les propriétés des fichiers :
- ne sont pas récupérées quand le fichier est au format Office 2007
- sont récupérées quand le fichier est au format Office 93-2003, à l'exception du champ "Auteur" (cf. Bug 2384 https://www.silverpeas.org/redmine/issues/2384)
En illustration : 2 publications créées à partir du même fichier (propriétés identiques) mais enregistré sous les 2 formats.
Pour info, test réalisé en 5.7.1 (version non dispo dans le menu déroulant lors de la création de ce ticket).
Fichiers
- Tracker changé de Bug à Feature
- Statut changé de New à Assigned
- Assigné à mis à Emmanuel Hugonnet
On ne peut pas considérer cela comme un anomalie mais plutôt comme une limitation.
Il n'y a pas de régression puisque nous n'avons jamais pris en compte ce format pour cette fonctionnalité.
- Statut changé de Assigned à Resolved
- Version cible mis à Version 5.8
- % réalisé changé de 0 à 100
Intégration d'Apache Tika.
La version d'Apache Tika en cours de développement fonctionne nettement mieux cependant en attendant sa stabilisation (et poi 3.8 qui lui est nécessaire) nous utilisons Apache Tika 0.9 avec de légères modifications sur les parsers cf. org.apache.tika dans lib-core).
Attention cette mise à jour demande aussi une mise à jour de Components
- Projet changé de GED à Silverpeas Core
- Catégorie mis à Import/Export
- Statut changé de Resolved à Closed
- Statut changé de Closed à Assigned
Suite à cette évolution, l'erreur suivante se produit avec un fichier TIFF :
12/12/11-15:10:53,073 - ERROR : indexEngine.MSG_ADD_REQUEST_FAILED | MODULE : indexEngine.IndexManager.indexDocs | Echec de l'ajout d'une entrée dans l'index (72470.tif)
java.io.IOException:
at org.apache.tika.parser.ParsingReader.read(ParsingReader.java:271)
at com.stratelia.webactiv.util.indexEngine.analysis.SilverTokenizerImpl.zzRefill(SilverTokenizerImpl.java:403)
at com.stratelia.webactiv.util.indexEngine.analysis.SilverTokenizerImpl.getNextToken(SilverTokenizerImpl.java:562)
at com.stratelia.webactiv.util.indexEngine.analysis.SilverTokenizer.next(SilverTokenizer.java:112)
at org.apache.lucene.analysis.standard.StandardFilter.next(StandardFilter.java:43)
at org.apache.lucene.analysis.LowerCaseFilter.next(LowerCaseFilter.java:34)
at org.apache.lucene.analysis.StopFilter.next(StopFilter.java:120)
at org.apache.lucene.analysis.TokenStream.next(TokenStream.java:47)
at com.stratelia.webactiv.util.indexEngine.analysis.ElisionFilter.next(ElisionFilter.java:67)
at org.apache.lucene.analysis.TokenStream.next(TokenStream.java:91)
at org.apache.lucene.analysis.ISOLatin1AccentFilter.next(ISOLatin1AccentFilter.java:37)
at org.apache.lucene.index.DocInverterPerField.processFields(DocInverterPerField.java:134)
at org.apache.lucene.index.DocFieldConsumersPerField.processFields(DocFieldConsumersPerField.java:36)
at org.apache.lucene.index.DocFieldProcessorPerThread.processDocument(DocFieldProcessorPerThread.java:234)
at org.apache.lucene.index.DocumentsWriter.updateDocument(DocumentsWriter.java:765)
at org.apache.lucene.index.DocumentsWriter.addDocument(DocumentsWriter.java:743)
at org.apache.lucene.index.IndexWriter.addDocument(IndexWriter.java:1917)
at org.apache.lucene.index.IndexWriter.addDocument(IndexWriter.java:1895)
at com.stratelia.webactiv.util.indexEngine.model.IndexManager.indexDocs(IndexManager.java:355)
at com.stratelia.webactiv.util.indexEngine.model.IndexManager.addIndexEntry(IndexManager.java:117)
at com.stratelia.webactiv.util.indexEngine.model.AddIndexEntryRequest.process(IndexerThread.java:212)
at com.stratelia.webactiv.util.indexEngine.model.IndexerThread.run(IndexerThread.java:109)
Caused by: java.lang.NoSuchMethodError: com.drew.imaging.tiff.TiffMetadataReader.readMetadata(Ljava/io/InputStream;)Lcom/drew/metadata/Metadata;
at org.apache.tika.parser.image.ImageMetadataExtractor.parseTiff(ImageMetadataExtractor.java:101)
at org.apache.tika.parser.image.TiffParser.parse(TiffParser.java:65)
at org.apache.tika.parser.ParserDecorator.parse(ParserDecorator.java:91)
at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:197)
at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:197)
at org.apache.tika.parser.AutoDetectParser.parse(AutoDetectParser.java:135)
at org.apache.tika.parser.ParsingReader$ParsingTask.run(ParsingReader.java:232)
at java.lang.Thread.run(Thread.java:662)
- Statut changé de Assigned à Closed
Formats disponibles : Atom
PDF