Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
1102 connectés 

  FORUM HardWare.fr
  Programmation
  Python

  Extraction de données d'un PDF

 


 Mot :   Pseudo :  
 
Bas de page
Auteur Sujet :

Extraction de données d'un PDF

n°2429849
moyen_moin​s
chat réincarné
Posté le 20-10-2022 à 14:31:39  profilanswer
 

Bonjour tout le monde,
 
J'ai une problématique un peu particulière : j'ai un schéma éléctronique en format PDF d'un sous traitant, avec des "objets" (composants élec) sur lesquels on peut avoir des infos en cliquant dessus (genre une résistance : repère topo, valeur, designation etc.).
Sauriez vous comment récupérer ces infos (metadata ?) pour les avoir sous excel (par exemple) pour faire une nomenclature (liste repère topo par feuille, valeurs etc. le tout ranger dans des colonnnes )?
Une moulinette Python, Java ou un truc comme ça (préférence python, c'est le seul truc que j'ai le droit d'install sur mon pc du boulot) ?
J'ai essayé avec Python et la librairie PyPDF2 mais quand je recherche les metadata, ça ne me sort que l'auteur, date de création etc. mais pas du tout ce que je veux.
J'ai essayé pas mal de combinaison pour récup le texte mais là pour le coup, je récupère un infame tas de texte mélangé.
 
J'admet que la programmation c'est pas mon truc, jusqu'à présent, j'étais plus dans le copié/collé de stackoverflow que dans le "design" pur.
 
Si quelqu'un a un début d'idée, une solution ou une librairie qui pourrait m'aider... :jap:

mood
Publicité
Posté le 20-10-2022 à 14:31:39  profilanswer
 

n°2429872
mechkurt
Posté le 20-10-2022 à 17:32:03  profilanswer
 

Difficile à dire sans avoir le pdf mais pour moi des zones cliquable affichant des informations implique des fonctionnalités avancé genre javascript.
Rien a voir avec les métadonnées qui sont effectivement des informations qualifiant le document "global" (auteur, générateur, etc.).
Aucune idée de comment (ni même si c'est possible en python) récupérer ses choses là...
 
Des pistes peut être ici après une recherche Google (parsing pdf extract javascript) : https://stackoverflow.com/questions [...] -line-tool


---------------
D3
n°2429874
rat de com​bat
attention rongeur méchant!
Posté le 20-10-2022 à 17:40:07  profilanswer
 

Oui, sans avoir le pdf sous la main (pdf que tu ne peux certainement pas partager) difficile... Sous Linux y'a différents outils pour décomposer des pdf, mais aucune idée où/comment sont sauvegardés tes données. Ca pourrait bien être du JS, avec de la chance tu peux récupérer un truc en JSON ou similaire que tu peux ensuite utiliser.

n°2429886
moyen_moin​s
chat réincarné
Posté le 20-10-2022 à 20:08:31  profilanswer
 

Merci, je vais voir avec le lien. Et oui, je peux pas partager le PDF :;)

n°2429888
404 Not Fo​und
Posté le 20-10-2022 à 21:16:59  profilanswer
 

Impossible de te répondre sans analyser le PDF.
Tu peux pas demander au sous-traitant un format plus exploitable, genre GenCAD ? :/

n°2429892
TotalRecal​l
Posté le 20-10-2022 à 22:35:42  profilanswer
 

Après, déjà si tu peux ouvrir le PDF avec un éditeur assez évolué, sans écrire une ligne de code tu pourrais te faire une idée de ce qui est réellement dedans. S'il n'est pas verrouillé dans tous les sens évidemment.


---------------
Topic .Net - C# @ Prog
n°2430344
Je@nb
Kindly give dime
Posté le 26-10-2022 à 12:55:22  profilanswer
 

Question con mais tu as essayé d'ajouter le fichier directement dans Excel ?
Tu crées un nouveau workbook, tu vas dans data, get data, file, et là tu as pdf et peut être (si le fichier est pas trop mal) il va te sortir les données directement

n°2430663
moyen_moin​s
chat réincarné
Posté le 29-10-2022 à 19:51:01  profilanswer
 

J'ai pas cette option dans excel (file - PDF) :??:


Message édité par moyen_moins le 29-10-2022 à 19:51:32

Aller à :
Ajouter une réponse
  FORUM HardWare.fr
  Programmation
  Python

  Extraction de données d'un PDF

 

Sujets relatifs
Question analyse/visualisation de données, niveau noobTypes de données et contrainte de domaine
La section de données dépasse l'espace disponible sur la carte[PYTHON] récupérer données
Utilisation de PDF MergerAlimenter une base de données Postgresql
Récupération de données depuis un fichier textePerte des données copiées lors du lancement d'une macro VBA/Excel
Export de feuilles Excel en PDFextraction de données PDF
Plus de sujets relatifs à : Extraction de données d'un PDF


Copyright © 1997-2022 Hardware.fr SARL (Signaler un contenu illicite / Données personnelles) / Groupe LDLC / Shop HFR