PHP

PHP Trier un fichier csv volumineux

Recherche :

Mot : Pseudo : Filtrer
Bas de page
Auteur	Sujet : PHP Trier un fichier csv volumineux

gigidenantes

Lurkeur compulsif

Bonjour à tous,

une question d'algo pour démarrer la semaine.

J'ai un fichier csv avec 162 colonnes et 55 000 lignes. Je veux l'ordonner par date (qui est en colonne 3).

J'ai d'abord essayé de le mettre dans un tableau et de le trier, mais out of memory...

Ce que j'ai réussi à faire ensuite :
1/ Stocker dans un tableau les 3 1ères colonnes
2/ Ordonner ce tableau avec la date (utilisation de usort)
3/ Parcourir le tableau et lire le fichier pour récupérer les autres colonnes correspondantes à la ligne en cours
4/ Ajouter la ligne complète dans un fichier csv en sortie
5/ Remplacer la ligne par une chaîne vide dans le fichier en lecture

Voici une partie de mon code :

Code :

//First read of the file
while(($data = fgetcsv($handle, 0,';')) !== false)
{
$tabLigne[$columnNames[0]] = $data[0];
$tabLigne[$columnNames[1]] = $data[1];
$tabLigne[$columnNames[2]] = $data[2];
$dateCreation = DateTime::createFromFormat('d/m/Y', $tabLigne['Date de Création']);
if($dateCreation !== false)
{
$tableauDossiers[$row] = $tabLigne;
}
$row++;
unset($data);
unset($tabLigne);
}
//Order the array by date
usort(
$tableauDossiers,
function($x, $y) {
$date1 = DateTime::createFromFormat('d/m/Y', $x['Date de Création']);
$date2 = DateTime::createFromFormat('d/m/Y', $y['Date de Création']);
return $date1->format('U')> $date2->format('U');
}
);
fclose($handle);
copy(PATH_CSV.'original_file.csv', PATH_CSV.'copy_of_file.csv');
for ($row = 3; $row <= count($tableauDossiers); $row++)
{
$handle = fopen(PATH_CSV.'copy_of_file.csv', 'c+');
$tabHandle = file(PATH_CSV.'copy_of_file.csv');
fgetcsv($handle);
fgetcsv($handle);
$rowHandle = 2;
while(($data = fgetcsv($handle, 0,';')) !== false)
{
if($tableauDossiers[$row]['Caisse Locale Déléguée'] == $data[0]
&& $tableauDossiers[$row]['Date de Création'] == $data[1]
&& $tableauDossiers[$row]['Numéro RCT'] == $data[2])
{
fputcsv($fichierSortieDossier, $data,';');
$tabHandle[$rowHandle]=str_replace("\n",'', $tabHandle[$rowHandle]);
file_put_contents(PATH_CSV.'copy_of_file.csv', $tabHandle);
unset($tabHandle);
break;
}
$rowHandle++;
unset($data);
unset($tabLigne);
}
fclose($handle);
unset($handle);
}

Le résultat attendu est le bon. Mais le problème c'est le temps passé par ce script (déjà plus d'une heure et il n'en a traité que 1/3).

Merci de vos retours.

Publicité

flo850

moi je

tu devrais peut etre le charger dans une base de données

Autre possibilité, stocker dans une 4eme colonne le nombre d'octets depuis le début du fichier pour arriver à la bonne ligne (avec fseek)
tu as ftell qui peut te dire ou tu en est dans ton fichier

edit : et stocke directement la date formattée dans ton tableau d'index , plutot que de les recalculer à chaque comparaison

Message édité par flo850 le 06-05-2019 à 14:50:29

---------------

gigidenantes

Lurkeur compulsif

Merci. Je n'avais pas pensé à fseek et ftell. C'est impeccable.

rufo

Pas me confondre avec Lycos!

Effectivement, charger le CSV direct dans une table de MySQL, faire le tri puis rediriger le résultat dans un CSV, ça se fait en quelques lignes et ça sera rapide puisque Mysql a des primitives pour manipuler le CSV

---------------
Astres, outil de help-desk GPL : http://sourceforge.net/projects/astres, ICARE, gestion de conf : http://sourceforge.net/projects/icare, Outil Planeta Calandreta : https://framalibre.org/content/planeta-calandreta

rufo

Pas me confondre avec Lycos!

Rien ne dit qu'il est sous Linux

Edit : et puis la commande system, shell_exec... on l'a pas forcément sur tous les serveurs à cause du safe_mode Typiquement, sur du serveur mutualisé, tu ne l'as généralement pas. Passer par une BD ne prend pas beaucoup plus de lignes de code. Comme je l'ai expliqué, MySQL sait importer nativement du CSV. Donc, l'import dans une table, c'est une ligne de requête SQL. Un ORDER By, c'est une 2ème ligne. L'export vers un CSV, c'est une 3ème requête SQL et c'est fini. Cette solution a le mérite d'être cross-OS et non dépendant de la conf safe_mode ou pas du serveur. En plus, cette solution permet de monter beaucoup plus en charge sur des fichiers bien plus gros. Si le fichier fait plusieurs Go, la commande sort de l'OS va galérer alors que pour le SGBD, ça va être tranquille...

Message édité par rufo le 22-07-2019 à 10:08:18

jSynergy

+1 pour la solution de rufo, ayant eu à traiter des CSV pesant plusieurs millions de lignes, c'est rapide et robuste (et tu déportes le traitement au SGBD, optimisé pour ça, et ça tourne même si le SGBD se trouve sur un serveur séparé).

---------------
☬

FORUM HardWare.fr

Programmation

PHP

PHP Trier un fichier csv volumineux

Sujets relatifs
ontroler la présence d'un fichier par son extension et sortir en code	Afficher le contenu d'un fichier log dans une page HTML
Code fichier php est-il accessible depuis un navigateur ? Protection ?	Trier un fichier trace
Envoyer un message après le send d'une fichier via socket	Passage de paramètre du PHP au Javascript
Recherche script PHP pour créer des bases de données	Trace du mail envoyé avec PHP
Décalage dans un fichier txt
Plus de sujets relatifs à : PHP Trier un fichier csv volumineux

Page générée en 0.064 secondes