Perl

probleme dans le resultats d'un script qui cherche de mots

Recherche :

Mot : Pseudo : Filtrer
Bas de page
Auteur	Sujet : probleme dans le resultats d'un script qui cherche de mots

debut25

Bonjour

je suis debutant en perl et j'ai de soucis par rapport aux resultats de mon script.
c'est un script qui recherche de mots dans plusieurs textes et chaque textes est identifié par un numero (ex: 2563).
Après avoir tokenisé les textes j'ai analisé chaque mot (maintenant dans un array) avec un boucle for.
le fiche de resultats doit contenir le numero identifiant de chaque textes et à coté une decision oui/no (1/0) si les mots cherchés on les a trouvés dans le texte.

le script repere tres bien les mots mais affiche mal les resultats:

si l'identifiant n° 2563 contient les mots cherchés
dans le fiche de resultats il affiche 2563 0
et le suivant id 2564 avec le resultat du premier (dans ce cas 1):

du coup on a 2563 0
2564 1

J'espère que quelqu un peut m'aider

dans tout cas merci!

Message cité 1 fois

Publicité

rat de combat

attention rongeur méchant!

debut25 a écrit :

J'espère que quelqu un peut m'aider

Avec ces infos difficilement... Faut nous montrer le code (entre balises) et un exemple de texte pour pouvoir reproduire le problème.

debut25

Les textes sont en italien,
je vous en écris un exemple:

162545185920778240 Governo Monti: decreto in cdm per approvazione! http://fb.me/1bj50bZI9
192902763032743936 #Ferrara critica #Grillo perché dice cose che dicevano Berlusconi e Bossi. E che non hanno fatto.
195604733296254977 #Grillo contro #Napolitano: "Presidente della Repubblica? No, presidente dei partiti" http://video.repubblica.it/edizion [...] 69?ref=twh …

avec la premiere partie du script on ouvre un fichier qui contient la tokenisation de textes et chaque mot est mit dans un array (dans ce cas @forme)
"
my $i=0;
my $mot_trouv=0;

for ($forme[$i] = 0; $i <= $#forme; $i++){ #on commence le boucle pour la recherche

if ($forme[$i] =~ /^\d\d\d\d\d\d\d\d\d\d\d\d\d\d\d\d\d\d$/){ # on cherche le numero identifiant
if ($i <= $#forme){ # et chaque fois qu on le trouve on affiche les resultats oui/no
if ($mot_trouv ne 0){
print OUT "\"", $forme[$i], "\"", ",\t\"1\"", "\n";
}
else {
print OUT "\"", $forme[$i], "\"", ",\t\"0\"", "\n";
}
$mot_trouv=0;
$i++;
}
}
elsif ($forme[$i] eq "Governo" ){ #mot cherché "Governo"
$mot_trouv++;
}
}
close OUT;
"
les resultats de ce script sont

"192902763032743936", "1"
"195604733296254977", "0"

comme on peut voir le premier il est pas affiché et son resultat est affiché à coté du deuxieme
quel est l'erreur?
merci pour votre disponibilité

gilou

Modérateur
Modzilla

> for ($forme[$i] = 0; $i <= $#forme; $i++)
1) ça devrait pas être for ($i = 0; $i <= $#forme; $i++) plutôt?
Et je vois pas ce que vient faire ce test
> if ($i <= $#forme)
vu que c'est implicite avec la condition de boucle for ($forme[$i] = 0; $i <= $#forme;...
Et je comprends pas non plus ce test
> if ($mot_trouv ne 0)
vu que tu compares une valeur numérique 0 avec le comparateur de chaînes "ne"
C'est pas simplement
if ($mot_trouv) { c'est à dire if ($mot_trouv != 0) { que tu veux?

2) et ça serait pas plus simple avec un foreach?
foreach (@forme) {
if (/^\d\d\d\d\d\d\d\d\d\d\d\d\d\d\d\d\d\d$/) {
....

A+,

---------------
There's more than what can be linked! -- Iyashikei Anime Forever! -- AngularJS c'est un framework d'engulé! --

debut25

Je vous remercie pour vos conseils,
en modifiant le script comme suivant:

my $i=0;
my $mot_trouv=0;

foreach (@forme){
if ($forme[$i] =~ /^\d\d\d\d\d\d\d\d\d\d\d\d\d\d\d\d\d\d$/){ # on cherche le numero identifiant

if ($mot_trouv){
print OUT "\"", $forme[$i], "\"", ",\t\"1\"", "\n";
}
else {
print OUT "\"", $forme[$i], "\"", ",\t\"0\"", "\n";
}
$mot_trouv=0;

}
elsif ($forme[$i] eq "Governo" ){ #mot cherché "Governo"
$mot_trouv++;
}
$i++
}
close OUT;

j'ai comme resultats:

"162545185920778240", "0"
"192902763032743936", "1"
"195604733296254977", "0"

avec le meme probleme que avant
Merci encore

rat de combat

attention rongeur méchant!

(Dans les forum je tutoie - libre à toi bien sûr de faire de même.)

Tu peux montrer la première partie du script? (Entre parenthèses, faut toujours donner le script complet pour faciliter la vie aux gens qui veulent bien aider...) Sous quelle forme exactement tu reçois les textes, un texte par ligne? Parce que ça serait bien plus élégant à traiter...

Le problème est que quand on rencontre un identifiant (numéro) il ne faut pas imprimer cet identifiant et le résultat mais l'identifiant d'avant (car c'est pour celui-là que le résultat est vrai). J'ai corrigé ton script en gardant la logique du code (et modifié quelque détails en passant), ça fonctionne mais c'est vraiment moche...

(Pour la prochaine fois, le code entre balises [ code=perl] script ici [ /code] (sans les espaces) c'est bien plus lisible.)

Code :

# à mettre au début de tout script (surtout pour un débutant)!!
use strict;
use warnings FATAL=>'all';
 
############
#improviser la première partie manquante...
$_=<<END;
162545185920778240 Governo Monti: decreto in cdm per approvazione! http://fb.me/1bj50bZI9  
192902763032743936 #Ferrara critica #Grillo perché dice cose che dicevano Berlusconi e Bossi. E che non hanno fatto.
195604733296254977 #Grillo contro #Napolitano: "Presidente della Repubblica? No, presidente dei partiti
END
s/\n/ /g;
my @forme=split(/ /);
############
 
my $i=0;
my $mot_trouv=0;
my $ident;
 
foreach my $mot (@forme)
{
    if($mot =~ /^\d{18}$/)
    {
        if(defined($ident))
        {
            if($mot_trouv)
            {
                print "\"$ident\",\t\"1\"\n";
            }
            else
            {
                print "\"$ident\",\t\"0\"\n";
            }
        }
        $mot_trouv=0;
        $ident=$mot;
    }
    
    elsif($mot eq "Governo" )
    {
        $mot_trouv++;    
    }  
    
    $i++;
}
#derniere "ligne"
if($mot_trouv)
{
    print "\"$ident\",\t\"1\"\n";
}
else
{
    print "\"$ident\",\t\"0\"\n";
}

Si jamais il est possible de récupérer les articles ligne par ligne voici ma version que je trouve bien plus propre:

Code :

use strict;
use warnings FATAL=>'all';
 
$_=<<END;
162545185920778240 Governo Monti: decreto in cdm per approvazione! http://fb.me/1bj50bZI9  
192902763032743936 #Ferrara critica #Grillo perché dice cose che dicevano Berlusconi e Bossi. E che non hanno fatto.
195604733296254977 #Grillo contro #Napolitano: "Presidente della Repubblica? No, presidente dei partiti
END
 
my @articles=split(/\n/);
 
my $i=0;
my $mot_trouv=0;
my $ident;
 
foreach my $article (@articles)
{
    $mot_trouv=0;
    
    foreach my $mot (split(/\s+/, $article))
    {
        if($mot=~/^\d{18}$/)
        {
            $ident=$mot;
        }
        elsif($mot eq "Governo" )
        {
            $mot_trouv++;    
        }
    }
 
    if($mot_trouv)
    {
        print "\"$ident\",\t\"1\"\n";
    }
    else
    {
        print "\"$ident\",\t\"0\"\n";
    }
}

Par contre il reste un problème: Quand on cherche p.ex. "Napolitano" on ne trouvera rien avec ce script - parce que dans le texte c'est marqué "#Napolitano:". Je propose donc de "nettoyer" chaque mot avant la comparaison avec un truc genre $mot=~s/[:!#.;"?,]//g;.

Message édité par rat de combat le 11-05-2016 à 01:26:15

gilou

Modérateur
Modzilla

Un truc de ce genre devrait faire ce que vous voulez.

Code :

my $mot_trouv = 0;
my $id;
 
foreach (@forme) {
  if (/^\d{18}$/) {
    if ($id) { # on imprime pas encore pour la première ligne rencontrée
      print OUT "\"", $id, "\"", ",\t\"", ($mot_trouv?1:0), "\"", "\n";
    }
    $id = $_;
    $mot_trouv = 0;
  }
  elsif (/^Governo$/) {
    $mot_trouv++;
  }
}
if ($id) { # on imprime pour la dernière ligne rencontrée
  print OUT "\"", $id, "\"", ",\t\"", ($mot_trouv?1:0), "\"", "\n";
}
close OUT;

EDIT: ah je vois que RdC avait déjà répondu une solution similaire

A+,

Message édité par gilou le 11-05-2016 à 01:29:15

---------------
There's more than what can be linked! -- Iyashikei Anime Forever! -- AngularJS c'est un framework d'engulé! --

gilou

Modérateur
Modzilla

Et en intégrant le préambule de RdC pour tester

Code :

use strict;
use warnings FATAL=>'all';
 
$_=<<END;
162545185920778240 Governo Monti: decreto in cdm per approvazione! http://fb.me/1bj50bZI9  
192902763032743936 #Ferrara critica #Grillo perché dice cose che dicevano Berlusconi e Bossi. E che non hanno fatto.
195604733296254977 #Grillo contro #Napolitano: "Presidente della Repubblica? No, presidente dei partiti
END
 
my @forme = split(/\b/);
my $mot_trouv = 0;
my $id;
 
foreach (@forme) {
  if (/^\d{18}$/) {
    if ($id) { # on imprime pas encore pour la première ligne rencontrée
      print "\"", $id, "\"", ",\t\"", ($mot_trouv?1:0), "\"", "\n";
    }
    $id = $_;
    $mot_trouv = 0;
  }
  elsif (/^Grillo$/) {
    $mot_trouv++;
  }
}
if ($id) { # on imprime pour la dernière ligne rencontrée
  print "\"", $id, "\"", ",\t\"", ($mot_trouv?1:0), "\"", "\n";
}

"162545185920778240", "0"
"192902763032743936", "1"
"195604733296254977", "1"

Citation :

d'ou mon split sur les frontières de mot, avec \b (qui marche pas avec les mots composés je crois mais permet néanmoins de faire un rapide test ici)

A+,

Message cité 1 fois
Message édité par gilou le 11-05-2016 à 01:41:45

---------------
There's more than what can be linked! -- Iyashikei Anime Forever! -- AngularJS c'est un framework d'engulé! --

rat de combat

attention rongeur méchant!

Citation :

EDIT: ah je vois que RdC avait déjà répondu une solution similaire

J'ai été plus rapide mais tu as fait plus élégant.

gilou a écrit :

d'ou mon split sur les frontières de mot, avec \b (qui marche pas avec les mots composés je crois mais permet néanmoins de faire un rapide test ici)

Merci, je ne connaissais pas.

edit: L'utilisation de \b introduit un comportement qui peut être un bug: On retrouve dans la liste des mots aussi les mots qui se trouvent dans d'éventuells liens - autrement dit si j'ai dans le premier article un lien avec une adresse genre http://Grillo.Machin.Chose.it j'aurai $mot_trouv=1. A voir si c'est un problème (je dis ça si le TO veut réutiliser \b).

Message édité par rat de combat le 11-05-2016 à 01:58:35

gilou

Modérateur
Modzilla

> L'utilisation de \b introduit un comportement qui peut être un bug...
Ce pourquoi j'ai dit que c'était utile pour une procédure de test rapide. Mais comme il a déjà écrit un tokenizer, ça n'a pas d'importance pour lui, il suffit qu'il le réutilise pour construire sa liste de tokens.

De toute façon, ce n'est pas ainsi qu'il faut traiter ce type de problème si on veut être efficace et que l'on a pas mal de lignes:
Il faut faire un hash dont les clés sont les mots et les valeurs, un array contenant les numéros de ligne contenant le mot.
Ainsi, tout est fait en une fois et on ne rescanne pas toutes les lignes à chaque recherche de mot.

Code :

use strict;
use warnings FATAL=>'all';
 
$_=<<END;
162545185920778240 Governo Monti: decreto in cdm per approvazione! http://fb.me/1bj50bZI9  
192902763032743936 #Ferrara critica #Grillo perché dice cose che dicevano Berlusconi e Bossi. E che non hanno fatto.
195604733296254977 #Grillo contro #Napolitano: "Presidente della Repubblica? No, presidente dei partiti
END
 
my %word;
my @ids;
my $id;
foreach (split(/\b/)) {
  if (/^\d{18}$/) {
    $id = $_;
    push @ids, $_;
  }
  elsif ($word{$_} && ($word{$_}->[-1] != $id)) {
    push @{$word{$_}}, $id;
  }
  else {
    $word{$_} = [$id];
  }
}
 
sub printlines {
  my $searched = shift;
  print "$searched:\n";
  if ($word{$searched}) {
    my $max = @{$word{$searched}} + 0;
    my $i = 0;
    foreach (@ids) {
      if (($i < $max) && ($word{$searched}->[$i] == $_)) {
        print "\"", $_, "\"", ",\t\"", 1, "\"", "\n";
        ++$i;
      }
      else {
        print "\"", $_, "\"", ",\t\"", 0, "\"", "\n";
      }
    }
  }
  else {
    foreach (@ids) {
      print "\"", $_, "\"", ",\t\"", 0, "\"", "\n";
    }
  }
  print "\n";
}
 
printlines("Napolitano" );
printlines("Grillo" );
printlines("Governo" );

Napolitano:
"162545185920778240", "0"
"192902763032743936", "0"
"195604733296254977", "1"

Grillo:
"162545185920778240", "0"
"192902763032743936", "1"
"195604733296254977", "1"

Governo:
"162545185920778240", "1"
"192902763032743936", "0"
"195604733296254977", "0"

On peut simplifier l'écriture avec les smartmatches:

Code :

sub printlines {
no warnings 'experimental::smartmatch';
  my $searched = shift;
  print "$searched:\n";
  if ($word{$searched}) {
    foreach (@ids) {
        print "\"", $_, "\"", ",\t\"", ($_ ~~ @{$word{$searched}})?1:0, "\"", "\n";
    }
  }
  else {
    foreach (@ids) {
      print "\"", $_, "\"", ",\t\"", 0, "\"", "\n";
    }
  }
  print "\n";
}

mais je ne suis pas sur que ce soit plus efficace.

A+,

Message édité par gilou le 11-05-2016 à 04:04:10

---------------
There's more than what can be linked! -- Iyashikei Anime Forever! -- AngularJS c'est un framework d'engulé! --

Publicité

debut25

je vous remercie pour vos conseils! et pour tous les infos! ça m'aide beaucoup!!! mercie encore et bonne journée!

gilou

Modérateur
Modzilla

Noter que pour le tokenizer, comme on a des mots avec accents (qui plaisent pas au split /\b/ on peut faire
foreach (split(/[^\p{L}\p{N}'-]+/)) {
On splitte sur tout ce qui n'est pas une lettre, un chiffre (tous deux, au sens unicode), ' ou -.
On peut même améliorer avec
use Lingua::StopWords qw( getStopWords );
my $stopwords = getStopWords('it');
foreach (grep(!$stopwords->{lc($_)}, split(/[^\p{L}\p{N}'-]+/))) {
si on veut éliminer les mots sans importance les plus courants (ça vire "perché" et "E" ici par exemple)

Bref, un
my $text =<<END;
162545185920778240 Governo Monti: decreto in cdm per approvazione! http://fb.me/1bj50bZI9
192902763032743936 #Ferrara critica #Grillo perché dice cose che dicevano Berlusconi e Bossi. E che non hanno fatto.
195604733296254977 #Grillo contro #Napolitano: "Presidente della Repubblica? No, presidente dei partiti
END
$text =~ s#(https?://\S+?)(\.?\s)##igs;
foreach (grep(!$stopwords->{lc($_)}, split(/[^\p{L}\p{N}'-]+/, $text))) {
....
ça tokenize comme suit
162545185920778240
Governo
Monti
decreto
cdm
approvazione
192902763032743936
Ferrara
critica
Grillo
dice
cose
dicevano
Berlusconi
Bossi
fatto
195604733296254977
Grillo
Napolitano
Presidente
Repubblica
No
presidente
partiti

ce qui me semble assez clean, après, on peut affiner au vu de son input.

A+,

Message édité par gilou le 11-05-2016 à 16:02:13

---------------
There's more than what can be linked! -- Iyashikei Anime Forever! -- AngularJS c'est un framework d'engulé! --

FORUM HardWare.fr

Programmation

Perl

probleme dans le resultats d'un script qui cherche de mots

Sujets relatifs
[VBS] Script d'intégration dans un groupe de sécurité	Problème requête SQL: command not properly ended
Traduire script en PDO	[Vb.Net] Problème téléchargement + décompression
Problème responsiv adobe MUSE	creation d'un script pour deplacer les dossier par defaut
Problème de lenteur Visual Studio.	[C#]Problème de droit d'accès, Outil de recherche
[Ada][cybernetic] intégrer le système : approche neurale du problème.	script batch désinstallation de logiciels 64 et 32 bits
Plus de sujets relatifs à : probleme dans le resultats d'un script qui cherche de mots

Page générée en 0.146 secondes