Skip to main content.
home | support | download

Back to List Archive

non-English charaters in XML files

From: <dasoso(at)not-real.alumni.uv.es>
Date: Mon Nov 01 2004 - 11:47:06 GMT
 Hi all. 
  
** First Question: 
  
  I have the test.html file: 
   
<html> 
<body> 
diseño 
señales 
</body> 
</html> 
 
 and the test.xml file: 
  
  
<?xml version="1.0" standalone="no" ?> 
<!DOCTYPE order SYSTEM "pedido.dtd"> 
<Idioma tipo="Castellano"> 
   <curso numero="quinto"> 
        <asignatura nombre="IPI" codigo="1"> 
            <tipo> Troncal</tipo> 
            <descripcion> Blah blah</descripcion> 
        </asignatura> 
 
        <asignatura nombre="Diseño de bases de datos" codigo="4"> 
            <tipo> Optativa</tipo> 
            <descripcion> Diseñar.</descripcion> 
        </asignatura> 
   </curso> 
 
   <curso numero="segundo"> 
        <asignatura nombre="Base de datos" codigo="2"> 
            <tipo> Troncal </tipo> 
            <descripcion> </descripcion> 
        </asignatura> 
   </curso> 
</Idioma> 
 
And I search: 
 
dsorian@linux:~/swish-e-2.4.2> swish-e -w diseño -H0 
1000 /usr/local/.../test.html "test.html" 92 
 
Great. 
 
But for this search: 
 
dsorian@linux:~/swish-e-2.4.2> swish-e -w 'asignatura.nombre=diseño' 
-H1 
# SWISH format: 2.4.2 
# Search words: asignatura.nombre=diseño 
# Removed stopwords: 
err: no results 
 
And  
 
dsorian@linux:~/swish-e-2.4.2> swish-e -w 'asignatura.nombre=diseno' 
-H0 
1000 /usr/local/.../test.xml "test.xml" 711 
 
  
 
dsorian@linux:~/swish-e-2.4.2> swish-e -k '*' 
# SWISH format: 2.4.2 
index.swish-e: 1 2 4 ales base bases blah bleh castellano datos de 
disea disenar diseno ipi o optativa quinto sea segundo troncal 
 
Instead of diseño appears diseno, and neither señales nor senales. 
Is there any way for index the non-English characters in XML 
correctly or I make something wrong? 
Why swhis-e can found diseño y the .html and not in the .xml? Is for 
the libxml2 library? 
 
My .conf file looks like this: 
 
UndefinedXMLAttributes auto 
UndefinedMetaTags auto 
 
IndexOnly .xml .html .htm 
 
IndexContents XML* .xml 
IndexContents HTML2 .html .htm 
 
TranslateCharacters :ascii7: 
WordCharacters 0123456789abcdefghijklmnñopqrstuvwxyzáéíóúàèòÇ 
 
 
 
** Second Question: 
 
With the test.xml file: 
 
<?xml version="1.0" standalone="no" ?> 
<!DOCTYPE order SYSTEM "pedido.dtd"> 
<Idioma tipo="Castellano"> 
   <curso numero="quinto"> 
        <asignatura nombre="IPI" codigo="1"> 
            <tipo> Troncal</tipo> 
            <descripcion> Blah blah</descripcion> 
        </asignatura> 
 
        <asignatura nombre="Diseño de bases de datos" codigo="4"> 
            <tipo> Optativa</tipo> 
            <descripcion> Diseñar.</descripcion> 
        </asignatura> 
   </curso> 
 
   <curso numero="segundo"> 
        <asignatura nombre="Base de datos" codigo="2"> 
            <tipo> Troncal </tipo> 
            <descripcion> </descripcion> 
        </asignatura> 
   </curso> 
</Idioma> 
 
 
  How could I search for curso.numero=quinto whith 
asignatura.codigo=2 inside it? 
  In the test.xml file the search should return no results but I 
don't know how to do it. 
  I tried whit ()'s everywhere in the search but doesn't works. 
   
 
   
  Thanks.  
 
 
David Soriano 
 
  
 
Received on Mon Nov 1 03:47:13 2004