[Snowball-discuss] Re: Error in Spanish stemming algorithm

Martin Porter martin_porter@softhome.net
Wed, 28 Aug 2002 07:10:06 -0600


Mabel,

For 'actualmente' you give

actualmente: (Rv=almente, R1=ualmente, R2=ente)

but it should be

actualmente: (Rv=almente, R1=tualmente, R2=mente)

For 'bailable' you give

bailable (Rv=lable, R1=ailable, R2=able)

but it should be

bailable (Rv=lable, R1=able, R2=le)

See the examples in the 'defining R1 and R2' page.

I imagine this difference accounts for most of the errors.

Martin

-----------

Gracias por contestarme.

Revise con lo que me mando y obtuve 708 errores en comparacion con su
vocabulario que dan en

      http://snowball.sourceforge.net/spanish/output.txt

La diferencia que tengo es en "Step 1: Standard suffix removal" con R2,
no sera R1?

Le mando 3 archivos:

- comparacion: donde esta la palabra, luego lo que debe salir y
finalmente lo que saco con mi implementacion. Lo hice segun su
algoritmo de la direccion:
    http://snowball.sourceforge.net/spanish/stemmer.html

- entrada_teo: es el vocabulario de ustedes

- salida_teo: es su salida.

Le agradeceria si les hecha un vistazo.

Gracias de antemano.

PD: ya corregi las definiciones de Rv, R1 y R2.

Rv: lo calculo segun lo que me mando y apartir de la palabra inicial

R1: lo calculo a partir de la palabra inicial

R2: lo calculo a partir de R1.

Mabel




-------------------------------------------------------
This sf.net email is sponsored by: Jabber - The world's fastest growing 
real-time communications platform! Don't just IM. Build it in! 
http://www.jabber.com/osdn/xim
_______________________________________________
Snowball-discuss mailing list
Snowball-discuss@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/snowball-discuss