<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40"><head><meta http-equiv=Content-Type content="text/html; charset=utf-8"><meta name=Generator content="Microsoft Word 15 (filtered medium)"><style><!--
/* Font Definitions */
@font-face
        {font-family:Helvetica;
        panose-1:2 11 6 4 2 2 2 2 2 4;}
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0cm;
        font-size:11.0pt;
        font-family:"Calibri",sans-serif;
        mso-fareast-language:EN-US;}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:#0563C1;
        text-decoration:underline;}
span.StileMessaggioDiPostaElettronica17
        {mso-style-type:personal-compose;
        font-family:"Calibri",sans-serif;
        color:windowtext;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-family:"Calibri",sans-serif;
        mso-fareast-language:EN-US;}
@page WordSection1
        {size:612.0pt 792.0pt;
        margin:70.85pt 2.0cm 2.0cm 2.0cm;}
div.WordSection1
        {page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]--></head><body lang=IT link="#0563C1" vlink="#954F72" style='word-wrap:break-word'><div class=WordSection1><p class=MsoNormal>Hello to all.<o:p></o:p></p><p class=MsoNormal>I am implementing the stemming algorithm for Italian (<a href="https://snowballstem.org/algorithms/italian/stemmer.html">https://snowballstem.org/algorithms/italian/stemmer.html</a>), and I have a doubt:<o:p></o:p></p><p class=MsoNormal>I have a word, say “praticabilità”<o:p></o:p></p><p class=MsoNormal>R1 is “icabilità”<o:p></o:p></p><p class=MsoNormal>R” is “abilità”<o:p></o:p></p><p class=MsoNormal>RV is “ticabilità”<o:p></o:p></p><p class=MsoNormal>(or at least I hope so <span style='font-family:"Segoe UI Emoji",sans-serif'>😊</span>)<o:p></o:p></p><p class=MsoNormal>In step 1 there is the rule:<o:p></o:p></p><p class=MsoNormal style='margin-left:36.0pt;background:white'><b><i><span lang=EN-GB style='font-size:10.5pt;font-family:"Helvetica",sans-serif;color:#333333;mso-fareast-language:IT'>ità</span></i></b><b><span lang=EN-GB style='font-size:10.5pt;font-family:"Helvetica",sans-serif;color:#333333;mso-fareast-language:IT'><o:p></o:p></span></b></p><p class=MsoNormal style='margin-left:36.0pt;background:white'><span lang=EN-GB style='font-size:10.5pt;font-family:"Helvetica",sans-serif;color:red;mso-fareast-language:IT'>delete if in <i>R</i>2<o:p></o:p></span></p><p class=MsoNormal style='margin-left:36.0pt;background:white'><span lang=EN-GB style='font-size:10.5pt;font-family:"Helvetica",sans-serif;color:red;mso-fareast-language:IT'>if preceded by <b><i>abil</i></b>, <b><i>ic</i></b> or <b><i>iv</i></b>, delete if in <i>R</i>2<o:p></o:p></span></p><p class=MsoNormal>And in step 3 there is the rule:<o:p></o:p></p><p class=MsoNormal><span lang=EN-GB style='font-size:10.5pt;font-family:"Helvetica",sans-serif;color:red;mso-fareast-language:IT'>Delete a final <b><i>a</i></b>, <b><i>e</i></b>, <b><i>i</i></b>, <b><i>o</i></b>, <b><i>à</i></b>, <b><i>è</i></b>, <b><i>ì</i></b> or <b><i>ò</i></b> if it is in <i>RV</i>, and a preceding <b><i>i</i></b> if it is in <i>RV</i> </span><o:p></o:p></p><p class=MsoNormal>In step 1 I delete “abilità” and the word becomes “pratic”<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>I leave RV untouched, and so it is still “ticabilità”<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>In step 3 I search for “à” in RV and I found it as last character.<o:p></o:p></p><p class=MsoNormal>So I think I have to delete 1 character and I delete wrongly “c”<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>I wonder which the correct algorithm is. Maybe I need to delete matches from R1, R2, and RV too?<o:p></o:p></p><p class=MsoNormal>Thanks in advance for your help.<o:p></o:p></p><p class=MsoNormal>Alfonso<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal><b><span style='font-size:10.0pt;color:#E05661;mso-fareast-language:IT'>Alfonso Moscato</span></b><span style='font-size:10.0pt;color:#E05661;mso-fareast-language:IT'><br></span><i><span style='mso-fareast-language:IT'>CIO & COO</span></i><span style='font-size:9.0pt;color:black;mso-fareast-language:IT'><br></span><i><span style='mso-fareast-language:IT'>Merqurio Holding</span></i><span style='mso-fareast-language:IT'><br>Corso Umberto I, 23 - 80138 Napoli<br><i>Tel.+39 0815524300 </i><br><i>Fax.+39 0814201136 </i><br><i>Linea Verde: +39 800014863 </i><br> <br>Diretto. +39 081 96.336.22 <br>Mobile. +39 348 36.79.384<o:p></o:p></span></p><p class=MsoNormal><span style='font-size:9.0pt;color:black;mso-fareast-language:IT'><o:p> </o:p></span></p><p class=MsoNormal><span style='mso-fareast-language:IT'><o:p> </o:p></span></p><p class=MsoNormal><span style='mso-fareast-language:IT'><o:p> </o:p></span></p><p class=MsoNormal><span style='mso-fareast-language:IT'><o:p> </o:p></span></p><p class=MsoNormal><o:p> </o:p></p></div></body></html>