XQuery versus XSL - BaseX-Talk - mailman.uni-konstanz.de

9 Mar 2022


      Hi,
I have a collection of 740 documents with the following structure:
<?xml version="1.0" encoding="utf-8"?>
<officiele-publicatie 
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
xsi:noNamespaceSchemaLocation="http://technische-documentatie.oep.overheid.nl/schema/op-xsd-2012-1">
   <metadata>
     <meta name="OVERHEIDop.externMetadataRecord" scheme="" 
content="https://zoek.officielebekendmakingen.nl/h-tk-20202021-102-2/metadata.xml" 
/>
   </metadata>
   <handelingen>
     <agendapunt>
       <spreekbeurt nieuw="nee">
         <tekst status="goed">
           <al-groep>
             <al>Allereerst hebben we het traditionele mondelinge 
vragenuur. </al>
           </al-groep>
         </tekst>
       </spreekbeurt>
       <spreekbeurt nieuw="ja">
         <tekst status="goed">
           <al-groep>
             <al>Voorzitter. Het was altijd al een eer om hier te 
staan.</al>
           </al-groep>
           <al-groep>
             <al>De vragen die ik ga stellen, gaan over stikstof.</al>
           </al-groep>
           <al-groep>
             <al>We zijn allemaal 100 kilometer per uur gaan rijden, 
maar er is nog geen gram ammoniak uit de veehouderij minder 
uitgestoten.</al>
           </al-groep>
         </tekst>
       </spreekbeurt>
       </spreekbeurt>
       <spreekbeurt nieuw="nee">
         <tekst status="goed">
           <al-groep>
             <al>U heeft helaas maar één vraag, meneer Ephraim, als 
Groep Van Haga.</al>
           </al-groep>
           <al-groep>
             <al>Ik wil de minister bedanken voor haar beantwoording.</al>
           </al-groep>
         </tekst>
       </spreekbeurt>
     </agendapunt>
   </handelingen>
</officiele-publicatie>
I want to experiment with textmining and for these experiments, it would 
be usefull if for every <spreekbeurt>, all <al>/text() elements were 
concated.The first option is to use XQuery for concatenating.
Another option is to use XSL to transform the original documents to the 
following structure:
<?xml version="1.0" encoding="utf-8"?>
<officiele-publicatie 
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
xsi:noNamespaceSchemaLocation="http://technische-documentatie.oep.overheid.nl/schema/op-xsd-2012-1">
   <metadata>
     <meta name="OVERHEIDop.externMetadataRecord" scheme="" 
content="https://zoek.officielebekendmakingen.nl/h-tk-20202021-102-2/metadata.xml" 
/>
   </metadata>
   <handelingen>
     <agendapunt>
       <spreekbeurt nieuw="nee">
         <tekst status="goed">
           Allereerst hebben we het traditionele mondelinge vragenuur.
         </tekst>
       </spreekbeurt>
       <spreekbeurt nieuw="ja">
         <tekst status="goed">
           Voorzitter. Het was altijd al een eer om hier te staan.
           De vragen die ik ga stellen, gaan over stikstof.
           We zijn allemaal 100 kilometer per uur gaan rijden, maar er 
is nog geen gram ammoniak uit de veehouderij minder uitgestoten.
         </tekst>
       </spreekbeurt>
       </spreekbeurt>
       <spreekbeurt nieuw="nee">
         <tekst status="goed">
           U heeft helaas maar één vraag, meneer Ephraim, als Groep Van 
Haga.
           Ik wil de minister bedanken voor haar beantwoording.
         </tekst>
       </spreekbeurt>
     </agendapunt>
   </handelingen>
</officiele-publicatie>
Question:
What are the pros and cons of both methods?
Is it difficult to do this in XSL (I have only used very simple 
transformations)?
Ben