Xml 使用xslt:analyze字符串向HTML添加首字母缩略词
我想使用xslt:analyze-string向HTML文本添加首字母缩略词。 问题:在我的HTML文本中有如下标记Xml 使用xslt:analyze字符串向HTML添加首字母缩略词,xml,xslt,xslt-2.0,Xml,Xslt,Xslt 2.0,我想使用xslt:analyze-string向HTML文本添加首字母缩略词。 问题:在我的HTML文本中有如下标记 <strong>some text</strong> 一些文本 它们被视为XML节点。当我应用xslt:analyze-string时,这些节点被转换为字符串-标记被剥离。在我的递归XSLT样式表中,已经插入的首字母缩略词也被删除 我的问题:是否有一个技巧可以防止xslt:分析将HTML节点转换为字符串的字符串并保留HTML标记 下面是我的例子: 样
<strong>some text</strong>
一些文本
它们被视为XML节点。当我应用xslt:analyze-string时,这些节点被转换为字符串-标记被剥离。在我的递归XSLT样式表中,已经插入的首字母缩略词也被删除
我的问题:是否有一个技巧可以防止xslt:分析将HTML节点转换为字符串的字符串并保留HTML标记
下面是我的例子:
样式表:
<?xml version="1.0" encoding="UTF-8"?>
<xsl:stylesheet version="2.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform" xmlns:xhtml="http://www.w3.org/1999/xhtml" xmlns="http://www.w3.org/1999/xhtml" exclude-result-prefixes="xhtml" >
<xsl:template match="/">
<div>
<xsl:call-template name="insert-acronyms">
<xsl:with-param name="text" select="/doc/div"/>
<xsl:with-param name="acronyms" select="/doc/dictionary/acronym"/>
</xsl:call-template>
</div>
</xsl:template>
<xsl:template name="insert-acronyms">
<xsl:param name="text" as="node()*"/>
<xsl:param name="acronyms"/>
<xsl:choose>
<xsl:when test="$acronyms">
<xsl:call-template name="insert-acronyms">
<xsl:with-param name="acronyms" select="$acronyms[position() > 1]"/>
<xsl:with-param name="text">
<xsl:call-template name="replace-words">
<xsl:with-param name="text" select="$text"/>
<xsl:with-param name="name" select="$acronyms[1]/name"/>
<xsl:with-param name="description" select="$acronyms[1]/description"/>
</xsl:call-template>
</xsl:with-param>
</xsl:call-template>
</xsl:when>
<xsl:otherwise>
<xsl:copy-of select="$text"/>
</xsl:otherwise>
</xsl:choose>
</xsl:template>
<xsl:template name="replace-words">
<xsl:param name="text" />
<xsl:param name="name" />
<xsl:param name="description" />
<xsl:analyze-string select="$text" regex="{concat('(^|\W)(', string-join($name, '|'), ')(\W|$)')}">
<xsl:matching-substring>
<xsl:value-of select="regex-group(1)"/>
<xsl:element name="acronym">
<xsl:attribute name="title"><xsl:value-of select="$description"/></xsl:attribute>
<xsl:value-of select="regex-group(2)"/>
</xsl:element>
<xsl:value-of select="regex-group(3)"/>
</xsl:matching-substring>
<xsl:non-matching-substring>
<xsl:value-of select="."/>
</xsl:non-matching-substring>
</xsl:analyze-string>
</xsl:template>
</xsl:stylesheet>
资料来源:
<?xml version="1.0" encoding="UTF-8"?>
<doc>
<dictionary>
<acronym>
<name>WWW</name>
<description>The World Wide Web</description>
</acronym>
<acronym>
<name>HTML</name>
<description>The HyperText Markup Language</description>
</acronym>
</dictionary>
<div>
<p>In the <strong>WWW</strong> you can find a lot of <em>HTML</em> documents.</p>
</div>
</doc>
万维网
万维网
HTML
超文本标记语言
在WWW中,您可以找到许多HTML文档。
转换的结果(strong和em标记被剥离,仅插入一个首字母缩略词,因为另一个也被剥离):
在WWW上你可以找到很多HTML文档。
xsl:analyze string
适用于字符串。与其尝试应用于任何/所有节点,不如将其应用于text()
节点
尝试将样式表更改为(未测试):
提供的代码过于复杂。主要问题是试图一次创建一个首字母缩略词,并且不必要地尝试递归处理 这里是一个更简单、逻辑性更强的非递归解决方案:
<xsl:stylesheet version="2.0"
xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
xmlns:my="my:my" exclude-result-prefixes="my">
<xsl:output omit-xml-declaration="yes" indent="yes"/>
<xsl:strip-space elements="*"/>
<xsl:template match="node()|@*">
<xsl:copy>
<xsl:apply-templates select="node()|@*"/>
</xsl:copy>
</xsl:template>
<xsl:template match="/*">
<xsl:apply-templates/>
</xsl:template>
<xsl:template match="text()" priority="0.1">
<xsl:sequence select=
"my:insert-acronyms(., /*/dictionary/acronym)"/>
</xsl:template>
<xsl:function name="my:insert-acronyms" as="node()*">
<xsl:param name="text" as="text()"/>
<xsl:param name="acronyms" as="node()*"/>
<xsl:sequence select=
"if($acronyms)
then my:replace-words($text, $acronyms/name)
else $text
"/>
</xsl:function>
<xsl:function name="my:replace-words" as="node()*">
<xsl:param name="text" as="text()" />
<xsl:param name="names" as="node()*" />
<xsl:analyze-string select="$text"
regex="{concat('(^|\W)(', string-join($names, '|'), ')(\W|$)')}">
<xsl:matching-substring>
<xsl:value-of select="regex-group(1)"/>
<acronym title="{$names[. eq regex-group(2)]/../description}">
<xsl:value-of select="regex-group(2)"/>
</acronym>
<xsl:value-of select="regex-group(3)"/>
</xsl:matching-substring>
<xsl:non-matching-substring>
<xsl:value-of select="."/>
</xsl:non-matching-substring>
</xsl:analyze-string>
</xsl:function>
<xsl:template match="dictionary"/>
</xsl:stylesheet>
<div>
<p>In the <strong>
<acronym title="The World Wide Web">WWW</acronym>
</strong> you can find a lot of <em>
<acronym title="The HyperText Markup Language">HTML</acronym>
</em> documents.</p>
</div>
在提供的XML文档上应用此转换时:
<doc>
<dictionary>
<acronym>
<name>WWW</name>
<description>The World Wide Web</description>
</acronym>
<acronym>
<name>HTML</name>
<description>The HyperText Markup Language</description>
</acronym>
</dictionary>
<div>
<p>In the <strong>WWW</strong> you can find a lot of <em>HTML</em> documents.</p>
</div>
</doc>
万维网
万维网
HTML
超文本标记语言
在WWW中,您可以找到许多HTML文档
生成所需的正确结果:
<xsl:stylesheet version="2.0"
xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
xmlns:my="my:my" exclude-result-prefixes="my">
<xsl:output omit-xml-declaration="yes" indent="yes"/>
<xsl:strip-space elements="*"/>
<xsl:template match="node()|@*">
<xsl:copy>
<xsl:apply-templates select="node()|@*"/>
</xsl:copy>
</xsl:template>
<xsl:template match="/*">
<xsl:apply-templates/>
</xsl:template>
<xsl:template match="text()" priority="0.1">
<xsl:sequence select=
"my:insert-acronyms(., /*/dictionary/acronym)"/>
</xsl:template>
<xsl:function name="my:insert-acronyms" as="node()*">
<xsl:param name="text" as="text()"/>
<xsl:param name="acronyms" as="node()*"/>
<xsl:sequence select=
"if($acronyms)
then my:replace-words($text, $acronyms/name)
else $text
"/>
</xsl:function>
<xsl:function name="my:replace-words" as="node()*">
<xsl:param name="text" as="text()" />
<xsl:param name="names" as="node()*" />
<xsl:analyze-string select="$text"
regex="{concat('(^|\W)(', string-join($names, '|'), ')(\W|$)')}">
<xsl:matching-substring>
<xsl:value-of select="regex-group(1)"/>
<acronym title="{$names[. eq regex-group(2)]/../description}">
<xsl:value-of select="regex-group(2)"/>
</acronym>
<xsl:value-of select="regex-group(3)"/>
</xsl:matching-substring>
<xsl:non-matching-substring>
<xsl:value-of select="."/>
</xsl:non-matching-substring>
</xsl:analyze-string>
</xsl:function>
<xsl:template match="dictionary"/>
</xsl:stylesheet>
<div>
<p>In the <strong>
<acronym title="The World Wide Web">WWW</acronym>
</strong> you can find a lot of <em>
<acronym title="The HyperText Markup Language">HTML</acronym>
</em> documents.</p>
</div>
在
万维网
你可以找到很多
HTML
文件
问得好,+1。请参阅我的答案,指出所提供代码中的问题,并获取更简单、非递归的解决方案。:)我测试了这个解决方案,但问题是它并没有取代所有的首字母缩略词。我没有寻找原因,因为迪米特里·诺瓦切夫的解决方案是有效的。