Text 从文本中删除链接

Text 从文本中删除链接,text,sed,Text,Sed,如何从文本中删除链接?我认为我应该使用sed命令,但我不知道确切的语法。这将删除以.com或.org结尾的所有内容: sed 's/\s\?\w\+\.\(com\|org\)//g' foo.txt 输入: lallalalala blabla.com babababab hehehe.org. 输出: lallalalala babababab. 编辑:这里是POSIX标准。我还添加了一些字符以匹配可能存在子域或协议的情况(http://) 还请注意,这并不包括所有可能的URL字符或

如何从文本中删除链接?我认为我应该使用sed命令,但我不知道确切的语法。

这将删除以
.com
.org
结尾的所有内容:

sed 's/\s\?\w\+\.\(com\|org\)//g' foo.txt
输入:

lallalalala blabla.com babababab hehehe.org. 
输出:

lallalalala babababab.
编辑:这里是POSIX标准。我还添加了一些字符以匹配可能存在子域或协议的情况(
http://


还请注意,这并不包括所有可能的URL字符或在域后缀(
example.com/query?foo=bar
)后引用资源的URL。

您应该展示一个示例,说明您拥有什么和想要什么。你是说HTML链接吗?您希望如何处理文件中的其余HTML?您应该使用Perl或Python库或其他专门用于处理HTML的工具。正则表达式是。我的文本可能重复如下:lallala bababab。注意:可能重复,这也会删除url前的空白(如果存在)。如果不需要这样做,请删除
\s\?
部分。它还假定GNU已使用-不一定无效,但应记录为使用非标准扩展。
sed 's/[[:space:]]\?[A-Za-z0-9_\/\:\.-]\+\.\(com\|org\)//g' foo.txt