保留字、敏感词过滤是网站系统必不可少的2个功能。
(1)保留字:Reserved Words
也叫关键字(Keywords),编程语言预留的有特殊含义的单词,不能用于变量名、函数名等。
Java:
引用
public、class、while、continue、extends等。
const和goto是Java的两个保留字,虽然Java并没有使用它们,但也不能被用作标识符。
https://docs.oracle.com/javase/tutorial/java/nutsandbolts/_keywords.html
SQL:
引用
select、from、where等。
https://www.postgresql.org/docs/current/static/sql-keywords-appendix.html
*** PostgreSQL允许使用保留字,但是需要用双引号括起来。
可以在这里查询保留字:
http://www.reservedwordsearch.com/
这里要说的不是编程语言的保留字,而是在系统开发时的保留字。很多网站为了用户更容易记住个人主页提供“个性域名”功能。
- 二级域名方式:http://rensanning.iteye.com/
- 二级目录方式:http://www.weibo.com/rensanning
无论哪种提供方式,想象一下如果把以下2个个性域名开放给用户注册,会让其他用户以为进入了系统界面。
引用
http://www.weibo.com/help
http://help.weibo.com/
而新浪微博就是一个典型的例子,比如以下这些个性域名没有被预先保留被用户注册了,估计还有很多。
引用
http://www.weibo.com/index
http://www.weibo.com/help
http://www.weibo.com/about
http://www.weibo.com/support
http://www.weibo.com/term
http://www.weibo.com/privacy
http://www.weibo.com/contact
正确的做法,看看GitHub就知道了。
引用
https://github.com/rensanning
https://github.com/about
https://github.com/blog
Twitter的用户名保留一览:
https://dev.twitter.com/rest/reference/get/help/configuration
引用
"about", "account", "accounts", "activity", "all", "announcements", "anywhere", "api_rules", "api_terms", "apirules", "apps", "auth", "badges", "blog", "business", "buttons", "contacts", "devices", "direct_messages", "download", "downloads", "edit_announcements", "faq", "favorites", "find_sources", "find_users", "followers", "following", "friend_request", "friendrequest", "friends", "goodies", "help", "home", "i", "im_account", "inbox", "invitations", "invite", "jobs", "list", "login", "logo", "logout", "me", "mentions", "messages", "mockview", "newtwitter", "notifications", "nudge", "oauth", "phoenix_search", "positions", "privacy", "public_timeline",
"related_tweets", "replies", "retweeted_of_mine", "retweets", "retweets_by_others", "rules", "saved_searches", "search", "sent", "sessions", "settings", "share", "signup", "signin", "similar_to", "statistics", "terms", "tos", "translate", "trends", "tweetbutton", "twttr", "update_discoverability", "users", "welcome", "who_to_follow", "widgets", "zendesk_auth", "media_signup"
常见的如下:
引用
首页index/home/top、帮助help、关于about、联系方式contact、常见问题faq、技术支持support、友情链接links、文档doc、新闻news、网站地图sitemap、价格price/plan、规约term、隐私privacy、登录/退出/注册(login, logout, signup, signin, signout, account)、其他(wiki、rss、api、search)。
(2)敏感词:Sensitive Words 或 NG Words
敏感词包括政治敏感信息、暴力犯罪信息、不文明信息、不健康信息、竞品信息、电商交易信息等。但也不局限于这些,任何不合适发布的违规词都需要做屏蔽处理。对于敏感词,发布信息时会被禁止或者被自动替换为星号(*)或叉号(X)等,而搜索引擎直接不予执行搜索。比如在新浪微博搜索敏感词直接会显示:根据相关法律法规和政策,“xxxx”搜索结果未予显示。
在网上可以找到一些常见的敏感词库或过滤词库,但对于系统来说敏感词库是不固定的,会不同时时机增加或解禁。
分享到:
相关推荐
本代码实现了敏感词检测。findcode是一个用来将敏感词与句子中排序后的单词先按字母顺序排序然后进行逐一比较的函数;如果两者相同,则return1;用数组下标0-25分别表示a-z字母,对应的每个下标对应的数组元素的值...
golang 敏感词过滤
高效敏感词过滤JAVA实现(DFA算法) 5000字2ms 节点 + 2进制标识(节省空间/提高查询效率) 附源码、注释,附带专业敏感词库(3396个敏感词) 看得上就拿去用,替换下一两处util方法、改个路径即可 不求什么,...
敏感词过滤.zip
java敏感词检索工具,用于社区等提问信息的过滤检索;
该算法基于DFA并进行相应的简化,大概流程是将敏感词库按模块聚合构建成一个词树,然后从头到尾扫描一遍目标文本,当遇到以敏感词树中的索引的字时,查看后面的文本是否构成敏感词,构成敏感词即记录(当查找到敏感词...
java敏感词过滤功能
java 敏感词过滤的设计思路和技术问题
该算法基于DFA并进行相应的简化,大概流程是将敏感词库按模块聚合构建成一个词树,然后从头到尾扫描一遍目标文本,当遇到以敏感词树中的索引的字时,查看后面的文本是否构成敏感词,构成敏感词即记录(当查找到敏感词...
MFC程序,实现对敏感词的管理,包括增删改,以及敏感词的过滤。
在最近的开发中遇到了敏感词过滤,便去网上查阅了很多敏感词过滤的资料,在这里也和大家分享一下自己的理解。下面这篇文章主要给大家介绍了关于java利用DFA算法实现敏感词过滤功能的相关资料,需要的朋友可以参考...
敏感词检测程序,离线版,不需联网,可用于检测文本是否包含了敏感词
敏感词过滤
本文从研究背景、研究意义和研究现状入手, 分析了敏感词检测与告警的相关技术及其现状,总结了现有检测算法 与告警技术的不足。在此基础上,研究了基于中文分词的敏感词检测 算法与基于决策树制定规则的告警技术,...
直接上传网站空间后调用:http://你的域名/str.php?str=检测的语句内容,返回结果为json,非常简单的一个demo,速度很快,含超大的一个敏感词库,3个文件实现敏感词检测api
用于Android端敏感词过滤的工具类,直需要替换敏感词库即可
php敏感词过滤案例,很简单很实用,现在网站好多关键词都是国家禁止的词,收集网络许多资料都不太好,为天下网自己写了一个,
敏感词屏蔽
敏感词库sql 涵盖多方面敏感词
c语言实现的简单敏感词过滤系统,有服务端和客户端两端的代码。通俗易懂,大学课程作业,敏感词过滤系统。c语言实现的简单敏感词过滤系统,有服务端和客户端两端的代码。通俗易懂,大学课程作业,敏感词过滤系统