canal同步功能填坑日记

wylc123 1年前 ⋅ 288 阅读

有多种类型数据,论文,新闻,公众号,推特,微博,报告不同字段的采集数据,需要进行相关度搜索,排序,中间有数据打标签的数据改动,有敏感数据删除,

问题:
1.时间紧,最好不写代码实现
2.多表不同字段,相关度排序
3.数据实时性,数据变更,数据删除
分析需要,将多表同步到一个联合宽表,用ES进行相关度查询排序
canal和logstash优势对比:
canal读取binlog日志实时同步,logstash时间轮询机制读取数据库表同步
经过验证canal可以通过多表对应联合表设置不同主键映射,实现多表同步联合表,然后通过md5主键同步ES
binlog日志占磁盘问题:
采集数据同步联合表放到一台mysql服务器,联合表同步ES放另一台服务器,设置mysql binlog日志保留两天定时清除
ES-SQL插件对sql语句支持不完善的情况,比如分页limit 2
安装开源的opensearch代替,完成专业检索的功能实现。


相关文章推荐

全部评论: 0

    我有话说: