AI 开源项目精选:GPT2.0、激活可视化、全面基本面分析包

star2017 1年前 ⋅ 8108 阅读

文末免费送电子书:七月在线干货组最新 升级的《名企 AI 面试 100 题》免费送!

项目一:EssayKiller_V2 基于开源 GPT2.0 的初代创作型人工智能

EssayKiller 是基于 OCR、NLP 领域的最新模型所构建的生成式文本创作 AI 框架,目前第一版 finetune 模型针对高考作文(主要是议论文),可以有效生成符合人类认知的文章,多数文章经过测试可以达到正常高中生及格作文水平。

框架说明:

  • 基于 EAST、CRNN、Bert 和 GPT-2 语言模型的高考作文生成 AI
  • 支持 bert tokenizer,当前版本基于 clue chinese vocab
  • 17 亿参数多模块异构深度神经网络,超 2 亿条预训练数据
  • 线上点击即用的文本生成效果 demo:17 亿参数作文杀手
  • 端到端生成,从试卷识别到答题卡输出一条龙服务

模型结构:

整个框架分为 EAST、CRNN、Bert、GPT-2、DNN 5 个模块,每个模块的网络单独训练,参数相互独立。infer 过程使用 pipeline 串联,通过外接装置直接输出到答题卡。
在这里插入图片描述
模型亮点:

  • 简单的管道实现在当时较高精度的文本检测。
  • 图像通过 FCN 处理产生像素级文本缩放地图和几何图形的多个频道。
  • 可旋转的文本框,可以检测文本也可以检测单词。

在这里插入图片描述
项目地址:
https://github.com/EssayKillerBrain/EssayKiller_V2

项目二:see-rnn Rnn 一般权重、渐变和激活可视化

Keras 和 TensorFlow 中的 Rnn 权重、渐变和激活可视化 (Lstm 、 Gru 、 Simplernn 、 Cudnn 和所有其他)
在这里插入图片描述
特性:

  • 权重、渐变、激活可视化
  • 内核视觉对象:内核、循环内核和偏置显式显示
  • 门视觉对象:门控架构(LSTM、GRU)中的门明确显示
  • 通道视觉对象:显式显示的单元格单元(功能提取器
  • 一般视觉对象:也适用于 CNN 和其他方法
  • 重量规范跟踪:可用于分析重量衰减

内省是调试、规范和理解神经网络的有力工具。此项目的方法启用:



  • 监视权重和激活进度 - 每个更改 epoch-to-epoch、iteration-to-iteration
  • 评估学习效率 - 梯度反传播对层到层的、时间到时间步长的影响
  • 评估层健康 - 神经元的"死亡"或"爆炸"的百分比
  • 跟踪体重衰减 - 各种方案(例如 l2 惩罚)如何影响重量规范

能够回答以下问题:

  • 我的 RNN 是否学习长期依赖关系?>> 监控梯度:如果非零梯度每次时间步道流动,则每个时间步有助于学习 -> 即,由此产生的梯度源于对每个输入时间步长的核算,因此整个序列会影响权重更新。因此,RNN 不再忽略长序列的部分,而被迫从它们中吸取教训
  • 我的 Rnn 是否学习独立表示?>> 监控激活:如果每个通道的输出不同且相互关联,则 RNN 提取了
  • 为什么我有验证损失峰值?>> 所有:瓦尔尖峰可能源于由于较大的梯度导致的层权重的急剧变化,这将明显改变激活模式;查看详细信息有助于通知更正
  • 我的权重衰减是过度还是不足?>> 监控权重规范:如果值斜减到许多倍,则衰减可能过大 - 或者,如果没有看到任何效果,则增加衰减

项目地址:

https://github.com/OverLordGoldDragon/see-rnn

项目三:FundamentalAnalysis 全面的基本面分析包

此包从 FinancialModelingPrep 收集来自大型公司集团的基本面和详细的公司股票数据 (13.000+),并使用 Yahoo Financial 获取任何金融工具的股票数据。它允许用户做大部分的基本分析。它还提供了快速比较多个公司或进行行业分析的可能性。
在这里插入图片描述
功能:

  1. 详细信息
  • 可用公司 - 显示可用于基础数据收集的公司的完整列表,包括当前价格和公司列出的交易所。这是一个广泛的列表,有超过 13000 家公司
  • 配置文件 - 提供有关行业、行业交易所和公司描述等
  • 报价 - 提供有关公司的实际信息,其中包括日高、市值、开盘价和收盘价以及价格与权益
  • 企业 - 显示股票价格、股票数量、市值和企业价值。
  • 评级 - 基于特定比率,提供公司是(强)买入、中性还是(强)卖出的信息
  • discounted_cash_flow - 计算公司一段时间的贴现现金流量,包括今天的 DCF.
  • earnings_calendar - 显示有关今年大量品种的盈利日期的信息,包括预期的市盈率。
  1. financial_statement
  • income_statement - 收集一个完整的损益表随着时间的推移。
  • balance_sheet_statement - 收集一段时间的完整资产负债表。
  • cash_flow_statement - 收集一个完整现金流量表随着时间的推移。
  1. 比率
  • key_metrics - 列出公司一段时间(每年和每季度)的关键指标(共 57
    个指标)。这包括,除其他外,股本回报率(ROE)、流动资本、流动比率和债务
  • financial_ratios - 包括公司的深度比率(共 57 个比率)在一段时间(年度和季度)。其中包括价格与账面比率、支付比率和运营周期
  • financial_statement_growth - 衡量多个财务报表项目和比率在一段时间(年度和季度)的增长。其中包括收入增长(3 年、5 年和 10 年)、库存增长和运营现金流增长(3 年、5 年和 10 年)。
  1. stock_data
  • stock_data - 收集所提供的股票代码的所有股票数据(包括收盘、调整后、高、低、开盘和成交量)。这可能是任何金融工具
  • stock_data_detailed - 收集大量股票数据(包括收盘、调整后收盘、高、低、开盘、成交量、未调整交易量、绝对变化、百分比变化、交易量加权平均价格(VWAP)、日期标签和时间变化)。数据收集仅限于在功能公司中上市的公司。使用 stock_data 函数了解任何其他内容。(ETF、共同基金、期权、指数等)

项目地址:

https://github.com/JerBouma/FundamentalAnalysis


帮助数千人成功上岸的《名企 AI 面试 100 题》书,电子版,限时免费送,评论区回复“100 题”领取!

本书涵盖计算机语 ⾔基础、算法和 ⼤数据、机器学习、深度学习、应 ⽤ ⽅向 (CV、NLP、推荐 、⾦融风控)等五 ⼤章节,每 ⼀段代码、每 ⼀道题 ⽬的解析都经过了反复审查或 review,但不排除可能仍有部分题 ⽬存在问题,如您发现,敬请通过官 ⽹/APP 七月在线 - 国内领先的 AI 职业教育平台 (julyedu.com)对应的题 ⽬页 ⾯留 ⾔指出。

为了照顾 ⼤家去官 ⽹对应的题 ⽬页 ⾯参与讨论,故本 ⼿册各个章节的题 ⽬顺序和官 ⽹/APP 题库内的题 ⽬展 ⽰顺序 保持 ⼀致。 只有 100 题,但实际笔试 ⾯试不 ⼀定局限于本 100 题,故更多烦请 ⼤家移步七 ⽉在线官 ⽹或 七 ⽉在线 APP,上 ⾯还有近 4000 道名企 AI 笔试 ⾯试题等着 ⼤家,刷题愉快。
在这里插入图片描述


本文地址:https://www.6aiq.com/article/1630598224089
本文版权归作者和AIQ共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出

更多内容请访问:IT源点

相关文章推荐

全部评论: 0

    我有话说: