fg-perspective 数据抓取清单

这个项目的 skill 要跑得好,不能只喂一个股价。fg-perspective 的判断依赖“竞争格局、渗透率、财务质地、估值、技术位置、催化剂、原始披露”交叉验证。数据抓取的目标是让 Codex 能先判断“这家公司是什么题”,再判断“便宜还是贵、好还是烂、现在该不该碰”。

抓取原则

  • 原始事实优先于聚合标签:会影响结论的字段,优先追 SEC/交易所公告/年报/季报/招股书/Form 4/13D/13G 等原始披露。第三方的 Buy/Sell、Cheap/Expensive、Good/Bad 只能做线索。
  • 每个数字必须带日期和来源:至少记录 sourceas_of_dateperiodcurrencyis_reported_or_estimated
  • 统一口径再比较:币种、会计准则、财年、拆股复权、TTM、Non-GAAP/GAAP、A股/港股/美股披露差异要明确。
  • 历史趋势比单点更重要:财务数据至少抓 5 年年度 + 8 个季度;长牛股和周期股最好抓 10 年年度。
  • 先满足最小可运行集,再补增强数据:没有完整数据时也能分析,但必须明确缺口和置信度。

最小可运行数据集

如果只想让 skill 能给出一版有质量的初判,至少需要这些:

模块必需数据
标的身份ticker、交易所、公司名、国家/地区、行业、主营业务、上市币种、财报币种
当前行情最新价、市值、总股本、流通股本、52周高低、近1年/3年/月线K线
财务三表5年收入、毛利、营业利润、净利润、EPS、经营现金流、资本开支、自由现金流、现金、债务、净资产、应收账款、存货
核心指标收入增速、毛利率、净利率、ROE、ROIC、FCF margin、负债率、净债务/EBITDA、应收账款增速 vs 收入增速
估值PE TTM、Forward PE、PB、PS、EV/EBITDA、EV/FCF、股息率、历史估值分位
股东回报分红历史、回购金额、股本变化、SBC 稀释
行业对标3-8 个核心可比公司及其市值、增速、利润率、估值、市占率
催化剂下一次财报日期、管理层指引、重大产品/合同/监管/并购/行业会议
原始披露最近年报、最近季报、最近电话会纪要或管理层讨论

完整抓取清单

1. 标的身份与基础信息

  • ticker
  • exchange
  • company_name
  • legal_name
  • country
  • headquarters
  • listing_currency
  • reporting_currency
  • fiscal_year_end
  • sector
  • industry
  • business_description
  • main_products
  • segments
  • listing_date
  • isin / cusip / cik / sedol / A股证券代码
  • share_classes
  • adr_ratio,如适用

用途:确认是不是同一个标的,避免 ADR、本地股、多重上市、不同币种造成误判。

2. 行情与技术位置

  • 最新价、前收盘价、成交额、成交量、平均成交量
  • 市值、企业价值、总股本、流通股本、自由流通市值
  • 日线 OHLCV:至少 3 年
  • 月线 OHLCV:至少 10 年,或上市以来
  • 52 周高低、历史高点、最大回撤
  • 复权因子、拆股、送股、分红复权
  • 5月线、10月线、年线、5年线
  • RSI、波动率、成交量放大倍数
  • 相对指数表现:相对沪深300/恒生指数/S&P 500/Nasdaq/行业指数

用途:技术分析只当“仪表盘”,判断现在在低位、半山腰、加速顶部,不能用来单独预测方向。

3. 财务三表

年度数据建议 10 年;最低 5 年。季度数据建议 12 个季度;最低 8 个季度。

利润表

  • 收入
  • 收入分部
  • 毛利
  • 营业利润
  • EBIT
  • EBITDA
  • 税前利润
  • 归母净利润
  • 少数股东损益
  • EPS basic / diluted
  • 股权激励费用 SBC
  • 研发费用
  • 销售费用
  • 管理费用
  • 利息费用
  • 一次性损益、资产减值、重组费用

资产负债表

  • 现金及等价物
  • 短期投资
  • 应收账款
  • 存货
  • 预付款
  • 固定资产
  • 使用权资产
  • 商誉
  • 无形资产
  • 总资产
  • 短债
  • 长债
  • 租赁负债
  • 应付账款
  • 合同负债/预收账款
  • 总负债
  • 股东权益
  • 有形净资产

现金流量表

  • 经营现金流 CFO
  • 资本开支 Capex
  • 自由现金流 FCF
  • 收购支出
  • 处置资产现金流
  • 分红支付
  • 回购支出
  • 发债/还债
  • 股权融资

用途:判断公司有没有真赚钱、钱是不是收得回来、利润是不是靠一次性项目撑起来。

4. 派生财务指标

  • 收入 CAGR:3年、5年、10年
  • 净利润 CAGR:3年、5年、10年
  • EPS CAGR:3年、5年、10年
  • 毛利率、营业利润率、净利率、FCF margin
  • ROE、ROA、ROIC
  • 资产周转率、固定资产周转率、存货周转率
  • 应收账款周转天数 DSO
  • 存货周转天数 DIO
  • 应付账款周转天数 DPO
  • 现金转换周期 CCC
  • 应收账款增速 vs 收入增速
  • 存货增速 vs 收入增速
  • CFO / 净利润
  • FCF / 净利润
  • 净债务、净现金
  • 净债务 / EBITDA
  • 利息保障倍数
  • 有息负债率
  • SBC / 收入
  • SBC / FCF
  • 回购金额 - SBC 稀释后的真实净回购

用途:对应 F哥框架里的毛利率生死线、现金流质量、稳中有升、分红验证真实盈利。

5. 估值数据

  • PE TTM
  • Forward PE
  • PB
  • PS
  • EV / Revenue
  • EV / EBITDA
  • EV / EBIT
  • EV / FCF
  • P / FCF
  • PEG
  • 股息率
  • 回购收益率
  • 股东回报率:股息率 + 净回购收益率
  • 历史估值区间:5年/10年 PE、PB、PS、EV/EBITDA 分位
  • 可比公司估值表
  • 分部估值所需数据:各业务收入、利润、增速、同业估值
  • 周期股专用:PB、吨/桶/度/运力/产能市值、单位产能 EV、周期中枢盈利

注意:周期股盈利顶峰时 PE 往往最低,不能只靠 PE 判断便宜。

6. 分红、回购与股本变化

  • 每股分红历史
  • 分红总额
  • 派息率:分红 / 净利润、分红 / FCF
  • 分红连续性和增速
  • 回购金额
  • 回购均价
  • 期初/期末 diluted shares
  • 股票增发、配股、可转债、期权、RSU
  • SBC 稀释
  • 管理层资本配置表述

用途:不分红不等于一定造假,但在 F哥框架里必须降低对“真赚钱”的信任度。回购必须扣掉 SBC 稀释。

7. 行业、竞争格局与渗透率

  • 行业定义和公司所在环节
  • TAM / SAM / SOM
  • 行业规模:收入、销量、用户数、产能
  • 行业增速:历史 5 年 + 未来 3 年预期
  • 渗透率:当前、历史、天花板
  • 龙头市占率
  • Top 3 / Top 5 / Top 10 市占率
  • HHI,如能取得
  • 主要竞争对手列表
  • 竞争对手收入、利润率、增速、估值
  • 上游供应商集中度
  • 下游客户集中度
  • 定价方式:市场价、合同价、监管价、招投标、会员费、订阅费
  • 产能扩张计划
  • 行业库存水平
  • 价格指数或产品 ASP
  • 替代品和技术路线变化

用途:第一层先判断竞争格局。格局不清晰,再便宜也要谨慎。渗透率决定估值方法切换:0-5%、5-30%、30%+、50%+ 是四个完全不同的题。

8. 商业模式与经营指标

不同公司要按业务类型补充经营数据。

消费/品牌

  • 单价、销量、渠道库存
  • 经销商数量
  • 预收款/合同负债
  • SKU 变化
  • 复购率、会员数
  • 毛利率和渠道费用率

互联网/SaaS/平台

  • DAU / MAU
  • 付费用户
  • ARPU / ARPPU
  • 留存率
  • 流失率
  • LTV / CAC
  • GMV
  • Take rate
  • 订阅收入占比
  • NRR / GRR

制造业

  • 产能、产量、销量
  • 稼动率
  • 单位成本
  • 原材料价格
  • 折旧年限
  • 技术路线迭代
  • 资本开支计划

周期/资源

  • 商品价格
  • 单位现金成本
  • 储量、品位、寿命
  • 产量指引
  • 库存周期
  • 供需缺口

金融

  • 净息差
  • 不良率
  • 拨备覆盖率
  • 资本充足率
  • AUM
  • 交易量
  • 赔付率,如保险

用途:不同生意不能套一个模板。F哥框架里“选简单的题做”,经营指标是判断这题难不难的关键。

9. 原始披露与管理层材料

  • 最近 3 年年报
  • 最近 8 个季度季报
  • 最近 4 次电话会纪要
  • 投资者日材料
  • 招股书,如上市时间较短
  • 管理层指引
  • 风险因素变化
  • 分部披露变化
  • 重大合同公告
  • 监管问询/处罚/诉讼
  • 审计意见
  • 会计政策变化
  • 关联交易

用途:聚合数据只能扫盘,判决前要回到原始文件。尤其是一次性收入、分部变化、管理层口径变化。

10. 内部人、股东与筹码结构

美股

  • Form 4 原始交易
  • Transaction Code:P / S / F / M / A / G
  • 是否 10b5-1
  • 10b5-1 plan adopted date
  • 交易人职务:CEO、CFO、董事、10% holder
  • 交易数量和金额
  • 交易后持股
  • Form 144
  • 13D / 13G
  • 机构持仓变化
  • 大股东锁定期到期

A股/港股

  • 前十大股东
  • 前十大流通股东
  • 控股股东质押比例
  • 高管增减持公告
  • 限售股解禁日历
  • 北向/南向资金持仓,如适用
  • 机构持仓比例

用途:不能把聚合源的 insider sell 直接当看空。预设卖、税款扣股、行权和主动卖是完全不同的信号。

11. 催化剂地图

必须抓未来 6-12 个月:

  • 财报日期
  • 股东大会
  • 投资者日
  • 新产品发布时间
  • 重大合同到期或重谈
  • 监管审批节点
  • 诉讼/仲裁关键日期
  • 并购交割和整合节点
  • 行业会议
  • 政策发布时间窗口
  • 锁定期到期
  • 指数纳入/剔除
  • 产能投放时间
  • 管理层承诺的里程碑

用途:历史数据说明公司在哪里,催化剂说明公司要去哪里。

12. 市场情绪与叙事

  • 新闻热度
  • 研报标题和评级变化
  • 社交媒体热度
  • 搜索趋势
  • 卖方一致预期变化
  • 目标价分布
  • 空头比例
  • 借券费率
  • 期权隐含波动率
  • Put/Call ratio
  • IPO/再融资/解禁节奏
  • 主要叙事是谁在讲:公司、VC、卖方、媒体、KOL、产业方

用途:识别 FOMO、优先/劣后叙事、热门股定价过满。情绪数据不能替代基本面,只能判断拥挤程度。

13. 宏观与外部变量

按行业选择,不必所有公司都抓。

  • 利率:美国国债、中国国债、信用利差
  • 汇率
  • 通胀
  • PMI
  • 消费数据
  • 商品价格:油、气、煤、铜、铝、锂、金、银、农产品
  • 运价
  • 电价
  • 房地产销售/开工/竣工
  • 汽车销量
  • 手机/PC/服务器出货
  • 广告市场增速
  • 政策补贴和税收变化

用途:周期股、出口链、资源股、金融股和宏观敏感行业必须抓外部变量,否则容易把周期当成长。

数据来源优先级

优先级来源类型用途
P0公司公告、年报、季报、交易所披露、SEC EDGAR、港交所/A股公告最终判决依据
P1官方统计、行业协会、监管机构、海关、央行、交易所行情行业和宏观验证
P2财务数据供应商、行情 API、券商数据库批量抓取和初筛
P3卖方研报、新闻、电话会转写、专家访谈催化剂和叙事线索
P4社交媒体、KOL、论坛情绪和 FOMO 指标

建议输出结构

推荐每只股票只产出 一个 Markdown 文件,方便直接传递、粘贴或作为上下文喂给 fg-perspective

data/<ticker>-fg-data.md

这个单文件里同时包含:

  • 标的身份
  • 行情与估值
  • 财务三表摘要
  • 派生指标
  • 分红、回购、股本变化
  • 行业竞争格局
  • 可比公司
  • 原始披露核验
  • 内部人/大股东
  • 催化剂地图
  • 红灯字段
  • 缺失数据
  • 来源日志

原则:不要把数据拆成多个附件。如果某张表很长,就在同一个 Markdown 文件里折叠成“近 5 年年度表”“近 8 季度表”“可比公司表”。Skill 需要的是一个完整上下文,而不是一堆需要重新拼装的文件。

单文件命名

data/<ticker>-<YYYY-MM-DD>-fg-data.md

示例:

data/AAPL-2026-05-16-fg-data.md
data/601678.SH-2026-05-16-fg-data.md

单文件来源日志

在文件末尾放 ## 来源与口径,至少记录:

  • 抓取时间
  • 数据源 URL、公告名或文件名
  • 覆盖期间
  • 币种
  • 是否复权
  • 是否 restated
  • GAAP / Non-GAAP 口径
  • TTM / 年度 / 季度口径
  • 缺失字段
  • 人工判断备注

分析前质量门槛

在调用 fg-perspective 前,先检查:

  • 是否知道这家公司到底靠什么赚钱
  • 是否有 5 年以上财务趋势,或明确说明上市时间不足
  • 是否有现金流和应收账款数据
  • 是否能区分经常性利润和一次性利润
  • 是否有至少 3 个可比公司
  • 是否知道行业渗透率大致阶段
  • 是否知道当前估值处在历史什么位置
  • 是否有未来 6-12 个月催化剂
  • 是否追过影响结论的原始披露
  • 是否列出关键缺失数据

如果这些缺失超过 3 项,结论必须降级为“初筛/粗看”,不能写成强判断。

红灯字段

这些字段一旦出现异常,要在分析里显式展开:

  • 收入增长但经营现金流不增长
  • 应收账款增速长期高于收入增速
  • 毛利率下滑且没有合理解释
  • 高毛利但净利率长期很低
  • ROE 靠高杠杆撑起来
  • 大额商誉和频繁并购
  • 回购金额看起来很大,但股本没有下降
  • SBC 长期吞噬 FCF
  • 不分红、不回购、还持续融资
  • 基本面恶化但只因为“便宜”而想买
  • 周期股在盈利顶峰用低 PE 讲便宜
  • 商业模式没变但股价和 PB 已经极端偏离历史均值
  • 竞争格局不清晰但市场空间故事很大
  • 渗透率已经 50%+,市场还按高速成长股估值
  • 内部人卖出没有追 Form 4 / 10b5-1 原文

单文件模板

抓完数据后,最好把所有内容整理成下面这种 一个文件

# <ticker> fg-perspective 数据包

## 标的
- 公司:
- 交易所:
- 主营:
- 财报币种:
- 数据截至:
- 文件生成时间:

## 一句话业务

## 当前行情与估值
- 股价:
- 市值:
- PE/PB/PS/EV EBITDA/FCF yield:
- 历史估值分位:
- 52周高低:
- 技术位置:

## 财务趋势
- 5年收入 CAGR:
- 5年 EPS CAGR:
- 毛利率/净利率/ROE/ROIC:
- CFO/净利润:
- FCF:
- 应收账款增速 vs 收入增速:

### 近 5 年年度财务表

| 年度 | 收入 | 毛利率 | 净利率 | 净利润 | CFO | FCF | ROE | ROIC | 应收账款 | 存货 |
|---|---:|---:|---:|---:|---:|---:|---:|---:|---:|---:|

### 近 8 季度财务表

| 季度 | 收入 | 同比 | 毛利率 | 净利润 | CFO | FCF | 应收账款 | 存货 |
|---|---:|---:|---:|---:|---:|---:|---:|---:|

## 股东回报
- 分红:
- 回购:
- 股本变化:
- SBC/稀释:

## 行业与竞争
- 行业阶段/渗透率:
- 主要竞争对手:
- 市占率:
- 上下游验证:

### 可比公司表

| 公司 | 市值 | 收入增速 | 毛利率 | 净利率 | ROIC | PE | PB | PS | EV/EBITDA | 市占率 |
|---|---:|---:|---:|---:|---:|---:|---:|---:|---:|---:|

## 商业模式关键指标
- 

## 催化剂
- 未来 6-12 个月事件:

## 原始披露核验
- 年报/季报:
- 电话会:
- 内部人/大股东:

## 红灯字段
- 

## 缺失数据
- 

## 来源与口径
- 抓取时间:
- 价格数据来源:
- 财务数据来源:
- 原始披露来源:
- 行业数据来源:
- 币种:
- 复权口径:
- GAAP/Non-GAAP:
- 备注: