大量のテキストが必要 語彙数 20000 語 → 400M 個の登場し得る2つ組 → 8000G 個の登場し得る3つ組 学習には極めて大量のテキストデータが必要 しかし収集は困難 形態素解析の誤り 人手でチェックすればなんとか →人海戦術?